采访稿件整理工具

这是一个基于大语言模型的采访稿智能整理工具,可以自动清理口语化表达、语气词,并对采访内容进行优化润色,输出规范的采访稿件。

主要功能

自动删除口语中的语气词、填充词(如"那个"、"就是"、"嗯"等)
优化表达方式,使内容更易理解
将口语化表达改写成轻松活泼的书面语
保持说话人的语气特点
多线程并行处理,提高处理效率
自动分段处理长文本
支持多轮迭代优化

使用方法

安装依赖:

pip install openai yaml tiktoken

配置文件: 复制 config.yaml.example 为 config.yaml,并填写以下配置:

api_key: "你的OpenAI API密钥"

base_url: "API基础URL"

model: "gpt-4" # 使用的模型

interviewee_name: "被采访者姓名"

interviewee_introduction: "被采访者简介"

input_file: "input/interview.txt" # 输入文件路径

output_file: "output/revised.docx" # 输出文件路径

temperature: 0.7 # 温度参数

revise_iteration: 1 # 迭代优化次数，次数越多，保留的细节越多

chunk_size: 2000 # 分段大小 分段越小，最终的呈现的细节越多

工作流程

读取原始采访文本（由腾讯会议智能优化版文档导出）
预处理文本(移除时间戳、统一说话人名称等)
按chunk_size大小分段处理
多线程并行处理每个文本段
对每段文本进行多轮迭代优化:
- 初次润色
- 检查内容差异
- 补充遗漏信息
合并处理结果并输出

文件说明

main.py: 主程序文件
prompts.yaml: 提示词配置文件
config.yaml: 配置文件
config.yaml.example: 配置文件示例

注意事项

确保输入文本格式为: "说话人: 内容"
大文本建议适当调整chunk_size大小
可根据需要调整revise_iteration参数控制优化次数
请确保API密钥配置正确

许可证

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
README.md		README.md
config.yaml.example		config.yaml.example
main.py		main.py
prompts.yaml		prompts.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

采访稿件整理工具

主要功能

使用方法

工作流程

文件说明

注意事项

许可证

About

Uh oh!

Releases

Packages

Languages

USTCKevinF/TranscriptAgent

Folders and files

Latest commit

History

Repository files navigation

采访稿件整理工具

主要功能

使用方法

工作流程

文件说明

注意事项

许可证

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages