文件转录

把音频视频变成文字，还能导出字幕。

支持的格式

音频文件

MP3、WAV、M4A、FLAC、OGG、AAC...

视频文件

MP4、MKV、AVI、MOV、WMV、FLV...

视频文件会自动提取音轨进行转写，不需要你手动处理。

⚠️ 注意：处理视频需要系统安装 FFmpeg。如果没有安装，页面会提示安装命令（以页面提示为准）。

基本操作

点击左侧导航栏的「文件转录」
点击选择文件，或直接拖拽文件到页面
点击「开始转录」
等待完成
完成后选择导出格式（TXT / SRT）

文件转录页面

场景选择

不同类型的音视频，识别效果不同。选择合适的场景可以提升准确率：

场景	适用内容
通用	不确定时选这个
会议	多人讨论、会议录音
教程	教学视频、培训录音
播客	播客节目、访谈对话
音乐	歌词识别（难度较高）
自定义	输入你自己的场景描述

高级选项

热词

点击「热词」标题可以展开热词输入区域。

文件转录热词面板

在转录前输入文件中可能出现的特殊词汇，可以显著提升识别准确率：

发言人名字
产品名称
专业术语

还可以勾选「使用全局提示词」，会自动加载你在「提示词增强」中配置的内容。

AI 优化

开启后，转录结果会经过 AI 处理，去除语气词、添加标点。

翻译

开启后，转录结果会被翻译成目标语言。

时间戳

开启后，每段文字会带上时间码：

[00:00:05] 大家好，欢迎收看本期视频
[00:00:08] 今天我们要聊的话题是...

导出 SRT 字幕时需要时间戳信息。

说话人分离

开启后，会尝试区分不同说话人：

[说话人1] 你好，请问有什么可以帮您？
[说话人2] 我想咨询一下产品价格。

💡 说话人分离的准确率取决于音频质量和说话人之间的区分度。如果两人声音很像，可能分不开。

导出格式

转录完成后，可以导出为：

TXT（纯文本）

适合需要编辑整理的场景。

大家好，欢迎收看本期视频。今天我们要聊的话题是...

SRT（字幕文件）

适合配合视频播放器使用。

1
00:00:05,000 --> 00:00:08,000
大家好，欢迎收看本期视频

2
00:00:08,000 --> 00:00:12,000
今天我们要聊的话题是...

⚠️ 导出 SRT 需要开启「时间戳」选项，否则会退化为纯文本。

与历史记录的关系

文件转录的结果不会写入历史记录。

原因：文件转录通常内容很长，如果全部存入历史，会把实时转写的记录淹没。

如果你需要保存文件转录结果，请使用导出功能。

处理时间

处理时间取决于：

文件时长
文件大小
网络速度
是否开启 AI 优化/翻译

建议：长文件尽量在网络稳定时处理。

大致参考：

1 分钟音频 ≈ 5-15 秒
10 分钟音频 ≈ 30-60 秒
1 小时视频 ≈ 3-8 分钟

使用建议

提升识别质量

选择正确的场景
尽量使用高质量的音源
避免背景噪音过大的录音

长文件处理

超过 1 小时的文件，建议先用其他工具分割
网络不稳定时，处理大文件可能中断
处理失败可重试，建议先缩短单段时长

字幕制作流程

上传视频
开启「时间戳」
转录完成后导出 SRT
用字幕编辑软件（如 Aegisub）微调时间轴
加载到视频播放器或嵌入视频

文件转录 ​

支持的格式 ​

音频文件 ​

视频文件 ​

基本操作 ​

场景选择 ​

高级选项 ​

热词 ​

AI 优化 ​

翻译 ​

时间戳 ​

说话人分离 ​

导出格式 ​

TXT（纯文本） ​

SRT（字幕文件） ​

与历史记录的关系 ​

处理时间 ​

使用建议 ​

提升识别质量 ​

长文件处理 ​

字幕制作流程 ​