文件转录
把音频视频变成文字,还能导出字幕。
支持的格式
音频文件
- MP3、WAV、M4A、FLAC、OGG、AAC...
视频文件
- MP4、MKV、AVI、MOV、WMV、FLV...
视频文件会自动提取音轨进行转写,不需要你手动处理。
⚠️ 注意:处理视频需要系统安装 FFmpeg。如果没有安装,页面会提示安装命令(以页面提示为准)。
基本操作
- 点击左侧导航栏的「文件转录」
- 点击选择文件,或直接拖拽文件到页面
- 点击「开始转录」
- 等待完成
- 完成后选择导出格式(TXT / SRT)

场景选择
不同类型的音视频,识别效果不同。选择合适的场景可以提升准确率:
| 场景 | 适用内容 |
|---|---|
| 通用 | 不确定时选这个 |
| 会议 | 多人讨论、会议录音 |
| 教程 | 教学视频、培训录音 |
| 播客 | 播客节目、访谈对话 |
| 音乐 | 歌词识别(难度较高) |
| 自定义 | 输入你自己的场景描述 |
高级选项
热词
点击「热词」标题可以展开热词输入区域。

在转录前输入文件中可能出现的特殊词汇,可以显著提升识别准确率:
发言人名字
产品名称
专业术语还可以勾选「使用全局提示词」,会自动加载你在「提示词增强」中配置的内容。
AI 优化
开启后,转录结果会经过 AI 处理,去除语气词、添加标点。
翻译
开启后,转录结果会被翻译成目标语言。
时间戳
开启后,每段文字会带上时间码:
[00:00:05] 大家好,欢迎收看本期视频
[00:00:08] 今天我们要聊的话题是...导出 SRT 字幕时需要时间戳信息。
说话人分离
开启后,会尝试区分不同说话人:
[说话人1] 你好,请问有什么可以帮您?
[说话人2] 我想咨询一下产品价格。💡 说话人分离的准确率取决于音频质量和说话人之间的区分度。如果两人声音很像,可能分不开。
导出格式
转录完成后,可以导出为:
TXT(纯文本)
适合需要编辑整理的场景。
大家好,欢迎收看本期视频。今天我们要聊的话题是...SRT(字幕文件)
适合配合视频播放器使用。
1
00:00:05,000 --> 00:00:08,000
大家好,欢迎收看本期视频
2
00:00:08,000 --> 00:00:12,000
今天我们要聊的话题是...⚠️ 导出 SRT 需要开启「时间戳」选项,否则会退化为纯文本。
与历史记录的关系
文件转录的结果不会写入历史记录。
原因:文件转录通常内容很长,如果全部存入历史,会把实时转写的记录淹没。
如果你需要保存文件转录结果,请使用导出功能。
处理时间
处理时间取决于:
- 文件时长
- 文件大小
- 网络速度
- 是否开启 AI 优化/翻译
建议:长文件尽量在网络稳定时处理。
大致参考:
- 1 分钟音频 ≈ 5-15 秒
- 10 分钟音频 ≈ 30-60 秒
- 1 小时视频 ≈ 3-8 分钟
使用建议
提升识别质量
- 选择正确的场景
- 尽量使用高质量的音源
- 避免背景噪音过大的录音
长文件处理
- 超过 1 小时的文件,建议先用其他工具分割
- 网络不稳定时,处理大文件可能中断
- 处理失败可重试,建议先缩短单段时长
字幕制作流程
- 上传视频
- 开启「时间戳」
- 转录完成后导出 SRT
- 用字幕编辑软件(如 Aegisub)微调时间轴
- 加载到视频播放器或嵌入视频

