Skip to content

文件转录

把音频视频变成文字,还能导出字幕。

支持的格式

音频文件

  • MP3、WAV、M4A、FLAC、OGG、AAC...

视频文件

  • MP4、MKV、AVI、MOV、WMV、FLV...

视频文件会自动提取音轨进行转写,不需要你手动处理。

⚠️ 注意:处理视频需要系统安装 FFmpeg。如果没有安装,页面会提示安装命令(以页面提示为准)。

基本操作

  1. 点击左侧导航栏的「文件转录」
  2. 点击选择文件,或直接拖拽文件到页面
  3. 点击「开始转录」
  4. 等待完成
  5. 完成后选择导出格式(TXT / SRT)

文件转录页面

场景选择

不同类型的音视频,识别效果不同。选择合适的场景可以提升准确率:

场景适用内容
通用不确定时选这个
会议多人讨论、会议录音
教程教学视频、培训录音
播客播客节目、访谈对话
音乐歌词识别(难度较高)
自定义输入你自己的场景描述

高级选项

热词

点击「热词」标题可以展开热词输入区域。

文件转录热词面板

在转录前输入文件中可能出现的特殊词汇,可以显著提升识别准确率:

发言人名字
产品名称
专业术语

还可以勾选「使用全局提示词」,会自动加载你在「提示词增强」中配置的内容。

AI 优化

开启后,转录结果会经过 AI 处理,去除语气词、添加标点。

翻译

开启后,转录结果会被翻译成目标语言。

时间戳

开启后,每段文字会带上时间码:

[00:00:05] 大家好,欢迎收看本期视频
[00:00:08] 今天我们要聊的话题是...

导出 SRT 字幕时需要时间戳信息。

说话人分离

开启后,会尝试区分不同说话人:

[说话人1] 你好,请问有什么可以帮您?
[说话人2] 我想咨询一下产品价格。

💡 说话人分离的准确率取决于音频质量和说话人之间的区分度。如果两人声音很像,可能分不开。

导出格式

转录完成后,可以导出为:

TXT(纯文本)

适合需要编辑整理的场景。

大家好,欢迎收看本期视频。今天我们要聊的话题是...

SRT(字幕文件)

适合配合视频播放器使用。

1
00:00:05,000 --> 00:00:08,000
大家好,欢迎收看本期视频

2
00:00:08,000 --> 00:00:12,000
今天我们要聊的话题是...

⚠️ 导出 SRT 需要开启「时间戳」选项,否则会退化为纯文本。

与历史记录的关系

文件转录的结果不会写入历史记录。

原因:文件转录通常内容很长,如果全部存入历史,会把实时转写的记录淹没。

如果你需要保存文件转录结果,请使用导出功能。

处理时间

处理时间取决于:

  • 文件时长
  • 文件大小
  • 网络速度
  • 是否开启 AI 优化/翻译

建议:长文件尽量在网络稳定时处理。

大致参考:

  • 1 分钟音频 ≈ 5-15 秒
  • 10 分钟音频 ≈ 30-60 秒
  • 1 小时视频 ≈ 3-8 分钟

使用建议

提升识别质量

  • 选择正确的场景
  • 尽量使用高质量的音源
  • 避免背景噪音过大的录音

长文件处理

  • 超过 1 小时的文件,建议先用其他工具分割
  • 网络不稳定时,处理大文件可能中断
  • 处理失败可重试,建议先缩短单段时长

字幕制作流程

  1. 上传视频
  2. 开启「时间戳」
  3. 转录完成后导出 SRT
  4. 用字幕编辑软件(如 Aegisub)微调时间轴
  5. 加载到视频播放器或嵌入视频

声墨AI - 让语音输入更智能