功能介绍
Whisper 语音转录
从任意视频中提取语音并转录字幕,支持 tiny/base/small/medium/large 模型。模型本地缓存,无需重复下载。
双翻译后端
使用本地 Ollama 模型(完全私有,无需 API Key)或接入 DeepSeek 进行高质量云端翻译,随时切换。
全局翻译上下文
可选:翻译前先基于视频标题和字幕抽样生成主题、术语和风格提示,再传给每条字幕翻译,提升专业内容的一致性。
并行翻译
同时翻译多个字幕片段,可调整并发数以平衡速度和 API 限速。
三种输出格式
导出独立的 .srt 文件、带软字幕轨的 .mkv(VLC/IINA 中可切换),或硬烧录字幕的 .mp4。
本机运行
Electron 外壳 + 本地 Gradio UI。除非使用 DeepSeek,否则无任何云端上传,视频默认不离开本机。
使用流程
- 01
安装应用
下载 DMG,将 AI 翻译配音 拖到 Applications,然后启动。应用会自动启动本地 Gradio 服务器,浏览器将自动打开 http://127.0.0.1:7860。
- 02
上传视频
将任意 MP4 或 MOV 文件拖入 Gradio 界面,音频会自动提取为 16kHz 单声道。
- 03
选择 Whisper 模型
根据精度和速度需求选择 tiny 至 large 模型,首次下载后本地缓存,不重复下载。
- 04
选择翻译后端
连接本地运行的 Ollama 实例,或在设置中填入 DeepSeek API Key。
- 05
运行并导出
转录、翻译、合并全程一键完成,选择 SRT、MKV 或 MP4 导出格式。
输出格式
| 格式 | 说明 | 适用场景 |
|---|---|---|
.srt | 带时间轴的纯字幕文件 | 在任意编辑器或播放器中复用 |
.mkv | 原视频 + 软字幕轨道 | 本地播放,在 VLC/IINA 中可切换字幕 |
.mp4 | 字幕硬烧录到视频 | 上传就绪,适合 YouTube、社交媒体 |
运行环境
系统 / 环境
- macOS(推荐 Apple Silicon arm64)
- 本机安装 Python 3
- ffmpeg(
brew install ffmpeg)
本地翻译(Ollama)
- 本机已运行 Ollama
- 已拉取兼容模型,如
qwen3:latest - 配置完成后无需联网
云端翻译(DeepSeek)
- DeepSeek API Key
- 网络连接
- 按量计费(无订阅)
常见问题
- 视频会上传到云端吗?
- 不会。视频处理(音频提取、Whisper 转录)全部在本机进行。仅在选择 DeepSeek 后端时,字幕文本会发送至 DeepSeek。Ollama 完全本地运行。
- 用哪个 Whisper 模型合适?
base速度快,对大多数内容精度够用。技术内容或口音较重的语音建议使用medium或large。模型首次下载后缓存在本机,不重复下载。- 可以翻译成任何语言吗?
- 翻译质量取决于所选后端模型。Ollama 的
qwen3等模型支持中文、日文、韩文及主要欧洲语言。DeepSeek 支持 50+ 种语言。 - Whisper 模型缓存在哪里?
- 模型缓存至
~/Library/Application Support/AI翻译配音/whisper-models。如果~/.cache/whisper中已有有效模型,首次启动时会自动复制。 - 是否支持 Intel Mac?
- 当前 DMG 仅支持 arm64。Intel 支持可能在后续版本加入,目前可从源码在 Intel 机器上运行。
- 是免费的吗?
- 是的,应用免费且开源(MIT)。DeepSeek API 费用按 DeepSeek 官方标准按量计费。
下载 AI 翻译配音
v1.0.0 · macOS arm64 · 免费开源 (MIT)