快速开始
我们提供了自动构建的安装包,无需配置开发环境即可直接使用。
1️⃣ 下载安装
- 访问 Releases 页面
- 下载程序:
Gemini-Subtitle-Pro-x.x.x-win-x64.zip - 解压到任意位置,双击
MioSub.exe启动
2️⃣ 配置 API Key
打开设置,填写 Gemini 及 OpenAI API Key。
注意事项
- 如需使用本地 Whisper 模型,请参考 本地 Whisper 配置
- 需保证 API Key 能请求 Gemini 3 Flash、Gemini 3 Pro 及 Gemini 2.5 Flash 模型
- 推荐使用中转站 API(如 云雾 API)
- 为保证翻译质量,暂不支持自定义模型
3️⃣ 开始使用
Enjoy! 🎉
🧠 技术细节
🎧 术语自动提取
- 从音频中智能提取专有名词(人名、地名、作品名等)
- 配合 Google Search 验证标准译法
- 生成术语表供后续翻译参考,确保译名一致
⚡ 长上下文翻译
- 按语义切分为 5-10 分钟片段
- 保留完整上下文进行翻译,避免断章取义
- 支持场景预设(动漫、电影、新闻、科技),自动优化翻译风格
💎 转录后处理
- 智能断句:根据语义和停顿自动分割字幕
- 时间轴校正:修复 Whisper 输出的时间偏差
- 术语替换:自动应用术语表,统一译名
🗣️ 说话人识别
- 自动推测并标注多说话人身份
- 支持自定义说话人名称和颜色
- 支持合并相邻同说话人字幕
✨ 润色与重新生成
- 批量重新生成:选中片段一键重跑完整流程(转录→润色→对齐→翻译)
- 润色翻译:对选中片段进行翻译质量优化,保持上下文连贯
- 操作前自动保存版本快照,可随时回滚
🚀 全自动模式
只需粘贴视频链接(YouTube/Bilibili),自动完成全部流程:
- 自动下载:调用 yt-dlp 下载最佳画质视频
- 音频提取:自动提取音频并进行 VAD 分段
- 智能转写:使用 Whisper 进行语音转录
- AI 翻译润色:Gemini 进行上下文感知的翻译和校对
- 自动压制:FFmpeg 将双语字幕烧录到视频(支持 GPU 加速)
- 输出成品:直接生成带硬字幕的 MP4 文件
🧠 智能并发控制
根据不同模型动态调整并发数,避免限流的同时最大化速度:
- Gemini Flash:并发 5(速度优先)
- Gemini Pro:并发 2(避免限流)
效果:30 分钟视频约 8-10 分钟处理完成