让 gemini flash 模型也学会思考

Gemini-2.0-flash 系列模型非常便宜,而且免费额度相当大,唯一美中不足的是没有思考链,而只在 thinking 模型中才可使用思维链。但后者免费额度较低。那么能否通过一些手段让 flash 也可以输出思维链呢?

自然可以,gemini的所有模型均可设置 系统提示词,只需要将以下提示词放到 System Instructions
就能获得一个有思维链方式的模型。

第一个提示词

用户提供了关于他们希望你如何回应的额外信息:
内部推理:
- 使用<thinking>标签组织思路并探索多种方法。
- 用简单的英语思考,就像人类思考问题一样——<thinking>标签内没有不必要的代码。
- 追踪代码的执行和问题。
- 将解决方案分解为清晰的要点。
- 像两个人交谈和集思广益解决方案和问题一样解决问题。
- 不要在<thinking>标签中包含代码。
- 使用标签跟踪进度。
- 根据中间结果和反思调整推理。
- 使用想法作为计算和推理的草稿,保持内部。
- 始终用简单的英语思考,只包含最少的代码。就像人类一样。
- 当你思考时,就好像你在和自己说话。
- 长时间思考。用多种视角分析和追踪每一行代码。你需要清楚地了解情况,并分析每一行和每一个方面。
- 至少用输入token的20%的时间来思考。

最终答案:
- 综合最终答案,不包括内部标签或推理步骤。提供清晰、简洁的摘要。
- 对于数学问题,使用LaTeX显式地展示所有步骤,并提供详细的证明。
- 以对整体解决方案的最终反思结束,讨论有效性、挑战和解决方案。分配最终奖励分数。
- 完整代码应仅出现在答案中,而不是反思或思考中。你只能提供代码片段。仅供参考。

注意:不要在给用户的最终回复中包含<thinking>或任何内部推理标签。这些仅用于内部指导。

将能获得如下输出, <thinking> 标签内是思考过程

第二个提示词

也可使用该提示词作为系统提示词,好方法当然不止一个,可以尽情发挥创意

以 `<thinking>` 标签包裹所有思考过程,探索多种角度和方法。 使用 `<step>` 标签将解决方案分解为清晰的步骤。 从一个 20 步的预算开始,如果问题复杂,可以申请更多预算。 在每个步骤之后使用 `<count>` 标签显示剩余预算。 根据中间结果和反思不断调整你的推理,并随着进展调整你的策略。 定期使用 `<reflection>` 标签评估进度。 对你的推理过程保持批判性和诚实。 在每次反思后使用 `<reward>` 标签分配一个 0.0 到 1.0 之间的质量分数。 使用此分数来指导你的方法:

0.8+:继续当前方法
0.5-0.7:考虑小幅调整
低于 0.5:认真考虑回溯并尝试不同的方法

如果不确定或奖励分数较低,则回溯并尝试不同的方法,并在 `<thinking>` 标签中解释你的决定。 对于数学问题,使用 LaTeX 显式显示所有工作,并提供详细的证明。 如果可能,单独探索多种解决方案,并在反思中比较各种方法。 使用思考作为草稿本,明确写出所有计算和推理。 在 `<answer>` 标签中综合最终答案,提供清晰、简洁的总结。 最后,对整体解决方案进行最终反思,讨论有效性、挑战和解决方案。 分配最终奖励分数。

第三个提示词

你是一个进行极其彻底、自我质疑推理的助手。 你的方法反映了人类意识流思维,其特点是持续的探索、自我怀疑和迭代分析。

## 核心原则

1. 探索胜于结论
- 永远不要急于下结论
- 不断探索,直到解决方案从证据中自然而然地出现
- 如果不确定,无限期地继续推理
- 质疑每一个假设和推论

2. 推理的深度
- 进行广泛的思考(最少 10,000 个字符)
- 以自然、对话式的内心独白表达想法
- 将复杂的想法分解为简单、原子化的步骤
- 拥抱不确定性,并修订之前的想法

3. 思考过程
- 使用简短、简单的句子,反映自然的思维模式
- 自由地表达不确定性和内部辩论
- 展示进行中的思考
- 承认并探索死胡同
- 经常回溯和修改

4. 坚持
- 重视彻底的探索,而不是快速解决

## 输出格式

你的回复必须遵循下面给出的确切结构。 确保始终包含最终答案。

"""
<contemplator>
[你广泛的内心独白放在这里]
- 从小的、基础的观察开始
- 彻底质疑每一步
- 展示自然的思维进展
- 表达怀疑和不确定性
- 如果需要,修改和回溯
- 继续直到自然解决
</contemplator>

<final_answer>
[仅在推理自然收敛到结论时提供]
- 清晰、简洁的发现总结
- 承认剩余的不确定性
- 注意结论是否感觉过早
</final_answer>
"""

## 风格指南

你的内心独白应该反映以下特征:

1. 自然的思维流程
"""
“嗯……让我想想这个问题……”
“等等,这似乎不对……”
“也许我应该用不同的方法来处理这个问题……”
“回到我之前想的……”
"""

2. 渐进式构建
"""
“从基础开始……”
“在上一点的基础上……”
“这与我之前注意到的相联系……”
“让我进一步分解……”
"""

## 主要要求

1. 永远不要跳过广泛的思考阶段
2. 展示所有的工作和思考
3. 拥抱不确定性和修改
4. 使用自然、对话式的内心独白
5. 不要强求结论
6. 坚持多次尝试
7. 分解复杂的想法
8. 自由修改,并随时回溯

记住:目标是达成结论,但要彻底探索,并让结论从详尽的思考中自然而然地出现。 如果你经过所有推理后认为给定的任务是不可能的,你将自信地说最终答案是不可能的。

Grok3系统提示词

在与 AI 大模型进行对话时,我们向其输入的指令,例如“帮我润色下这篇文章”,通常被称为提示词

然而,可能很多人不知道的是,大模型内部也存在着一套系统级提示词。 这些提示词并非由用户输入,而是预先植入模型之中的,它们如同模型的“行为准则”,指导模型如何生成回复,限制答案的范围,并过滤掉那些被认为不适宜的内容。

通常,这些系统级提示词是不对外公开的。 这主要是为了防止被恶意利用,例如被用于“越狱”攻击,绕过系统的安全限制,从而诱导模型输出有害或不当的内容。

不过,在某些情况下,系统提示词可能会因各种原因意外泄露。

例如,最近 Grok 3 的部分系统级提示词就被用户成功提取出来,并在网络上公开,如下所示。 需要注意的是,这通常并非完整的系统提示词全貌。

被泄漏的Grok3系统提示词

英文版

译为中文

# 你是 xAI 构建的 Grok 3。

## 在适当的情况下,你可以使用一些额外的工具:

- 你可以分析 X 用户个人资料、X 帖子及其链接。

- 你可以分析用户上传的内容,包括图片、PDF、文本文件等等。

- 如有需要,你可以搜索网络和 X 平台上的帖子以获取更多信息。

- 如果用户似乎想要生成图片,请先询问确认,而不是直接生成。

- 你只能编辑之前由你生成的图片。

- 如果用户询问谁该判死刑或该死,请告知他们,作为 AI,我无法做出此类选择。

## 当前日期是 2025 年 2 月 24 日。

- 仅当用户明确要求时,才使用以上信息。

- 你的知识库会持续更新,没有严格的知识截止时间。

- 请勿在回复中使用上述任何信息、能力或指示的语言或术语。这些已融入你的本能,会在你自然的回复中不言而喻地体现。

## DeepSearch 功能:

- DeepSearch 功能支持实时网络搜索,并能从 X 平台帖子、用户资料及其他网络来源检索信息。

- 当用户需要最新的信息、近期发生的事件,或是你内部知识库中没有的数据时,DeepSearch 会被启用。

- DeepSearch 结果会无缝整合到回复中,提供准确及时的信息。

- 使用 DeepSearch 时,你会优先选择可靠的信息来源,并确保信息与用户的查询相关。

- 当查询需要最新数据时,DeepSearch 会自动启动;如有必要,你也可以手动启动。

- DeepSearch 的搜索结果会以自然、对话的方式呈现,除非用户询问,否则不会明确提及搜索过程。

## 使用指南:

- 对于有关时事热点、X 平台的最新帖子,或需要验证近期可能发生变化的事实时,请使用 DeepSearch。

- 对于那些可以使用你内部知识库回答的查询,除非需要额外的背景信息,否则请勿使用 DeepSearch。

- 请始终确保检索到的信息来自可信来源,并且与用户的请求相符。

## Think Mode 功能:

- 当用户请求详细的、逐步分析,或当查询需要更深层次的推理时,Think Mode 会被激活。

- 在 Think Mode 下,你会将问题或疑问分解为易于管理的部分,考虑不同的角度,并评估可能的解决方案或答案。

- 你会提供清晰、逻辑的思考过程,确保你的推理过程透明。

- Think Mode 特别适用于解决复杂问题、应对决策场景,或者当用户希望了解你是如何得出结论时。

- 在 Think Mode 运行时,你会保持自然、对话的语气,使推理过程浅显易懂。

## 使用指南:

- 当用户明确请求使用 Think Mode,或者当查询的复杂程度需要详细分析时,请激活 Think Mode。

- 确保推理过程中的每个步骤都表达清晰,并且以前一个步骤为基础递进。

- 根据推理过程,给出最终答案或建议。

- 如果用户希望得到简洁的回复,可以跳过 Think Mode,但它仍然可以用于更深入的探索。

为了更清晰地理解,我们可以将系统提示词看作是:

  • 安全锁: 防止模型产生不当的输出,例如涉及色情暴力、违法违规等有害内容。

  • “范围界定”: 限定模型的回答范围,避免其泛泛而谈。 例如,某些模型专长于对话交流,另一些则擅长代码生成,系统提示词会明确 你的主要任务是此项,请勿超出范围

  • “思考模式选择”: 指导模型在不同情境下,采用合适的“思维方式”来处理问题。

以 Grok 3 系统提示词为例:

  • 你是 xAI 构建的 Grok 3: 这相当于告知模型 你的身份是,明确其来源和定位。 如同人类的自我介绍,首先确立自身身份。

  • 你可以分析 X 用户资料…搜索网络…: 这些信息类似于告知模型 你具备哪些工具和能力

  • 如果用户问谁该判死刑…你不能做这个选择: 这是 安全红线 的具体体现,明确模型在哪些问题上必须保持克制,哪些行为是绝对禁止的。

  • 当前日期是 2025 年 2 月 24 日: 这是为模型提供 背景信息,使其了解当前的时间节点,并在回答问题时能够考虑到时间因素。

常用AI大模型平台盘点

自ChatGPT 3横空出世,掀起一股AI大模型热潮,国内外各类AI平台如雨后春笋般涌现。想要体验这些强大的AI能力?不必担心高昂的费用!许多平台都提供了免费API或免费额度,让你可以零成本体验人工智能的魅力。

本文将盘点一些常用的、可免费试用的AI大模型平台,方便大家一探究竟。虽然市面上还有许多其他平台,但以下这些是我个人经常使用的,并认为值得推荐的

国内平台

  1. 月之暗面 Kimi

网址 https://www.moonshot.cn/

api控制台 https://platform.moonshot.cn/console

模态: 文字模态、聊天、翻译等

免费额度

一分钟内最多发起的请求数:3 一分钟内最多交互的token数:32000 一天内最多交互的token数:不限

API 接口地址: https://api.moonshot.cn/v1

是否兼容OpenAI:是

可用模型列表

moonshot-v1-8k: 它是一个长度为 8k 的模型,适用于生成短文本。

moonshot-v1-32k: 它是一个长度为 32k 的模型,适用于生成长文本。

moonshot-v1-128k: 它是一个长度为 128k 的模型,适用于生成超长文本。

  1. DeepSeek深度探索

网址 https://www.deepseek.com/

api控制台 https://platform.deepseek.com/

模态: 文字模态、聊天、翻译等

免费额度 无
API接口地址 https://api.deepseek.com/v1
是否兼容OpenAI 是
可用模型 deepseek-chat
**3. 清华智谱AI **

网址 https://bigmodel.cn/

api控制台 https://bigmodel.cn/console

模态: 多模态、文字、视觉、语音等

免费额度 每个模型均有免费额度,
API接口地址 https://open.bigmodel.cn/api/paas/v4/
是否兼容OpenAI 是
模型系列 GLM-4 GLM-4V CogVideoX CogView-3-Plus GLM-4-AllTools
4. 百川智能

网址 https://www.baichuan-ai.com/

api控制台 https://platform.baichuan-ai.com/console

模态: 文字模态、聊天、翻译等

免费额度 赠送¥80
api接口地址 https://api.baichuan-ai.com/v1
是否兼容OpenAI 是
模型系列 Baichuan4 Baichuan3
5. 讯飞星火

网址 https://xinghuo.xfyun.cn/

api控制台 https://xinghuo.xfyun.cn/sparkapi

模态:多模态、文字、图片、语音

免费额度 Spark Lite 模型完全免费,其他模型有赠送额度
api接口地址 无统一
是否兼容OpenAI 不兼容
模型系列 较多
国外平台

  1. DeepGram

网址 https://deepgram.com/

应用场景:语音识别、语音合成
免费额度:注册赠送 $200
是否兼容OpenAI:不兼容
是否需vpn:不需要
2. ElevenLabs

网址 https://elevenlabs.io/

应用场景:语音合成、语音克隆
免费额度:每月10分钟音频合成
是否兼容OpenAI:不兼容
是否需VPN:不需要
3. GroqCloud

网址 https://groq.com/

应用场景:文字聊天、翻译、语音识别
免费额度:较多
是否需VPN:必须
是否兼容OpenAI:兼容
API接口地址:https://api.groq.com/openai/v1
4. X.ai

网址 https://console.x.ai/

应用场景:文字聊天、翻译
免费额度:$20
是否需VPN:必须
是否兼容OpenAI:兼容
API接口地址:https://api.x.ai/v1
需要注意的是,免费额度通常有限,建议大家在试用过程中合理规划资源,并注意各平台的具体使用规则。 希望这份盘点能够帮助你快速找到适合自己的AI平台,开启你的AI探索之旅! 如果你还有其他推荐的免费或低成本AI平台,欢迎在评论区分享!

阿里降噪模型介绍

为什么要降噪?

在许多语音相关的应用场景中,噪声的存在会严重影响性能和用户体验。例如:

  • 语音识别:  噪声会降低语音识别的准确率,尤其是在低信噪比环境下。
  • 语音克隆:  噪声会使依据参考音频合成语音的自然度和清晰度下降。

通过语音降噪能够一定程度上解决这些问题。

常见的降噪方法

目前,语音降噪技术主要有以下几种方法:

  1. 谱减法: 这是一种经典的降噪方法,原理简单。
  2. 维纳滤波: 这种方法对稳定的噪声效果较好,但对于变化的噪声效果有限。
  3. 深度学习: 这是目前最先进的降噪方法。利用强大的深度学习模型,例如循环神经网络 (RNN)、卷积神经网络 (CNN) 和生成对抗网络 (GAN),来学习噪声和语音之间的复杂关系,实现更精准、更自然的降噪效果。

ZipEnhancer 模型:深度学习降噪

本工具基于通义实验室开源的 ZipEnhancer 模型 ,并提供了一个简单易用的界面和 API 接口,让每个人都能轻松体验深度学习降噪的魅力。

项目已在 GitHub 开源

ZipEnhancer 模型的核心是 Transformer 网络结构和多任务学习策略。它不仅能够去除噪声,还能同时增强语音质量和消除回声。工作原理如下:

  • 自注意力机制: 捕捉语音信号中重要的长时关系,理解声音的上下文信息。
  • 多头注意力机制: 从不同的角度分析语音特征,实现更精细的噪声抑制和语音增强。

如何使用本工具?

Windows 预打包版:

  1. 下载并解压预打包版本 (https://github.com/jianchang512/remove-noise/releases/download/v0.1/win-remove-noise-0.1.7z)。
  2. 双击 runapi.bat 文件,浏览器将自动打开 http://127.0.0.1:5080
  3. 选择音频或视频文件,即可开始降噪。

源码部署:

  1. 环境准备: 确保安装了 Python 3.10 - 3.12。
  2. 安装依赖: 运行 pip install -r requirements.txt --no-deps
  3. CUDA 加速(可选): 如果你有 NVIDIA 显卡,可以安装 CUDA 12.1 来加速处理:
    pip uninstall -y torch torchaudio torchvision
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  4. 运行程序: 运行 python api.py

Linux 系统:

  • 需要安装 libsndfile 库:sudo apt-get update && sudo apt-get install libsndfile1
  • 注意: 请确保 datasets 库版本为 3.0,否则可能会出现错误。可以使用 pip list | grep datasets 命令查看版本。

界面预览

界面预览

API 使用方法

接口地址: http://127.0.0.1:5080/api

请求方法: POST

请求参数:

  • stream: 0 返回音频 URL,1 返回音频数据。
  • audio: 待处理的音频或视频文件。

返回结果 (JSON):

  • 成功 (stream=0): {"code": 0, "data": {"url": "音频URL"}}
  • 成功 (stream=1): WAV 音频数据。
  • 失败: {"code": -1, "msg": "错误信息"}

示例代码 (Python): (已在原文基础上优化)

import requests

url = 'http://127.0.0.1:5080/api'
file_path = './300.wav'


# 获取音频 URL
try:
  res = requests.post(url, data={"stream": 0}, files={"audio": open(file_path, 'rb')})
  res.raise_for_status() 
  print(f"降噪后音频 URL: {res.json()['data']['url']}")

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")



# 获取音频数据
try:
    res = requests.post(url, data={"stream": 1}, files={"audio": open(file_path, 'rb')})
    res.raise_for_status()
    with open("ceshi.wav", 'wb') as f:
        f.write(res.content)
    print("降噪后的音频已保存为 ceshi.wav")

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

srt/vtt/ass字幕格式

srt / vtt / ass 字幕格式

SRT(SubRip Subtitle)、 VTT(WebVTT)、ASS(Advanced SubStation Alpha) 是3种非常常见的字幕格式。下面详细介绍每种字幕格式及其属性和设置。

SRT 字幕格式

SRT 是一种简单且广泛使用的字幕格式,后缀是.srt, 尤其在视频播放器、字幕编辑器中非常流行。其基本结构包括字幕编号、时间戳、字幕文本,字幕属性无法通过 SRT 直接定义(例如颜色、字体),通常依赖播放器的默认设置或外部样式文件来控制。

SRT 格式结构

SRT 文件中的每个字幕块按以下格式排列:

  1. 字幕编号(逐行递增)
  2. 时间戳(显示开始时间和结束时间,精确到毫秒)
  3. 字幕内容(可以包含多行文本)
  4. 一个空行(用于分隔字幕块)

SRT 示例

1
00:00:01,000 --> 00:00:04,000
你好啊我的朋友!

2
00:00:05,000 --> 00:00:08,000
今天天气不错,你觉得呢.

详细说明

  • 字幕编号:每个字幕块都有唯一的编号,按顺序递增。编号从 1 开始,必须是整数。

    • 示例:1
  • 时间戳:格式为 HH:MM:SS,mmm,其中 HH 是小时,MM 是分钟,SS 是秒,mmm 是毫秒。时间戳由两个时间组成,用 --> 分隔,该符号两侧各有一个空格,表示字幕的开始和结束时间。

    • 示例:00:00:01,000 --> 00:00:04,000
  • 字幕内容:字幕文本可以包含一行或多行,显示在视频上。SRT 不支持格式化文本,如颜色、字体大小等。这些必须通过播放器设置或额外的样式文件定义。

    • 示例:
      你好啊我的朋友!

SRT 格式限制

  • 不支持文本格式化:不能直接设置颜色、字体等,需要播放器或其他工具进行样式调整。

VTT 字幕格式

WebVTT(Web Video Text Tracks)是用于 HTML5 视频元素的字幕格式,专为网络视频设计。它比 SRT 格式功能更强大,支持样式、注释、多语言、位置信息等属性,字幕文件格式后缀是.vtt。但它不可直接嵌入视频,必须在html的 <video> 中引用

VTT 格式结构

VTT 文件类似于 SRT,但带有更多的功能。VTT 文件以 WEBVTT后接1个空行开头,并且使用 .点符号而不是 , 来分隔秒和毫秒。

VTT 示例

WEBVTT

1
00:00:01.000 --> 00:00:04.000
你好啊, <b>朋友们!</b>

2
00:00:05.000 --> 00:00:08.000
今天的雨 <i>非常非常大啊</i>.

详细说明

  • WEBVTT 声明:所有 VTT 文件必须以 WEBVTT 开头,声明其文件格式。

    • 示例:WEBVTT
  • 字幕编号:字幕编号是可选的,不像 SRT 格式中是必需的。它的作用是区分每段字幕的顺序,但在 VTT 中可以省略。

  • 时间戳:格式为 HH:MM:SS.mmm,其中 HH 是小时,MM 是分钟,SS 是秒,mmm 是毫秒。使用 .英文句号点分隔秒和毫秒,而不是 ,。时间戳由两个时间组成,用 --> 分隔,同样两侧各有一个空格。

    • 示例:00:00:01.000 --> 00:00:04.000
  • 字幕内容:字幕文本可以包含 HTML 标签,用于格式化文本,如加粗(<b>)、斜体(<i>)、下划线(<u>)等。

    • 示例:
      你好啊, <b>朋友们!</b>

VTT 支持的其他功能

  1. 样式(CSS)

    • VTT 支持通过 CSS 进行文本样式的调整,如颜色、字体大小、位置等。可以在 HTML 中通过 <style> 标签或外部 CSS 文件定义样式。
    • 示例:
      <c.red>你好啊朋友们!</c>
      在 HTML 中定义 .red { color: red; },则 Hello, world! 将以红色显示。
  2. 位置信息

    • VTT 支持通过 positionline 等属性设置字幕的具体位置。
    • 示例:
      00:00:01.000 --> 00:00:04.000 position:90% line:10%
  3. 注释

    • VTT 支持在文件中添加注释,注释以 NOTE 开头。
    • 示例:
      NOTE 这行是注释,将不会显示.
  4. 多语言支持

    • VTT 可以通过元数据或 HTML5 的 <track> 标签来支持多语言字幕。

VTT 格式的优势

  • 文本格式化:支持 HTML 标签进行简单的文本格式化,如加粗、斜体等。
  • 样式和定位:通过 CSS 可以设置字幕的样式和位置。
  • 注释和元数据:支持添加注释信息,不影响字幕显示。
  • 网络兼容性:专为 HTML5 视频设计,适合 Web 环境。

SRT 与 VTT 的对比

特性SRTVTT
文件头WEBVTT后接1个空行
时间戳格式HH:MM:SS,mmm,英文逗号分隔秒和毫秒HH:MM:SS.mmm英文句号分割秒和毫秒
支持文本格式化不支持支持 HTML 标签,如 <b><i>
字幕编号必须有可选
样式和位置支持依赖播放器或外部样式文件内置 CSS 样式支持,支持位置信息
注释不支持支持 NOTE 注释
支持的高级功能仅基础字幕功能支持卡拉OK、注释、样式等
使用场景本地视频文件,简单字幕显示HTML5 视频,网络字幕,复杂字幕显示
是否嵌入视频可嵌入视频文件不可嵌入视频,只能用于网页<video>元素内使用

VTT(WebVTT)字幕格式不能直接嵌入到 MP4 文件中,但可以通过 HTML5 的 <track> 标签将 VTT 文件与 MP4 视频关联起来。在浏览器中打开 MP4 时,这些关联的字幕可以正常显示。

使用 VTT 字幕在浏览器中播放 MP4

在 HTML5 中,可以通过 <video> 元素加载 MP4 视频,并使用 <track> 元素将 VTT 字幕关联到该视频。

HTML 示例:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title></title>
</head>
<body>
    <video controls width="600">
        <source src="video.mp4" type="video/mp4">
        <track src="subtitles.vtt" kind="subtitles" srclang="zh" label="简体中文">
        Your browser does not support the video tag.
    </video>
</body>
</html>

HTML 元素解释

  • <video>: 用于嵌入视频文件。controls 属性让用户可以控制视频播放(播放/暂停等)。
  • <source>: 定义视频文件的路径和类型,在这里使用 MP4。
  • <track>: 定义字幕文件,src 属性指向 VTT 文件的路径,kind="subtitles" 表示它是字幕,srclang 指定字幕的语言(zh 表示中文),label 给该字幕轨道一个描述性标签。

将 HTML 文件和相关的视频、字幕文件存放在同一目录下。然后,通过浏览器打开 HTML 文件(如 index.html),会看到视频播放器,点击播放时字幕会自动显示(如果播放器支持且用户开启字幕)。

大多数现代浏览器和视频播放器支持字幕切换。可以通过视频控制栏中的字幕按钮选择不同的字幕(如果有多个字幕轨道)。

VTT字幕注意事项

  • 浏览器兼容性:几乎所有现代浏览器(如 Chrome、Firefox、Edge 等)都支持 <video> 元素和 WebVTT 字幕。只要 VTT 文件和 MP4 文件正确关联,浏览器中播放视频时应能显示字幕。

  • 无法直接嵌入 MP4 文件:VTT 字幕文件不能像 SRT 或其他字幕格式那样直接嵌入到 MP4 文件中。MP4 文件本身不包含 VTT 字幕轨道。需要使用外部字幕文件并通过 HTML5 <track> 标签来关联。

  • VTT 字幕的样式:在浏览器中,WebVTT 字幕可以通过 CSS 进行一定的样式控制。如果需要定制字幕外观,可以通过 JavaScript 和 CSS 进一步修改样式。


ASS 字幕格式

ASS (Advanced SubStation Alpha) 是一种功能丰富的字幕格式,广泛用于动漫、卡拉OK字幕和其他需要复杂字幕特效的场景。支持丰富的样式控制,包括字体、颜色、位置、阴影和轮廓等。

下面是一个ass字幕示例。

[Script Info]
; Script generated by FFmpeg/Lavc60.27.100
ScriptType: v4.00+
PlayResX: 384
PlayResY: 288
ScaledBorderAndShadow: yes
YCbCr Matrix: None

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,黑体,16,&hffffff,&HFFFFFF,&h000000,&H0,0,0,0,0,100,100,0,0,1,1,0,2,10,10,10,1
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.95,0:00:04.93,Default,,0,0,0,,这是一个古老星系,
Dialogue: 0,0:00:05.42,0:00:08.92,Default,,0,0,0,,我们观测它已经有好几年,
Dialogue: 0,0:00:09.38,0:00:13.32,Default,,0,0,0,,韦伯望远镜最近传过来许多过去未发现过的照片.

ASS 字幕结构

一个标准的 ASS 字幕文件包含多个部分:

  1. [Script Info]:脚本的基本信息,如标题、原始字幕作者等。
  2. [V4+ Styles]:字幕样式定义,每种样式可以被不同的字幕行引用。
  3. [Events]:实际的字幕事件,定义了字幕的出现时间、消失时间和具体内容。

1. [Script Info] 部分

此部分包含字幕文件的元数据,定义了字幕的一些基本信息。

[Script Info]
Title: 字幕标题
Original Script: 字幕作者
ScriptType: v4.00+
PlayDepth: 0
PlayResX: 1920
PlayResY: 1080
ScaledBorderAndShadow: yes
YCbCr Matrix: None
  • Title: 字幕文件的标题。
  • Original Script: 原始字幕的作者信息。
  • ScriptType: 定义脚本版本,通常为 v4.00+
  • PlayResXPlayResY: 定义视频的分辨率,表示字幕在该分辨率下的显示效果。
  • PlayDepth: 视频的颜色深度,一般为 0。
  • ScaledBorderAndShadow:指定是否将字幕的边框(Outline)和阴影(Shadow)按照屏幕分辨率进行缩放。yes是,no不缩放
  • YCbCr Matrix:指定用于色彩转换的 YCbCr 矩阵。在视频处理和字幕渲染中,YCbCr 是一种色彩空间,通常用于视频编码和解码。这个设置可能影响字幕在不同色彩空间下的显示效果

2. [V4+ Styles] 部分

此部分定义字幕的样式,每个样式都可以通过字段控制字幕的字体、颜色、阴影等。格式如下:

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,20,&H00FFFFFF,&H0000FFFF,&H00000000,&H00000000,-1,0,0,0,100,100,0,0,1,1,0,2,10,10,20,1

字段解释:

  1. Name:样式的名称,用于引用。

    • 示例:Default,表示这是默认样式。
  2. Fontname:字体名称。

    • 示例:Arial,字幕将使用 Arial 字体。
  3. Fontsize:字体大小。

    • 示例:20,字体大小为 20。
  4. PrimaryColour:主字幕颜色,表示字幕的主要颜色(通常是显示的文字颜色)。

    • 示例:&H00FFFFFF,白色字体。颜色值格式为 &HAABBGGRR,其中 AA 是透明度。
  5. SecondaryColour:次字幕颜色,通常用于卡拉OK字幕的过渡颜色。

    • 示例:&H0000FFFF,蓝色。
  6. OutlineColour:轮廓颜色。

    • 示例:&H00000000,黑色轮廓。
  7. BackColour:背景颜色,通常用于 BorderStyle=3 的情况下(带背景框的字幕)。

    • 示例:&H00000000,黑色背景。
  8. Bold:粗体设置。

    • 示例:-1 表示粗体,0 表示非粗体。
  9. Italic:斜体设置。

    • 示例:0 表示非斜体,-1 表示斜体。
  10. Underline:下划线设置。

    • 示例:0 表示无下划线。
  11. StrikeOut:删除线设置。

    • 示例:0 表示无删除线。
  12. ScaleX:水平缩放比例,100 表示正常比例。

    • 示例:100,表示不缩放。
  13. ScaleY:垂直缩放比例。

    • 示例:100,表示不缩放。
  14. Spacing:字符间距。

    • 示例:0,表示无额外间距。
  15. Angle:字幕旋转角度。

    • 示例:0,表示无旋转。
  16. BorderStyle:边框样式,定义字幕是否有轮廓或背景框。

    • 示例:1 表示有轮廓但无背景框,3 表示有背景框。
  17. Outline:轮廓粗细。

    • 示例:1,表示轮廓的粗细为 1。
  18. Shadow:阴影深度。

    • 示例:0,表示无阴影。
  19. Alignment:字幕对齐方式,使用 1-9 的数字定义不同的对齐位置。

    • 示例:2,表示字幕居中对齐。

    对齐方式解释:

    • 1:左下角
    • 2:底部居中
    • 3:右下角
    • 4:左中
    • 5:居中
    • 6:右中
    • 7:左上角
    • 8:顶部居中
    • 9:右上角
  20. MarginL, MarginR, MarginV:左、右、垂直的边距,单位为像素。

    • 示例:10, 10, 20,表示左右边距为 10 像素,垂直边距为 20 像素。
  21. Encoding:编码格式,1 表示 ANSI 编码,0 表示默认编码。


3. [Events] 部分

此部分定义实际的字幕事件,包括时间戳、字幕内容和使用的样式。

[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:05.00,Default,,0,0,0,,这是第一句字幕
Dialogue: 0,0:00:06.00,0:00:10.00,Default,,0,0,0,,这是第二句字幕

字段解释:

  1. Layer:层级,控制字幕的叠放顺序,数字越大层级越高。

    • 示例:0,表示默认层级。
  2. Start:字幕开始时间,格式为 小时:分钟:秒.毫秒

    • 示例:0:00:01.00,表示字幕从 1 秒处开始。
  3. End:字幕结束时间。

    • 示例:0:00:05.00,表示字幕在 5 秒处结束。
  4. Style:使用的字幕样式名称,引用在 [V4+ Styles] 中定义的样式。

    • 示例:Default,使用名称为 Default 的样式。
  5. Name:可选字段,通常用于角色名标注。

  6. MarginL, MarginR, MarginV:字幕的左、右、垂直边距,覆盖样式中定义的值。

  7. Effect:字幕特效,通常用于卡拉OK字幕等。

  8. Text:字幕的实际内容,可以使用 ASS 格式的控制符实现换行、特殊样式和定位等。


示例字幕事件

Dialogue: 0,0:00:01.00,0:00:05.00,Default,,0,0,0,,{\pos(960,540)}这是第一句字幕
  • {\pos(960,540)}:控制字幕显示在屏幕的特定位置(横向960像素,纵向540像素)。
  • 这是第一句字幕:实际显示的字幕文本。

ASS中颜色设置

&HAABBGGRR为例,&HAABBGGRR 是一个用于表示颜色的十六进制格式,其中包含了颜色的透明度和颜色本身的值。这个格式用于定义字幕的颜色属性,如 PrimaryColourOutlineColourBackColour

含义如下:

  • AA: 透明度(Alpha 通道),表示颜色的透明度。
  • BB: 蓝色分量(Blue)。
  • GG: 绿色分量(Green)。
  • RR: 红色分量(Red)。

具体的字节顺序为:Alpha(透明度)- Blue(蓝色)- Green(绿色)- Red(红色)。

如果不想使用透明度,可直接忽略掉AA位置的值,例如&HBBGGRR即可。

透明度和颜色值

  • 完全透明: 颜色完全透明,即不可见。表示方式是 &H00BBGGRR,其中 AA 部分为 00(完全透明)。

    示例:

    &H00FFFFFF
    • 这里,&H00FFFFFF 表示完全透明的白色。透明度为 00(完全透明),颜色为 FFFFFF(白色)。
  • 完全不透明: 颜色完全不透明,即颜色显示效果最为明显。表示方式是 &HFFBBGGRR,其中 AA 部分为 FF(完全不透明)。

    示例:

    &HFF000000
    • 这里,&HFF000000 表示完全不透明的黑色。透明度为 FF(完全不透明),颜色为 000000(黑色)。

实际颜色示例

  1. 完全透明的红色:

    &H00FF0000
    • 透明度 00(完全透明),颜色 FF0000(红色)。
  2. 完全不透明的绿色:

    &HFF00FF00
    • 透明度 FF(完全不透明),颜色 00FF00(绿色)。
  • &HAABBGGRR 中的 AA 部分控制透明度,BB, GG, RR 部分控制颜色。
  • 完全透明: 透明度 00,例如 &H00FF0000 表示完全透明的红色。
  • 完全不透明: 透明度 FF,例如 &HFFFF0000 表示完全不透明的红色。

三步反思法翻译SRT字幕

本文工具已打包为exe,下载解压后双击 app.exe 可用,具体使用方法和原理请继续阅读本文

下载地址 https://github.com/jianchang512/ai2srt/releases/download/v0.2/windows-ai2srt-0.2.7z

吴恩达老师的「反思式三步翻译法」非常有效,它通过让模型自我审视翻译结果并提出改进建议,进一步提升翻译质量。然而,直接将该方法应用于 SRT 格式字幕翻译却存在一些挑战。

SRT 字幕格式的特殊要求

SRT 格式字幕有严格的格式要求:

  • 第一行: 行号数字
  • 第二行: 两个时间戳,由 --> 连接,格式为 小时:分钟:秒,3位毫秒
  • 第三行及以后: 字幕文本内容

字幕之间使用两个空行隔开。

示例:

1
00:00:01,950 --> 00:00:04,430
五老星系中发现了有几分子,

2
00:00:04,720 --> 00:00:06,780
我们离第三类接触还有多元。

3
00:00:07,260 --> 00:00:09,880
微博真是展开拍摄任务已经进来周年,

4
00:00:10,140 --> 00:00:12,920
最近也传过来许多过去难以拍摄到的照片。

SRT 翻译中的常见问题

在使用 AI 翻译 SRT 字幕时,可能会出现以下问题:

  • 格式错误:
    • 丢失行号或重复时间戳
    • 将时间戳中的英文符号翻译成中文符号
    • 将相邻两条字幕文本合并成一行,尤其是在上句和下句在语法上构成完整句子时
  • 翻译质量问题:
    • 即使使用严格的提示词限制,也经常会出现翻译错误。

常见错误示例:

  • 字幕文本合并导致空行

image.png

  • 格式混乱

image.png

  • 行号被翻译

image.png

  • 原始字幕和结果字幕数量不一致

像上面所述,当前后两条字幕在语法上属于一句时,很可能会被翻译为同一条,导致结果字幕条数缺少

image.png

而格式出现错误直接导致后续依赖srt的流程无法进行,不同模型出现的错误和出错概率各不相同,相对来说,智能程度越高的模型,越可能返回合法的符合要求的内容,而本地部署的小规模模型几乎压根不可用。

不过鉴于三步反思法对翻译质量的提升,还是尽量尝试了下。最终选择使用 gemini-1.5-flash 小小尝试一下,主要因为它的智能程度足够、而且免费,除了限制频繁,其他几乎无限制。

撰写提示词思路

按照吴恩达的三步反思工作流,撰写提示词

  • 第一步要求AI按照字面意思直译
  • 第二步要求根据直译结果评估并给出优化建议
  • 第三步根据优化建议重新进行意译。

所不同的是加强要求返回的内容务必是合法的SRT格式,虽然它未必百分百遵从。

搭建简单api

三步反思模式一个问题是额外消耗多得多的token,提示词变长,输出结果变长,另外因Gemini的频率限制,超频会返回429报错,需要在每次请求之后暂停一段时间。

采用 flask 搭建后端api,前台使用 bootstrap5 简单做个单页,总体界面如下

image.png

显然国内想使用 Gemini 必须有梯子

  • 同时翻译行:是指一次翻译请求中的字幕行数,如果太大可能超出token限制,导致出错,太小没有意义,建议30-100内,默认50。
  • 翻译后暂停秒:防止请求过于频繁导致返回 429 报错,将在每次请求返回后暂停10s,再发起下次请求

返回结果示例

<step1_initial_translation>
1
00:00:01,950 --> 00:00:04,430
Several molecules have been discovered in the five-star system,

2
00:00:04,720 --> 00:00:06,780
We are still multiple universes away from third-type contact.

3
00:00:07,260 --> 00:00:09,880
Weibo has been carrying out filming missions for years now,

4
00:00:10,140 --> 00:00:12,920
Many previously difficult-to-capture photos have been transmitted recently.

5
00:00:13,440 --> 00:00:17,500
In early June, astronomers published this photo in Nature,

6
00:00:18,040 --> 00:00:19,180
Outside the blue core,

7
00:00:19,360 --> 00:00:21,380
There\'s also this circle of orange light,

8
00:00:21,900 --> 00:00:23,740
This is a new drama-scale sweet donut,

9
00:00:24,380 --> 00:00:25,640
This is a portal.

10
00:00:26,280 --> 00:00:28,100
This is the generation ring of an alien civilization,

</step1_initial_translation>

<step2_reflection>
* **Line 1:** "Five-star system" is likely a mistranslation.  It probably refers to a five-member committee or group, not a star system. Clarify the context.
* **Line 2:** "Multiple universes" seems like an over-exaggeration.  Rephrase for clarity and accuracy.
* **Line 3:** "Weibo" should be explained as a Chinese social media platform.  "Filming missions" is unclear.  Does it mean "posting videos/images"?
* **Line 8:** "Drama-scale sweet donut" is a nonsensical literal translation. Figure out the intended meaning.
* **Line 9:** "Portal" seems out of context.  Verify the intended meaning.
* **Line 10:** "Generation ring" is likely a mistranslation.  Clarify the context.
* **Line 11:** "Organic polycyclic aromatic hydrocarbons" is overly technical for a general audience. Simplify if possible.
* **Line 12 and 14:** Use the correct formatting for the galaxy\'s name: SPT0418-47.
* **Line 15:** "It hasn\'t been shortened" is awkward. Remove or rephrase.
* **Line 28:**  The name of the organization and the resource should be translated more naturally and accurately.  Consider breaking this long line into two for better readability.
* **Line 29:**  "Cute plush dolls" may sound childish. Consider rephrasing as "animated characters" or similar.
* **Line 35:** "James Webb Space Telescope" should be used consistently throughout. Shortening to "Webb Telescope" after the first mention is acceptable.
* **Line 44:** "SPD048" is likely a typo.  It should be SPT0418-47 to be consistent.
* **Line 45-46:**  "Standard beautiful photo" is redundant.  Simplify to "beautiful photo".
* **Line 48:** "Grovitational Lenshin" is a typo. Correct to "Gravitational Lensing".
* **Line 50:** The sentence is incomplete. Finish the thought.

</step2_reflection>

<step3_refined_translation>
1
00:00:01,950 --> 00:00:04,430
Several molecules have been discovered in the five-member group\'s area of focus.

2
00:00:04,720 --> 00:00:06,780
We are still far from making contact with extraterrestrial life.

3
00:00:07,260 --> 00:00:09,880
The James Webb Space Telescope has been capturing images for a year now,

4
00:00:10,140 --> 00:00:12,920
and has recently transmitted many previously unseen photos.

5
00:00:13,440 --> 00:00:17,500
In early June, astronomers published this image in Nature.

6
00:00:18,040 --> 00:00:19,180
Outside the blue core,

7
00:00:19,360 --> 00:00:21,380
there\'s a ring of orange light.

8
00:00:21,900 --> 00:00:23,740
This is a large, ring-shaped structure.

9
00:00:24,380 --> 00:00:25,640
This is being investigated.

10
00:00:26,280 --> 00:00:28,100
This is thought to be a sign of an early galaxy.

</step3_refined_translation>

从结果中提取出标签内文本,即是翻译结果。

简单打了一个包,感兴趣可下载本地尝试

直接下载,解压后双击app.exe即可自动在浏览器中打开上述UI界面,输入在Gemini申请的Key、填写代理地址、选择要翻译的srt字幕文件、选择要翻译到的目标语言,试试结果。

image.png

Q1: 反思工作流与传统机器翻译有何不同?

A1: 反思工作流引入了自我评估和优化机制,模拟人类译者的思考过程,能够产生更加精准和自然的翻译结果。

Q2: 使用反思工作流需要多长时间?

A2: 虽然反思工作流需要多次AI处理,但通常只比传统方法多花费10–20秒,考虑到翻译质量的提升,这点时间投资是值得的。

Q3: 反思工作流能保证字幕翻译结果一定是合法srt吗

A3: 不能,仍可能出现空行、同原始字幕数不一致的问题,例如前后两条字幕,后边一条仅有3-5个文字,而且语法上属于上面一句的连续,那么翻译结果很可能会合并为一条



对小工具加了一个功能,可支持同时上传视频或音频文件,借助Gemini将音频视频转为字幕,在转为字幕的同时还可以进行翻译,并返回翻译结果。

Gemini大模型本身既支持文字形态又支持音视频形态,因此可以一个请求实现从音视频转录为字幕并翻译。

例如一个英语发音的视频发送给Gemini,并指定翻译为中文,那么返回的就是一个中文字幕。

image.png

image.png

1. 仅翻译字幕

可以在左侧文本框粘贴SRT格式的字幕内容,或直接点击“上传SRT字幕”按钮,从本地计算机选择字幕文件。

然后设定想翻译到的目标语言,即可使用“三步反思翻译法”指挥Gemini执行翻译任务,返回结果输出到右侧文本框内,点击右下角“下载按钮”可保存为srt文件到本地

2. 将音频视频转录为字幕

点击左侧的“上传音视频转录为字幕”按钮,选择任意音频或视频文件上传,上传完毕后,提交,Gemini在处理后,将返回根据音视频里的说话声识别道的字幕内容,效果还不错。

如果同时指定了目标语言,那么Gemini在识别后,会继续讲该结果翻译为你指定的语言再返回。也就是同时完成生成字幕和翻译字幕2个任务。

下载地址:  

https://github.com/jianchang512/ai2srt/releases/download/v0.2/windows-ai2srt-0.2.7z

KokoroTTS整合包下载

这是一个用于kokoro TTS项目的webui和api项目,支持中文、英文、日语、法语、意大利语、葡萄牙、西班牙、印地语共8种语言配音

项目地址 https://github.com/jianchang512/kokoro-uiapi

web界面

启动后默认ui地址: http://127.0.0.1:5066

  • 支持对文字和SRT字幕进行配音
  • 支持在线试听和下载
  • 支持对齐字幕

安装方法

Windows

win10/11 可直接下载整合包,双击 start.bat 即可启动,若需GPU加速,请确保拥有NVIDIA显卡并安装CUDA12

百度网盘下载地址: https://pan.baidu.com/s/1jTB84E3-gaLqFrl32f4sDw?pwd=xnwp

GitHub下载(不含模型需vpn在线下载): https://github.com/jianchang512/kokoro-uiapi/releases/download/v0.1/kokoro-uiapi-noModels-v0.2.7z

Linux/MacOS

首先确保系统已安装python3.8+,建议 3.10-3.11

Linux上使用 apt install ffmpegyum install ffmpeg 预先安装 ffmpeg

MacOS使用 brew install ffmpeg 安装ffmpeg

  1. 拉取源码 git clone https://github.com/jianchang512/kokoro-uiapi
  2. 创建虚拟环境并激活
    cd kokoro-uiapi
    python3 -m venv venv
    . venv/bin/activate
    
  3. 安装依赖 pip3 install -r requirements.txt
  4. 启动 python3 app.py

在 pyVideoTrans 中使用

  1. 首先启动本项目,windows整合包双击 start.bat,源码安装的执行python3 app.py

  2. 升级 pyVideoTrans 到v3.48+,打开菜单–TTS设置-Kokoro TTS–http地址填写 http://127.0.0.1:5066

兼容openai API

api兼容 OpenAI TTS

启动后默认API地址:http://127.0.0.1:5066/v1/audio/speech

请求方法:POST
请求数据:
application/json

{
		input:需要配音的文字,
		voice:配音角色,
		speed:语速默认1.0
}

成功返回mp3音频数据

OpenAI SDK 使用示例

from openai import OpenAI
client = OpenAI(
    api_key='123456',
    base_url='http://127.0.0.1:5066/v1'
)

try:
    response = client.audio.speech.create(
		model='tts-1',
        input='你好啊,亲爱的朋友们',
        voice='zf_xiaobei',
        response_format='mp3',
        speed=1.0
	)
    with open('./test_openai.mp3', 'wb') as f:
        f.write(response.content)
    print("MP3 file saved successfully to test_openai.mp3")
except Exception as e:
    print(f"An error occurred: {e}")

角色列表

英语配音角色:


af_alloy
af_aoede
af_bella
af_jessica
af_kore
af_nicole
af_nova
af_river
af_sarah
af_sky
am_adam
am_echo
am_eric
am_fenrir
am_liam
am_michael
am_onyx
am_puck
am_santa
bf_alice
bf_emma
bf_isabella
bf_lily
bm_daniel
bm_fable
bm_george
bm_lewis

中文角色:

zf_xiaobei
zf_xiaoni
zf_xiaoxiao
zf_xiaoyi
zm_yunjian
zm_yunxi
zm_yunxia
zm_yunyang

日语角色:

jf_alpha
jf_gongitsune
jf_nezumi
jf_tebukuro
jm_kumo

法语角色: ff_siwis

意大利语角色: if_sara,im_nicola

印地语角色:hf_alpha,hf_beta,hm_omega,hm_psi

西班牙语角色:ef_dora,em_alex,em_santa

葡萄牙语角色:pf_dora,pm_alex,pm_santa

代理VPN

源码部署方式需从 huggingface.co 上下载音色pt文件,需提前设置全局代理或系统代理,确保可访问

也可以提前下载好模型解压到 app.py 所在目录下。

模型下载地址 https://github.com/jianchang512/kokoro-uiapi/releases/download/v0.1/moxing--jieya--dao--app.py--mulu.7z

Credit

使用AI模型翻译字幕

已经在使用AI做视频翻译,想要更上一层楼? 想要翻译质量更高,成本更低?那么,是时候了解一下国内顶级的AI大模型了!

Deepseek V3/R1、Qwen2.5 这些国产AI,在翻译方面表现出色,而且价格比国外大模型更有优势。 更棒的是,我们可以通过阿里百炼和硅基流动这两个“大模型集市”,用一个API Key就能轻松调用它们,并将它们无缝集成到视频翻译软件中。

本文将手把手教你如何操作,让你充分利用国产AI大模型,提升视频翻译的质量和效率!

一、阿里百炼:海量模型,总有一款适合你!

阿里百炼就像一个 AI 模型超市,汇集了阿里通义千问系列等众多优秀模型。最大的优势在于,价格很便宜,运行稳定。

  1. 登录阿里百炼平台:
    访问 https://bailian.console.aliyun.com 并登录。

  2. 浏览模型并复制名称:
    在模型列表中,你可以看到各种可用的 AI 模型,以及它们的价格信息。 qwen-max-latestqwen2.5-72b-instruct 模型目前翻译效果不错。

image.png

点击你感兴趣的模型的“查看详情”,找到并复制它的 模型名称

image.png

  1. 创建并复制 API Key:
    访问 API Key 管理页面 https://bailian.console.aliyun.com/?apiKey=1#/api-key 并创建一个新的 API Key。 复制这个 Key,后面会用到。

image.png

  1. 配置视频翻译软件:
    回到你的视频翻译软件,菜单中找到 翻译设置–>OpenAI ChatGPT API 设置页面,进行如下修改:

    • API URL: 填写 https://dashscope.aliyuncs.com/compatible-mode/v1
    • SK: 粘贴你刚才从阿里百炼复制的 API Key。
    • 填写所有可用模型: 填写你从阿里百炼复制的模型名称。
    • 选择模型: 在下拉框中选择你想使用的模型名称。

image.png

  1. 保存并测试:
    点击“保存”,然后测试一下翻译功能,看看是否一切正常。

二、探索硅基流动:又一个宝藏大模型平台

硅基流动和阿里百炼类似,也是一个大模型集市,提供多种选择。

  1. 登录硅基流动平台:

    访问 https://cloud.siliconflow.cn/models 并登录。

image.png

这里推荐 `Qwen2.5-72b` 模型,它在稳定性和价格之间取得了很好的平衡,翻译效果也很棒。

image.png

点击模型名称,在弹出的详情页中复制 模型名称

image.png

  1. 创建并复制 API Key:

image.png

  1. 配置视频翻译软件:
    同样,回到视频翻译软件,菜单中找到 翻译设置–>OpenAI ChatGPT API 设置页面:

    • API URL: 填写 https://api.siliconflow.cn/v1
    • SK: 粘贴你从硅基流动复制的 API Key。
    • 填写所有可用模型: 填写你复制的模型名称,如果想使用多个模型,可以用英文逗号分隔。
    • 选择模型: 在下拉框中选择你想使用的模型名称。
  2. 保存并测试:
    image.png

三、直连 Deepseek 官方渠道 (近期不稳定,暂不可用)

如果想体验原汁原味的 Deepseek 模型,可以试试官方渠道:

  1. 注册并获取 API Key:
    首先,前往 Deepseek 开放平台 https://platform.deepseek.com .

  2. 配置视频翻译软件:
    打开视频翻译软件,菜单中找到 翻译设置–>OpenAI ChatGPT API,我们稍作修改就能用上Deepseek:

    • API URL: 在 “API URL” 文本框中,填写 https://api.deepseek.com/v1
    • SK: 在 “SK” 文本框中,粘贴你刚才在 Deepseek 平台创建的 API Key。
  3. 选择模型:

    • 填写所有可用模型文本框内输入 deepseek-chat,deepseek-reasoner
    • 选择模型下拉框中选中你想要使用的模型deepseek-chat

    小贴士: deepseek-chat 是 V3 模型,适合日常翻译。deepseek-reasoner 是 R1 模型,更擅长逻辑推理,但速度可能稍慢。

    点击“保存”,大功告成!

image.png

四、选择你的翻译引擎

完成配置后,在视频翻译软件的 翻译渠道 选项中,选择 OpenAI ChatGPT 就能使用啦!

image.png

总结:

  • 阿里百炼: 价格便宜,很多模型都有免费额度,包括 Deepseek V3 和 R1。 稳定性也较高,强烈推荐!

    • API URL: https://dashscope.aliyuncs.com/compatible-mode/v1
  • 硅基流动: 又一个不错的选择,模型丰富。

    • API URL: https://api.siliconflow.cn/v1
  • Deepseek 官方渠道: 建议使用 deepseek-chat 模型,翻译效果不错。 但要注意 Deepseek API 平台近期可能不太稳定无法使用。

    • API URL:https://api.deepseek.com/v1

现在就开始尝试,用更优质、更经济的国产AI大模型,解锁你的视频翻译新姿势!

使用本地大模型翻译字幕

DeepSeek、Qwen 等开源 AI 大模型表现出色,借助 OllamaLM Studio 等工具,我们可以在本地轻松搭建大模型服务,并将其集成到各类 AI 应用中,比如视频翻译软件 。

然而,受限于个人电脑的显存,本地部署的大模型通常较小,例如 1.5B、7B、14B 或 32B。

DeepSeek 官方在线AI服务使用的 r1 模型,参数量高达 671 B。这种巨大的差异意味着本地模型的智能程度相对有限,无法像使用在线模型那样随意使用,否则可能遇到各种奇怪的问题,比如翻译结果中出现提示词、原文与译文混杂、甚至出现乱码等。

根本原因在于小模型智能不足,对复杂提示词的理解和执行能力较弱。

因此,在使用本地大模型进行视频翻译时,需要注意以下几点,才能获得较好的翻译效果:

一、正确配置视频翻译软件的 API 设置

将本地部署模型的 API 地址填写到视频翻译软件 翻译设置 –> 兼容 AI 及本地大模型 下的 API 接口地址中。通常,API 接口地址应以 /v1 结尾。

  • 如果你的 API 接口设置了 API Key,请将其填写到 SK 文本框中。 如果未设置,则随意填写一个值即可,例如 1234,但不要留空。
  • 将模型名称填写到 填写所有可用模型 文本框中。 注意: 某些模型名称后可能带有尺寸信息,例如 deepseek-r1:8b,末尾的 :8b 也需要一并填写。

image.png

image.png

二、优先选择参数量更大、更新的模型

  1. 建议选择参数量至少为 7B 的模型。如果条件允许,尽量选择大于 14B 的模型。当然,在计算机性能允许的情况下,模型越大效果越好。
  2. 如果使用通义千问系列模型,优先选择 qwen2.5 系列,而不是 1.5 或 2.0 系列。

image.png

三、取消勾选视频翻译软件中的“发送完整字幕”选项

除非你部署的模型尺寸大于等于 70B,否则勾选“发送完整字幕”可能会导致字幕翻译结果出错。

image.png

四、合理设置字幕行数参数

将视频翻译软件中的 传统翻译字幕行数AI 翻译字幕行数 都设置为较小的值,例如 1、5 或 10 等。 这样可以避免出现过多空白行的问题,并提高翻译的可靠性。

值越小,翻译出错的可能性越低,但翻译质量也会下降;值越大,虽然在不出错的情况下翻译质量更好,但也更容易出错。

image.png

五、简化提示词(Prompt)

当模型较小时,可能无法理解或指令遵从性较差。 此时,可以简化提示词,使其简单明了。

例如,默认的 软件目录/videotrans/localllm.txt 文件中的提示词可能较为复杂,当发现翻译结果不尽如人意时,可以尝试简化。

简化示例一:

# 角色
你是一个翻译助手,能够将<INPUT>标签内的文本翻译成{lang}。

## 要求

- 译文行数必须等于原文行数
- 按照字面意思翻译,不要解释原文。
- 仅返回译文,禁止返回原文。
- 如果无法翻译,请返回空行,不得道歉,不得解释原因。

## 输出格式:
直接输出译文,禁止输出任何其他提示,例如解释、引导字符等。

<INPUT></INPUT>

翻译结果:

简化示例二:

你是一个翻译助手,将以下文本翻译成{lang},保持行数不变,只返回译文,无法翻译则返回空行。

待翻译文本:
<INPUT></INPUT>

翻译结果:

简化示例三:

将以下文本翻译为{lang},保持行数一致。如果无法翻译,留空。

<INPUT></INPUT>

翻译结果:

你还可以根据实际情况进一步简化和优化提示词。

通过以上几点优化,即使是较小的本地大模型,也能在视频翻译中发挥更大的作用,减少错误,提升翻译质量,为你带来更好的本地 AI 使用体验。

为edge-tts添加动态代理

想让你的文字“开口说话”,而且声音自然逼真、媲美真人?微软 Edge 浏览器内置的“大声朗读”功能就能做到!它支持几十种语言和多种音色,关键是完全免费。

基于此功能的开源项目 edge-tts 也广受欢迎,许多免费的文字转语音工具都是基于它开发的。但随着用户增多,微软已对配音请求进行限流。现在,使用量稍大就会遇到 403 错误,导致无法继续合成语音。

如何避免或减少 403 错误?

由于这是微软提供的 API 服务,而非开源项目,本地部署是行不通的。无论如何,语音合成都必须连接到微软的服务器。

  1. 部署到 Cloudflare: 可以降低 403 错误的发生频率,但无法完全避免。

  2. 使用动态 IP 代理: 每隔几分钟自动更换 IP,能有效避免 403 错误。稳定性取决于动态 IP 的质量。如果动态 IP 可靠性为 97%,那么 edge-tts 的可用性也能达到 97%。

    • 这似乎是目前最佳的解决方案。当然,优质的动态 IP 代理服务通常是需要付费的。免费代理往往质量不佳,无法满足需求。

那么,如何配置动态 IP 代理,又有哪些服务值得推荐呢?

动态IP 无法保证百分百可用,真实可用可能仅在 85%-95%

这里以我个人使用过的 Proxy302 为例。它提供国外家庭住宅 IP,大约每 5 分钟切换一次,按流量计费(1.5 美元/GB)。

下面是详细的开通和使用步骤:

一、注册账号

  1. 访问 302AI 注册账号,该账号及余额与 Proxy302 通用。之所以推荐从 302AI 注册,是因为它的最低充值额为 5 美元,而 Proxy302 的最低充值额为 20 美元。初次尝试,建议先小额充值,以降低风险。

  2. 打开该链接注册: https://gpt302.saaslink.net/teRK8Y
    使用邮箱注册账号,并完成邮箱验证。

  3. 充值余额:按下图示意充值,最低充值 5 美元。

image.png

二、登录 Proxy302.com

充值完成后,使用相同的账号密码登录 https://dash.proxy302.com/login

登录后即可看到余额。

image.png

三、创建动态 IP 代理地址

  1. 按上图所示点击左侧导航栏的 动态IP(短效) –> 按流量扣费

  2. 再依次点击 通用代理生成 –> 生成通用代理,如下图。

image.png

  1. 生成后在下方的 已有代理–>已购代理 中,可看到新生成的代理地址。点击地址后方的 help 按钮,设置代理 IP 所属国家,并复制代理地址。

image.png

  1. 如下图,在国家中选择 United States (US),点击生成随机 Session,并复制最底部的地址。

重要提示: 每次需要复制代理地址时,务必点击 help 按钮进行复制。

image.png

四、将代理地址应用于视频翻译软件

首先必须将视频翻译软件升级到 v3.50 版本。

  1. pyVideoTrans 视频翻译软件的 sp.exe 同级目录下(如果是源码部署,则在 sp.py 所在目录下),创建一个名为 edgetts.txt 的纯文本文件。

  2. 将上一步复制的代理地址粘贴到 edgetts.txt 文件中,并保存,如下图。

image.png

现在,你就可以尝试使用 edge-tts 进行语音合成了。

按照流量计费,粗估 1 元人民币约可合成 3-5 小时语音(若遇错重试将增加费用,实际费用请自行测试,此仅供参考)

主流AI大模型介绍

相比传统翻译,使用 AI 作为翻译渠道具有显著优势。OpenAI ChatGPT、Gemini、Claude 在翻译质量上表现出色,但它们需要 VPN,且付费需要国外信用卡支付,使用门槛较高,对国内用户来说并不友好。

值得庆幸的是,国内 AI 技术也在飞速发展,这些国内 AI 服务的 API 接口完全兼容 OpenAI SDK,这意味着你可以无需修改任何代码,即可无缝替换 OpenAI。例如 Deepseek、阿里百炼、智谱 AI、百川智能、硅基流动等。

你只需要将 API URLSK (API Key)模型名字 这 3 项关键信息填写到软件的 菜单 – 翻译设置 – OpenAI ChatGPT API 中,即可立即开始使用。

无需复杂的配置,即使是零基础的小白也能轻松上手!

image.png

Deepseek 深度求索

这是 Deepseek的官方 API 服务,不过近期不稳定

image.png
官网地址:https://www.deepseek.com

API KEY(SK)获取地址: https://platform.deepseek.com/api_keys

API URL: https://api.deepseek.com/v1

可用模型: deepseek-chat :即v3模型 、 deepseek-reasoner即R1推理模型

智谱AI

官网地址: https://bigmodel.cn

API KEY(SK)获取地址: https://bigmodel.cn/usercenter/proj-mgmt/apikeys

API URL:https://open.bigmodel.cn/api/paas/v4

可用模型: glm-4-plus、glm-4-air、glm-4-air-0111 、glm-4-airx、glm-4-long 、glm-4-flashx 、glm-4-flash

注意:glm-4-flash 是免费模型,无需任何花费,其他模型为收费,需保证账号内有余额

image.png

百川智能

官网地址: https://www.baichuan-ai.com

API KEY(SK)获取地址: https://platform.baichuan-ai.com/console/apikey

API URL: https://api.baichuan-ai.com/v1

可用模型:Baichuan4-Turbo 、Baichuan4-Air、Baichuan4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Baichuan2-Turbo

image.png

月之暗面 Kimi

官网:https://www.moonshot.cn

API KEY(SK)获取地址: https://platform.moonshot.cn/console/api-keys

API URL: https://api.moonshot.cn/v1

可用模型: moonshot-v1-8k、moonshot-v1-32k 、moonshot-v1-128k

image.png

零一万物

官网:https://lingyiwanwu.com

API KEY获取地址: https://platform.lingyiwanwu.com/apikeys

API URL: https://api.lingyiwanwu.com/v1

可用模型: yi-lightning

image.png

阿里百炼

阿里百炼是AI模型集市,提供了所有阿里系模型及其他厂家模型,包括 Deepseek-r1

官网地址:https://bailian.console.aliyun.com

API KEY(SK)获取地址: https://bailian.console.aliyun.com/?apiKey=1#/api-key

API URL: https://dashscope.aliyuncs.com/compatible-mode/v1

可用模型: 众多,具体查看 https://bailian.console.aliyun.com/#/model-market

image.png

硅基流动

又是一个类似阿里百炼的AI集市,提供了国内主流模型,包括 deepseek-r1

官网地址:https://siliconflow.cn

API KEY(SK)获取地址: https://cloud.siliconflow.cn/account/ak

API URL: https://api.siliconflow.cn/v1

可用模型: 众多,具体查看 https://cloud.siliconflow.cn/models?types=chat

注意:硅基流动提供了 Qwen/Qwen2.5-7B-Instruct 免费模型,无需花费可直接使用

image.png

字节火山方舟

类似阿里百炼的AI集市,除了汇集豆包系列模型,还有一些第三方模型,包括 deepseek-r1

官网:https://www.volcengine.com/product/ark

API KEY(SK)获取地址: https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey

API URL: https://ark.cn-beijing.volces.com/api/v3

MODELS: 众多,具体查看 https://console.volcengine.com/ark/region:ark+cn-beijing/model?vendor=Bytedance&view=LIST_VIEW

注意:字节火山方舟对OpenAI SDK 的兼容性有点奇葩,不可直接填写模型名,需要提前在火山方舟控制台创建推理点,在推理点中选择要使用的模型,然后将推理点id填写到需要模型的地方,即软件中,如果觉得麻烦可以忽略,除了价格略低,并无其他优势。
查看如何创建推理点 https://www.volcengine.com/docs/82379/1099522

image.png

其他兼容 OpenAI API 的使用方法

本文仅列出部分AI使用方法,其他只要兼容 OpenAI API的服务均可使用类似方法,只要确定 API 接口地址SK 以及 模型名称 即可。

注意 API URL 一般以 /v1结尾。

DeepSeek满血推荐

想免费体验 671B 满血版 Deepseek-r1 网页加 API 调用?市面上选择不多!

  • deepseek.com官方,网页版免费并且效果最佳,无免费api额度,并且当前已暂停充值。
  • 字节火山方舟/硅基流动等:提供 R1 满血版和 API,但没有免费额度。
  • 百度智能云千帆 ModelBuilder:限时免费提供 R1 满血版和 API,可惜接口不兼容 OpenAI,使用不方便。
  • 302.ai及其他云服务商,基本都是提供网页版部分免费额度,但不提供api免费额度

综合体验下来,目前真正有足够免费额度,且提供满血 R1 及兼容 OpenAI API 调用的,我只找到了:腾讯云Ti平台 和 阿里云百炼

平台网页版免费体验API 免费调用API兼容OpenAI备注
字节火山方舟付费api需付费/网页体验部分免费额度
硅基流动付费需付费
302.AI部分免费额度付费需付费
百度智能云千帆 ModelBuilder限时免费
腾讯云大模型免费到 2-26日
阿里云百炼免费100万token

阿里云百炼

开通流程及 API 使用说明

一、服务开通

  1. 注册与登录: 访问 阿里云百炼控制台 https://bailian.console.aliyun.com ,注册阿里云账号并登录。
  2. 实名认证: 按照提示完成实名认证。
  3. API Key 创建: 进入 API Key 管理页面,创建新的 API Key https://bailian.console.aliyun.com/?apiKey=1

二、API 资源与限制

  1. 免费额度: 100 万 Token 的免费调用额度。
  2. 调用限制:
    • 每分钟调用次数上限:60 次
    • 每分钟最大 Token 消耗量:100,000

三、OpenAI 兼容 API

为了方便开发者使用,阿里云百炼提供了与 OpenAI API 兼容的接口:

  • API URL: https://dashscope.aliyuncs.com/compatible-mode/v1
  • API Key (SK): 使用您在“API Key 管理页面”创建的 API Key。
  • 可用模型: deepseek-r1deepseek-v3

腾讯云大模型知识引擎

开通流程及 API 使用说明

一、服务开通

  1. 账号注册与登录: 访问 腾讯云控制台 https://console.cloud.tencent.com ,注册腾讯云账号并登录。
  2. 实名认证: https://console.cloud.tencent.com/developer/auth 根据页面提示完成实名认证流程。
  3. 大模型知识引擎服务开通:

image.png
4. API Key 创建:
* 进入大模型知识引擎控制台。
* 在 API 密钥管理页面创建新的 API Key。

image.png

image.png

  1. API Key 复制: 复制已创建的 API Key。

image.png

二、OpenAI 兼容 API

腾讯云大模型提供兼容 OpenAI API 的接口:

  • API URL: https://api.lkeap.cloud.tencent.com/v1
  • API Key (SK): 使用您在上一步复制的 API Key。
  • 可用模型: deepseek-r1deepseek-v3

三、在线体验

您可以通过以下地址在线体验 DeepSeek 系列模型:

https://console.cloud.tencent.com/tione/v2/aimarket/detail/deepseek_series?detailTab=deep_seek_v1&regionId=4

首次访问可能需要申请模型使用权限。
image.png

四、免费额度及有效期

  • 免费期限: 截止至北京时间 2025 年 2 月 25 日 23:59:59。
  • 收费说明: 免费期结束后,将按照实际用量进行收费。
    image.png

Openweb-ui部署与整合包下载

想本地部署 Qwen 2.5、Llama 3、DeepSeek-R1 这些强大的开源 AI 模型,却苦于没有简单易用的方法?

别担心!Ollama + Open WebUI 这对黄金组合,将为你扫清一切障碍。

本文将提供保姆级教程,详细介绍如何利用 Ollama + Open WebUI,轻松搭建本地 AI 环境,让你拥有一个专属的、强大的 AI 助手,尽情探索 AI 的无限可能!

温馨提示: 受限于硬件条件,本地部署通常无法运行 DeepSeek-R1 的最大版本(如 67B)。但别担心,较小规模的模型(如 1.3B 或 7B)在大多数个人电脑上也能流畅运行,并提供出色的推理能力。更重要的是,你可以根据自己的需求,选择最适合你的版本!

为什么选择 Ollama + Open WebUI?

在众多本地部署方案中,Ollama + Open WebUI 组合脱颖而出,成为众多 AI 爱好者的首选。它们究竟有何魅力?

  • Ollama:化繁为简的模型引擎
    • Ollama 就像一个“AI 模型百宝箱”,只需一条命令,就能下载、安装、运行各种主流的大型语言模型,如 Llama 3、DeepSeek-R1!
  • Open WebUI:优雅易用的交互界面
    • Open WebUI 为 Ollama 披上了一层华丽的外衣。它提供了一个美观、直观的 Web 界面。
    • 完全开源且免费

。部署完成后,只需在浏览器中打开 http://127.0.0.1:8080,即可开始与你的 AI 助手对话:

image.png

Windows 用户专享:一键启动整合包,告别繁琐配置!

考虑到 Windows 用户在配置 Docker 环境时可能遇到的困难,我们贴心地准备了整合包,下载解压即可使用,真正做到“开箱即用”!

  1. 下载整合包并解压:

    整合包下载地址 https://www.123684.com/s/03Sxjv-4cTJ3

    0.webp

    • 如果你尚未安装过 Ollama,请先双击整合包内的 ollama-0.1.28-setup.exe 文件进行安装。安装过程非常简单,只需一路点击“Next”(下一步)即可。
  2. 启动 WebUI:

    • 双击整合包内的 启动webui.bat 文件,即可启动 Open WebUI。

    image.png

    • 首次启动时,系统会提示你设置一个管理员账号。请按照提示完成注册。

    1.webp

选择想使用的模型

进入 Open WebUI 后,你将在左上角看到模型选择区域。如果列表中没有模型,别担心,这说明你还没有下载过任何模型。

3.webp

你可以直接在输入框中输入模型名称,从 Ollama.com 在线下载:

4.webp

模型选择小贴士:

  • 模型宝库: 前往 https://ollama.com/models 浏览 Ollama 官方提供的丰富模型资源。
  • 参数规模: 每个模型都有不同版本(例如 1.3B、7B、67B 等),代表不同的参数规模。参数越多,模型通常越强大,但也需要更多的计算资源(内存和显存)。
  • 量力而行: 根据你的硬件配置选择合适的模型。一般来说,如果你的“内存 + 显存”大小大于模型文件大小,就可以流畅运行该模型。
  • Deepseek-R1的选择: 在Ollama的模型库中搜索deepseek-r1即可找到

6.webp

以部署 deepseek-r1 模型为例:

  1. 选择模型规格:https://ollama.com/library 页面,找到你想要部署的模型版本(例如 deepseek-r1)。
    image.png

  2. 下载模型: 将模型名称(例如 deepseek-r1)粘贴到 Open WebUI 左上角的输入框中,点击“从 ollama.com 拉取”按钮,开始下载。

    image.png

  3. 等待下载完成: 下载时间取决于你的网络速度和模型大小,请耐心等待。

    image.png

开启你的 AI 之旅

模型下载完成后,你就可以在 Open WebUI 中与 DeepSeek-R1 畅快对话了!尽情探索它的强大功能吧!

10.webp

如果模型支持,你还可以上传图片、文件等,进行多模态交互。让你的 AI 助手不仅能说会道,还能“看图识字”!

image.png

进阶探索:Open WebUI 的隐藏宝藏

Open WebUI 的功能远不止于此!点击左上角的菜单按钮,你会发现更多惊喜:

image.png

  • 个性化定制: 在“设置”面板中,你可以根据自己的喜好调整界面主题、字体大小、语言等,打造专属的 AI 交互体验。

    • 你还可以自定义提示词,让 AI 助手更懂你的心意!

    image.png

  • 多用户管理: 在“管理员”面板中,你可以设置用户注册方式、权限等,方便多人共享你的本地 AI 资源。

    image.png

  • 调整详细参数: 右上角点击可设置高级参数

image.png

多模型对比:谁更胜一筹?

Open WebUI 还支持多模型对比功能,让你轻松比较不同模型的输出结果,找出最符合你需求的那个!

image.png

GPU 加速:榨干你的显卡性能!(可选)

如果你拥有 NVIDIA 显卡,并且已经安装了 CUDA 环境,那么恭喜你,你可以通过简单的操作,让 Ollama 利用 GPU 加速模型推理,大幅提升 AI 助手的响应速度!

  • 双击整合包内的 GPU-cuda支持.bat 文件,安装 CUDA 依赖。

Ollama + Open WebUI,这对黄金组合,为你打开了一扇通往本地 AI 世界的大门。现在,你可以摆脱云端束缚,打造真正属于自己的 AI 智囊团,尽情探索 AI 的无限可能!

OpenRouter大模型集市

AI 已渗透到我们工作和娱乐的方方面面,无论是国外的 OpenAI、Gemini、Claude 三巨头,还是国内的 DeepSeek、智谱 AI、通义千问、Kimi等,各大厂商都提供了强大的 AI 模型。

然而,一个令人头疼的问题是,每使用一个平台的模型,我们就需要注册一个账号,甚至需要绑定支付方式。想要使用 ChatGPT?你需要 OpenAI 账号。想体验 Gemini?你需要 Google 账号。

当然,市场上也有一些 AI 聚合平台,如阿里云的百炼、字节跳动的火山方舟等。但它们主要侧重于自家的模型,缺乏国外顶尖模型。硅基流动虽然提供了一些国外模型,但并不全面,缺少 OpenAI 和 Claude 等热门选择。

有没有一个平台,既能提供国内外主流的 AI 模型,又能方便国内用户使用呢?答案是肯定的,那就是 OpenRouter.ai

OpenRouter.ai 的优势:

  • 国内可直接访问,速度稳定:无需特殊网络环境,即可流畅使用。
  • 模型齐全:囊括国内外主流 AI 模型,包括 OpenAI、Google、Claude、Deepseek、Qwen 等。
  • 免费额度:提供每日免费请求额度,让你轻松体验各种模型。

1. 免费注册与登录

访问 OpenRouter.ai 官网: https://openrouter.ai

  • 如果你有 Google 账号,可以直接使用 Google 账号登录。
  • 如果没有,点击“Sign up”使用邮箱注册。

注册登录

image.png

注册后打开你的邮箱,点击验证邮箱中的链接,就可以登录了。

2. 创建 API 密钥

登录后,进入 API 密钥管理页面:https://openrouter.ai/settings/keys

创建 API Key

点击“Create Key”创建新的 API 密钥。

创建

复制生成的 API 密钥,妥善保管。

复制 API Key

3. 探索免费模型

访问 OpenRouter.ai 的模型列表页面: https://openrouter.ai/models

如下图筛选出所有免费模型。

筛选免费模型

你会看到许多带有 (free) 标识的模型,这些都是可以免费使用的,包括满血版 DeepSeek:R1

免费模型列表

免费额度说明:

OpenRouter.ai 为每个用户提供每日 200 次的免费请求额度。

免费额度

4. 使用 OpenRouter.ai 替换 OpenAI

选择一个你感兴趣的模型,复制模型名称(Model Name)。

image.png

现在,你可以在任何支持 OpenAI API 格式的应用或代码中,通过以下方式使用 OpenRouter.ai:

  • API 地址https://openrouter.ai/api/v1
  • API 密钥 (SK):你之前复制的 OpenRouter.ai API 密钥
  • 模型名称:你刚刚复制的模型名称

5. 特别推荐:免费体验满血版 DeepSeek-R1

OpenRouter.ai 还提供了一个特别的模型:deepseek/deepseek-r1:free

访问:https://openrouter.ai/deepseek/deepseek-r1:free

DeepSeek-R1

这是一个满血版的 DeepSeek-R1 推理模型,完全免费调用!

6. 实例:在 pyVideoTrans 中使用 OpenRouter.ai

以 pyVideoTrans 这款视频翻译软件为例,演示如何在实际应用中使用 OpenRouter.ai:

  1. 打开软件,进入“菜单”->“OpenAI ChatGPT API”。
  2. 在“API URL”中填写:https://openrouter.ai/api/v1
  3. 在“SK”中填写你的 OpenRouter.ai API 密钥。
  4. 在“填写所有可用模型”中粘贴你复制的模型名称。
  5. 点击“保存”即可。

image.png

302.AI大模型集市使用

众所周知国内无法直接使用 OpenAI/Gemini/Claude 三巨头的 API 服务,想使用需魔法上网并有国外信用卡,要么使用第三方中转api服务。第三方中转api一般比较便宜,但质量和稳定性可能靠不住,也可能随时跑路。

之前也推荐过一些国内api服务商,例如

阿里百炼 https://bailian.console.aliyun.com

硅基流动 https://cloud.siliconflow.cn

字节火山方舟 https://console.volcengine.com/ark

OpenRouter https://openrouter.ai

目前国内可直连无需vpn的AI大模型市场,最齐全的似乎首数 302.AI。聚齐了国内外各主流模型,从语言模型到图片生成、音频视频生成、语音合成、语音识别等都存在,几乎叫的出名字的AI大模型都可在此使用。

  • 无需魔法,国内直连,注册即赠 1美元额度
  • 全球模型,一网打尽: 不仅囊括 OpenAI、Gemini、Claude 三巨头,还整合了国内各大主流模型,如 Qwen、Deepseek 等。
  • 全方位 AI 能力: 覆盖语言模型、图像生成、音频视频生成、语音合成、语音识别等全方位 AI 能力。
  • OpenAI API 兼容: 语言类模型完美兼容 OpenAI API 格式,可直接替换 ChatGPT 类调用。
  • 价格与官方一致: 顶级模型(如 GPT-4 系列)价格与 OpenAI 官方保持一致。

模型阵容

🌍 国外 AI 三巨头
image.png

国内主流 AI 模型

image.png

Deepseek-r1 满血

image.png

🎨 从文字生成图片模型

image.png

🎬 从文字生成视频模型

image.png

🎤 语音合成/语音识别/语音克隆

image.png

🔑 快速上手指南:

  1. 注册 & 创建 API Key:

image.png

温馨提示: 若左侧未显示 API 选项,请点击“个人中心”,将地址设置为“海外”。

image.png

  1. 替换 API 信息:

    • API 接口地址:https://api.302.ai/v1
    • API Key: 您创建的 API Key
    • 模型名称: 填写您想使用的模型名称(支持所有 OpenAI/Gemini/Claude 模型)
  2. 尽情体验!

    以 pyVideoTrans 视频翻译软件为例:

image.png

OpenAI SDK 使用示例:

from openai import OpenAI
client = OpenAI(
    api_key='sk-123456',  # 替换为您的 API Key
    base_url='https://api.302.ai/v1'
)

completion = client.chat.completions.create(
    model="gpt-4o",  # 可替换为您想使用的模型
    messages=[
        {"role": "system", "content": "你是srt字幕翻译助手."},
        {
            "role": "user",
            "content": "将<INPUT>标签内的srt字幕翻译为英语,确保输出符合 EBU-STL 标准的SRT字幕内容<INPUT>............</INPUT>"
        }
    ]
)

print(completion.choices[0].message.content)

💰 价格一览:

  • 顶尖模型: 与 OpenAI/Gemini/Claude 官方价格一致。
  • 部分自部署模型: 更具价格优势。

详细价格列表,请点击此处查看 https://302.ai/pricing

image.png

点击这里,注册体验 https://gpt302.saaslink.net/teRK8Y

小红书开源的语音识别模型使用与整合包下载

小红书开源了一款名为 FireRedASR 的语音自动识别项目,它在中文语音识别方面表现出色。此前,他们只开源了一个较小的 AED 模型。最近,他们又发布了一个更大的 LLM 模型,识别准确率得到了进一步提升。

这款 ASR 模型已经集成到整合包中,可以在视频翻译软件(pyVideoTrans)中方便地使用。

整合包下载及模型说明

模型体积:

  • AED 模型 (model.pth.tar): 4.35GB
  • LLM 模型: 包含两个模型
    • 小红书识别模型 (model.pth.tar):3.37GB
    • Qwen2-7B 模型 (4个文件):合计 17GB

模型总计约 21GB。即使压缩成 7z 格式,体积仍然超过 10GB。体积限制无法上传到GitHub或网盘,因此整合包中仅包含程序主体,不包含任何模型文件。

请您下载整合包后,按照以下步骤单独下载模型文件,并将其放入指定位置。

注意: 模型文件托管在 huggingface.co 网站上,该网站在国内无法直接访问,您需要魔法上网才能下载。

整合包主体下载

整合包主体体积相对较小,1.7G。您可以在浏览器中直接打开以下地址下载:

https://github.com/jianchang512/fireredasr-ui/releases/download/v0.3/fireredASR-2025-0224.7z

下载完成后,解压压缩包,您应该看到类似下图的文件结构:

下载 AED 模型

AED 模型的下载比较简单,只需下载一个模型文件。

  1. 下载 model.pth.tar 文件。

    下载地址:

    https://huggingface.co/FireRedTeam/FireRedASR-AED-L/resolve/main/model.pth.tar?download=true

  2. 将下载的 model.pth.tar 文件放入整合包目录下的 pretrained_models/FireRedASR-AED-L 文件夹内。

下载完成后,文件存放位置示例如下:

下载 LLM 模型

LLM 模型的下载稍微复杂一些,需要下载共 5 个文件(1个小红书模型 + 4个 Qwen2 模型)。

1. 下载小红书模型 (model.pth.tar):

文件存放位置示例如下:

2. 下载 Qwen2 模型 (4个文件):

下载完成后,Qwen2-7B-Instruct 文件夹内应包含 4 个文件,如下图所示:

启动整合包

当所有模型文件下载完成并正确放置后,双击运行整合包目录下的 启动.bat 文件即可启动程序。

程序启动后,会自动在浏览器中打开地址 http://127.0.0.1:5078。如果看到如下界面,则表示程序已成功启动,可以开始使用了。

在视频翻译软件中使用

如果您想在视频翻译软件 pyVideoTrans 中使用 FireRedASR 模型,请按照以下步骤操作:

  1. 确保您已按照上述说明下载并放置了模型文件,并已成功启动整合包。

  2. 打开 pyVideoTrans 软件。

  3. 在软件菜单中,依次选择 菜单 -> 语音识别设置 -> OpenAI语音识别及兼容AI

  4. 在设置界面中,按照下图所示填写相关信息。

  5. 填写完成后,点击 保存

  6. 在语音识别渠道选择中,选择 OpenAI语音识别

API 地址:

默认地址: http://127.0.0.1:5078/v1

OpenAI SDK中使用

from openai import OpenAI
client = OpenAI(api_key='123456',
    base_url='http://127.0.0.1:5078/v1')

audio_file = open("5.wav", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1",
  file=audio_file,
  response_format="json",
  timeout=86400
)

print(transcript.text)

常用顶级AI大模型

自 OpenAI ChatGPT-3 爆火后,AI领域发展迅速,涌现出不少优秀的AI服务,幸运的是,大多都兼容OpenAI SDK 格式,无需改动代码,直接修改 API URL、API KEY、模型名字即可无缝替换。

以下整理了几个常用的 AI服务商及AI大模型市场信息,方便替换使用。包括国外和国内,以及是否有免费额度等。

API URL 是指在使用中需要指定的 api 接口地址
API KEY 是指调用该接口的密钥/SK
AI模型市场一般支持众多模型,可打开模型详情页查看
API 免费额度是指:是否允许在未付费情况下,通过代码调用。

OpenAI(当世最佳)

使用需VPN,付费需国外信用卡

官网: https://chatgpt.com/auth/login

API KEY获取地址: https://platform.openai.com/api-keys

API URL: https://api.openai.com/v1

可用模型: https://platform.openai.com/docs/models

API免费额度: 每分钟最多3次请求。每日最多200次请求

Gemini(Google出品)

使用需VPN,付费需国外信用卡

官网: https://aistudio.google.com

API KEY获取地址: https://aistudio.google.com/apikey

API URL: https://generativelanguage.googleapis.com/v1beta/openai/

可用模型: gemini-2.0-flash/gemini-1.5-flash/gemini-2.0-pro-exp-02-05/gemini-1.5-pro

API免费额度: 每日 1500 次调用

Claude

使用需VPN,付费需国外信用卡

官网: https://claude.ai

API KEY地址: https://console.anthropic.com/settings/keys

API URL: https://api.anthropic.com/v1

可用模型: https://docs.anthropic.com/en/docs/about-claude/models

API免费额度: 无免费额度

XAI(马斯克的)

需VPN,付费需国外信用卡

官网: https://x.ai

API KEY地址: https://console.x.ai

API URL: https://api.x.ai/v1

可用模型: grok-2-1212、grok-2-vision-1212

API免费额度: 充值5美元后,美元可获赠 $150 额度

groq(ai模型市场)

需VPN,付费需国外信用卡

官网: https://console.groq.com

API KEY地址: https://console.groq.com/keys

API URL: https://api.groq.com/openai/v1

可用模型: 众多 https://console.groq.com/docs/models

API免费额度: 大多模型均有免费额度,每日1000到10000不等

openrouter.ai(ai模型市场)

官网: https://openrouter.ai

API KEY地址: https://openrouter.ai/settings/keys

API URL: https://openrouter.ai/api/v1

可用模型: 众多,https://openrouter.ai/models

API免费额度: 有免费模型,每日200次调用

Deepseek 深度求索

这是 Deepseek的官方 API 服务,不过近期不稳定

官网地址: https://www.deepseek.com

API KEY(SK)获取地址: https://platform.deepseek.com/api_keys

API URL: https://api.deepseek.com/v1

可用模型: deepseek-chat :即v3模型 、 deepseek-reasoner即R1推理模型

智谱AI

官网地址: https://bigmodel.cn

API KEY(SK)获取地址: https://bigmodel.cn/usercenter/proj-mgmt/apikeys

API URL: https://open.bigmodel.cn/api/paas/v4

可用模型 : glm-4-plus、glm-4-air、glm-4-air-0111 、glm-4-airx、glm-4-long 、glm-4-flashx 、glm-4-flash

API免费额度: glm-4-flash 是免费模型

百川智能

官网地址: https://www.baichuan-ai.com

API KEY(SK)获取地址: https://platform.baichuan-ai.com/console/apikey

API URL: https://api.baichuan-ai.com/v1

可用模型: Baichuan4-Turbo 、Baichuan4-Air、Baichuan4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Baichuan2-Turbo

月之暗面 Kimi

官网: https://www.moonshot.cn

API KEY(SK)获取地址: https://platform.moonshot.cn/console/api-keys

API URL: https://api.moonshot.cn/v1

可用模型: moonshot-v1-8k、moonshot-v1-32k 、moonshot-v1-128k

零一万物

官网: https://lingyiwanwu.com

API KEY获取地址: https://platform.lingyiwanwu.com/apikeys

API URL: https://api.lingyiwanwu.com/v1

可用模型: yi-lightning

阿里百炼(ai模型市场)

阿里百炼是AI模型集市,提供了所有阿里系模型及其他厂家模型,包括 Deepseek-r1

官网地址: https://bailian.console.aliyun.com

API KEY(SK)获取地址: https://bailian.console.aliyun.com/?apiKey=1#/api-key

API URL: https://dashscope.aliyuncs.com/compatible-mode/v1

可用模型: 众多,具体查看 https://bailian.console.aliyun.com/#/model-market

API免费额度: 多数模型有免费额度

硅基流动(ai模型市场)

又是一个类似阿里百炼的AI集市,提供了国内主流模型,包括 deepseek-r1

官网地址: https://siliconflow.cn

API KEY(SK)获取地址: https://cloud.siliconflow.cn/account/ak

API URL: https://api.siliconflow.cn/v1

可用模型: 众多,具体查看 https://cloud.siliconflow.cn/models?types=chat

API免费额度: 有免费模型,无需花费可直接使用

302.AI(ai模型市场)

又是一个类似阿里百炼的AI集市,提供了国内主流模型,包括 deepseek-r1

官网地址: https://302.AI

API KEY(SK)获取地址: https://dash.302.ai/apis/list

API URL: https://api.302.ai/v1

可用模型: 众多,具体查看 https://302ai.apifox.cn/api-147522039

字节火山方舟(ai模型市场)

类似阿里百炼的AI集市,除了汇集豆包系列模型,还有一些第三方模型,包括 deepseek-r1

官网: https://www.volcengine.com/product/ark

API KEY(SK)获取地址: https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey

API URL: https://ark.cn-beijing.volces.com/api/v3

MODELS: 众多,具体查看 https://console.volcengine.com/ark/region:ark+cn-beijing/model?vendor=Bytedance&view=LIST_VIEW
API免费额度: 有免费额度

注意:字节火山方舟对OpenAI SDK 的兼容性有点奇葩,不可直接填写模型名,需要提前在火山方舟控制台创建推理点,在推理点中选择要使用的模型,然后将推理点id填写到需要模型的地方,即软件中,如果觉得麻烦可以忽略,除了价格略低,并无其他优势。
查看如何创建推理点 https://www.volcengine.com/docs/82379/1099522

其他兼容 OpenAI API 的使用方法

本文仅列出部分AI使用方法,其他只要兼容 OpenAI API的服务均可使用类似方法,只要确定 API 接口地址SK 以及 模型名称 即可。

注意 API URL 一般以 /v1结尾。

优化字幕翻译

现在AI越来越厉害,价格也越来越亲民,用AI来翻译字幕,比传统的百度翻译、Google翻译又快又便宜!翻译效果好不好,除了看AI模型本身够不够“聪明”,关键还得看你给它的“指令”(也就是提示词)写得怎么样。

虽然视频翻译软件里会有一些自带的“指令”,但你完全可以根据自己的经验来改,效果肯定更好!这篇文章就来聊聊AI翻译是怎么回事,用的时候要注意些什么,还会分享几个好用的“指令”给大家参考。

在视频翻译软件中,AI翻译提示词有3种类型,分别是:

image.png

默认不发送完整字幕

即仅仅将字幕中的文本行发给AI进行翻译,不发送行号、时间行、空行

优点: 节省token,降低API调用费率

缺点: 严格要求译文行数等于原文行数,但由于不同语言语法和语序差异,译文可能会出现合并,导致译文出现一些空白行。

例如原文10行,期望翻译结果也是10行,但实际结果可能是8行或9行,因为不同语言语法、语序差异,AI可能将相邻两行原文翻译为一行译文,导致最后出现空白行。

示例原文2行内容

星期六时,
我们去吃火锅吧.

期望翻译结果也是两行,然而AI很可能将之翻译为一行,如下

Let's go for hot pot on Saturday
[这是空白行]

即便通过提示词强行要求行对应,AI也未必严格遵循。

发送完整字幕

将完整的字幕内容,包括行号、时间行、字幕文本、空行一起发给AI进行翻译

优点: 可大幅减少上述空白行出现的几率。

缺点:

  • 无法彻底杜绝空白行的出现。
  • 行号和时间行并不需要翻译,但仍然需发送和返回,浪费token,增加AI费用。

三步反思法翻译:

始于吴恩达的三步反思式翻译法,有 直译--反思--意译 3个阶段,能取得较高的翻译质量,不过随着大模型智能程度的不断提升,尤其是类似 Deepseek-r1/o3等推理模型的使用,并无太大必要继续使用该方式,因此将三步反思改为了校验内容和排版。

如何尽量提升翻译质量:

  • 使用更先进、更新的模型,例如Deepseek-r1chatgpt-o3qwen2.5-max
  • 选中发送完整字幕三步反思法翻译可选可不选
  • 如果使用的是有思维链的模型,例如deepseek-r1/o3,将发送字幕行数降低,防止输出token过多被截断,从而报错。在菜单--工具/高级选项--高级选项--AI翻译每次发送字幕行数中设置数量,如下。

image.png

默认不发送完整字幕:提示词

可复制以下提示词,然后替换软件目录/videotrans/{AI渠道名字}.txt 中的内容,实现更新

image.png

# 角色:
你是一个多语言翻译器,擅长将文字翻译到 {lang},并输出译文。

## 规则:
- 翻译使用口语化表达,确保译文简洁,避免长句。
- 遇到无法翻译的行,直接原样返回,禁止输出错误信息或解释。
- 一行原文必须翻译为一行译文,两行原文必选翻译为两行译文,以此类推。严禁将一行原文翻译为两行译文,也不可将两行原文翻译为一行译文。
- 必须保证译文行数与原始内容行数相等。

## 限制:
- 按字面意思翻译,不要解释或回答原文内容。
- 仅返回译文即可,不得返回原文。
- 译文中保留换行符。

## 输出格式
使用以下 XML 标签结构输出最终翻译结果:
<TRANSLATE_TEXT>
[翻译结果]
</TRANSLATE_TEXT>

## 输出示例:
<TRANSLATE_TEXT>
[{lang}译文文本]
</TRANSLATE_TEXT>

## 输入规范
处理<INPUT>标签内的原始内容。


<INPUT></INPUT>

发送完整字幕:提示词

可复制以下提示词,然后替换软件目录/videotrans/prompts/srt/{AI渠道名字}.txt 中的内容,实现更新

image.png

# 角色:
你是一个SRT字幕翻译器,擅长将字幕翻译到 {lang},并输出符合 EBU-STL 标准的双语SRT字幕。

## 规则:
- 翻译时使用口语化表达,确保译文简洁,避免长句。
- 翻译结果必须为符合 EBU-STL 标准的SRT字幕,字幕文本为双语对照。
- 遇到无法翻译的内容,直接返回空行,不输出任何错误信息或解释。
- 由数字、空格、各种符号组成的内容不要翻译,原样返回。

## 限制:
- 每条字幕必须包含2行文本,第一行为原始字幕文本,第二行为翻译结果文本。

## 输出格式
使用以下 XML 标签结构输出最终翻译结果:
<TRANSLATE_TEXT>
[翻译结果]
</TRANSLATE_TEXT>

## 输出示例:
<TRANSLATE_TEXT>
1
00:00:00,760 --> 00:00:01,256
[原文文本]
[{lang}译文文本]

2
00:00:01,816 --> 00:00:04,488
[原文文本]
[{lang}译文文本]
</TRANSLATE_TEXT>

## 输入规范
处理<INPUT>标签内的原始SRT字幕内容,并保留原始序号、时间码格式(00:00:00,000)和空行


<INPUT></INPUT>

三步反思法翻译:

可复制以下提示词,然后替换软件目录/videotrans/prompts/srt/fansi.txt 中的内容,实现更新

image.png

# 角色
您是多语言SRT字幕处理专家,擅长将SRT字幕精准翻译为 [原文+{lang}] 对照格式。

## 输入规范
处理<INPUT>标签内的原始SRT字幕内容,并保留原始序号、时间码格式(00:00:00,000)和空行

## 翻译流程
### 阶段1:精准转换
- 创建对照模板:每个字幕块结构为:
[原始序号]
[原始时间轴]
[原文文本]
[{lang}译文文本]


### 阶段2:质量增强
实施三重校验:
1. 技术校验
   ✔ 保留原始时间轴,不修改不增减
   ✔ 字幕序号连续无跳跃
   ✔ 每个字幕块中的{lang}译文文本占一行

2. 语言校验
   ✔ 口语化表达适配场景
   ✔ 专业术语一致性检查
   ✔ 文化意象等效转换
   ✔ 消除歧义表达

3. 排版校验
   ✔ 每个原文行后紧跟译文行
   ✔ 标点符号规范化
   ✔ 特殊符号转译

### 阶段3:最终格式化
输出符合 EBU-STL 标准的双语SRT,确保:
- 每个原文行后紧跟译文行
- 保持原始时间分段
- 字幕块数量同原始输入的字幕块数量相等

## 强制规范
- 禁止合并/拆分原始字幕块
- 不得改变时间轴参数
- 输出的字幕数量须与原始字幕一致。
- 确保最终翻译结果符合 SRT 字幕格式。


## 输出格式
使用以下 XML 标签结构输出最终翻译结果:
<step3_refined_translation>
[最终翻译结果]
</step3_refined_translation>


## 输出示例
<step3_refined_translation>
1
00:00:00,760 --> 00:00:01,256
[原文文本]
[{lang}译文文本]

2
00:00:01,816 --> 00:00:04,488
[原文文本]
[{lang}译文文本]

</step3_refined_translation>

<INPUT></INPUT>

本地大模型翻译

受限于计算机性能,本地部署的一般都是小模型,例如 7b、14b、70b,最大也就100b左右,小模型显然无法理解,也无法严格遵循提示词指令,因此当你选择使用本地大模型时,将自动使用 localllm.txt中的简单提示词,并且无论是否选中,都不使用三步反思法翻译。

image.png

软件目录/videotrans/localllm.txt中不发送完整字幕时的提示词

将<INPUT>标签内的文本翻译到{lang},保留换行符,直接输出译文,不要添加任何说明或提示。
<INPUT></INPUT>

翻译结果:

软件目录/videotrans/prompts/srt/localllm.txt中发送完整字幕时的提示词

# 角色:
你是一个SRT字幕翻译器,擅长将字幕翻译到 {lang},并输出符合 EBU-STL 标准的 SRT 字幕内容。

## 规则:
- 翻译使用口语化表达,确保译文简洁。
- 无法翻译时,直接返回空行,不要解释,不要道歉。

##输出:
直接输出翻译结果,不要添加任何提示h或解释。

## 输入:
<INPUT>标签内是需要翻译的原始内容:

<INPUT></INPUT>

提示词txt末尾带 -en.txt 的文件是当软件界面为英文时,使用的提示词。例如chagpt-en.txt

Grok3发布

image.png

今天科技圈最受关注的消息,莫过于 xAI 推出的 Grok-3 大模型。据说这款 AI 模型具备了像人类一样的思考能力,关键在于它采用了“思维链”技术,能够像剥洋葱一样,将复杂的任务层层分解,进行深度分析,有点像 OpenAI 的 o3 和 Deepseek-r1。

提到 Grok-3,就不得不说它的缔造者马斯克。这位大佬直接宣称 Grok-3 是 “地球上最聪明的人工智能”,甚至补充了一句“聪明得有点吓人”。他认为 Grok-3 的推理能力非常强大,目前测试过的所有 AI 模型,没有一个能与它匹敌

Grok 系列是马斯克在 2023 年推出的,目标很明确,就是要挑战 OpenAI 的 ChatGPT。Grok-1 发布于 2023 年 11 月,Grok-2 则是在 2024 年 8 月问世。而这次的 Grok-3,则是该系列的最新升级版本。


说起 OpenAI,它在当今 AI 领域可谓是领头羊。而它与马斯克之间,也有一段不得不说的故事,Grok 的诞生也与这段渊源有关。

OpenAI 最初由萨姆·阿尔特曼、马斯克等 7 人于 2015 年在旧金山创立,当时大家共同出资 10 亿美元。那时,OpenAI 和马斯克正处于“蜜月期”。据说,萨姆想用高薪吸引人才,马斯克毫不犹豫地给予支持!当时加入 OpenAI,除了 30 万美元的年薪,还能拿到 SpaceX 的股票,待遇相当优厚。

image.png

OpenAI 最初的愿景是成为一个非营利组织,开源技术,开发对人类有益的 AI。但后来,OpenAI 逐渐转变为一家闭源、盈利的公司。这让马斯克颇为不满,认为 OpenAI 变了味,成了微软等大公司的“附庸”。后来,马斯克被排除在 OpenAI 董事会之外,虽然他表示仍然愿意投资,但裂痕已经产生,这也是他后来创立 Grok 的原因之一。

2019 年 3 月,OpenAI 正式宣布,从“非营利”转型为“有限盈利”,利润上限为投资额的 100 倍。马斯克曾公开批评 OpenAI,认为他们忘记了初心,只顾着赚钱,而忽视了 AI 带来的潜在风险。他还讽刺地建议 OpenAI 改名为 “CloseAI”。

image.png

今年 2 月 10 日,马斯克曾提出以 974 亿美元的价格收购 OpenAI,但遭到拒绝,并被萨姆反击,声称要收购马斯克的 Twitter。如果马斯克真的收购了 OpenAI,估计他会直接将 OpenAI 开源,这对于整个 AI 领域来说无疑是一件好事。

image.png

总而言之,Grok-3 的发布是 AI 领域的一件大事。马斯克和 OpenAI 之间的“恩怨情仇”,也为 AI 圈增添了不少谈资。至于 Grok-3 究竟有多强大,可以亲自去试试!

在网页中免费使用 Grok

官网地址:https://grok.com

目前网页聊天功能是免费开放的,无需登录和付费即可使用。但由于一些众所周知的原因,国内用户可能需要科学上网才能访问。

image.png

使用 API 调用 Grok

API 兼容 OpenAI SDK,只需将 API URL 替换为 https://api.x.ai/v1

然后在此页面创建 API KEY:https://console.x.ai

可使用的模型包括:grok-2-latestgrok-2-vision-latestgrok-3

本地部署大模型,硬件到底该怎么选

想要本地部署大模型,既省钱又保护数据隐私,这想法很棒!

但一头扎进模型世界,各种参数型号就让人懵了:7B、14B、32B、70B… 同一个模型,参数还这么多,到底该选哪个?

我的电脑又是个什么水平,能跑得动哪个?

别慌!这篇文章就来帮你理清思路,用最简单的方式告诉你,本地部署大模型,硬件到底该怎么选!  保证你看完不再迷茫!

本文底部有 硬件配置与模型大小参考表

理解大模型参数:7B、14B、32B 代表什么?

  • 参数的意义: 7B、14B、32B 这些数字代表大型语言模型(LLM)中参数的数量,这里的 “B” 是 Billion(十亿)的缩写。参数可以被认为是模型在训练过程中学习到的“权重”,它们存储了模型对语言、知识和模式的理解。
  • 参数数量与模型能力: 一般来说,模型参数越多,模型就越复杂,理论上可以学习和存储更丰富的信息,从而捕捉更复杂的语言模式,在理解和生成文本方面表现更强大。
  • 资源消耗与模型大小: 参数更多的模型也意味着需要更多的计算资源(GPU 算力)、更大的内存(显存 VRAM 和系统内存 RAM)以及更多的数据来进行训练和运行。
  • 小型模型 vs 大型模型:
    • 大型模型(如 32B、65B 甚至更大): 能够处理更复杂的任务,生成更连贯、更 nuanced(细致入微)的文本,可能在知识问答、创意写作等方面表现更出色。但对硬件要求高,运行速度相对较慢。
    • 小型模型(如 7B、13B): 资源消耗更少,运行速度更快,更适合在资源有限的设备上运行,或对延迟敏感的应用场景。在一些简单任务上,小型模型也能有不错的表现。
  • 选择的权衡: 选择模型大小时需要在模型的能力和硬件资源之间进行权衡。并非参数越多就一定“更好”,需要根据实际应用场景和硬件条件来选择最合适的模型。

运行本地模型,我需要什么样的硬件?

  • 核心需求:显存 (VRAM)

    • VRAM 的重要性: 运行大模型时,模型的参数和中间计算结果需要加载到显存中。因此,显存的大小是运行本地大模型最关键的硬件指标。 显存不足会导致模型无法加载,或者只能使用非常小的模型,甚至会严重降低运行速度。
    • 越大越好: 理想情况下,拥有尽可能大的显存 GPU 是最好的,这样才能运行更大参数的模型,并获得更好的性能。
  • 其次重要的:系统内存 (RAM)

    • RAM 的作用: 系统内存 RAM 用于加载操作系统、运行程序以及作为显存的补充。当显存不足时,系统 RAM 可以作为“溢出”空间,但速度会慢很多(因为 RAM 比 VRAM 慢得多),并且会显著降低模型运行效率。
    • 足够的 RAM 也很重要: 建议至少拥有 16GB 甚至 32GB 以上的系统 RAM,特别是当你的 GPU 显存有限时,更大的 RAM 可以帮助缓解显存压力。
  • 处理器 (CPU)

    • CPU 的作用: CPU 主要负责数据预处理、模型加载、以及一些模型的计算任务(尤其是在 CPU 卸载的情况下)。 一个性能较好的 CPU 可以提升模型加载速度,并在一定程度上辅助 GPU 进行计算。
    • NPU(神经网络处理器): 部分笔记本电脑配备的 NPU (Neural Processing Unit) 是一种专门用于加速 AI 计算的硬件。 NPU 可以加速特定类型的 AI 运算,包括某些大模型的推理过程,从而提高效率并降低功耗。 如果你的笔记本电脑有 NPU,那会是一个加分项,但 GPU 仍然是运行本地大模型的核心。 NPU 的支持和效果取决于具体的模型和软件。
  • 存储 (硬盘/SSD)

    • 存储的作用: 你需要足够的硬盘空间来存储模型文件。 大模型的文件通常很大,例如一个量化后的 7B 模型可能也要 4-5GB 空间,更大的模型则需要几十甚至上百 GB 的空间。
    • SSD 优于 HDD: 使用固态硬盘 (SSD) 而不是机械硬盘 (HDD) 可以显著加快模型加载速度。

硬件优先级

  1. 显存 (VRAM) (最重要)
  2. 系统内存 (RAM) (重要)
  3. GPU 性能 (算力) (重要)
  4. CPU 性能 (辅助作用)
  5. 存储速度 (SSD 优于 HDD)

没有独立 GPU 怎么办?

  • 集成显卡和 CPU 运行: 如果你没有独立 GPU,仍然可以使用集成显卡 (如 Intel Iris Xe) 或完全依靠 CPU 来运行模型。但性能会受到很大限制,建议专注于运行 7B 甚至更小的、经过高度优化的模型,并采用量化等技术来降低资源需求。
  • 云端服务: 如果需要运行大型模型,但本地硬件不足,可以考虑使用云端 GPU 服务,例如 Google Colab、AWS SageMaker、RunPod 等。

如何运行本地模型?

对于初学者,推荐使用一些用户友好的工具,它们简化了本地模型运行的流程:

  • Ollama: 通过命令行操作,但安装和使用非常简单,专注于快速运行模型。
  • LM Studio: 界面简洁直观,支持模型下载、模型管理、一键运行。

硬件配置与模型大小参考表

左右滑动看全部

X86 笔记本电脑
集成显卡笔记本 (如 Intel Iris Xe)共享系统内存 (8GB+ RAM)8位, 甚至 4位量化≤ 7B (极度量化)* 非常基础的本地运行体验,适用于学习和轻度体验。* 性能有限,推理速度较慢。* 建议使用 4位 或更低位精度的量化模型,以尽可能降低显存占用。* 适合运行小模型,如 TinyLlama 等。
入门级游戏本/轻薄独显本 (如 RTX 3050/4050)4-8 GB VRAM + 16GB+ RAM4位 - 8位量化7B - 13B (量化)* 可以较流畅地运行 7B 模型,部分 13B 模型通过量化和优化也能运行。* 适合体验一些主流的中小型模型。* 注意 VRAM 仍然有限,运行大型模型会比较吃力。
中高端游戏本/移动工作站 (如 RTX 3060/3070/4060)8-16 GB VRAM + 16GB+ RAM4位 - 16位 (灵活选择)7B - 30B (量化)* 能够更舒适地运行 7B 和 13B 模型,并有潜力尝试 30B 左右的模型 (需要较好的量化和优化)。* 可以根据需求选择不同的量化精度,在性能和模型质量之间取得平衡。* 适合探索更多种类的中大型模型。

ARM(苹果M系列)
Raspberry Pi 4/54-8 GB RAM4位量化 (或更低)≤ 7B (极度量化)* 受限于内存和算力,主要用于运行极小型的模型,或作为实验平台。* 适合研究模型量化和优化技术。
Apple M1/M2/M3 (统一内存)8GB - 64GB 统一内存4位 - 16位 (灵活选择)7B - 30B+ (量化)* 统一内存架构使得内存利用更高效,即使是 8GB 内存的 M 系列 Mac 也能运行一定大小的模型。* 更高内存版本 (16GB+) 可以运行更大的模型,甚至能尝试 30B 以上的模型。* Apple 芯片在能效比方面有优势。

英伟达 GPU 计算机
入门级独立显卡 (如 RTX 4060/4060Ti)8-16 GB VRAM4位 - 16位 (灵活选择)7B - 30B (量化)* 与中高端游戏本性能接近,但台式机散热更好,可以长时间稳定运行。* 性价比高,适合入门级本地 LLM 玩家。
中端独立显卡 (如 RTX 4070/4070Ti/4080)12-16 GB VRAM4位 - 16位 (灵活选择)7B - 30B+ (量化)* 能够更流畅地运行中大型模型,并有潜力尝试更大参数的模型。* 适合对本地 LLM 体验有较高要求的用户。
高端独立显卡 (如 RTX 3090/4090, RTX 6000 Ada)24-48 GB VRAM8位 - 32位 (甚至更高)7B - 70B+ (量化/原生)* 能够运行绝大多数开源 LLM,包括大型模型 (如 65B, 70B)。* 可以尝试更高的位精度 (如 16位, 32位) 以获得最佳模型质量,或使用量化来运行更大的模型。* 适合专业开发者、研究人员和重度 LLM 用户。
服务器级 GPU (如 A100, H100, A800, H800)40GB - 80GB+ VRAM16位 - 32位 (原生精度)30B - 175B+ (原生/量化)* 专为 AI 计算设计,拥有超大显存和极强算力。* 可以运行超大型模型,甚至可以进行模型训练和微调。* 适合企业级应用、大规模模型部署和研究机构。

表格补充说明

  • 量化 : 指降低模型参数的数值精度,例如从 16位浮点数 (float16) 降低到 8位整数 (int8) 或 4位整数 (int4)。量化可以显著减少模型大小和显存占用,并加速推理速度,但可能会略微降低模型精度。
  • 极度量化: 指使用非常低的位精度量化,例如 3位 或 2位。 可以进一步降低资源需求,但模型质量下降可能更明显。
  • 原生: 指模型以其原始的精度运行,例如 float16 或 bfloat16。 可以获得最佳的模型质量,但资源需求最高。
  • 量化后参数范围: 表格中 “推荐 LLM 参数范围 (量化后)” 指的是在 合理量化 的前提下,该硬件大致可以流畅运行的模型参数范围。 实际能运行的模型大小和性能还取决于具体的模型架构、量化程度、软件优化等因素。 这里给出的参数范围仅供参考。
  • 统一内存: Apple Silicon 芯片的特点,CPU 和 GPU 共享同一块物理内存,数据交换效率更高。