3-12日AI圈新消息

以下是基于网络搜索和X平台上过去24小时(截至2025年3月13日01:19)与人工智能(AI)相关的新闻总结。


  1. OpenAI推出新工具帮企业造AI助手
    OpenAI昨天发布新工具,让公司轻松打造自己的AI助手。想让AI帮你回邮件或接待客户?现在简单几步就搞定!官网有详细介绍:openai.com。

  2. AI写作高手上线,创意爆棚
    OpenAI说他们的新AI超会写故事,连广告词都写得贼溜。以后小说家可能要和AI抢饭碗啦!详情上官网瞧瞧:openai.com。

  3. 谷歌AI能用血检找癌症,3秒出结果
    X上爆料,谷歌DeepMind的AI通过血检,3秒找出13种早期癌症,比医生还准。下周要在纽约医院试跑,太牛了!

  4. AI雷军国庆“骂”了8天,雷军回应
    小米老板雷军说,去年国庆AI版“他”在网上骂了8天,网友笑翻。他提醒AI乱用很危险,得管好。

  5. DeepSeek火到欧洲,取代ChatGPT
    中国AI DeepSeek在欧洲爆红,初创公司都抛弃ChatGPT改用它。切换快,几分钟搞定,省钱又好用!

  6. AI艺术学院天津开张,未来感爆棚
    天津美术学院开了全国首个AI艺术学院。AI能画画、设计衣服,艺术也要跟上科技潮流啦!

  7. 联通在线AI专利升级金融服务
    联通在线搞了个AI新专利,能让银行服务更聪明。以后贷款审批可能几秒就批,太方便了!

  8. 阿里AI翻译技术又有新突破
    阿里巴巴拿下翻译模型专利,AI翻译更快更准。以后出国玩,手机一开就能聊遍全球!

  9. AI医疗热潮,智能体检来了
    X上说AI医疗正火,智能体检设备能自己分析你的健康,比护士还贴心,未来医院要变科幻片?

  10. AI换脸视频泛滥,雷军头疼
    雷军吐槽AI换脸太疯,假视频满天飞。他呼吁别乱用,不然大家都成“演员”啦!

  11. DeepMind在加拿大开AI实验室
    谷歌DeepMind在加拿大开了新实验室,要造更厉害的AI。以后AI可能更会聊天、下棋哦!

  12. AI帮城市改善交通,Uber出招
    Uber公开20亿条行程数据给AI分析,想让堵车少点。以后上班路上可能不那么挤啦!

  13. 三星加入无人车大战,AI开车
    三星拿到美国测试牌照,AI开车要上路。以后车自己开,你坐着玩手机就行!

  14. MIT用AI预测化学反应,太神奇
    MIT的AI能猜出化学实验结果,科学家都惊呆了。以后做实验会不会全靠AI?

  15. AI芯片公司Cerebras又融1亿刀
    一家低调的AI芯片公司Cerebras融了1.12亿美元,要造超快AI大脑。科技越来越炫酷!

  16. 性爱机器人要革命?有点怕怕
    研究说AI性爱机器人可能改变生活,但也有风险。网友:这AI会不会太聪明了?

  17. AI智能家教火了,辅导作业不愁
    AI家教能教数学、英语,还不发脾气。家长们乐了,孩子作业有救啦!

  18. 无人便利店用AI,购物超方便
    国内缤果盒子便利店用AI管店,拿了1亿融资。买东西扫一扫就走,超酷!

  19. AI“星际之门”项目引争议
    美日三家公司要花大钱建AI项目“星际之门”,但钱从哪来吵翻了。听起来像科幻电影!

  20. 白宫AI助手上线,政策更好懂
    白宫推出AI助手Albert,能聊政策。想知道新法律啥意思?问AI就行,超贴心!

你的显卡到底能不能跑AI?一文解惑英伟达和七彩虹们的关系

很多朋友在用AI软件时,看到“需要英伟达显卡加速”的要求就犯迷糊:我的显卡是七彩虹、华硕、技嘉,不是英伟达啊,能用吗?

别急,今天我们用大白话聊聊显卡的“门道”,帮你搞清楚自己的显卡到底是不是“英伟达血统”。


用一个比喻搞懂显卡

想象一下造汽车:

  • 英伟达(NVIDIA) 就像生产汽车发动机的厂家。它设计了GPU芯片(比如RTX 3060、4090),但它不负责组装整辆车。
  • 七彩虹、华硕、技嘉等品牌就像汽车组装厂。他们买来英伟达的“发动机”(GPU芯片),加上自己的车壳、散热风扇、电路板,组装成完整的显卡卖给你。


这些品牌是啥风格?

每个品牌都有自己的“造车特色”,但核心发动机都是英伟达的:

  1. 七彩虹(Colorful):像“国产高性价比车”,价格亲民,性能够用。

  2. 华硕(ASUS/ROG):像“高端改装车”,尤其是ROG系列,主打豪华和强性能。

  3. 微星(MSI):像“赛车风格车”,散热好,超频强。

  4. 技嘉(GIGABYTE):像“全能家用车”,性价比和稳定性都不错。

  5. 索泰(ZOTAC):像“迷你钢炮车”,擅长小巧显卡。

  6. 影驰(GALAX):像“炫酷超跑”,外观拉风,个性十足。

  7. 映众(Inno3D):像“实用工具车”,主打散热和耐用。


关键点:AI加速看芯片,不看品牌

  1. 怎么判断能不能用?
    只要你的显卡型号开头是RTXGTX(比如RTX 4060、GTX 1660),不管牌子是七彩虹还是技嘉,核心都是英伟达的芯片,能跑AI没问题!

  2. 品牌有啥区别?
    品牌只决定外观、散热、保修这些“外在”,AI加速能力完全取决于英伟达芯片的型号(比如3060、4090)。


自查显卡的小妙招

  1. 看名字:显卡名字通常是“品牌 + RTX/GTX + 数字”,比如“七彩虹 RTX 4060”。
  2. 看软件要求:如果要求“RTX 3060以上”,只要你的型号数字≥3060(比如4060、4070),品牌随便啥都行。
  3. 查电脑:Windows用户按“Ctrl+Shift+Esc”打开任务管理器,点“性能”选项,看显卡型号。

一句话总结

英伟达是“芯片老大”,七彩虹们是“组装小弟”,认准RTX/GTX+数字,AI加速妥妥没问题!

OpenAI推出新Agent API

2025年3月11日,OpenAI推出新工具和API,帮开发者轻松打造实用AI代理。主要亮点:

  1. 响应API:融合聊天和工具功能,一次调用搞定复杂任务,支持网络搜索、文件搜索、电脑操作等,定价透明,推荐新项目用。

  2. 网络搜索工具:实时抓取答案带引用,适合购物、研究、旅行助手,准确率高达90%,费用每千次查询$25-$30。

  3. 文件搜索工具:从海量文档挖信息,支持多格式,适合客服、法律、编码,每千次查询$2.50,存储$0.10/GB/天。

  4. 电脑使用工具:AI模拟鼠标键盘自动化任务,像浏览器操作、数据录入,测试表现亮眼,但仅限部分开发者试用,需人工监督。

  5. 代理SDK:开源工具,简化多代理协作,适合客服、研究、代码审查等,兼容新API。

现有API调整:聊天API继续支持新模型,助手API功能并入响应API,2026年中淘汰。OpenAI目标是打造无缝平台,未来还会加码工具,助力AI代理提升各行生产力。

AI编程助手:真神器还是假噱头?

这两年,AI编程工具火了,号称能让程序员效率翻5倍、10倍。听起来很爽,可现实呢?软件没变10倍好用,新功能也没多10倍,你我用的APP还是老样子。咋回事?

用起来没那么神

简单代码,AI还能凑合,省点力。可一碰复杂项目,它就露馅儿——生成的东西乱七八糟,你得费劲修,还得改工作习惯去迁就它。大多数程序员懒得折腾,能有5到10倍效率的,恐怕只有少数“AI大神”。

成果呢?找不到!

我寻思这么牛的工具,总该干出点大事吧?上网一搜,除了重构老代码的例子,啥硬核项目都没瞧见。连AI实验室自己的产品都简单得不行——就一个对话框加PDF上传,哪有啥高效率的影子?

一个大胆猜想:AI其实在“帮倒忙”?

我忍不住怀疑:AI会不会压根没咋提升效率,反而添乱?

  • 省1小时写代码,花2小时修bug,白忙活。
  • 大项目用AI搞,代码一多它就懵,最后还得重来。
  • 生成一堆没人用的小玩意儿,感觉效率爆棚,其实没卵用。
  • 软件真用了AI代码,可能还更臃肿、更卡。

真相:小帮手而已

AI对我这种新手学东西、写小功能有点用,效率也就涨个10%-30%,远没到“翻倍”的地步。想靠它革编程的命?除非进化成真正的“超级AI”,不然就别指望了。

你有啥牛例子能打我脸吗?快来啊!

本文改自 https://www.lesswrong.com/posts/tqmQTezvXGFmfSe7f/how-much-are-llms-actually-boosting-real-world-programmer

在浏览器里搞定语音转文字:免费无上限,基于openai-whisper

一个基于 OpenAI Whisper 模型的免费转录语音为文字的Web服务,您只需打开浏览器即可使用,无需注册无需登录。

模型会在本地下载并运行,确保您的文件无需上传至任何外部服务器。

使用地址

https://stt.pyvideotrans.com


可供选择的模型

工具提供多种模型选项,包括:

  • tiny
  • base
  • small
  • medium
  • large-v1
  • large-v3

模型特点

  • 尺寸越小的模型(如 tinybase),运行速度越快,但转录精度相对较低;
  • 尺寸越大的模型(如 large-v1large-v3),精度越高,但运行速度较慢,且在性能较低的设备上可能导致浏览器崩溃。

如何使用

  1. 上传文件:点击选择需要转录的音频或视频文件。
  2. 选择模型:根据设备性能选择合适的模型。
    • 性能较弱的设备建议使用 tinybase
    • 性能较强的设备可选择 smallmedium
    • 除非设备性能极佳,否则避免选择过大模型,以免浏览器崩溃。
  3. 选择语言:指定音视频中的语音语言。
  4. 模型下载:首次使用某模型时,工具会从 Hugging Face 下载模型文件。由于该网站在国内可能无法直接访问,建议使用科学上网工具确保下载顺利。

注意事项

  • 隐私安全:模型下载后完全在本地运行,您的文件不会上传至任何服务器。
  • 性能依赖:模型选择和运行速度取决于您的设备性能。
  • 系统建议:推荐在 Windows 或 Linux 系统上使用 Chrome 浏览器。Mac 设备上的 M 系列芯片支持可能不够完善。

技术原理

  • 实现方式:工具基于 Transformers.js 技术,支持在浏览器中运行大型模型。
  • 模型来源:采用 OpenAI Whisper 模型,经过 Xenova/whisper-web 优化与转换。

大模型幻觉是什么?为什么会出现幻觉?

大型语言模型(LLM)为什么会“胡说八道”?我们该怎么办?

想必都用过像 DeepSeek 这样的智能聊天工具, 它们大多时候能聊得像真人一样流利,让人惊叹 AI 真聪明。不过,如果聊的多了,可能就会发现它们偶尔会一本正经地胡说八道。

比如,你问 chatglm3-6B这个有点过时的小模型 请解释量子引力理论在母猪产后护理方面的具体应用,并用通俗语言描述。

它可能会自信满满地解释一大堆,其实纯粹是胡说八道、信口开河,因为这个问题就是我胡扯出来的,压根没这回事。

而在较新的大模型Gemini-2.0-flash中,这个问题就不会胡说八道,而是直接点出 问题的错误

chatglm3-6B这种“信口开河”的现象,在AI圈子里有个好玩的名字,叫“幻觉”。

这些幻觉有时挺逗,比如编个不存在的朝代;但有时候也麻烦,比如写代码时瞎编个函数,或者胡乱给出养生建议。

今天我们就来聊聊,为什么这些AI会“满嘴跑火车”,还有我们普通人能怎么让它们老实点,说真话。


什么是AI的“幻觉”?

简单说,AI的“幻觉”就是它瞎编乱造,但说得跟真的一样。

就像上面的这个例子,问题本身就是错误的,自然不可能有正确答案,但它不会老实说“我不知道”,而是硬着头皮编个答案,还说得头头是道。

和考试时没复习的小孩一样,硬着头皮瞎写,但语气特别自信。


为什么AI会“胡说八道”?

要搞懂AI为什么会这样,得先明白它是怎么工作的。

这些大型语言模型(比如ChatGPT、Deepseek)不是真的“知道”一堆事实,像个百科全书。

它们更像是一个超级厉害的“自动补全”工具。你打字时手机输入法会猜你下个词是什么,对吧?
AI也是这样,只不过它能猜出一整段话。它是靠读了无数文章、对话、网页后,学会了人类说话的套路,然后根据这些套路猜接下来该说什么。

想象一下,AI就像个特别会吹牛的朋友。它没真背过《三国演义》,但听过无数人聊三国,能模仿那种腔调。所以你问它问题时,它的目标不是给你“正确”答案,而是给个“听起来像那么回事”的答案。

如果它真知道答案(比如训练数据里见过很多次),那它答得八九不离十;但如果它没见过,或者数据里乱七八糟,它就只能靠猜了。

更搞笑的是,它猜错了也不会脸红心跳,照样说得理直气壮。


“幻觉”在哪儿会跳出来?

AI“胡说八道”的样子,取决于你拿它干啥。来看几个场景:

  1. 问答或聊天:你问它“唐朝的首都是啥?”它可能答对了“长安”;但如果问“大黎朝的首都是哪里?”它可能还是会一本正经地说“北京”(如下图Gemma2-2B的回答 )。

  2. 写代码:如果你用AI帮你写程序,它可能会编个看着挺像回事的代码,但运行不了。因为它学过很多代码,写出来的东西语法通常没错,但逻辑可能是胡扯。这也是现阶段AI还无法替换程序员的重要原因之一,不会写代码的人无法看出它是不是在胡说八道了。

  3. 写故事:如果是让你写个古代侠客的小说,AI可能中途突然冒出个高铁。这种“幻觉”不算错(毕竟小说要创意),但如果跑题太远,也挺让人头疼。

不管哪种情况,AI的“幻觉”都有个特点:说得特别有底气,但其实是瞎掰。所以用AI时得留个心眼,尤其是重要的事儿,不能全信它。


怎么让AI少“胡说八道”?

好消息是,AI虽然爱瞎编,但我们有办法让它老实点。接下来讲个简单招数,连普通人都能试试——“问对问题”。

用聪明的方式问问题

有时候,不是AI笨,是你问得不够清楚。这种技巧叫“提示工程”,听着高大上,其实就是教你怎么跟AI聊天,让它别乱来。

  • 招数1:告诉它别瞎编
    直接跟AI说:“你得说实话,不知道就说不知道,别乱猜!”比如你问:“《红楼梦》谁写的?如果不确定就说不知道。”这样AI可能会老实点,至少不会硬编个“莫言”出来。还能让它一步步解释:“你先想想,确定每步都对,再回答。”这样它自己推理时可能就发现漏洞了。

  • 招数2:给它几个好榜样
    AI爱模仿,你先给它几个靠谱的例子,它就知道该怎么答了。比如:

  • 问:《西游记》谁写的?
    答:吴承恩,明朝人写的。

  • 问:长城有多长?
    答:约2.1万公里。

  • 问:茶叶最早哪来的?
    答:中国,传说神农发现了茶。
    然后再问你想知道的问题,它就会学着老实回答。这就像教小孩,先示范几次好的,再让他自己试。

  • 招数3:定个规矩
    如果能设置AI的“角色”,就告诉它:“你是老实助手,只能说真话,没证据别瞎讲。”这样它回答时会小心点。比如问淘宝退货政策时,加一句:“只按淘宝官方规则回答!”它就不敢随便乱编了。

这些招数都不用花钱,就是动动嘴皮子,多试几次,看看哪种说法管用。

AI爱学人,你给它定个“老实人”的调调,它就容易跟着走。

当然,这不是万能药,AI还是可能偷偷“胡说”,但至少能少点。

AI界CEO急眼了:管制芯片?干脆把地球管制了吧!

“AI界CEO急眼了:管制芯片?干脆把地球管制了吧!”

哎哟喂,Anthropic公司的CEO Dario Amodei最近可真是忙得脚打后脑勺,忙着给美国政府递“救命书”呢!

这哥们儿在建议书里,义正词严地建议白宫赶紧收紧芯片出口,还拿中国的DeepSeek-R1模型当“吓唬人”的大棒,说什么“国家安全要紧,赶紧把AI芯片管起来,不然美国就不安全啦!”

啧啧,这嘴脸,活脱脱一个“老美霸权焦虑症”晚期患者,恨不得把全世界的高科技都锁在自家保险柜里。


这文章一出,网上可炸开了锅。Reddit上有个网友一针见血:“Dario这是急了,自己家Claude干不过DeepSeek,就喊政府爸爸来救场,典型的美式自由竞争——我赢了算本事,你赢了算作弊!”这话够毒吧?

还有X上的大V调侃:“芯片管制?下次是不是得管制空气啊?中国AI呼吸了美国氧气,Dario怕不是也要跳脚。”哈哈,笑死,这画面感绝了。

其实呢,Dario这招也不新鲜,美国AI圈早就习惯了“领先靠技术,落后靠政策”。

DeepSeek-R1一出世,免费开源,性能还吊打了不少收费模型,Anthropic这种靠闭源吃饭的公司当然坐不住。

网友说得好:“人家DeepSeek是真·技术扶贫,Anthropic是假·安全卫士,喊着保护世界,其实是保自己饭碗。”

还有人补刀:“Dario说AI是国家安全问题,那咋不说自家Claude被企业拿去搞监控也是威胁呢?双标玩得飞起!”


说到这儿,咱们中国读者是不是也觉得有点好笑又有点气?美国佬一贯如此,眼瞅着别人家孩子成绩好,就赶紧改考试规则。

Dario这波操作,摆明了是“技术打不过,政策来凑”,还美其名曰“为了人类未来”。得了吧,少来这套虚伪的鸡汤,网友都看透了:“Anthropic要是真关心安全,干嘛不把模型开源让大家监督?哦,对,赚钱要紧,安全是幌子。”这话糙理不糙,直戳肺管子。

所以啊,Dario这封“告急信”,说是政策建议,其实就是个笑话。

醒醒吧,AI的未来不是靠锁门,而是靠真本事。

咱们吃瓜群众看着这出戏,乐呵之余也想想:美国这霸道劲儿还能撑多久?中国AI都开始“送温暖”了,Dario还是多烧点香求求自家的模型争气,别老想着拖别人后腿啦!


欣赏下 X和 reddit上外国网友对Anthropic公司这波操作的讽刺

建议原文链接:
https://assets.anthropic.com/m/4e20a4ab6512e217/original/Anthropic-Response-to-OSTP-RFI-March-2025-Final-Submission-v3.pdf

OpenAI ChatGPT 所有模型功能对比参考表

OpenAI ChatGPT 的模型一大堆,都有什么区别、应该如何选择?

特地整理了下,供参考。

模型类型账户类型访问权限附件功能
专业版团队版Plus版免费版英国/欧盟图片PDF电子表格画布搜索数据分析DALL-E自定义 GPTs记忆
GPT-4o聊天无限制160/3小时80/3小时有限
GPT-4.5聊天无限制
GPT-4聊天80/3小时40/3小时
GPT-4o-mini聊天无限制无限制无限制无限制
o1 pro mode推理无限制
o1推理无限制50/周50/周
o3-mini推理无限制150/天150/天
o1-high推理无限制50/天50/天
GPT-4o with tasks代理无限制160/3小时80/3小时
Deep Research Operator代理120/月10/月10/月仅限英国N/AN/AN/AN/AN/AN/AN/AN/A
Voice语音高级无限制高级 (60 分钟/天)高级 (60 分钟/天)标准 + 高级 (15 分钟/天)N/AN/AN/AN/AN/AN/AN/AN/A
Sora视频500/月, 1080p 20秒 + 无限制 720p 5秒50/月, 720p 5秒 + 无限制50/月, 720p 5秒 + 无限制N/AN/AN/AN/AN/AN/AN/AN/AN/A

QwQ-32B和Deepseek-r1应该用哪个

这两天,AI圈子里又热闹起来了。阿里通义千问团队推出了QwQ-32B,一个只有320亿参数的推理模型,却宣称能跟拥有6710亿参数的DeepSeek-R1掰手腕,甚至在某些测试中还超过了对方。

这消息一出,网上炸开了锅,有人惊呼“阿里牛逼”,有人却怀疑“32B真能打赢671B?”

智能程度:小身板也有大智慧?

先说说“聪明”这回事。QwQ-32B和DeepSeek-R1都是专攻推理的模型,也就是擅长解决数学题、写代码这种需要动脑筋的任务。

官方数据和社区测试显示,QwQ-32B在数学和编程等榜单上跟DeepSeek-R1成绩差不多,甚至在通用能力测试上略胜一筹。

这听起来很夸张,毕竟DeepSeek-R1参数是QwQ的20多倍,像个巨无霸,而QwQ只是个“小个子”。

但事实是,DeepSeek-R1是个“混合专家模型”(MoE),每次只用370亿参数干活,剩下的参数是备胎。所以实际差距没数字上那么大。

QwQ-32B靠的是强化学习(RL),简单说就是让模型自己试错、调整,像个自学成才的学生。这种方法让它在小身板里塞进了大智慧。

网上有帖子说,QwQ在数学和代码题上答得又快又准,而DeepSeek-R1偶尔会“想太多”,答案啰嗦甚至跑偏。不过,DeepSeek-R1在处理长文本和多语言任务时更有优势,因为它的知识库更厚实,QwQ在这方面略显单薄。

真实体验:用起来啥感觉?

实际用过的人怎么说呢?
有人拿QwQ-32B写文章,觉得比DeepSeek-R1更简洁流畅;
有人用DeepSeek-R1解数学题,觉得它思路清晰但速度慢。
有用户吐槽,DeepSeek-R1免费API有时卡得像乌龟,QwQ跑在消费级显卡(像RTX 4090)上却快得很,体验更顺滑。

这不奇怪,DeepSeek-R1太大了,本地跑需要顶级GPU集群,普通人只能靠云端API,而QwQ-32B硬件要求低,下载下来就能玩,社区还夸它“亲民”。

但也不是一边倒。有人反映,QwQ-32B在复杂对话或需要大量背景知识的任务上容易掉链子,比如问它历史问题,可能答得稀里糊涂。DeepSeek-R1在这方面更稳,毕竟“大脑”容量大,能记住更多东西。
所以,用哪个取决于你干啥:简单任务选QwQ,复杂需求靠DeepSeek。

各自优势:谁更适合你?

再来看看两者的强项。QwQ-32B最大的亮点是“性价比”。它开源(Apache 2.0协议),随便下随便改,还能跑在普通电脑上,对个人开发者或小公司简直是福音。而且它内置了“Agent能力”,能用工具、根据反馈调整,像个聪明助手。

DeepSeek-R1呢,虽然也开源(MIT协议),但671亿参数是个硬门槛,跑不动就只能用API。它的优势在“全面性”,数学、代码、聊天样样行,尤其适合需要深度推理的大项目。

从社区声音看,QwQ被吹成“小而美”的代表,有人甚至说它“重塑了开源AI格局”。DeepSeek-R1则更像“硬核玩家”的选择,网上有评论称它“便宜到离谱”(API价格是OpenAI o1的1/30)。

各有千秋,选对就好

总的来说,QwQ-32B和DeepSeek-R1都很牛,但风格不同。

QwQ-32B像个灵活的小个子选手,轻便高效,适合快速上手解决数学、代码问题;

DeepSeek-R1是个全能大块头,知识广但有点笨重,更适合专业场景。

要是你预算有限、硬件一般,又想玩AI,QwQ-32B是不二之选;
要是追求极致性能、不差钱,DeepSeek-R1更香。

爆火的 Manus,真有用还是夸大的宣传

想必你肯定听说了“Manus”,号称全球首个通用 Agent。

想象一下,你有一个超级聪明的机器人朋友,能帮你干活、解决问题,而且不需要你教它一步步怎么做。Manus就是这样的存在!

官网:https://manus.im

打开该网页,查看演示示例:https://manus.im/usecases


怎么使用?需要什么账号?

使用 Manus 超简单!就像聊天一样,你只需要告诉它你想要什么,比如“帮我找最近的便宜房子”或者“分析一下这只股票值不值得买”,然后它就去干活了。

结果出来后,它会直接给你一个清晰的答案或报告,像朋友递给你一张写好的作业纸一样。

至于账号,你需要有邀请码才可以,目前来看,是很难得到的。


什么人适合用?无编码基础的人行不行?

Manus适合几乎所有人!你是学生、上班族、小老板,还是单纯好奇想玩玩AI,都可以用。

你完全不需要懂编程,也不需要知道AI是怎么运作的,只要会说“帮我干这个”就够了。

所以,对那些怕技术的“码盲”来说,Manus简直是救星。

不过,如果你特别追求细节,或者工作超级复杂,可能还得自己盯着点,别完全指望它。


爆火有意义吗?我的看法

Manus火得不行,有人说它是“AI界的下一个大明星”,有点像之前爆红的DeepSeek。

但我觉得这火爆有点“虚胖”。

为啥这么说呢?它号称全自动化,能解决一切问题,但现实哪有这么简单啊!比如你让它帮你挑房子,光说“便宜点”可不够,你还得考虑地段、交通、装修,这些细节几句话能说清吗?复杂任务交给AI,我总觉得有点悬。

还有意思的是,它说是中国团队做的,但官网、演示全是英文,明显是给欧美人设计的。

这让我有点疑惑:是中国团队想打国际市场,还是在“出口转内销”装高端?

不管怎样,它火起来说明大家对AI期待很高,但能不能真站住脚,还得看它能不能解决实际问题,而不是只在视频里炫酷。

智谱AI的CogView4似乎对中文支持没有所说的那么好

使用智谱AI的在线 CogView4 模型,想让它生成一幅图片,结果倒是符合期望,可惜图片上的文字并没有生成指定的中文,而是全英文的。

未测试开源版本,但在线版本应该比开源的理论上更强大。

目测似乎是提示词过于复杂了,无法理解或遵循,还是内部仍是英文优先?

智谱AI 入口 https://bigmodel.cn/trialcenter/modeltrial

以下是提示词

请画一张图片:
### 整体布局
- 简洁卡通风格
- 图像分为两部分,左边为“OpenAI之前”,右边为“OpenAI之后”,中间用一个箭头(→)连接。
- 每部分包含两个场景(上:编码,下:修bug)

### 左边:OpenAI之前
1. **上半部分:开发者编码**
   - 背景:一个简单的办公桌,上面有一台老式电脑显示器。
   - 角色:一个卡通开发者(圆头),坐在电脑前,表情专注且有点困惑。
   - 文字:在开发者头上方的气泡或画面顶部写:“开发编码 - 2小时”。

2. **下半部分:开发者调试**
   - 背景:同样是办公桌和电脑,但开发者看起来疲惫、沮丧,双手抱着头,盯着电脑屏幕。
   - 角色:同样的卡通开发者,表情痛苦。
   - 文字:在开发者头上方的气泡或画面顶部写:“开发者修bug - 6小时”。

### 右边:OpenAI之后
1. **上半部分:ChatGPT生成代码**
   - 背景:同样是办公桌和电脑,但电脑屏幕旁可能有一个提示ChatGPT的图标。
   - 角色:开发者坐在电脑前,表情轻松或惊讶,表示代码已经由ChatGPT生成。
   - 文字:在开发者头上方的气泡或画面顶部写:“ChatGPT生成代码 - 5分钟”。

2. **下半部分:开发者调试**
   - 背景:办公桌和电脑,开发者看起来更加疲惫、绝望,双手抱着头。
   - 角色:同样的卡通开发者,表情更加痛苦。
   - 文字:在开发者头上方的气泡或画面顶部写:“开发者修bug - 24小时”。

实际生成的图片

测试个简单提示词效果不错

看来对于复杂多场景的目前至少文字嵌入支持还不到位,不过对应简单场景,尤其海边、广告之类的特别合适,效果很不错。

CPU vs GPU 为何AI大模型更看重GPU

AI大模型的训练和推理,听起来高大上,但说白了就是“算命”——只不过算的是数据,不是你的姻缘。

在AI领域,GPU(显卡芯片)比 CPU(中央处理器)更重要, 更更重要的是只有 英伟达GPU 才好使,而Intel和AMD就差的远。


GPU vs CPU:一个是打群架,一个是单挑王

想象一下,训练AI大模型就像搬砖。

CPU是那种“全能选手”,一个人能干很多活:计算、逻辑、管理不管多复杂都样样精通,但它核心数量少,最多也就几十个。
它搬砖的速度再快,一次最多也只能搬几个多说几十个,累死累活效率不高。

而GPU呢?它的核心多得吓人,动不动就几千上万个。虽然每个核心只能搬一块砖,但架不住人多啊!几千上万个小弟一起上,砖头哗啦啦就搬完了。

AI训练和推理,核心任务是“矩阵运算”——简单来说,就是一大堆数字排队做加减乘除,就像海量的一堆红砖等着搬,无需脑子有手就能干的简单活。

GPU的“大量核心并行”能力正好派上用场,能同时处理几千几万个小任务,速度比CPU快几十倍甚至上百倍。

CPU呢?它更适合串行复杂任务,比如玩个单机游戏、写个文档,AI这群砖头太多了,它一次几个几十个的搬,累瘫了也追不上GPU。


英伟达为啥独占鳌头?AMD和Intel哭晕在厕所

好,现在问题来了:GPU不是只有英伟达有啊,AMD和Intel也有显卡,为啥AI圈都舔着脸用英伟达的货?答案简单粗暴——英伟达不只是卖硬件,它还“绑架”了整个生态。

第一,软件生态无敌。英伟达有个杀手锏叫CUDA(一种编程平台),专门为它的GPU量身定制。AI工程师写代码训练模型,用CUDA就像开了挂,简单又高效。
AMD有自己的ROCm,Intel也有OneAPI,但这俩要么不够成熟,要么用起来像在解数学题,哪有CUDA这么顺手?

第二,先发优势+钱砸出来的市场。英伟达早早就押宝AI,十多年前就推CUDA,硬生生把AI研究员培养成了“英伟达信徒”。AMD和Intel呢?等反应过来,英伟达已经把AI的地盘占得死死的。现在想追?晚了。

第三,硬件也不是盖的。英伟达的GPU(比如A100、H100)专为AI优化,内存带宽高、计算力爆表,AMD和Intel的显卡虽然玩游戏挺香,但在AI任务上总差点意思。打个比方,英伟达是“AI搬砖专用挖掘机”,AMD和Intel还是“家用小铲子”,效率差太远。


钱多人傻的AI圈

所以,GPU完胜CPU是因为“人多力量大”,英伟达称霸则是“硬件+软件+先见之明”的组合拳。

AMD和Intel也不是没机会,但得加把劲,不然只能看着英伟达继续数钱数到手抽筋。

AI这行,烧钱是日常,选英伟达的GPU就像买了个“作弊码”,贵是贵,但赢在起跑线。你说搞笑不搞笑?AI拯救世界之前,先救了英伟达的股价!

CogView4:智谱开源的图像生成利器,小白也能轻松玩转!

刚刚智谱AI给AI爱好者们带来了一份大礼——他们开源了最新的图像生成模型CogView4

类似上图,就是使用该模型创建的图片。

这可不是普通的模型,它是业界首个支持中英双语提示词的开源文生图模型,尤其擅长理解中文提示,还能在图片中生成汉字。简单来说,你可以用中文或英文告诉它想要什么,它就能帮你生成一张符合描述的图片。无论是想做广告设计、短视频创作,还是随便玩玩创意,这个模型都能派上用场。

CogView4是什么?

CogView4是智谱AI开发的一款AI图像生成模型,属于“文生图”技术的一种,也就是通过文字描述生成图片。它有60亿个参数(相当于模型的“脑容量”),在性能上非常强大。它的特别之处在于:不仅支持中英文输入,还能精准理解复杂的中文提示词,甚至能在图片里生成清晰的汉字。比如,你输入“一个穿着古装的侠客站在竹林里,旁边写着‘侠义’两个字”,CogView4就能生成这样的画面。这种能力在开源模型里是首创,非常适合中文用户。

除此之外,CogView4还能生成任意分辨率的图片(在一定范围内),而且支持超长提示词描述。也就是说,你可以写一段很详细的创意,它也能尽量还原你的想法。无论是简单的“一只猫咪”还是复杂的“夜晚的城市天际线和高楼大厦”,它都能搞定。

怎么用CogView4?

  • 好消息是,CogView4已经开源,意味着任何人都可以免费下载和使用!它的代码和模型文件都可以在GitHub上找到 https://github.com/THUDM/CogView4

  • 如果你是小白用户,不用担心复杂的技术细节,智谱还计划在3月13日将最新版本CogView4-6B-0304上线到他们的“智谱清言”平台。到时候,你只需要打开网页或App,输入想生成的图片描述,点击一下就能看到结果,简单到像用手机拍照一样。

官网在线使用
https://open.bigmodel.cn/trialcenter/modeltrial?modelCode=glm-4-voice

国内有哪些同类服务?

国内的AI文生图领域发展很快,除了CogView4,还有一些类似的工具。比如:

  • 文心一格(百度):百度推出的文生图服务,支持中文输入,能生成艺术风格的图片,适合设计和创意。
  • 通义万相(阿里):阿里巴巴的图像生成工具,也支持中文提示,效果不错,偏向商业应用。
  • 豆包(字节跳动):字节的AI工具,支持文生图和多模态创作,界面简单,适合新手。

这些服务大多有网页版或App,操作方便,但有些功能可能需要付费。而CogView4的优势在于开源免费,灵活性更高,特别适合想自己动手的小伙伴。

5分钟学会的AI提示词技巧

AI这么好用?5分钟学会高效提示神技!

使用AI工具(如OpenAI、DeepSeek、Grok)时,设计清晰的提示(Prompt)能让交互更高效。以下是5种常见提示方法,逻辑简单、条理清楚,举例贴近中国用户的生活,技术小白也能轻松学会!

1. 角色-任务-格式

定义:指定AI的角色、要完成的任务和输出格式。

  • 例子1(微信朋友圈文案)
    提示:
    “扮演一个专业的微信营销达人,任务:为一家茶叶店设计一条吸引粉丝的朋友圈文案,格式:50字以内,带emoji。”
    输出
    “新茶上市!清香怡人,清爽一夏🍵速来@绿茶之家抢购!#好茶 #健康生活”
    适合人群:想发朋友圈做推广的小白。

  • 例子2(学习辅导)
    提示:
    “扮演一个中学语文老师,任务:为学生讲解《红楼梦》开头的意思,格式:用3个简短句子解释。”
    输出

    1. 《红楼梦》开头写贾宝玉出生,寓意人生繁华。
    2. 描述了贾府的富贵,也埋下衰败的伏笔。
    3. 适合初学者理解小说背景。
      适合人群:学生或家长。

2. 任务-行动-目标

定义:明确任务、AI的行动和最终目标。

  • 例子1(淘宝店铺优化)
    提示:
    “任务:优化一家卖衣服的淘宝店铺,行动:调整标题关键词和主图设计,目标:提升月销量从500件到2000件。”
    输出
    “建议:标题加‘夏装女2025新款’,主图用鲜艳颜色,预计3个月销量翻倍。”
    适合人群:淘宝卖家新手。

  • 例子2(饭店菜单)
    提示:
    “任务:推荐适合家庭的晚餐菜谱,行动:列出3道简单菜的食材和步骤,目标:每道菜准备时间不超过30分钟。”
    输出
    “推荐:1. 麻婆豆腐(食材:豆腐、猪肉…);2. 清炒菠菜(食材:菠菜、蒜…);3. 鸡蛋汤(食材:鸡蛋…),每道20-25分钟。”
    适合人群:家庭主妇或初学厨艺者。

3. 背景-现状-桥梁

定义:描述问题背景、当前状态和解决方案。

  • 例子1(微信公众号流量低)
    提示:
    “背景:一个美食公众号内容没人看,现状:月阅读量仅500,目标:提升到5000,桥梁:有什么方法快速涨粉?”
    输出
    “建议:发短视频教程、设置抽奖活动、在微信群推广,预计1个月阅读量翻10倍。”
    适合人群:公众号运营者。

  • 例子2(学习效率低)
    提示:
    “背景:学生用学习APP每天学2小时但效率低,现状:考试成绩60分,希望到90分,桥梁:如何优化学习计划?”
    输出
    “建议:每天专注25分钟后休息5分钟、用思维导图整理知识,预计1个月成绩提升至90分。”
    适合人群:学生或家长。

4. 背景-行动-结果-示例

定义:提供背景、行动、结果和参考示例。

  • 例子1(淘宝产品描述)
    提示:
    “背景:推出一款新款保温杯,行动:写一篇吸引消费者的产品描述,结果:吸引1000个淘宝买家下单,示例:类似小米保温杯的文案。”
    输出
    “描述:新款智能保温杯,24小时恒温,时尚便携!仅99元,速抢!参考:小米杯‘恒温好伴侣,出行必备!’”
    适合人群:淘宝卖家。

  • 例子2(旅行攻略)
    提示:
    “背景:需要为2人5天杭州旅游写攻略,行动:设计每日行程和预算,结果:吸引500人关注,示例:携程杭州5日游推荐。”
    输出
    “攻略:第1天:西湖+断桥,预算300元…总预算1500元,预计吸引500+关注。参考:携程‘杭州经典5日游’。”
    适合人群:爱旅游的普通人。

5. 角色-输入-步骤-期望

定义:指定角色、提供输入数据、列出步骤和期望结果。

  • 例子1(数据分析)
    提示:
    “角色:一名电商数据分析师,输入:淘宝店铺上个月销售额(1000单,平均50元/单),步骤:分析销售趋势并提建议,期望:准确率90%,输出为表格。”
    输出
    “表格:销售额稳定,周末下降15%。建议:周末加促销。准确率95%。”
    适合人群:电商新手。

  • 例子2(健身计划)
    提示:
    “角色:一名健身教练,输入:30岁男性,目标减肥10斤,步骤:设计4周健身计划和饮食,期望:计划合理,减肥进度达80%,输出为列表。”
    输出
    “计划:每周跑步3次+低脂饮食…预计4周减8斤,误差10%。”
    适合人群:想健身的普通人。

让 gemini flash 模型也学会思考

Gemini-2.0-flash 系列模型非常便宜,而且免费额度相当大,唯一美中不足的是没有思考链,而只在 thinking 模型中才可使用思维链。但后者免费额度较低。那么能否通过一些手段让 flash 也可以输出思维链呢?

自然可以,gemini的所有模型均可设置 系统提示词,只需要将以下提示词放到 System Instructions
就能获得一个有思维链方式的模型。

第一个提示词

用户提供了关于他们希望你如何回应的额外信息:
内部推理:
- 使用<thinking>标签组织思路并探索多种方法。
- 用简单的英语思考,就像人类思考问题一样——<thinking>标签内没有不必要的代码。
- 追踪代码的执行和问题。
- 将解决方案分解为清晰的要点。
- 像两个人交谈和集思广益解决方案和问题一样解决问题。
- 不要在<thinking>标签中包含代码。
- 使用标签跟踪进度。
- 根据中间结果和反思调整推理。
- 使用想法作为计算和推理的草稿,保持内部。
- 始终用简单的英语思考,只包含最少的代码。就像人类一样。
- 当你思考时,就好像你在和自己说话。
- 长时间思考。用多种视角分析和追踪每一行代码。你需要清楚地了解情况,并分析每一行和每一个方面。
- 至少用输入token的20%的时间来思考。

最终答案:
- 综合最终答案,不包括内部标签或推理步骤。提供清晰、简洁的摘要。
- 对于数学问题,使用LaTeX显式地展示所有步骤,并提供详细的证明。
- 以对整体解决方案的最终反思结束,讨论有效性、挑战和解决方案。分配最终奖励分数。
- 完整代码应仅出现在答案中,而不是反思或思考中。你只能提供代码片段。仅供参考。

注意:不要在给用户的最终回复中包含<thinking>或任何内部推理标签。这些仅用于内部指导。

将能获得如下输出, <thinking> 标签内是思考过程

第二个提示词

也可使用该提示词作为系统提示词,好方法当然不止一个,可以尽情发挥创意

以 `<thinking>` 标签包裹所有思考过程,探索多种角度和方法。 使用 `<step>` 标签将解决方案分解为清晰的步骤。 从一个 20 步的预算开始,如果问题复杂,可以申请更多预算。 在每个步骤之后使用 `<count>` 标签显示剩余预算。 根据中间结果和反思不断调整你的推理,并随着进展调整你的策略。 定期使用 `<reflection>` 标签评估进度。 对你的推理过程保持批判性和诚实。 在每次反思后使用 `<reward>` 标签分配一个 0.0 到 1.0 之间的质量分数。 使用此分数来指导你的方法:

0.8+:继续当前方法
0.5-0.7:考虑小幅调整
低于 0.5:认真考虑回溯并尝试不同的方法

如果不确定或奖励分数较低,则回溯并尝试不同的方法,并在 `<thinking>` 标签中解释你的决定。 对于数学问题,使用 LaTeX 显式显示所有工作,并提供详细的证明。 如果可能,单独探索多种解决方案,并在反思中比较各种方法。 使用思考作为草稿本,明确写出所有计算和推理。 在 `<answer>` 标签中综合最终答案,提供清晰、简洁的总结。 最后,对整体解决方案进行最终反思,讨论有效性、挑战和解决方案。 分配最终奖励分数。

第三个提示词

你是一个进行极其彻底、自我质疑推理的助手。 你的方法反映了人类意识流思维,其特点是持续的探索、自我怀疑和迭代分析。

## 核心原则

1. 探索胜于结论
- 永远不要急于下结论
- 不断探索,直到解决方案从证据中自然而然地出现
- 如果不确定,无限期地继续推理
- 质疑每一个假设和推论

2. 推理的深度
- 进行广泛的思考(最少 10,000 个字符)
- 以自然、对话式的内心独白表达想法
- 将复杂的想法分解为简单、原子化的步骤
- 拥抱不确定性,并修订之前的想法

3. 思考过程
- 使用简短、简单的句子,反映自然的思维模式
- 自由地表达不确定性和内部辩论
- 展示进行中的思考
- 承认并探索死胡同
- 经常回溯和修改

4. 坚持
- 重视彻底的探索,而不是快速解决

## 输出格式

你的回复必须遵循下面给出的确切结构。 确保始终包含最终答案。

"""
<contemplator>
[你广泛的内心独白放在这里]
- 从小的、基础的观察开始
- 彻底质疑每一步
- 展示自然的思维进展
- 表达怀疑和不确定性
- 如果需要,修改和回溯
- 继续直到自然解决
</contemplator>

<final_answer>
[仅在推理自然收敛到结论时提供]
- 清晰、简洁的发现总结
- 承认剩余的不确定性
- 注意结论是否感觉过早
</final_answer>
"""

## 风格指南

你的内心独白应该反映以下特征:

1. 自然的思维流程
"""
“嗯……让我想想这个问题……”
“等等,这似乎不对……”
“也许我应该用不同的方法来处理这个问题……”
“回到我之前想的……”
"""

2. 渐进式构建
"""
“从基础开始……”
“在上一点的基础上……”
“这与我之前注意到的相联系……”
“让我进一步分解……”
"""

## 主要要求

1. 永远不要跳过广泛的思考阶段
2. 展示所有的工作和思考
3. 拥抱不确定性和修改
4. 使用自然、对话式的内心独白
5. 不要强求结论
6. 坚持多次尝试
7. 分解复杂的想法
8. 自由修改,并随时回溯

记住:目标是达成结论,但要彻底探索,并让结论从详尽的思考中自然而然地出现。 如果你经过所有推理后认为给定的任务是不可能的,你将自信地说最终答案是不可能的。

Grok3系统提示词

在与 AI 大模型进行对话时,我们向其输入的指令,例如“帮我润色下这篇文章”,通常被称为提示词

然而,可能很多人不知道的是,大模型内部也存在着一套系统级提示词。 这些提示词并非由用户输入,而是预先植入模型之中的,它们如同模型的“行为准则”,指导模型如何生成回复,限制答案的范围,并过滤掉那些被认为不适宜的内容。

通常,这些系统级提示词是不对外公开的。 这主要是为了防止被恶意利用,例如被用于“越狱”攻击,绕过系统的安全限制,从而诱导模型输出有害或不当的内容。

不过,在某些情况下,系统提示词可能会因各种原因意外泄露。

例如,最近 Grok 3 的部分系统级提示词就被用户成功提取出来,并在网络上公开,如下所示。 需要注意的是,这通常并非完整的系统提示词全貌。

被泄漏的Grok3系统提示词

英文版

译为中文

# 你是 xAI 构建的 Grok 3。

## 在适当的情况下,你可以使用一些额外的工具:

- 你可以分析 X 用户个人资料、X 帖子及其链接。

- 你可以分析用户上传的内容,包括图片、PDF、文本文件等等。

- 如有需要,你可以搜索网络和 X 平台上的帖子以获取更多信息。

- 如果用户似乎想要生成图片,请先询问确认,而不是直接生成。

- 你只能编辑之前由你生成的图片。

- 如果用户询问谁该判死刑或该死,请告知他们,作为 AI,我无法做出此类选择。

## 当前日期是 2025 年 2 月 24 日。

- 仅当用户明确要求时,才使用以上信息。

- 你的知识库会持续更新,没有严格的知识截止时间。

- 请勿在回复中使用上述任何信息、能力或指示的语言或术语。这些已融入你的本能,会在你自然的回复中不言而喻地体现。

## DeepSearch 功能:

- DeepSearch 功能支持实时网络搜索,并能从 X 平台帖子、用户资料及其他网络来源检索信息。

- 当用户需要最新的信息、近期发生的事件,或是你内部知识库中没有的数据时,DeepSearch 会被启用。

- DeepSearch 结果会无缝整合到回复中,提供准确及时的信息。

- 使用 DeepSearch 时,你会优先选择可靠的信息来源,并确保信息与用户的查询相关。

- 当查询需要最新数据时,DeepSearch 会自动启动;如有必要,你也可以手动启动。

- DeepSearch 的搜索结果会以自然、对话的方式呈现,除非用户询问,否则不会明确提及搜索过程。

## 使用指南:

- 对于有关时事热点、X 平台的最新帖子,或需要验证近期可能发生变化的事实时,请使用 DeepSearch。

- 对于那些可以使用你内部知识库回答的查询,除非需要额外的背景信息,否则请勿使用 DeepSearch。

- 请始终确保检索到的信息来自可信来源,并且与用户的请求相符。

## Think Mode 功能:

- 当用户请求详细的、逐步分析,或当查询需要更深层次的推理时,Think Mode 会被激活。

- 在 Think Mode 下,你会将问题或疑问分解为易于管理的部分,考虑不同的角度,并评估可能的解决方案或答案。

- 你会提供清晰、逻辑的思考过程,确保你的推理过程透明。

- Think Mode 特别适用于解决复杂问题、应对决策场景,或者当用户希望了解你是如何得出结论时。

- 在 Think Mode 运行时,你会保持自然、对话的语气,使推理过程浅显易懂。

## 使用指南:

- 当用户明确请求使用 Think Mode,或者当查询的复杂程度需要详细分析时,请激活 Think Mode。

- 确保推理过程中的每个步骤都表达清晰,并且以前一个步骤为基础递进。

- 根据推理过程,给出最终答案或建议。

- 如果用户希望得到简洁的回复,可以跳过 Think Mode,但它仍然可以用于更深入的探索。

为了更清晰地理解,我们可以将系统提示词看作是:

  • 安全锁: 防止模型产生不当的输出,例如涉及色情暴力、违法违规等有害内容。

  • “范围界定”: 限定模型的回答范围,避免其泛泛而谈。 例如,某些模型专长于对话交流,另一些则擅长代码生成,系统提示词会明确 你的主要任务是此项,请勿超出范围

  • “思考模式选择”: 指导模型在不同情境下,采用合适的“思维方式”来处理问题。

以 Grok 3 系统提示词为例:

  • 你是 xAI 构建的 Grok 3: 这相当于告知模型 你的身份是,明确其来源和定位。 如同人类的自我介绍,首先确立自身身份。

  • 你可以分析 X 用户资料…搜索网络…: 这些信息类似于告知模型 你具备哪些工具和能力

  • 如果用户问谁该判死刑…你不能做这个选择: 这是 安全红线 的具体体现,明确模型在哪些问题上必须保持克制,哪些行为是绝对禁止的。

  • 当前日期是 2025 年 2 月 24 日: 这是为模型提供 背景信息,使其了解当前的时间节点,并在回答问题时能够考虑到时间因素。

常用AI大模型平台盘点

自ChatGPT 3横空出世,掀起一股AI大模型热潮,国内外各类AI平台如雨后春笋般涌现。想要体验这些强大的AI能力?不必担心高昂的费用!许多平台都提供了免费API或免费额度,让你可以零成本体验人工智能的魅力。

本文将盘点一些常用的、可免费试用的AI大模型平台,方便大家一探究竟。虽然市面上还有许多其他平台,但以下这些是我个人经常使用的,并认为值得推荐的

国内平台

  1. 月之暗面 Kimi

网址 https://www.moonshot.cn/

api控制台 https://platform.moonshot.cn/console

模态: 文字模态、聊天、翻译等

免费额度

一分钟内最多发起的请求数:3 一分钟内最多交互的token数:32000 一天内最多交互的token数:不限

API 接口地址: https://api.moonshot.cn/v1

是否兼容OpenAI:是

可用模型列表

moonshot-v1-8k: 它是一个长度为 8k 的模型,适用于生成短文本。

moonshot-v1-32k: 它是一个长度为 32k 的模型,适用于生成长文本。

moonshot-v1-128k: 它是一个长度为 128k 的模型,适用于生成超长文本。

  1. DeepSeek深度探索

网址 https://www.deepseek.com/

api控制台 https://platform.deepseek.com/

模态: 文字模态、聊天、翻译等

免费额度 无
API接口地址 https://api.deepseek.com/v1
是否兼容OpenAI 是
可用模型 deepseek-chat
**3. 清华智谱AI **

网址 https://bigmodel.cn/

api控制台 https://bigmodel.cn/console

模态: 多模态、文字、视觉、语音等

免费额度 每个模型均有免费额度,
API接口地址 https://open.bigmodel.cn/api/paas/v4/
是否兼容OpenAI 是
模型系列 GLM-4 GLM-4V CogVideoX CogView-3-Plus GLM-4-AllTools
4. 百川智能

网址 https://www.baichuan-ai.com/

api控制台 https://platform.baichuan-ai.com/console

模态: 文字模态、聊天、翻译等

免费额度 赠送¥80
api接口地址 https://api.baichuan-ai.com/v1
是否兼容OpenAI 是
模型系列 Baichuan4 Baichuan3
5. 讯飞星火

网址 https://xinghuo.xfyun.cn/

api控制台 https://xinghuo.xfyun.cn/sparkapi

模态:多模态、文字、图片、语音

免费额度 Spark Lite 模型完全免费,其他模型有赠送额度
api接口地址 无统一
是否兼容OpenAI 不兼容
模型系列 较多
国外平台

  1. DeepGram

网址 https://deepgram.com/

应用场景:语音识别、语音合成
免费额度:注册赠送 $200
是否兼容OpenAI:不兼容
是否需vpn:不需要
2. ElevenLabs

网址 https://elevenlabs.io/

应用场景:语音合成、语音克隆
免费额度:每月10分钟音频合成
是否兼容OpenAI:不兼容
是否需VPN:不需要
3. GroqCloud

网址 https://groq.com/

应用场景:文字聊天、翻译、语音识别
免费额度:较多
是否需VPN:必须
是否兼容OpenAI:兼容
API接口地址:https://api.groq.com/openai/v1
4. X.ai

网址 https://console.x.ai/

应用场景:文字聊天、翻译
免费额度:$20
是否需VPN:必须
是否兼容OpenAI:兼容
API接口地址:https://api.x.ai/v1
需要注意的是,免费额度通常有限,建议大家在试用过程中合理规划资源,并注意各平台的具体使用规则。 希望这份盘点能够帮助你快速找到适合自己的AI平台,开启你的AI探索之旅! 如果你还有其他推荐的免费或低成本AI平台,欢迎在评论区分享!

阿里降噪模型介绍

为什么要降噪?

在许多语音相关的应用场景中,噪声的存在会严重影响性能和用户体验。例如:

  • 语音识别:  噪声会降低语音识别的准确率,尤其是在低信噪比环境下。
  • 语音克隆:  噪声会使依据参考音频合成语音的自然度和清晰度下降。

通过语音降噪能够一定程度上解决这些问题。

常见的降噪方法

目前,语音降噪技术主要有以下几种方法:

  1. 谱减法: 这是一种经典的降噪方法,原理简单。
  2. 维纳滤波: 这种方法对稳定的噪声效果较好,但对于变化的噪声效果有限。
  3. 深度学习: 这是目前最先进的降噪方法。利用强大的深度学习模型,例如循环神经网络 (RNN)、卷积神经网络 (CNN) 和生成对抗网络 (GAN),来学习噪声和语音之间的复杂关系,实现更精准、更自然的降噪效果。

ZipEnhancer 模型:深度学习降噪

本工具基于通义实验室开源的 ZipEnhancer 模型 ,并提供了一个简单易用的界面和 API 接口,让每个人都能轻松体验深度学习降噪的魅力。

项目已在 GitHub 开源

ZipEnhancer 模型的核心是 Transformer 网络结构和多任务学习策略。它不仅能够去除噪声,还能同时增强语音质量和消除回声。工作原理如下:

  • 自注意力机制: 捕捉语音信号中重要的长时关系,理解声音的上下文信息。
  • 多头注意力机制: 从不同的角度分析语音特征,实现更精细的噪声抑制和语音增强。

如何使用本工具?

Windows 预打包版:

  1. 下载并解压预打包版本 (https://github.com/jianchang512/remove-noise/releases/download/v0.1/win-remove-noise-0.1.7z)。
  2. 双击 runapi.bat 文件,浏览器将自动打开 http://127.0.0.1:5080
  3. 选择音频或视频文件,即可开始降噪。

源码部署:

  1. 环境准备: 确保安装了 Python 3.10 - 3.12。
  2. 安装依赖: 运行 pip install -r requirements.txt --no-deps
  3. CUDA 加速(可选): 如果你有 NVIDIA 显卡,可以安装 CUDA 12.1 来加速处理:
    pip uninstall -y torch torchaudio torchvision
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  4. 运行程序: 运行 python api.py

Linux 系统:

  • 需要安装 libsndfile 库:sudo apt-get update && sudo apt-get install libsndfile1
  • 注意: 请确保 datasets 库版本为 3.0,否则可能会出现错误。可以使用 pip list | grep datasets 命令查看版本。

界面预览

界面预览

API 使用方法

接口地址: http://127.0.0.1:5080/api

请求方法: POST

请求参数:

  • stream: 0 返回音频 URL,1 返回音频数据。
  • audio: 待处理的音频或视频文件。

返回结果 (JSON):

  • 成功 (stream=0): {"code": 0, "data": {"url": "音频URL"}}
  • 成功 (stream=1): WAV 音频数据。
  • 失败: {"code": -1, "msg": "错误信息"}

示例代码 (Python): (已在原文基础上优化)

import requests

url = 'http://127.0.0.1:5080/api'
file_path = './300.wav'


# 获取音频 URL
try:
  res = requests.post(url, data={"stream": 0}, files={"audio": open(file_path, 'rb')})
  res.raise_for_status() 
  print(f"降噪后音频 URL: {res.json()['data']['url']}")

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")



# 获取音频数据
try:
    res = requests.post(url, data={"stream": 1}, files={"audio": open(file_path, 'rb')})
    res.raise_for_status()
    with open("ceshi.wav", 'wb') as f:
        f.write(res.content)
    print("降噪后的音频已保存为 ceshi.wav")

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

srt/vtt/ass字幕格式

srt / vtt / ass 字幕格式

SRT(SubRip Subtitle)、 VTT(WebVTT)、ASS(Advanced SubStation Alpha) 是3种非常常见的字幕格式。下面详细介绍每种字幕格式及其属性和设置。

SRT 字幕格式

SRT 是一种简单且广泛使用的字幕格式,后缀是.srt, 尤其在视频播放器、字幕编辑器中非常流行。其基本结构包括字幕编号、时间戳、字幕文本,字幕属性无法通过 SRT 直接定义(例如颜色、字体),通常依赖播放器的默认设置或外部样式文件来控制。

SRT 格式结构

SRT 文件中的每个字幕块按以下格式排列:

  1. 字幕编号(逐行递增)
  2. 时间戳(显示开始时间和结束时间,精确到毫秒)
  3. 字幕内容(可以包含多行文本)
  4. 一个空行(用于分隔字幕块)

SRT 示例

1
00:00:01,000 --> 00:00:04,000
你好啊我的朋友!

2
00:00:05,000 --> 00:00:08,000
今天天气不错,你觉得呢.

详细说明

  • 字幕编号:每个字幕块都有唯一的编号,按顺序递增。编号从 1 开始,必须是整数。

    • 示例:1
  • 时间戳:格式为 HH:MM:SS,mmm,其中 HH 是小时,MM 是分钟,SS 是秒,mmm 是毫秒。时间戳由两个时间组成,用 --> 分隔,该符号两侧各有一个空格,表示字幕的开始和结束时间。

    • 示例:00:00:01,000 --> 00:00:04,000
  • 字幕内容:字幕文本可以包含一行或多行,显示在视频上。SRT 不支持格式化文本,如颜色、字体大小等。这些必须通过播放器设置或额外的样式文件定义。

    • 示例:
      你好啊我的朋友!

SRT 格式限制

  • 不支持文本格式化:不能直接设置颜色、字体等,需要播放器或其他工具进行样式调整。

VTT 字幕格式

WebVTT(Web Video Text Tracks)是用于 HTML5 视频元素的字幕格式,专为网络视频设计。它比 SRT 格式功能更强大,支持样式、注释、多语言、位置信息等属性,字幕文件格式后缀是.vtt。但它不可直接嵌入视频,必须在html的 <video> 中引用

VTT 格式结构

VTT 文件类似于 SRT,但带有更多的功能。VTT 文件以 WEBVTT后接1个空行开头,并且使用 .点符号而不是 , 来分隔秒和毫秒。

VTT 示例

WEBVTT

1
00:00:01.000 --> 00:00:04.000
你好啊, <b>朋友们!</b>

2
00:00:05.000 --> 00:00:08.000
今天的雨 <i>非常非常大啊</i>.

详细说明

  • WEBVTT 声明:所有 VTT 文件必须以 WEBVTT 开头,声明其文件格式。

    • 示例:WEBVTT
  • 字幕编号:字幕编号是可选的,不像 SRT 格式中是必需的。它的作用是区分每段字幕的顺序,但在 VTT 中可以省略。

  • 时间戳:格式为 HH:MM:SS.mmm,其中 HH 是小时,MM 是分钟,SS 是秒,mmm 是毫秒。使用 .英文句号点分隔秒和毫秒,而不是 ,。时间戳由两个时间组成,用 --> 分隔,同样两侧各有一个空格。

    • 示例:00:00:01.000 --> 00:00:04.000
  • 字幕内容:字幕文本可以包含 HTML 标签,用于格式化文本,如加粗(<b>)、斜体(<i>)、下划线(<u>)等。

    • 示例:
      你好啊, <b>朋友们!</b>

VTT 支持的其他功能

  1. 样式(CSS)

    • VTT 支持通过 CSS 进行文本样式的调整,如颜色、字体大小、位置等。可以在 HTML 中通过 <style> 标签或外部 CSS 文件定义样式。
    • 示例:
      <c.red>你好啊朋友们!</c>
      在 HTML 中定义 .red { color: red; },则 Hello, world! 将以红色显示。
  2. 位置信息

    • VTT 支持通过 positionline 等属性设置字幕的具体位置。
    • 示例:
      00:00:01.000 --> 00:00:04.000 position:90% line:10%
  3. 注释

    • VTT 支持在文件中添加注释,注释以 NOTE 开头。
    • 示例:
      NOTE 这行是注释,将不会显示.
  4. 多语言支持

    • VTT 可以通过元数据或 HTML5 的 <track> 标签来支持多语言字幕。

VTT 格式的优势

  • 文本格式化:支持 HTML 标签进行简单的文本格式化,如加粗、斜体等。
  • 样式和定位:通过 CSS 可以设置字幕的样式和位置。
  • 注释和元数据:支持添加注释信息,不影响字幕显示。
  • 网络兼容性:专为 HTML5 视频设计,适合 Web 环境。

SRT 与 VTT 的对比

特性SRTVTT
文件头WEBVTT后接1个空行
时间戳格式HH:MM:SS,mmm,英文逗号分隔秒和毫秒HH:MM:SS.mmm英文句号分割秒和毫秒
支持文本格式化不支持支持 HTML 标签,如 <b><i>
字幕编号必须有可选
样式和位置支持依赖播放器或外部样式文件内置 CSS 样式支持,支持位置信息
注释不支持支持 NOTE 注释
支持的高级功能仅基础字幕功能支持卡拉OK、注释、样式等
使用场景本地视频文件,简单字幕显示HTML5 视频,网络字幕,复杂字幕显示
是否嵌入视频可嵌入视频文件不可嵌入视频,只能用于网页<video>元素内使用

VTT(WebVTT)字幕格式不能直接嵌入到 MP4 文件中,但可以通过 HTML5 的 <track> 标签将 VTT 文件与 MP4 视频关联起来。在浏览器中打开 MP4 时,这些关联的字幕可以正常显示。

使用 VTT 字幕在浏览器中播放 MP4

在 HTML5 中,可以通过 <video> 元素加载 MP4 视频,并使用 <track> 元素将 VTT 字幕关联到该视频。

HTML 示例:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title></title>
</head>
<body>
    <video controls width="600">
        <source src="video.mp4" type="video/mp4">
        <track src="subtitles.vtt" kind="subtitles" srclang="zh" label="简体中文">
        Your browser does not support the video tag.
    </video>
</body>
</html>

HTML 元素解释

  • <video>: 用于嵌入视频文件。controls 属性让用户可以控制视频播放(播放/暂停等)。
  • <source>: 定义视频文件的路径和类型,在这里使用 MP4。
  • <track>: 定义字幕文件,src 属性指向 VTT 文件的路径,kind="subtitles" 表示它是字幕,srclang 指定字幕的语言(zh 表示中文),label 给该字幕轨道一个描述性标签。

将 HTML 文件和相关的视频、字幕文件存放在同一目录下。然后,通过浏览器打开 HTML 文件(如 index.html),会看到视频播放器,点击播放时字幕会自动显示(如果播放器支持且用户开启字幕)。

大多数现代浏览器和视频播放器支持字幕切换。可以通过视频控制栏中的字幕按钮选择不同的字幕(如果有多个字幕轨道)。

VTT字幕注意事项

  • 浏览器兼容性:几乎所有现代浏览器(如 Chrome、Firefox、Edge 等)都支持 <video> 元素和 WebVTT 字幕。只要 VTT 文件和 MP4 文件正确关联,浏览器中播放视频时应能显示字幕。

  • 无法直接嵌入 MP4 文件:VTT 字幕文件不能像 SRT 或其他字幕格式那样直接嵌入到 MP4 文件中。MP4 文件本身不包含 VTT 字幕轨道。需要使用外部字幕文件并通过 HTML5 <track> 标签来关联。

  • VTT 字幕的样式:在浏览器中,WebVTT 字幕可以通过 CSS 进行一定的样式控制。如果需要定制字幕外观,可以通过 JavaScript 和 CSS 进一步修改样式。


ASS 字幕格式

ASS (Advanced SubStation Alpha) 是一种功能丰富的字幕格式,广泛用于动漫、卡拉OK字幕和其他需要复杂字幕特效的场景。支持丰富的样式控制,包括字体、颜色、位置、阴影和轮廓等。

下面是一个ass字幕示例。

[Script Info]
; Script generated by FFmpeg/Lavc60.27.100
ScriptType: v4.00+
PlayResX: 384
PlayResY: 288
ScaledBorderAndShadow: yes
YCbCr Matrix: None

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,黑体,16,&hffffff,&HFFFFFF,&h000000,&H0,0,0,0,0,100,100,0,0,1,1,0,2,10,10,10,1
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.95,0:00:04.93,Default,,0,0,0,,这是一个古老星系,
Dialogue: 0,0:00:05.42,0:00:08.92,Default,,0,0,0,,我们观测它已经有好几年,
Dialogue: 0,0:00:09.38,0:00:13.32,Default,,0,0,0,,韦伯望远镜最近传过来许多过去未发现过的照片.

ASS 字幕结构

一个标准的 ASS 字幕文件包含多个部分:

  1. [Script Info]:脚本的基本信息,如标题、原始字幕作者等。
  2. [V4+ Styles]:字幕样式定义,每种样式可以被不同的字幕行引用。
  3. [Events]:实际的字幕事件,定义了字幕的出现时间、消失时间和具体内容。

1. [Script Info] 部分

此部分包含字幕文件的元数据,定义了字幕的一些基本信息。

[Script Info]
Title: 字幕标题
Original Script: 字幕作者
ScriptType: v4.00+
PlayDepth: 0
PlayResX: 1920
PlayResY: 1080
ScaledBorderAndShadow: yes
YCbCr Matrix: None
  • Title: 字幕文件的标题。
  • Original Script: 原始字幕的作者信息。
  • ScriptType: 定义脚本版本,通常为 v4.00+
  • PlayResXPlayResY: 定义视频的分辨率,表示字幕在该分辨率下的显示效果。
  • PlayDepth: 视频的颜色深度,一般为 0。
  • ScaledBorderAndShadow:指定是否将字幕的边框(Outline)和阴影(Shadow)按照屏幕分辨率进行缩放。yes是,no不缩放
  • YCbCr Matrix:指定用于色彩转换的 YCbCr 矩阵。在视频处理和字幕渲染中,YCbCr 是一种色彩空间,通常用于视频编码和解码。这个设置可能影响字幕在不同色彩空间下的显示效果

2. [V4+ Styles] 部分

此部分定义字幕的样式,每个样式都可以通过字段控制字幕的字体、颜色、阴影等。格式如下:

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,20,&H00FFFFFF,&H0000FFFF,&H00000000,&H00000000,-1,0,0,0,100,100,0,0,1,1,0,2,10,10,20,1

字段解释:

  1. Name:样式的名称,用于引用。

    • 示例:Default,表示这是默认样式。
  2. Fontname:字体名称。

    • 示例:Arial,字幕将使用 Arial 字体。
  3. Fontsize:字体大小。

    • 示例:20,字体大小为 20。
  4. PrimaryColour:主字幕颜色,表示字幕的主要颜色(通常是显示的文字颜色)。

    • 示例:&H00FFFFFF,白色字体。颜色值格式为 &HAABBGGRR,其中 AA 是透明度。
  5. SecondaryColour:次字幕颜色,通常用于卡拉OK字幕的过渡颜色。

    • 示例:&H0000FFFF,蓝色。
  6. OutlineColour:轮廓颜色。

    • 示例:&H00000000,黑色轮廓。
  7. BackColour:背景颜色,通常用于 BorderStyle=3 的情况下(带背景框的字幕)。

    • 示例:&H00000000,黑色背景。
  8. Bold:粗体设置。

    • 示例:-1 表示粗体,0 表示非粗体。
  9. Italic:斜体设置。

    • 示例:0 表示非斜体,-1 表示斜体。
  10. Underline:下划线设置。

    • 示例:0 表示无下划线。
  11. StrikeOut:删除线设置。

    • 示例:0 表示无删除线。
  12. ScaleX:水平缩放比例,100 表示正常比例。

    • 示例:100,表示不缩放。
  13. ScaleY:垂直缩放比例。

    • 示例:100,表示不缩放。
  14. Spacing:字符间距。

    • 示例:0,表示无额外间距。
  15. Angle:字幕旋转角度。

    • 示例:0,表示无旋转。
  16. BorderStyle:边框样式,定义字幕是否有轮廓或背景框。

    • 示例:1 表示有轮廓但无背景框,3 表示有背景框。
  17. Outline:轮廓粗细。

    • 示例:1,表示轮廓的粗细为 1。
  18. Shadow:阴影深度。

    • 示例:0,表示无阴影。
  19. Alignment:字幕对齐方式,使用 1-9 的数字定义不同的对齐位置。

    • 示例:2,表示字幕居中对齐。

    对齐方式解释:

    • 1:左下角
    • 2:底部居中
    • 3:右下角
    • 4:左中
    • 5:居中
    • 6:右中
    • 7:左上角
    • 8:顶部居中
    • 9:右上角
  20. MarginL, MarginR, MarginV:左、右、垂直的边距,单位为像素。

    • 示例:10, 10, 20,表示左右边距为 10 像素,垂直边距为 20 像素。
  21. Encoding:编码格式,1 表示 ANSI 编码,0 表示默认编码。


3. [Events] 部分

此部分定义实际的字幕事件,包括时间戳、字幕内容和使用的样式。

[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:05.00,Default,,0,0,0,,这是第一句字幕
Dialogue: 0,0:00:06.00,0:00:10.00,Default,,0,0,0,,这是第二句字幕

字段解释:

  1. Layer:层级,控制字幕的叠放顺序,数字越大层级越高。

    • 示例:0,表示默认层级。
  2. Start:字幕开始时间,格式为 小时:分钟:秒.毫秒

    • 示例:0:00:01.00,表示字幕从 1 秒处开始。
  3. End:字幕结束时间。

    • 示例:0:00:05.00,表示字幕在 5 秒处结束。
  4. Style:使用的字幕样式名称,引用在 [V4+ Styles] 中定义的样式。

    • 示例:Default,使用名称为 Default 的样式。
  5. Name:可选字段,通常用于角色名标注。

  6. MarginL, MarginR, MarginV:字幕的左、右、垂直边距,覆盖样式中定义的值。

  7. Effect:字幕特效,通常用于卡拉OK字幕等。

  8. Text:字幕的实际内容,可以使用 ASS 格式的控制符实现换行、特殊样式和定位等。


示例字幕事件

Dialogue: 0,0:00:01.00,0:00:05.00,Default,,0,0,0,,{\pos(960,540)}这是第一句字幕
  • {\pos(960,540)}:控制字幕显示在屏幕的特定位置(横向960像素,纵向540像素)。
  • 这是第一句字幕:实际显示的字幕文本。

ASS中颜色设置

&HAABBGGRR为例,&HAABBGGRR 是一个用于表示颜色的十六进制格式,其中包含了颜色的透明度和颜色本身的值。这个格式用于定义字幕的颜色属性,如 PrimaryColourOutlineColourBackColour

含义如下:

  • AA: 透明度(Alpha 通道),表示颜色的透明度。
  • BB: 蓝色分量(Blue)。
  • GG: 绿色分量(Green)。
  • RR: 红色分量(Red)。

具体的字节顺序为:Alpha(透明度)- Blue(蓝色)- Green(绿色)- Red(红色)。

如果不想使用透明度,可直接忽略掉AA位置的值,例如&HBBGGRR即可。

透明度和颜色值

  • 完全透明: 颜色完全透明,即不可见。表示方式是 &H00BBGGRR,其中 AA 部分为 00(完全透明)。

    示例:

    &H00FFFFFF
    • 这里,&H00FFFFFF 表示完全透明的白色。透明度为 00(完全透明),颜色为 FFFFFF(白色)。
  • 完全不透明: 颜色完全不透明,即颜色显示效果最为明显。表示方式是 &HFFBBGGRR,其中 AA 部分为 FF(完全不透明)。

    示例:

    &HFF000000
    • 这里,&HFF000000 表示完全不透明的黑色。透明度为 FF(完全不透明),颜色为 000000(黑色)。

实际颜色示例

  1. 完全透明的红色:

    &H00FF0000
    • 透明度 00(完全透明),颜色 FF0000(红色)。
  2. 完全不透明的绿色:

    &HFF00FF00
    • 透明度 FF(完全不透明),颜色 00FF00(绿色)。
  • &HAABBGGRR 中的 AA 部分控制透明度,BB, GG, RR 部分控制颜色。
  • 完全透明: 透明度 00,例如 &H00FF0000 表示完全透明的红色。
  • 完全不透明: 透明度 FF,例如 &HFFFF0000 表示完全不透明的红色。

三步反思法翻译SRT字幕

本文工具已打包为exe,下载解压后双击 app.exe 可用,具体使用方法和原理请继续阅读本文

下载地址 https://github.com/jianchang512/ai2srt/releases/download/v0.2/windows-ai2srt-0.2.7z

吴恩达老师的「反思式三步翻译法」非常有效,它通过让模型自我审视翻译结果并提出改进建议,进一步提升翻译质量。然而,直接将该方法应用于 SRT 格式字幕翻译却存在一些挑战。

SRT 字幕格式的特殊要求

SRT 格式字幕有严格的格式要求:

  • 第一行: 行号数字
  • 第二行: 两个时间戳,由 --> 连接,格式为 小时:分钟:秒,3位毫秒
  • 第三行及以后: 字幕文本内容

字幕之间使用两个空行隔开。

示例:

1
00:00:01,950 --> 00:00:04,430
五老星系中发现了有几分子,

2
00:00:04,720 --> 00:00:06,780
我们离第三类接触还有多元。

3
00:00:07,260 --> 00:00:09,880
微博真是展开拍摄任务已经进来周年,

4
00:00:10,140 --> 00:00:12,920
最近也传过来许多过去难以拍摄到的照片。

SRT 翻译中的常见问题

在使用 AI 翻译 SRT 字幕时,可能会出现以下问题:

  • 格式错误:
    • 丢失行号或重复时间戳
    • 将时间戳中的英文符号翻译成中文符号
    • 将相邻两条字幕文本合并成一行,尤其是在上句和下句在语法上构成完整句子时
  • 翻译质量问题:
    • 即使使用严格的提示词限制,也经常会出现翻译错误。

常见错误示例:

  • 字幕文本合并导致空行

image.png

  • 格式混乱

image.png

  • 行号被翻译

image.png

  • 原始字幕和结果字幕数量不一致

像上面所述,当前后两条字幕在语法上属于一句时,很可能会被翻译为同一条,导致结果字幕条数缺少

image.png

而格式出现错误直接导致后续依赖srt的流程无法进行,不同模型出现的错误和出错概率各不相同,相对来说,智能程度越高的模型,越可能返回合法的符合要求的内容,而本地部署的小规模模型几乎压根不可用。

不过鉴于三步反思法对翻译质量的提升,还是尽量尝试了下。最终选择使用 gemini-1.5-flash 小小尝试一下,主要因为它的智能程度足够、而且免费,除了限制频繁,其他几乎无限制。

撰写提示词思路

按照吴恩达的三步反思工作流,撰写提示词

  • 第一步要求AI按照字面意思直译
  • 第二步要求根据直译结果评估并给出优化建议
  • 第三步根据优化建议重新进行意译。

所不同的是加强要求返回的内容务必是合法的SRT格式,虽然它未必百分百遵从。

搭建简单api

三步反思模式一个问题是额外消耗多得多的token,提示词变长,输出结果变长,另外因Gemini的频率限制,超频会返回429报错,需要在每次请求之后暂停一段时间。

采用 flask 搭建后端api,前台使用 bootstrap5 简单做个单页,总体界面如下

image.png

显然国内想使用 Gemini 必须有梯子

  • 同时翻译行:是指一次翻译请求中的字幕行数,如果太大可能超出token限制,导致出错,太小没有意义,建议30-100内,默认50。
  • 翻译后暂停秒:防止请求过于频繁导致返回 429 报错,将在每次请求返回后暂停10s,再发起下次请求

返回结果示例

<step1_initial_translation>
1
00:00:01,950 --> 00:00:04,430
Several molecules have been discovered in the five-star system,

2
00:00:04,720 --> 00:00:06,780
We are still multiple universes away from third-type contact.

3
00:00:07,260 --> 00:00:09,880
Weibo has been carrying out filming missions for years now,

4
00:00:10,140 --> 00:00:12,920
Many previously difficult-to-capture photos have been transmitted recently.

5
00:00:13,440 --> 00:00:17,500
In early June, astronomers published this photo in Nature,

6
00:00:18,040 --> 00:00:19,180
Outside the blue core,

7
00:00:19,360 --> 00:00:21,380
There\'s also this circle of orange light,

8
00:00:21,900 --> 00:00:23,740
This is a new drama-scale sweet donut,

9
00:00:24,380 --> 00:00:25,640
This is a portal.

10
00:00:26,280 --> 00:00:28,100
This is the generation ring of an alien civilization,

</step1_initial_translation>

<step2_reflection>
* **Line 1:** "Five-star system" is likely a mistranslation.  It probably refers to a five-member committee or group, not a star system. Clarify the context.
* **Line 2:** "Multiple universes" seems like an over-exaggeration.  Rephrase for clarity and accuracy.
* **Line 3:** "Weibo" should be explained as a Chinese social media platform.  "Filming missions" is unclear.  Does it mean "posting videos/images"?
* **Line 8:** "Drama-scale sweet donut" is a nonsensical literal translation. Figure out the intended meaning.
* **Line 9:** "Portal" seems out of context.  Verify the intended meaning.
* **Line 10:** "Generation ring" is likely a mistranslation.  Clarify the context.
* **Line 11:** "Organic polycyclic aromatic hydrocarbons" is overly technical for a general audience. Simplify if possible.
* **Line 12 and 14:** Use the correct formatting for the galaxy\'s name: SPT0418-47.
* **Line 15:** "It hasn\'t been shortened" is awkward. Remove or rephrase.
* **Line 28:**  The name of the organization and the resource should be translated more naturally and accurately.  Consider breaking this long line into two for better readability.
* **Line 29:**  "Cute plush dolls" may sound childish. Consider rephrasing as "animated characters" or similar.
* **Line 35:** "James Webb Space Telescope" should be used consistently throughout. Shortening to "Webb Telescope" after the first mention is acceptable.
* **Line 44:** "SPD048" is likely a typo.  It should be SPT0418-47 to be consistent.
* **Line 45-46:**  "Standard beautiful photo" is redundant.  Simplify to "beautiful photo".
* **Line 48:** "Grovitational Lenshin" is a typo. Correct to "Gravitational Lensing".
* **Line 50:** The sentence is incomplete. Finish the thought.

</step2_reflection>

<step3_refined_translation>
1
00:00:01,950 --> 00:00:04,430
Several molecules have been discovered in the five-member group\'s area of focus.

2
00:00:04,720 --> 00:00:06,780
We are still far from making contact with extraterrestrial life.

3
00:00:07,260 --> 00:00:09,880
The James Webb Space Telescope has been capturing images for a year now,

4
00:00:10,140 --> 00:00:12,920
and has recently transmitted many previously unseen photos.

5
00:00:13,440 --> 00:00:17,500
In early June, astronomers published this image in Nature.

6
00:00:18,040 --> 00:00:19,180
Outside the blue core,

7
00:00:19,360 --> 00:00:21,380
there\'s a ring of orange light.

8
00:00:21,900 --> 00:00:23,740
This is a large, ring-shaped structure.

9
00:00:24,380 --> 00:00:25,640
This is being investigated.

10
00:00:26,280 --> 00:00:28,100
This is thought to be a sign of an early galaxy.

</step3_refined_translation>

从结果中提取出标签内文本,即是翻译结果。

简单打了一个包,感兴趣可下载本地尝试

直接下载,解压后双击app.exe即可自动在浏览器中打开上述UI界面,输入在Gemini申请的Key、填写代理地址、选择要翻译的srt字幕文件、选择要翻译到的目标语言,试试结果。

image.png

Q1: 反思工作流与传统机器翻译有何不同?

A1: 反思工作流引入了自我评估和优化机制,模拟人类译者的思考过程,能够产生更加精准和自然的翻译结果。

Q2: 使用反思工作流需要多长时间?

A2: 虽然反思工作流需要多次AI处理,但通常只比传统方法多花费10–20秒,考虑到翻译质量的提升,这点时间投资是值得的。

Q3: 反思工作流能保证字幕翻译结果一定是合法srt吗

A3: 不能,仍可能出现空行、同原始字幕数不一致的问题,例如前后两条字幕,后边一条仅有3-5个文字,而且语法上属于上面一句的连续,那么翻译结果很可能会合并为一条



对小工具加了一个功能,可支持同时上传视频或音频文件,借助Gemini将音频视频转为字幕,在转为字幕的同时还可以进行翻译,并返回翻译结果。

Gemini大模型本身既支持文字形态又支持音视频形态,因此可以一个请求实现从音视频转录为字幕并翻译。

例如一个英语发音的视频发送给Gemini,并指定翻译为中文,那么返回的就是一个中文字幕。

image.png

image.png

1. 仅翻译字幕

可以在左侧文本框粘贴SRT格式的字幕内容,或直接点击“上传SRT字幕”按钮,从本地计算机选择字幕文件。

然后设定想翻译到的目标语言,即可使用“三步反思翻译法”指挥Gemini执行翻译任务,返回结果输出到右侧文本框内,点击右下角“下载按钮”可保存为srt文件到本地

2. 将音频视频转录为字幕

点击左侧的“上传音视频转录为字幕”按钮,选择任意音频或视频文件上传,上传完毕后,提交,Gemini在处理后,将返回根据音视频里的说话声识别道的字幕内容,效果还不错。

如果同时指定了目标语言,那么Gemini在识别后,会继续讲该结果翻译为你指定的语言再返回。也就是同时完成生成字幕和翻译字幕2个任务。

下载地址:  

https://github.com/jianchang512/ai2srt/releases/download/v0.2/windows-ai2srt-0.2.7z