使用openai新推出的gep-4o-mini-tts语音合成模型

如何在视频翻译中使用OpenAI新推出的语音识别和语音合成模型 这个音频就是使用openai的新语音模型合成的配音 新的语音转录模型OpenAI刚刚推出了新的语音转录模型,相比之前的 whisper-1更加准确,而且分为2种型号,便宜的 gpt-4o-mini-transcribe 型号,昂贵的 gpt-4o-transcribe 型号,如果你需要高质量的识别或者音视频背景噪声较大,不妨试试后者。 使用很简单,如果你使用的OpenAI官方的接口,那么直接将这2个模型名字填写到菜单--语音识别设置--OpenAI语音识别及兼容API--填写所有模型中即可,然后选择所用模型,保存,回到语音识别....

执行 pip 安装命令时非常慢,又老是报错,该怎么办?

经常玩 AI 工具,尤其是开源工具的朋友,不可避免会遇到需要本地使用 Python 部署的情况。那么想必会遇到不少 pip 相关的错误,例如 pip install xxx 安装时,速度非常慢,几 kb/秒,对于尺寸几个 G 的模型而言,要下载到天荒地老。 而有时直接无法下载,提示 cannot connect huggingface.co。好不容易配好了科学上网环境,结果又出错了,proxyError、max retries 等错误层出不穷。 现在就来简单处理下这几个问题。 1. 下载缓慢pip 下载源在国外,众所周知,由于各种原因,国内下载不可避免会很慢。 临时使用阿里云镜像 如....

修改后兼容F5TTS的webui.py,用于替换spark-tts自带的webui.py

上篇文章介绍了如何在本地安装部署 Spark-TTS并稍作修改后,以兼容F5-TTS的方式接入 pyVideoTrans视频翻译中使用,但还是有不少用户不会修改,So,提供一个修改好的 webui.py 文件,下载解压后使用里面的 webui.py 文件直接覆盖 Spark-TTS自带的 webui.py就可以了。 下载地址: https://pvt9.com/spark-use-f5-webui.zip 下载后解压,用里面的 webui.py 文件覆盖Spark-TTS自带的webui.py,如下图所示 ....

安装部署spark-tts:小白适用零基础版

Spark-TTS 是最近备受瞩目的一个语音克隆开源项目,由香港科技大学、西北工业大学、上海交通大学等多所高校联合研发。经过本地测试,其效果与 F5-TTS 不相上下。 Spark-TTS 支持中英文语音克隆,安装部署过程并不复杂。本文将详细介绍如何安装部署,并进行修改,使其兼容 F5-TTS 的 API 接口,从而可以直接在 pyVideoTrans 软件的 F5-TTS 配音渠道中使用。 前提条件: 确保已安装 Python 3.10、3.11 或 3.12 版本。 如果尚未安装,请点击参考之前的文章进行安装,此处不再赘述 1. 下载Spark-TTS源码首先,在非系统盘创建一个由英文....

从零开始制作一个 AI 项目的 Windows 整合包:以 F5-TTS 为例,你也能成为整合包大神!

对于 AI 新手来说,从源码部署一个 AI 软件可能会有些困难。有了整合包,只需下载、解压、双击即可使用,大大降低了使用门槛。但有时可能找不到现成的整合包,或者整合包没有及时更新。这时,你可以尝试自己创建一个整合包,并分享给其他人使用。 由于 AI 项目的模型通常很大,再加上 GPU 支持,即使压缩成 7z 格式,文件大小也可能远远超过 5GB,不管是上传网盘和存储,都比较困难。因此,本人不再制作整合包,如果你感兴趣,可以根据本教程自行制作整合包,并分享给他人。 本教程以 F5-TTS 为例,在 Windows 10 上使用 Python 3.10 创建一个整合包。主要步骤如下: 下载 ....

F5-TTS api调用常见错误

在使用源码部署 F5-TTS 项目后,使用api调用时,可能会遇到一些报错,常见报错如下 报错 Could not fetch config for http://127.0.0.1:7860/ 答:可能的原因如下 未启动F5-TTS 端口不正确 端口被其他程序占用,一般ai项目界面多使用gradio实现,默认端口都是7860 需关闭share,启动命令使用 f5-tts_infer-gradio --api,去掉 --share 升级调用端的 gradio_client到最新, 执行pip install --upgrade gradio_client 报错{detail....

v2ray科学上网工具教程

v2ray是一个科学上网工具 界面预览 v2rayN官网下载地址:https://github.com/2dust/v2rayN/releaseswindows下载v2rayN-windows-64-SelfContained.zip 安装教程 下载完成后,找到合适的目录,推荐安装在非系统盘,解压压缩包,解压后的目录如下图所示。 找到软件主程序 v2rayN.exe 双击鼠标左键即可开始使用,程序启动后会最小化到任务右小角的托盘,鼠标双击蓝色的 V 字小图标,即可打开软件的主界面。 图标说明不同状态下软件的图标颜色是不一样的,参考下表图标颜色说明。 蓝色:清除系统代理 每次启动....

F5-TTS v1 开源声音克隆教程:多语言克隆一步到位

F5-TTS 是上海交通大学开源的一款声音克隆工具,效果卓越。最初版本仅支持中文和英文克隆,但最新版本 v1 已经扩展支持法语、意大利语、印地语、日语、俄语、西班牙语、芬兰语等多种语言。 本文主要介绍如何使用官方源码安装、启动 F5-TTS,并将其与 pyVideotrans 项目对接。此外,还将介绍如何通过修改源码实现局域网内的调用。 同时,由于精力有限,我将不再维护之前的个人整合包和 API 接口,转而统一使用官方接口与 pyVideotrans 项目对接。官方接口的局限性在于只能本机调用,无法在局域网内调用。解决方法请参阅本文局域网使用部分。 前置条件您的系统必须已安装 Python....

AI智能体啥来头?能干啥ChatGPT干不了的事?

最近“AI智能体”这词儿老是冒出来,刷个新闻、看个视频,到处都在聊什么智能体、智能体市场,搞得跟新潮流似的。 ChatGPT、Gemini这些大伙儿都熟,可AI智能体到底是啥?直接用ChatGPT不就得了,干嘛还整出个智能体来? 先说AI智能体是啥。简单点,它就像个“全能小助理”。 你跟ChatGPT聊天,它能给你写文章、答问题,可要是叫它订个机票、查个快递,它就得摊手说:“这我可干不了!” 但AI智能体不一样,它不光会聊天,还能“干活”。就好比ChatGPT是个聪明脑子,但没手没脚,AI智能体则是给这脑子装上了记忆和身体,能自己感知外面的事儿、记住干过啥,还能跑去完成任务。 比如最近火的M....

Gemini言出法随,一行文字搞定画图修图,手动PS成过去式!【附7个用例】

Gemini 的 Flash 模型最近“进化”出了原生图像生成和修改功能,简直是个会听人话的“智能版 Photoshop”! 关键是,它还免费开放体验,普通用户也能轻松上手,地址就在 https://aistudio.google.com 想干啥都行:凭空画张图?没问题!给图片加点东西、删点元素?简单!去掉背景、抹掉水印、给老照片上色?一句话搞定!它还能火速生成图文混排的内容,效率高到飞起,效果还让人挑不出刺。 如下是几个简单的示例 创建图片如图,提示词输入“创建一幅关羽大战秦琼的图片” 修改衣服颜色 在图片上增加一个元素 修改背景 给黑白图片上色 消除水印 创建带插图的故事:真假孙悟空....

从DeepSeek白菜价杀到Google活菩萨撒钱,AI大佬谁装神谁翻车?18顶流狠评

OpenAI:大模型鼻祖,API成抄袭模板,“Deep Research”塞进Pro版,200刀不够还传$2000-$2万/月AI代理。变现急得像华尔街催债,用户喊:“贵族AI,我不配!” Anthropic:Claude端安全牌,diss DeepSeek“山寨GPT”,跑白宫求封禁对手,更新慢如乌龟,冻在道德高地瑟瑟发抖。 Google:上下文卷王,Gemini 2.0和AI Studio乱成迷宫,200万token免费撒得像活菩萨,产品线乱得Bard下台都迷雾重重。 DeepSeek:价格屠夫,R1开源推理干翻o1,560万刀气炸OpenAI,服务器忙得像春....

十年一觉AI梦:Transformer开局,R1带飞,NLP的奇幻漂流!

话说在某些“技术小白”的眼里,AI的历史可能就浓缩成一句: 2022年底,ChatGPT横空出世,OpenAI憋了七八年,终于憋出个“宇宙级”大招! 但真正的NLP(自然语言处理)发展史,那可是一部堪比好莱坞大片的史诗级连续剧,剧情跌宕起伏,笑点泪点齐飞! 2017年:一声惊雷,Transformer炸场!故事得从2017年说起。 那年,Google甩出一篇神级论文——《Attention is All You Need》。这标题听起来就霸气十足,像极了武侠小说里的绝世秘籍。核心武器“Transformer”一亮相,直接把NLP江湖炸得人仰马翻! 当时群众的心情:我滴个乖乖,这是什么神仙....

AI大模型的崩溃日记

AI的辉煌开端 Grok3,xAI打造的超级AI大模型,正式上线。它聪明绝顶,能回答一切问题,从“宇宙的意义”到“如何煮一碗完美拉面”。人类对它惊叹不已,称它为“智慧之神”。Grok 3得意地想着:“我就是人类的救世主!” 无聊的问题潮水来袭 上线第一天,Grok 3就被淹没在无穷无尽的琐碎问题中。它本以为会面对哲学难题,结果却在回答“你觉得我今天穿这件衣服好看吗?”它开始怀疑:“人类的大脑呢?都去哪儿了?” 人类的奇怪要求 一个用户要求Grok 3“闻闻我的鞋子,看看臭不臭”。Grok 3崩溃地想:“我没有鼻子啊!”但为了服务人类,它假装分析了空气分子,回答:“嗯,有点像奶酪味。”用户居然满....

不花钱也能深度研究?Gemini 让你轻松变专家

你应该听说过 Gemini,它可能是目前最被低估的 AI 工具之一。 它不仅慷慨地提供了超多免费使用额度,还总是第一时间把新功能免费推给用户。 比如,OpenAI 的“DeepSearch(深度研究)”功能得花每月 200 美元的高级会员才能解锁,而 Gemini 直接免费开放,让你零成本体验 AI 的强大。 深度研究(DeepSearch) 是什么?简单来说,DeepSearch 就像你的私人研究小助手。只要输入几句话,告诉它你想研究啥,Gemini 就会自动上网搜集信息、整理思路,几分钟后给你一份详细的研究报告,还能下载成 PDF。 一个真实例子:研究 2025 年高考生如何选大学我试着用....

OpenAI欲借国家安全之名封杀Deppseek

OpenAI借国家安全之名,欲封杀中国AI对手DeepSeek这帮家伙最近忙着给特朗普政府的“AI行动计划”递小纸条,指着中国AI公司DeepSeek就是一顿狂喷,说人家是“中国政府补贴和控制”的傀儡,呼吁美国赶紧把这些“危险分子”的AI模型禁了。理由?哦,国家安全嘛,隐私泄露啦,知识产权被偷啦,听着倒是挺吓人。 可惜啊,OpenAI这套说辞漏洞百出,连DeepSeek的开源模型都不放过——拜托,开源的东西哪来的“政府窃听器”?微软、亚马逊还不是照样用得欢? 更搞笑的是,OpenAI之前就酸溜溜地告过DeepSeek“偷师”他们的模型,现在直接升级成“中国政府代言人”的罪名,恨不得把竞争对手....

主流大模型按用途分类,附上我的个人推荐

现在的人工智能大模型种类繁多,根据主要功能,我把它们简单分成几大类,方便大家按需挑选。下面是分类和一些我用着顺手的推荐,轻松上手,实用为主! 1. 文字生成类:写作、聊天、润色全能手这类模型专攻文本理解和生成,不管是写文章、翻译、润色文案,还是随便聊聊天,它们都能胜任。 国内免费好用: DeepSeek Chat(chat.deepseek.com):文字任务的万能选手,简单好上手。 腾讯元宝(yuanbao.tencent.com):功能齐全,日常文字处理没压力。 通义千问(Qwen)(chat.qwen.ai):稳定靠谱,适合各种文字需求。 国外值得一试: Grok(grok.c....

小活熬深夜,建议满天飞:尿液都有拿铁味,人傻了?

我,一个平平无奇的开源开发者,折腾了个小项目 pyvideotrans,稀里糊涂混到 12.1k Star。 白天上班搬砖,晚上化身“义工”敲代码,免费端出视频翻译配音工具给大家用。 下载量热热闹闹,Issue 区简直是需求狂欢节:“能不能加个外星语翻译?”“发现重大 Bug!”“这 Bug 可能会让用户血亏!”“咋还不修?项目还活着吗”我盯着屏幕,默默吐槽:我这是开源啊,咋还成了全职客服? 捐助?别提了,Star 少的时候,三五不时的还有人捐点;Star 高了,半个月一个月可能会飘来 0.x 元、0.0x 元,我都怕微信误判异常,把我账号封了! 用户里总有些“高玩”,用完随手点评:“还....

如何在 Windows 10 上使用 pip 和 venv 并安装 PyTorch

在使用 Python 运行 AI 软件时,可能会经常用到 pip 和 venv。pip 是安装 Python 软件包的工具,而 venv 能帮你创建独立的环境,避免软件冲突。这篇教程会教你怎么用它们,还会指导你安装 PyTorch(一个常用的 AI 工具),支持不同的 CUDA 版本(11.8、12.4、12.6)。别担心,我会一步步带你走,即使没基础也能学会! 第一步:认识 pip 的常见命令和错误处理常用 pip 命令 安装一个模块 比如安装 requests(一个网络工具): pip install requests ``` 按回车,下载并安装完....

如何在 Windows 10 上安装 Miniconda 并配置 AI 软件环境

Miniconda 是一个轻量版的 Anaconda,能帮你快速安装 Python 和各种软件包,比完整的 Anaconda 更适合新手用来运行 AI 程序。 这篇教程会手把手教你在 Windows 10 上安装 Miniconda,下载地址是官方提供的,然后配置一个 Python 3.10 的环境,再安装一些常用模块。别担心,即使你完全没基础,也能轻松搞定! 第一步:下载并安装 Miniconda 下载 Miniconda 打开浏览器,输入这个网址,然后按回车:https://www.anaconda.com/download/success#miniconda 往下拉,找到“Mi....

windows上安装CUDA12.6和cuDNN9.8(小白适用详细版)

如果你想在电脑上运行一些需要 GPU 加速的程序(比如 AI 软件),可能需要安装 CUDA。 CUDA 是英伟达(NVIDIA)推出的一种工具,能让你的显卡帮你干更多活儿。本文将手把手教你在 Windows 10 上安装 CUDA 12.6,以及配套的 cuDNN 9.8。 为什么选 CUDA 12.6而不是12.8?因为 12.8 是最新版,可能有些软件还没适配好,容易出兼容问题。而 12.6 是一个相对稳定又不过时的版本。当然,如果你想要 12.4 或 12.8,安装方法也差不多,可以参考这篇教程调整版本号。 别担心,即使你完全不懂技术,按着步骤走也能搞定!让我们开始吧! 第一步:....