jianchang512的博客-AI-pyVideoTrans

3 天前发表AI工具

F5-TTS 是上海交通大学开源的一款声音克隆工具，效果卓越。最初版本仅支持中文和英文克隆，但最新版本 v1 已经扩展支持法语、意大利语、印地语、日语、俄语、西班牙语、芬兰语等多种语言。本文主要介绍如何使用官方源码安装、启动 F5-TTS，并将其与 pyVideotrans 项目对接。此外，还将介绍如何通过修改源码实现局域网内的调用。同时，由于精力有限，我将不再维护之前的个人整合包和 API 接口，转而统一使用官方接口与 pyVideotrans 项目对接。官方接口的局限性在于只能本机调用，无法在局域网内调用。解决方法请参阅本文局域网使用部分。前置条件您的系统必须已安装 Python....

19 天前发表AI工具

KokoroTTS整合包下载

这是一个用于kokoro TTS项目的webui和api项目，支持中文、英文、日语、法语、意大利语、葡萄牙、西班牙、印地语共8种语言配音项目地址 https://github.com/jianchang512/kokoro-uiapi web界面启动后默认ui地址： http://127.0.0.1:5066 支持对文字和SRT字幕进行配音支持在线试听和下载支持对齐字幕安装方法Windowswin10/11 可直接下载整合包，双击 start.bat 即可启动,若需GPU加速，请确保拥有NVIDIA显卡并安装CUDA12 百度网盘下载地址: https://pan.....

19 天前发表AI工具

小红书开源的语音识别模型使用与整合包下载

小红书开源了一款名为 FireRedASR 的语音自动识别项目，它在中文语音识别方面表现出色。此前，他们只开源了一个较小的 AED 模型。最近，他们又发布了一个更大的 LLM 模型，识别准确率得到了进一步提升。这款 ASR 模型已经集成到整合包中，可以在视频翻译软件(pyVideoTrans)中方便地使用。整合包下载及模型说明模型体积： AED 模型 (model.pth.tar)： 4.35GB LLM 模型：包含两个模型小红书识别模型 (model.pth.tar)：3.37GB Qwen2-7B 模型 (4个文件)：合计 17GB 模型总计约 21GB。即使压缩成 7z ....

分类

标签