F5-TTS v1 开源声音克隆教程:多语言克隆一步到位

F5-TTS 是上海交通大学开源的一款声音克隆工具,效果卓越。最初版本仅支持中文和英文克隆,但最新版本 v1 已经扩展支持法语、意大利语、印地语、日语、俄语、西班牙语、芬兰语等多种语言。 本文主要介绍如何使用官方源码安装、启动 F5-TTS,并将其与 pyVideotrans 项目对接。此外,还将介绍如何通过修改源码实现局域网内的调用。 同时,由于精力有限,我将不再维护之前的个人整合包和 API 接口,转而统一使用官方接口与 pyVideotrans 项目对接。官方接口的局限性在于只能本机调用,无法在局域网内调用。解决方法请参阅本文局域网使用部分。 前置条件您的系统必须已安装 Python....

KokoroTTS整合包下载

这是一个用于kokoro TTS项目的webui和api项目,支持中文、英文、日语、法语、意大利语、葡萄牙、西班牙、印地语共8种语言配音 项目地址 https://github.com/jianchang512/kokoro-uiapi web界面 启动后默认ui地址: http://127.0.0.1:5066 支持对文字和SRT字幕进行配音 支持在线试听和下载 支持对齐字幕 安装方法Windowswin10/11 可直接下载整合包,双击 start.bat 即可启动,若需GPU加速,请确保拥有NVIDIA显卡并安装CUDA12 百度网盘下载地址: https://pan.....

小红书开源的语音识别模型使用与整合包下载

小红书开源了一款名为 FireRedASR 的语音自动识别项目,它在中文语音识别方面表现出色。此前,他们只开源了一个较小的 AED 模型。最近,他们又发布了一个更大的 LLM 模型,识别准确率得到了进一步提升。 这款 ASR 模型已经集成到整合包中,可以在视频翻译软件(pyVideoTrans)中方便地使用。 整合包下载及模型说明模型体积: AED 模型 (model.pth.tar): 4.35GB LLM 模型: 包含两个模型 小红书识别模型 (model.pth.tar):3.37GB Qwen2-7B 模型 (4个文件):合计 17GB 模型总计约 21GB。即使压缩成 7z ....