一个完全本地运行的开源语音转文本 API

该项目基于 OpenAI 的 Whisper 模型，并利用 FastAPI 的异步特性对其进行高效包装，支持异步任务队列，文件处理，网络爬虫，以及更多自定义功能。

「Fast-Powerful-Whisper-AI-Services-API 」的愿景是打造一个强大且开箱即用的 Whisper 服务 API，专为高性能、高扩展性和分布式处理需求而设计，并且以生产者消费者模式为设计核心打造，理想适用于需要大规模、高效自动语音识别的场景。该项目基于 OpenAI Whisper 模型以及推理速度更快并且准确度近似的 Faster Whisper 模型，支持多语言的高质量语音转录和翻译任务，并且内置的爬虫模块可以轻松实现对抖音和TikTok等社交媒体平台的视频进行处理，只需要输入一个链接接口轻松创建任务。

本系统通过异步模型池方案实现了高效的资源调度与任务管理，并且异步模型池支持使用多个GPU进行并行计算，提供完全本地化、高拓展性，且可靠的解决方案。此外，项目计划实现一套灵活的自定义组件和工作流设计，使用户可以通过 JSON 文件定义复杂的多步骤任务流，或通过 Python 编写自定义组件，扩展功能。内置高性能的异步 HTTP 模块，异步文件IO模块，异步数据库模块，用户可以利用这些模块编写自己的服务或任务处理器来拓展业务，未来计划与ChatGPT等LLM API进行接入，实现自动语音识别到自然语言处理和分析的的完整工作流程。

Github：https://github.com/Evil0ctal/Fast-Powerful-Whisper-AI-Services-API

油管：https://youtu.be/ZHtT6QTmT4U

Tarogo Gugu Bloger

搜尋此網誌

一个完全本地运行的开源语音转文本 API

一个完全本地运行的开源语音转文本 API

留言

發佈留言