一个完全本地运行的开源语音转文本 API
该项目基于 OpenAI 的 Whisper 模型,并利用 FastAPI 的异步特性对其进行高效包装,支持异步任务队列,文件处理,网络爬虫,以及更多自定义功能。
「Fast-Powerful-Whisper-AI-Services-API 」的愿景是打造一个强大且开箱即用的 Whisper 服务 API,专为高性能、高扩展性和分布式处理需求而设计,并且以生产者消费者模式为设计核心打造,理想适用于需要大规模、高效自动语音识别的场景。该项目基于 OpenAI Whisper 模型以及推理速度更快并且准确度近似的 Faster Whisper 模型,支持多语言的高质量语音转录和翻译任务,并且内置的爬虫模块可以轻松实现对抖音和TikTok等社交媒体平台的视频进行处理,只需要输入一个链接接口轻松创建任务。
本系统通过异步模型池方案实现了高效的资源调度与任务管理,并且异步模型池支持使用多个GPU进行并行计算,提供完全本地化、高拓展性,且可靠的解决方案。此外,项目计划实现一套灵活的自定义组件和工作流设计,使用户可以通过 JSON 文件定义复杂的多步骤任务流,或通过 Python 编写自定义组件,扩展功能。内置高性能的异步 HTTP 模块,异步文件IO模块,异步数据库模块,用户可以利用这些模块编写自己的服务或任务处理器来拓展业务,未来计划与ChatGPT等LLM API进行接入,实现自动语音识别到自然语言处理和分析的的完整工作流程。
Github:https://github.com/Evil0ctal/Fast-Powerful-Whisper-AI-Services-API
留言
發佈留言