Private-ASR:本地部署的智能语音助手,一站式语音识别、分离与摘要解决方案!
集成了自动语音识别 (ASR)、说话人分离、SRT 字幕编辑以及基于 LLM 的总结功能。项目使用 Gradio 提供了一个直观易用的用户界面
Private-ASR 是一个基于开源项目 FunClip 修改的本地部署工具,集成了自动语音识别(ASR)、说话人分离、SRT 字幕编辑以及基于大型语言模型(LLM)的总结功能。
主要功能:
自动语音识别(ASR):
- 支持视频和音频输入,输出文本和 SRT 字幕。
说话人分离(SD):
- 在多说话人音频/视频中识别并区分不同说话人。
SRT 字幕编辑:
- 允许用户将说话人标识替换为自定义名称。
基于 LLM 的总结:
- 使用基于 GPT 的模型对 ASR 结果进行总结,并支持自定义 API 配置。
部署选项:
- 提供用于生产环境的轻量级 Docker 容器,以及用于开发/测试的 Python 环境。
系统要求:
部署方式:
- Docker(用于容器化部署)
- Python 3.9+(用于手动部署)
依赖项:
- 详见
requirements.txt
文件。
- 详见
部署步骤:
Docker 部署:
构建 Docker 镜像:
docker build -t audio-processor:latest .
使用 Docker Compose 部署:
version: '3.8' services: audio-processor: image: audio-processor:latest container_name: audio-processor ports: - "7860:7860" volumes: - ./.env:/app/.env working_dir: /app restart: unless-stopped
然后运行:
docker-compose up -d
Gradio 界面将可通过
http://localhost:7860
访问。
Python 部署:
设置环境:
git clone https://github.com/MotorBottle/Private-ASR.git cd audio-processor python3 -m venv .venv source .venv/bin/activate pip install --no-cache-dir -r requirements.txt
确保已安装 FFmpeg:
sudo apt-get update sudo apt-get install -y ffmpeg
运行应用程序:
python funclip/launch.py --listen
Gradio 界面将可通过
http://localhost:7860
访问。
环境配置:
所有凭据和 API 配置可存储在 .env
文件中。例如:
USERNAME=motor
PASSWORD=admin
OPENAI_API_KEY=your_openai_key
OPENAI_API_BASE=https://your-custom-api.com
使用方法:
- 上传音频或视频文件。
- 执行 ASR 识别或说话人分离。
- 在生成的 SRT 字幕中编辑说话人名称。
- 使用 LLM 总结功能分析并总结 ASR 文本。
贡献与许可:
本项目以 MIT 许可发布,欢迎贡献!
有关详细信息,请访问项目的 GitHub 页面:
Github:https://github.com/MotorBottle/Private-ASR
油管:https://youtu.be/aSrbWhmdh5k
留言
發佈留言