Private-ASR:本地部署的智能语音助手,一站式语音识别、分离与摘要解决方案!

 

Private-ASR:本地部署的智能语音助手,一站式语音识别、分离与摘要解决方案!



集成了自动语音识别 (ASR)、说话人分离、SRT 字幕编辑以及基于 LLM 的总结功能。项目使用 Gradio 提供了一个直观易用的用户界面

Private-ASR 是一个基于开源项目 FunClip 修改的本地部署工具,集成了自动语音识别(ASR)、说话人分离、SRT 字幕编辑以及基于大型语言模型(LLM)的总结功能。

主要功能:

  1. 自动语音识别(ASR):

    • 支持视频和音频输入,输出文本和 SRT 字幕。
  2. 说话人分离(SD):

    • 在多说话人音频/视频中识别并区分不同说话人。
  3. SRT 字幕编辑:

    • 允许用户将说话人标识替换为自定义名称。
  4. 基于 LLM 的总结:

    • 使用基于 GPT 的模型对 ASR 结果进行总结,并支持自定义 API 配置。
  5. 部署选项:

    • 提供用于生产环境的轻量级 Docker 容器,以及用于开发/测试的 Python 环境。

系统要求:

  • 部署方式:

    • Docker(用于容器化部署)
    • Python 3.9+(用于手动部署)
  • 依赖项:

    • 详见 requirements.txt 文件。

部署步骤:

  1. Docker 部署:

    • 构建 Docker 镜像:

      docker build -t audio-processor:latest .
    • 使用 Docker Compose 部署:

      version: '3.8'
      
      services:
        audio-processor:
          image: audio-processor:latest
          container_name: audio-processor
          ports:
            - "7860:7860"
          volumes:
            - ./.env:/app/.env
          working_dir: /app
          restart: unless-stopped

      然后运行:

      docker-compose up -d

      Gradio 界面将可通过 http://localhost:7860 访问。

  2. Python 部署:

    • 设置环境:

      git clone https://github.com/MotorBottle/Private-ASR.git
      cd audio-processor
      python3 -m venv .venv
      source .venv/bin/activate
      pip install --no-cache-dir -r requirements.txt
    • 确保已安装 FFmpeg:

      sudo apt-get update
      sudo apt-get install -y ffmpeg
    • 运行应用程序:

      python funclip/launch.py --listen

      Gradio 界面将可通过 http://localhost:7860 访问。

环境配置:

所有凭据和 API 配置可存储在 .env 文件中。例如:

USERNAME=motor
PASSWORD=admin
OPENAI_API_KEY=your_openai_key
OPENAI_API_BASE=https://your-custom-api.com

使用方法:

  1. 上传音频或视频文件。
  2. 执行 ASR 识别或说话人分离。
  3. 在生成的 SRT 字幕中编辑说话人名称。
  4. 使用 LLM 总结功能分析并总结 ASR 文本。

贡献与许可:

本项目以 MIT 许可发布,欢迎贡献!

有关详细信息,请访问项目的 GitHub 页面:

Github:https://github.com/MotorBottle/Private-ASR

油管:https://youtu.be/aSrbWhmdh5k


留言