Private-ASR：本地部署的智能语音助手，一站式语音识别、分离与摘要解决方案！

集成了自动语音识别 (ASR)、说话人分离、SRT 字幕编辑以及基于 LLM 的总结功能。项目使用 Gradio 提供了一个直观易用的用户界面

Private-ASR 是一个基于开源项目 FunClip 修改的本地部署工具，集成了自动语音识别（ASR）、说话人分离、SRT 字幕编辑以及基于大型语言模型（LLM）的总结功能。

主要功能：

自动语音识别（ASR）：
- 支持视频和音频输入，输出文本和 SRT 字幕。
说话人分离（SD）：
- 在多说话人音频/视频中识别并区分不同说话人。
SRT 字幕编辑：
- 允许用户将说话人标识替换为自定义名称。
基于 LLM 的总结：
- 使用基于 GPT 的模型对 ASR 结果进行总结，并支持自定义 API 配置。
部署选项：
- 提供用于生产环境的轻量级 Docker 容器，以及用于开发/测试的 Python 环境。

系统要求：

部署方式：
- Docker（用于容器化部署）
- Python 3.9+（用于手动部署）
依赖项：
- 详见 requirements.txt 文件。

部署步骤：

Docker 部署：

构建 Docker 镜像：

docker build -t audio-processor:latest .

使用 Docker Compose 部署：

version: '3.8'

services:
  audio-processor:
    image: audio-processor:latest
    container_name: audio-processor
    ports:
      - "7860:7860"
    volumes:
      - ./.env:/app/.env
    working_dir: /app
    restart: unless-stopped

然后运行：

docker-compose up -d

Gradio 界面将可通过 http://localhost:7860 访问。

Python 部署：

设置环境：

git clone https://github.com/MotorBottle/Private-ASR.git
cd audio-processor
python3 -m venv .venv
source .venv/bin/activate
pip install --no-cache-dir -r requirements.txt

确保已安装 FFmpeg：

sudo apt-get update
sudo apt-get install -y ffmpeg

运行应用程序：
```
python funclip/launch.py --listen
```
Gradio 界面将可通过 http://localhost:7860 访问。

环境配置：

所有凭据和 API 配置可存储在 .env 文件中。例如：

USERNAME=motor
PASSWORD=admin
OPENAI_API_KEY=your_openai_key
OPENAI_API_BASE=https://your-custom-api.com

使用方法：

上传音频或视频文件。
执行 ASR 识别或说话人分离。
在生成的 SRT 字幕中编辑说话人名称。
使用 LLM 总结功能分析并总结 ASR 文本。

贡献与许可：

本项目以 MIT 许可发布，欢迎贡献！

有关详细信息，请访问项目的 GitHub 页面：

Github：https://github.com/MotorBottle/Private-ASR

油管：https://youtu.be/aSrbWhmdh5k

Tarogo Gugu Bloger

搜尋此網誌

Private-ASR：本地部署的智能语音助手，一站式语音识别、分离与摘要解决方案！

Private-ASR：本地部署的智能语音助手，一站式语音识别、分离与摘要解决方案！

留言

發佈留言