Whisper WebGPU:使用 OpenAI Whisper 进行浏览器内实时语音识别

 




以下内容来自原文的翻译:

直接在网络浏览器中实现实时语音识别长期以来一直是一个备受追捧的里程碑。 Hugging Face 工程师(昵称“Xenova”)开发的 Whisper WebGPU 是一项突破性技术,利用 OpenAI 的 Whisper 模型实现浏览器内实时语音识别。这一显着的发展是与人工智能驱动的网络应用程序交互的巨大转变。

Whisper WebGPU 的核心在于 Whisper-base 模型,这是一个针对网络推理精心优化的 7300 万参数语音识别模型。 Whisper-base 的模型大小约为 200 MB,设计轻巧但功能强大,非常适合实时应用程序。下载模型后,它将被缓存以供将来使用,确保后续交互快速且无缝。

Whisper WebGPU 的真正创新在于它能够完全在用户的浏览器中运行。该模型利用 Hugging Face Transformers.js 和 ONNX Runtime Web,在本地执行所有计算,无需将数据发送到服务器。这增强了隐私性,并且即使在设备离线时也能启用功能。用户可以在初始模型加载后断开互联网连接,并受益于 Whisper 强大的语音识别功能。

Whisper WebGPU 脱颖而出的一个关键方面是它使用 ONNX(开放神经网络交换)权重。 ONNX 是人工智能模型的开源格式,允许在不同框架中训练的模型无缝共享和使用。 Xenova 在名为“onnx”的专用子文件夹中使用 ONNX 权重构建存储库的方法为未来的网络就绪模型树立了先例。随着 WebML(网络机器学习)技术的成熟,这一临时解决方案预计将不断发展,有望在未来实现更加简化的集成。

Whisper WebGPU 不仅仅涉及设备上处理;还涉及设备上处理。而是要以非凡的多功能性来做到这一点。该模型支持 100 种语言的多语言转录,使其成为语音识别的通用工具。无论是转录、翻译还是辅助应用程序,Whisper WebGPU 都为网络带来了前所未有的实时功能。

总之,Xenova 的 Whisper WebGPU 是在网络上思考和利用 AI 的范式转变。其实时浏览器内语音识别功能、对 100 种语言的支持以及使用 ONNX 和 Transformers.js 的强大框架为基于 Web 的 AI 应用程序树立了新标准。

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

完整阅读: https://marktechpost.com/2024/06/08/whisper-webgpu-real-time-in-browser-speech-recognition-with-openai-whisper/
项目: https://huggingface.co/spaces/Xenova/realtime-whisper-webgpu
GitHub: https://github.com/xenova/transformers.js/tree/v3/examples/webgpu-whisper
X连接:https://x.com/Marktechpost/status/1799469927876980919

油管:https://youtu.be/HV6IAfnTuV8

留言