Google宣布Gemini-1.5-Pro开放API



现已在180多个国家提供


新增对原生音频(语音)理解能力、文件API、系统指令、JSON模式等功能


现在Gemini模型能够直接处理音频输入,而不需要将音频先转换为文本。


## 新的使用案例解锁:音频和视频模态


Gemini 1.5 Pro扩展了输入模态,包括在Gemini API和Google AI Studio中理解音频(语音)。


此外,Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理,意味着这个模型具备了理解和处理视频内容的能力,不仅限于视频的视觉部分(如图像帧),也包括音频部分(如对话、背景音乐等)。


## 应用潜力包括:


1.多模态理解:Gemini 1.5 Pro能够综合视频中的视觉信息和音频信息,进行更全面的内容理解。例如,它可以通过分析视频帧中的场景和物体,同时听取视频中的对话或声音,来更准确地识别和解释视频内容。

2.内容索引和搜索:通过对视频图像和音频的深入理解,Gemini 1.5 Pro可以帮助创建更详细的内容索引,使用户能够基于视频内容的视觉和听觉信息进行搜索。

3.增强的交互体验:利用对视频的综合理解,可以开发更丰富的交互式应用,比如自动生成视频摘要、基于内容的推荐系统,或者创建互动式学习和娱乐体验。

4.视频内容分析:Gemini 1.5 Pro可以用于视频监控、内容审查、情感分析等场景,通过同时理解视频和音频内容,AI可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。

5.创意内容生成:对视频图像和音频的综合理解也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。


## Gemini API改进


1.系统指令:通过系统指令引导模型响应,现已在Google AI Studio和Gemini API中提供。定义角色、格式、目标和规则来指导模型的行为,以适应特定用例。

2.JSON模式:指示模型仅输出JSON对象。该模式支持从文本或图像中提取结构化数据。可以使用cURL开始,并且Python SDK支持即将推出。

3.函数调用的改进:现在可以选择模式来限制模型的输出,提高可靠性。选择文本、函数调用或仅函数本身。


## 新的嵌入模型,性能得到提升


从今天开始,开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型,text-embedding-004(在Vertex AI中为text-embedding-preview-0409),在MTEB基准测试中取得更强的检索性能,超过了具有可比维度的所有现有模型。


详细:https://goo.gle/3xxaUH1

音频理解能力:https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb


视频:https://youtu.be/o2XnUDxUmMA

留言