Google宣布Gemini-1.5-Pro开放API

现已在180多个国家提供

新增对原生音频（语音）理解能力、文件API、系统指令、JSON模式等功能

现在Gemini模型能够直接处理音频输入，而不需要将音频先转换为文本。

## 新的使用案例解锁：音频和视频模态

Gemini 1.5 Pro扩展了输入模态，包括在Gemini API和Google AI Studio中理解音频（语音）。

此外，Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像（帧）和音频（语音）的同时推理，意味着这个模型具备了理解和处理视频内容的能力，不仅限于视频的视觉部分（如图像帧），也包括音频部分（如对话、背景音乐等）。

## 应用潜力包括：

1.多模态理解：Gemini 1.5 Pro能够综合视频中的视觉信息和音频信息，进行更全面的内容理解。例如，它可以通过分析视频帧中的场景和物体，同时听取视频中的对话或声音，来更准确地识别和解释视频内容。

2.内容索引和搜索：通过对视频图像和音频的深入理解，Gemini 1.5 Pro可以帮助创建更详细的内容索引，使用户能够基于视频内容的视觉和听觉信息进行搜索。

3.增强的交互体验：利用对视频的综合理解，可以开发更丰富的交互式应用，比如自动生成视频摘要、基于内容的推荐系统，或者创建互动式学习和娱乐体验。

4.视频内容分析：Gemini 1.5 Pro可以用于视频监控、内容审查、情感分析等场景，通过同时理解视频和音频内容，AI可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。

5.创意内容生成：对视频图像和音频的综合理解也使得Gemini 1.5 Pro能够在内容创作领域发挥作用，如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。

## Gemini API改进

1.系统指令：通过系统指令引导模型响应，现已在Google AI Studio和Gemini API中提供。定义角色、格式、目标和规则来指导模型的行为，以适应特定用例。

2.JSON模式：指示模型仅输出JSON对象。该模式支持从文本或图像中提取结构化数据。可以使用cURL开始，并且Python SDK支持即将推出。

3.函数调用的改进：现在可以选择模式来限制模型的输出，提高可靠性。选择文本、函数调用或仅函数本身。

## 新的嵌入模型，性能得到提升

从今天开始，开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型，text-embedding-004（在Vertex AI中为text-embedding-preview-0409），在MTEB基准测试中取得更强的检索性能，超过了具有可比维度的所有现有模型。

Tarogo Gugu Bloger