Florence-2：微软开源视觉基础模型

以下内容，翻译自原文

Florence-2 是 Microsoft 在 MIT 许可下开源的轻量级视觉语言模型。该模型在字幕、对象检测、接地和分割等任务中展示了强大的零样本和微调功能。

尽管尺寸很小，但它所取得的结果与大许多倍的模型（如 Kosmos-2）相当。该模型的优势不在于复杂的架构，而在于大规模的 FLD-5B 数据集，其中包含 1.26 亿张图像和 54 亿个综合视觉注释。

您可以通过 HF Space 或 Google Colab 尝试该模型。

统一表示

视觉任务多种多样，并且在空间层次结构和语义粒度方面各不相同。实例分割提供有关图像内对象位置的详细信息，但缺乏语义信息。另一方面，图像字幕可以更深入地理解对象之间的关系，但无需参考它们的实际位置。

Florence-2 的作者决定，他们不会训练一系列能够执行单个任务的单独模型，而是统一它们的表示并训练一个能够执行 10 多个任务的单一模型。然而，这需要一个新的数据集。

构建综合数据集

不幸的是，目前没有可用的大型统一数据集。现有的大规模数据集仅涵盖单个图像的有限任务。 SA-1B 是用于训练 Segment Anything (SAM) 的数据集，仅包含掩码。 COCO 虽然支持更广泛的任务，但相对较小。

更多内容，请参看原文，原文链接，在本视频下方文字描述中

谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

原文：https://blog.roboflow.com/florence-2/

Arxiv：https://arxiv.org/abs/2311.06242

HuggingFace：https://huggingface.co/microsoft/Florence-2-large

油管：https://youtu.be/t8ZPDxfTTrA

Tarogo Gugu Bloger