Florence-2:微软开源视觉基础模型




以下内容,翻译自原文

Florence-2 是 Microsoft 在 MIT 许可下开源的轻量级视觉语言模型。该模型在字幕、对象检测、接地和分割等任务中展示了强大的零样本和微调功能。


尽管尺寸很小,但它所取得的结果与大许多倍的模型(如 Kosmos-2)相当。该模型的优势不在于复杂的架构,而在于大规模的 FLD-5B 数据集,其中包含 1.26 亿张图像和 54 亿个综合视觉注释。


您可以通过 HF Space 或 Google Colab 尝试该模型。


统一表示

视觉任务多种多样,并且在空间层次结构和语义粒度方面各不相同。实例分割提供有关图像内对象位置的详细信息,但缺乏语义信息。另一方面,图像字幕可以更深入地理解对象之间的关系,但无需参考它们的实际位置。

Florence-2 的作者决定,他们不会训练一系列能够执行单个任务的单独模型,而是统一它们的表示并训练一个能够执行 10 多个任务的单一模型。然而,这需要一个新的数据集。

构建综合数据集

不幸的是,目前没有可用的大型统一数据集。现有的大规模数据集仅涵盖单个图像的有限任务。 SA-1B 是用于训练 Segment Anything (SAM) 的数据集,仅包含掩码。 COCO 虽然支持更广泛的任务,但相对较小。


更多内容,请参看原文,原文链接,在本视频下方文字描述中

谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢


原文:https://blog.roboflow.com/florence-2/

Arxiv:https://arxiv.org/abs/2311.06242

HuggingFace:https://huggingface.co/microsoft/Florence-2-large


油管:https://youtu.be/t8ZPDxfTTrA

留言