微软开源下一代RAG技术

 

微软开源下一代RAG技术



检索增强生成(RAG)是一种基于用户查询搜索信息并提供结果作为生成AI答案的参考的技术。
该技术是大多数基于LLM的工具的重要部分,并且大多数RAG方法使用向量相似性作为搜索技术。
GraphRAG使用LLM生成的知识图,在对复杂信息进行文档分析时,大大提高了问答性能。
这建立在最近的研究基础上,该研究指出了在私有数据集上执行发现时即时增强的力量。
在这里,将私有数据集定义为LLM没有经过训练并且以前从未见过的数据,
例如企业的专有研究,商业文档或通信。创建基线RAG 是为了帮助解决这个问题,但我们观察到基线RAG性能非常差的情况。

微软研究院推出了GraphRAG,这是一种先进的方法,旨在提升大语言模型(LLM)从私有数据集中检索和生成响应的能力。该创新方法利用LLM生成的知识图谱,显著改善了传统检索增强生成(RAG)方法的问答性能。

GraphRAG 是一种结构化、分层的方法,用于实现检索增强生成(Retrieval Augmented Generation,简称 RAG),通过使用知识图谱来改进大语言模型(LLM)的输出质量。

GraphRAG能够跨大量信息连接信息,并利用这些连接回答使用关键字和基于向量的搜索机制难以回答的问题。它能够回答跨多个文档的问题,以及主题性问题,例如“数据集中的主要主题是什么?”

通过 LLM 构建知识图谱结合图机器学习,极大增强 LLM 在处理私有数据时的性能,使得系统能够处理全局性的问题,支持对大规模文本语料库的全局性问题回答,并提供更全面和多样的回答。同时 GraphRAG 具备连点成线的跨大型数据集的复杂语义问题推理能力。

与传统的基线 RAG 方法主要依赖于向量相似性搜索不同,GraphRAG 利用知识图谱在处理复杂信息时提供了显著的问答性能改进。

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

微软博客:https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/
https://microsoft.github.io/graphrag/

油管:https://youtu.be/YaQFQaokoW8

留言