GraphRAG 2.0 melhora os resultados da pesquisa de IA
A Microsoft anunciou uma atualização do GraphRAG que melhora a capacidade dos mecanismos de pesquisa de IA de fornecer respostas específicas e abrangentes usando menos recursos. Esta atualização acelera o processamento do LLM e aumenta a precisão.
A Microsoft não fornece à versão atualizada do GraphRAG um número de versão como 2.0, mas a atualização é tão significativa que é útil referir-se a ela como 2.0 para distingui-la do GraphRAG original.
A diferença entre RAG e GraphRAG
RAG (Retrieval Augmented Generation) combina um grande modelo de linguagem (LLM) com um índice de pesquisa (ou banco de dados) para gerar respostas a consultas de pesquisa. O índice de pesquisa fundamenta o modelo de linguagem com dados novos e relevantes. Isso reduz a possibilidade de o mecanismo de busca de IA fornecer respostas desatualizadas ou alucinadas.
O GraphRAG aprimora o RAG usando um gráfico de conhecimento criado a partir de um índice de pesquisa para gerar resumos chamados de relatórios da comunidade.
GraphRAG usa um processo de duas etapas:
Etapa 1: mecanismo de indexação
O mecanismo de indexação segmenta o índice de pesquisa em comunidades temáticas formadas em torno de tópicos relacionados. Essas comunidades são conectadas por entidades (por exemplo, pessoas, lugares ou conceitos) e pelas relações entre elas, formando um gráfico de conhecimento hierárquico. O LLM cria então um resumo para cada comunidade, denominado Relatório da Comunidade. Este é o gráfico de conhecimento hierárquico que o GraphRAG cria, com cada nível da estrutura hierárquica representando um resumo.
Existe um equívoco de que o GraphRAG usa gráficos de conhecimento. Embora isso seja parcialmente verdade, deixa de fora a parte mais importante: o GraphRAG cria gráficos de conhecimento a partir de dados não estruturados, como páginas da web, na etapa do Mecanismo de Indexação. Esse processo de transformação de dados brutos em conhecimento estruturado é o que diferencia o GraphRAG do RAG, que se baseia na recuperação e resumo de informações sem construir um gráfico hierárquico.
Etapa 2: etapa de consulta
Na segunda etapa, o GraphRAG usa o gráfico de conhecimento criado para fornecer contexto ao LLM para que ele possa responder a uma pergunta com mais precisão.
A Microsoft explica que a Retrieval Augmented Generation (RAG) se esforça para recuperar informações baseadas em um tópico porque analisa apenas relacionamentos semânticos.
O GraphRAG supera o RAG ao primeiro transformar todos os documentos em seu índice de pesquisa em um gráfico de conhecimento que organiza hierarquicamente tópicos e subtópicos (temas) em camadas cada vez mais específicas. Enquanto o RAG depende de relacionamentos semânticos para encontrar respostas, o GraphRAG usa similaridade temática, permitindo localizar respostas mesmo quando palavras-chave semanticamente relacionadas estão ausentes no documento.
É assim que o anúncio original do GraphRAG explica:
“O Baseline RAG luta com consultas que exigem agregação de informações em todo o conjunto de dados para compor uma resposta. Consultas como “Quais são os 5 principais temas nos dados?” tem um desempenho péssimo porque o RAG de linha de base depende de uma pesquisa vetorial de conteúdo de texto semanticamente semelhante dentro do conjunto de dados. Não há nada na consulta que a direcione para as informações corretas.
No entanto, com o GraphRAG podemos responder a essas questões, porque a estrutura do gráfico de conhecimento gerado pelo LLM nos informa sobre a estrutura (e, portanto, os temas) do conjunto de dados como um todo. Isso permite que o conjunto de dados privado seja organizado em clusters semânticos significativos que são pré-resumidos. O LLM usa esses clusters para resumir esses temas ao responder a uma consulta do usuário.”
Atualizar para GraphRAG
Para recapitular, o GraphRAG cria um gráfico de conhecimento a partir do índice de pesquisa. Uma “comunidade” refere-se a um grupo de segmentos relacionados ou documentos agrupados com base na semelhança de tópicos, e um “relatório da comunidade” é o resumo gerado pelo LLM para cada comunidade.
A versão original do GraphRAG era ineficiente porque processava todos os relatórios da comunidade, incluindo resumos irrelevantes de nível inferior, independentemente da sua relevância para a consulta de pesquisa. A Microsoft descreve isso como uma abordagem “estática”, pois carece de filtragem dinâmica.
O GraphRAG atualizado apresenta “seleção dinâmica de comunidade”, que avalia a relevância de cada relatório de comunidade. Os relatórios irrelevantes e as suas subcomunidades são removidos, melhorando a eficiência e a precisão, concentrando-se apenas nas informações relevantes.
A Microsoft explica:
“Aqui, introduzimos a seleção dinâmica de comunidades no algoritmo de busca global, que aproveita a estrutura do gráfico de conhecimento do conjunto de dados indexado. Começando pela raiz do gráfico de conhecimento, usamos um LLM para avaliar a relevância de um relatório da comunidade para responder à pergunta do usuário. Se o relatório for considerado irrelevante, simplesmente removemos ele e seus nós (ou subcomunidades) do processo de busca. Por outro lado, se o relatório for considerado relevante, percorremos seus nós filhos e repetimos a operação. Finalmente, apenas os relatórios relevantes são passados para a operação de redução de mapa para gerar a resposta ao usuário. “
Conclusões: resultados do GraphRAG atualizado
A Microsoft testou a nova versão do GraphRAG e concluiu que resultou numa redução de 77% nos custos computacionais, especificamente no custo do token quando processado pelo LLM. Tokens são as unidades básicas de texto processadas por LLMs. O GraphRAG aprimorado é capaz de usar um LLM menor, reduzindo ainda mais os custos sem comprometer a qualidade dos resultados.
Os impactos positivos na qualidade dos resultados de pesquisa são:
- A pesquisa dinâmica fornece respostas com informações mais específicas.
- As respostas fazem mais referências ao material de origem, o que melhora a credibilidade das respostas.
- Os resultados são mais abrangentes e específicos para a consulta do usuário, o que ajuda a evitar o fornecimento de muitas informações.
A seleção dinâmica de comunidade no GraphRAG melhora a qualidade dos resultados da pesquisa, gerando respostas mais específicas, relevantes e apoiadas pelo material de origem.
Leia o anúncio da Microsoft:
GraphRAG: Melhorando a pesquisa global por meio da seleção dinâmica de comunidades
Imagem em destaque da Shutterstock/N Universe