Os pesquisadores do Google melhoram o RAG com sinal de “contexto suficiente”
Os pesquisadores do Google introduziram um método para melhorar a pesquisa e os assistentes de IA, aprimorando a capacidade dos modelos de geração de geração de recuperação (RAG) de reconhecer quando as informações recuperadas carecem de contexto suficiente para responder a uma consulta. Se implementado, essas descobertas podem ajudar as respostas geradas pela IA a evitar confiar em informações incompletas e melhorar a confiabilidade da resposta. Essa mudança também pode incentivar os editores a criar conteúdo com contexto suficiente, tornando suas páginas mais úteis para respostas geradas pela IA.
Sua pesquisa descobre que modelos como Gêmeos e GPT geralmente tentam responder a perguntas quando os dados recuperados contêm contexto insuficiente, levando a alucinações em vez de se abster. Para abordar isso, eles desenvolveram um sistema para reduzir as alucinações, ajudando os LLMs a determinar quando o conteúdo recuperado contém informações suficientes para apoiar uma resposta.
Sistemas de geração de recuperação de recuperação (RAG) Aument LLMs com contexto externo para melhorar a precisão da resposta a perguntas, mas ainda ocorrem alucinações. Não se entendeu claramente se essas alucinações surgiram da interpretação errônea do LLM ou do contexto recuperado insuficiente. O artigo de pesquisa apresenta o conceito de contexto suficiente e descreve um método para determinar quando informações suficientes estão disponíveis para responder a uma pergunta.
A análise deles descobriu que modelos proprietários como Gêmeos, GPT e Claude tendem a fornecer respostas corretas quando recebem contexto suficiente. No entanto, quando o contexto é insuficiente, eles às vezes alucinam em vez de se abster, mas também respondem corretamente 35 a 65% do tempo. Essa última descoberta acrescenta outro desafio: saber quando intervir para forçar a abstenção (para não responder) e quando confiar no modelo para acertar.
Definindo contexto suficiente
Os pesquisadores definem contexto suficiente como significando que as informações recuperadas (do RAG) contêm todos os detalhes necessários para derivar uma resposta correta. A classificação de que algo contém contexto suficiente não exige que seja uma resposta verificada. Está apenas avaliando se uma resposta pode ser plausivelmente derivada do conteúdo fornecido.
Isso significa que a classificação não está verificando a correção. Está avaliando se as informações recuperadas fornecem uma base razoável para responder à consulta.
O contexto insuficiente significa que as informações recuperadas são incompletas, enganosas ou ausentes de detalhes críticos necessários para construir uma resposta.
Autorador de contexto suficiente
O Autorater de contexto suficiente é um sistema baseado em LLM que classifica os pares de contextos de consulta como tendo contexto suficiente ou insuficiente. O modelo de autorater de melhor desempenho foi Gemini 1.5 Pro (1 shot), alcançando uma taxa de precisão de 93%, superando outros modelos e métodos.
Reduzindo alucinações com geração seletiva
Os pesquisadores descobriram que as respostas de LLM baseadas em RAG foram capazes de responder corretamente às perguntas de 35 a 62% do tempo em que os dados recuperados tinham contexto insuficiente. Isso significava que o contexto suficiente nem sempre é necessário para melhorar a precisão, porque os modelos foram capazes de retornar a resposta certa sem ele 35-62% do tempo.
Eles usaram sua descoberta sobre esse comportamento para criar um método de geração seletiva que use pontuações de confiança (probabilidades auto-avaliadas de que a resposta pode estar correta) e sinais de contexto suficientes para decidir quando gerar uma resposta e quando se abster (para evitar fazer declarações incorretas e alucinar). Isso alcança um equilíbrio entre permitir que o LLM responda a uma pergunta quando há uma forte certeza de que está correta, além de permitir a abstenção quando há um contexto suficiente ou insuficiente para responder a uma pergunta.
Os pesquisadores descrevem como funciona:
“… Usamos esses sinais para treinar um modelo linear simples para prever alucinações e depois usá-lo para definir limiares de troca de precisão de cobertura de cobertura.
Esse mecanismo difere de outras estratégias para melhorar a abstenção de duas maneiras principais. Primeiro, como opera independentemente da geração, atenua os efeitos a jusante não intencionais … segundo, oferece um mecanismo controlável para ajustar a abstenção, o que permite diferentes configurações operacionais em aplicações diferentes, como conformidade com precisão estrita em domínios médicos ou cobertura máxima em tarefas de geração criativa.
Takeaways
Antes que alguém comece a afirmar que a suficiência de contexto é um fator de classificação, é importante observar que o artigo de pesquisa não afirma que a IA sempre priorizará as páginas bem estruturadas. A suficiência de contexto é um fator, mas com esse método específico, os escores de confiança também influenciam as respostas geradas pela IA, intervindo com as decisões de abstenção. Os limiares de abstenção se ajustam dinamicamente com base nesses sinais, o que significa que o modelo pode optar por não responder se a confiança e a suficiência forem baixas.
Embora as páginas com informações completas e bem estruturadas tenham maior probabilidade de conter contexto suficiente, outros fatores, como o quão bem a IA seleciona e classifica as informações relevantes, o sistema que determina quais fontes são recuperadas e como o LLM é treinado também desempenha um papel. Você não pode isolar um fator sem considerar o sistema mais amplo que determina como a IA recupera e gera respostas.
Se esses métodos forem implementados em um assistente de IA ou chatbot, isso poderá levar a respostas geradas pela IA que dependem cada vez mais de páginas da Web que fornecem informações completas e bem estruturadas, pois têm maior probabilidade de conter contexto suficiente para responder a uma consulta. A chave é fornecer informações suficientes em uma única fonte, para que a resposta faça sentido sem exigir pesquisas adicionais.
Quais são as páginas com contexto insuficiente?
- Falta detalhes suficientes para responder a uma consulta
- Errôneo
- Incompleto
- Contraditório
- Informações incompletas
- O conteúdo requer conhecimento prévio
As informações necessárias para concluir a resposta são espalhadas por diferentes seções, em vez de apresentadas em uma resposta unificada.
As diretrizes de avaliadores de qualidade de terceiros do Google (QRG) possuem conceitos semelhantes à suficiência de contexto. Por exemplo, o QRG define páginas de baixa qualidade, pois aquelas que não atingem bem seu objetivo porque não fornecem informações necessárias, detalhes ou informações relevantes para o tópico.
Passagens das diretrizes dos avaliadores de qualidade:
“Páginas de baixa qualidade não atingem bem seu propósito, porque faltam uma dimensão importante ou têm um aspecto problemático”
“Uma página intitulada ‘Quantos centímetros estão em um metro?’ com uma grande quantidade de conteúdo fora de tópico e inútil, de modo que seja difícil encontrar a quantidade muito pequena de informações úteis. ”
“Uma página do tutorial de criação com instruções sobre como criar um ofício básico e muito ‘preenchimento’ inútil no topo, como fatos comumente conhecidos sobre os suprimentos necessários ou outras informações de não cicatrização”.
“… uma grande quantidade de ‘enchimento’ ou conteúdo sem sentido …”
Mesmo que a visão geral de Gemini ou IA do Google não implemente as invenções neste artigo de pesquisa, muitos dos conceitos descritos nele têm análogos nas diretrizes do avaliador de qualidade do Google que descrevem os conceitos sobre páginas da web de alta qualidade que os SEOs e editores que desejam classificar devem ser internalizando.
Leia o artigo de pesquisa:
Contexto suficiente: uma nova lente sobre sistemas de geração aumentada de recuperação
Imagem em destaque de Shutterstock/Chris Wm Willemsen