Atualização do Bing Search: resultados mais rápidos e precisos

Atualização do Bing Search: resultados mais rápidos e precisos


A Microsoft tem anunciado atualizações na infraestrutura de pesquisa do Bing incorporando modelos de linguagem grande (LLMs), modelos de linguagem pequena (SLMs) e novas técnicas de otimização.

Esta atualização visa melhorar o desempenho e reduzir custos na entrega de resultados de pesquisa.

Em comunicado, a empresa afirma:

“No Bing, estamos sempre ultrapassando os limites da tecnologia de pesquisa. Aproveitar os modelos de linguagem grande (LLMs) e os modelos de linguagem pequena (SLMs) é um marco significativo no aprimoramento de nossos recursos de pesquisa. Embora os modelos de transformador tenham nos servido bem, a crescente complexidade das consultas de pesquisa exigiu modelos mais poderosos.”

Ganhos de desempenho

O uso de LLMs em sistemas de pesquisa pode criar problemas de velocidade e custo.

Para resolver esses problemas, o Bing treinou SLMs, que afirma serem 100 vezes mais rápidos que os LLMs.

O anúncio diz:

“LLMs podem ser caros e lentos para servir. Para melhorar a eficiência, treinamos modelos SLM (melhoria de aproximadamente 100x no rendimento em relação ao LLM), que processam e entendem as consultas de pesquisa com mais precisão.”

O Bing também usa NVIDIA TensorRT-LLM para melhorar o funcionamento dos SLMs.

TensorRT-LLM é uma ferramenta que ajuda a reduzir o tempo e o custo de execução de modelos grandes em GPUs NVIDIA.

Impacto na “pesquisa profunda”

De acordo com um técnico relatório da Microsoft, a integração da tecnologia TensorRT-LLM da Nvidia aprimorou o recurso “Deep Search” da empresa.

O Deep Search aproveita SLMs em tempo real para fornecer resultados relevantes da web.

Antes da otimização, o modelo de transformador original do Bing tinha uma latência de 95º percentil de 4,76 segundos por lote (20 consultas) e uma taxa de transferência de 4,2 consultas por segundo por instância.

Com o TensorRT-LLM, a latência foi reduzida para 3,03 segundos por lote e a taxa de transferência aumentou para 6,6 consultas por segundo por instância.

Isto representa um 36% redução na latência e 57% diminuição dos custos operacionais.

A empresa afirma:

“… nosso produto é construído com base no fornecimento dos melhores resultados e não comprometeremos a qualidade em prol da velocidade. É aqui que entra o TensorRT-LLM, reduzindo o tempo de inferência do modelo e, consequentemente, a latência da experiência ponta a ponta sem sacrificar a qualidade do resultado.”

Benefícios para usuários do Bing

Esta atualização traz vários benefícios potenciais para os usuários do Bing:

  • Resultados de pesquisa mais rápidos com inferência otimizada e tempos de resposta mais rápidos
  • Precisão aprimorada por meio de recursos aprimorados de modelos SLM, proporcionando resultados mais contextualizados
  • Eficiência de custos, permitindo que o Bing invista em mais inovações e melhorias

Por que a mudança do Bing para modelos LLM/SLM é importante

A mudança do Bing para modelos LLM/SLM e a otimização do TensorRT podem impactar o futuro da pesquisa.

À medida que os usuários fazem perguntas mais complexas, os mecanismos de pesquisa precisam entender melhor e entregar resultados relevantes rapidamente. O Bing pretende fazer isso usando modelos de linguagem menores e técnicas avançadas de otimização.

Embora tenhamos que esperar para ver o impacto total, a mudança do Bing prepara o terreno para um novo capítulo na pesquisa.


Imagem em destaque: mindea/Shutterstock



Link da Fonte

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *