Atualização do Bing Search: resultados mais rápidos e precisos
A Microsoft tem anunciado atualizações na infraestrutura de pesquisa do Bing incorporando modelos de linguagem grande (LLMs), modelos de linguagem pequena (SLMs) e novas técnicas de otimização.
Esta atualização visa melhorar o desempenho e reduzir custos na entrega de resultados de pesquisa.
Em comunicado, a empresa afirma:
“No Bing, estamos sempre ultrapassando os limites da tecnologia de pesquisa. Aproveitar os modelos de linguagem grande (LLMs) e os modelos de linguagem pequena (SLMs) é um marco significativo no aprimoramento de nossos recursos de pesquisa. Embora os modelos de transformador tenham nos servido bem, a crescente complexidade das consultas de pesquisa exigiu modelos mais poderosos.”
Ganhos de desempenho
O uso de LLMs em sistemas de pesquisa pode criar problemas de velocidade e custo.
Para resolver esses problemas, o Bing treinou SLMs, que afirma serem 100 vezes mais rápidos que os LLMs.
O anúncio diz:
“LLMs podem ser caros e lentos para servir. Para melhorar a eficiência, treinamos modelos SLM (melhoria de aproximadamente 100x no rendimento em relação ao LLM), que processam e entendem as consultas de pesquisa com mais precisão.”
O Bing também usa NVIDIA TensorRT-LLM para melhorar o funcionamento dos SLMs.
TensorRT-LLM é uma ferramenta que ajuda a reduzir o tempo e o custo de execução de modelos grandes em GPUs NVIDIA.
Impacto na “pesquisa profunda”
De acordo com um técnico relatório da Microsoft, a integração da tecnologia TensorRT-LLM da Nvidia aprimorou o recurso “Deep Search” da empresa.
O Deep Search aproveita SLMs em tempo real para fornecer resultados relevantes da web.
Antes da otimização, o modelo de transformador original do Bing tinha uma latência de 95º percentil de 4,76 segundos por lote (20 consultas) e uma taxa de transferência de 4,2 consultas por segundo por instância.
Com o TensorRT-LLM, a latência foi reduzida para 3,03 segundos por lote e a taxa de transferência aumentou para 6,6 consultas por segundo por instância.
Isto representa um 36% redução na latência e 57% diminuição dos custos operacionais.
A empresa afirma:
“… nosso produto é construído com base no fornecimento dos melhores resultados e não comprometeremos a qualidade em prol da velocidade. É aqui que entra o TensorRT-LLM, reduzindo o tempo de inferência do modelo e, consequentemente, a latência da experiência ponta a ponta sem sacrificar a qualidade do resultado.”
Benefícios para usuários do Bing
Esta atualização traz vários benefícios potenciais para os usuários do Bing:
- Resultados de pesquisa mais rápidos com inferência otimizada e tempos de resposta mais rápidos
- Precisão aprimorada por meio de recursos aprimorados de modelos SLM, proporcionando resultados mais contextualizados
- Eficiência de custos, permitindo que o Bing invista em mais inovações e melhorias
Por que a mudança do Bing para modelos LLM/SLM é importante
A mudança do Bing para modelos LLM/SLM e a otimização do TensorRT podem impactar o futuro da pesquisa.
À medida que os usuários fazem perguntas mais complexas, os mecanismos de pesquisa precisam entender melhor e entregar resultados relevantes rapidamente. O Bing pretende fazer isso usando modelos de linguagem menores e técnicas avançadas de otimização.
Embora tenhamos que esperar para ver o impacto total, a mudança do Bing prepara o terreno para um novo capítulo na pesquisa.
Imagem em destaque: mindea/Shutterstock