Algoritmo do tipo de emprego local do Google detalhado em papel de pesquisa
O Google publicou um artigo de pesquisa descrevendo como ele extrai “serviços oferecidos” informações de sites de negócios locais para adicioná -los aos perfis de negócios no Google Maps e na pesquisa. O algoritmo descreve fatores de relevância específicos e confirma que o sistema está em uso com sucesso há um ano.
O que torna este artigo de pesquisa especialmente notável é que um dos autores é Marc Najork, um distinto cientista de pesquisa do Google que está associado a muitos marcos em recuperação de informações, processamento de linguagem natural e inteligência artificial.
O objetivo deste sistema é facilitar para os usuários encontrar empresas locais que fornecem os serviços que estão procurando. O artigo foi publicado em 2024 (de acordo com o Internet Archive) e é datado de 2023.
O artigo de pesquisa explica:
“… Para reduzir o esforço do usuário, desenvolvemos e implantamos um pipeline para extrair automaticamente os tipos de trabalho de sites de negócios. Por exemplo, se uma página da Web de propriedade de um encanamento de negócios estados:“ Fornecemos instalação de banheiro e serviço de reparo de torneira ”.
O sistema usa Bert
O Google usou o modelo de linguagem Bert para classificar se as frases extraídas dos sites de negócios descrevem os tipos reais de trabalho. Bert foi ajustado em exemplos rotulados e recebeu um contexto adicional, como estrutura de sites, padrões de URL e categoria de negócios para melhorar a precisão sem sacrificar a escalabilidade.
Desenvolvendo um sistema de pesquisa local
O primeiro passo para criar um sistema para rastejar e extrair informações do tipo trabalho foi criar dados de treinamento do zero. Eles selecionaram bilhões de páginas domésticas listadas nos perfis de negócios do Google e extraíram informações do tipo de trabalho de tabelas e listas formatadas em páginas ou páginas domésticas que estavam a um clique das páginas domésticas. Este tipo de trabalho se tornou o conjunto de sementes de tipos de trabalho.
Os dados do tipo de trabalho extraídos foram usados como consultas de pesquisa, aumentadas com expansão de consulta (sinônimos) para expandir a lista de tipos de trabalho para incluir todas as variações possíveis das frases de palavras -chave do tipo de trabalho.
Segundo passo: corrigindo um problema de relevância
Os pesquisadores do Google aplicaram seu sistema nos bilhões de páginas e não funcionou como pretendido, porque muitas páginas tinham frases do tipo trabalho que não estavam descrevendo os serviços oferecidos.
O artigo de pesquisa explica:
“Descobrimos que muitas páginas mencionam nomes do tipo de trabalho para outros propósitos, como dar dicas de vida. Por exemplo, uma página da web que ensina os leitores a lidar com percevejos pode conter uma frase como uma solução é chamar serviços de limpeza para casa se você encontrar bugs em sua casa.
Limitar o rastreamento e a indexação à identificação de frases de palavras -chave do tipo de trabalho resultou em falsos positivos. A solução foi incorporar frases que cercavam as frases das palavras -chave para que elas pudessem entender melhor o contexto das frases de palavras -chave do tipo de trabalho.
O sucesso de usar o texto circundante é explicado:
“Como mostrado na Tabela 2, o JobModelsurRound tem um desempenho significativamente melhor que o JobModel, o que sugere que as palavras vizinhas poderiam realmente explicar a intenção do tipo de trabalho de semente menciona. Isso melhora com sucesso o entendimento semântico sem processar todo o texto de cada página, mantendo nossos modelos eficientes.”
SEO Insight
O algoritmo de pesquisa local descrito está excluindo propositadamente todas as informações na página e se concentrando no tipo de trabalho frases de palavras -chave e palavras e frases vizinhas em torno dessas palavras -chave. Isso mostra a importância de como as palavras em torno de frases importantes de palavras -chave podem fornecer contexto para as frases das palavras -chave e facilitar os rastreadores do Google para entender o que é a página sem precisar processar a página inteira da web.
SEO Insight
Outra visão é que o Google não está indexando toda a página da Web com o objetivo limitado de identificar frases de palavras -chave do tipo de trabalho. O algoritmo está caçando a frase -chave e as frases de palavra -chave circundantes.
SEO Insight
O conceito de analisar apenas uma parte de uma página é semelhante à anotação central do Google, onde uma seção de conteúdo é identificada como o tópico principal da página. Não estou dizendo que eles estão relacionados. Estou apenas apontando um recurso em muitos em que um algoritmo do Google se aproxima apenas de uma seção de uma página.
O sistema de extração pode ser generalizado para outros contextos
Uma descoberta interessante detalhada pelo artigo de pesquisa é que o sistema que eles desenvolveram pode ser usado em áreas (domínios) que não sejam empresas locais, como “achado de experiência, extração legal e de informações médicas”.
Eles escrevem:
“As lições que compartilhamos no desenvolvimento do pipeline de extração em larga escala do Scratch podem generalizar para outras tarefas de extração de informações ou aprendizado de máquina. Eles têm aplicativos diretos para tarefas de extração específicas de domínio, exemplificadas pela descoberta de especialistas, extração de informações legais e médicas.
Três lições mais importantes são:
(1) utilizar as propriedades de dados, como conteúdo estruturado, pode aliviar o problema de início do frio da anotação de dados;
(2) formular a tarefa como um problema de recuperação pode ajudar pesquisadores e profissionais a lidar com um grande conjunto de dados;
(3) As informações de contexto podem melhorar a qualidade do modelo sem sacrificar sua escalabilidade. ”
O extrato do tipo de trabalho é um sucesso
O artigo de pesquisa diz que seu sistema é um sucesso, ele tem um alto nível de precisão (precisão) e que é escalável. O artigo de pesquisa diz que já está em uso há um ano. A pesquisa é datada de 2023, mas de acordo com o Internet Archive (Wayback Machine), foi publicada em julho de 2024.
Os pesquisadores escrevem:
“Nosso pipeline é executado periodicamente para manter o conteúdo extraído atualizado. Atualmente, está implantado na produção e os tipos de trabalho de saída estão surgidos para milhões de usuários de pesquisa e mapas do Google”.
Takeaways
- Algoritmo do Google que extrai tipos de trabalho de páginas da web
O Google desenvolveu um algoritmo que extrai “tipos de trabalho” (ou seja, serviços oferecidos) dos sites de negócios para exibir no Google Maps e na pesquisa. - Extratos de pipeline de conteúdo não estruturado
Em vez de confiar em elementos HTML estruturados, o algoritmo lê conteúdo de texto livre, tornando-o eficaz mesmo quando os serviços são enterrados em parágrafos. - A relevância contextual é importante
O sistema avalia as palavras circundantes para confirmar que os termos relacionados ao serviço são realmente relevantes para os negócios, melhorando a precisão. - Potencial de generalização do modelo
A abordagem pode ser aplicada a outros campos, como extração de informações legais ou médicas, mostrando como ela pode ser aplicada a outros tipos de conhecimento. - Alta precisão e escalabilidade
O sistema foi implantado há mais de um ano e fornece resultados escaláveis e de alta precisão em bilhões de páginas da Web.
O Google publicou um trabalho de pesquisa sobre um algoritmo que extrai automaticamente as descrições de serviços dos sites de negócios locais, analisando frases de palavras-chave e seu contexto circundante, permitindo listagens mais precisas e atualizadas no Google Maps and Search. Essa técnica evita a dependência da estrutura HTML e pode ser adaptada para uso em outros setores, onde é necessária informações de extração do texto não estruturado.
Leia o artigo de pesquisa abstrato e faça o download da versão em PDF aqui:
Extração do tipo de trabalho para empresas de serviços
Imagem em destaque de Shutterstock/Vidi Studio