Conjunto de dados de benchmarking financiado secretamente pela OpenAI vinculado ao modelo o3

Conjunto de dados de benchmarking financiado secretamente pela OpenAI vinculado ao modelo o3


As revelações de que a OpenAI financiou secretamente e teve acesso ao conjunto de dados de benchmarking FrontierMath estão levantando preocupações sobre se ele foi usado para treinar seu modelo de raciocínio de IA e a validade das pontuações mais altas do modelo.

Além de acessar o conjunto de dados de benchmarking, a OpenAI financiou sua criação, fato que foi negado aos matemáticos que contribuíram para o desenvolvimento do FrontierMath. A Epoch AI divulgou tardiamente o financiamento da OpenAI apenas no artigo final publicado em Arxiv.org, que anunciou o benchmark. Versões anteriores do artigo omitiram qualquer menção ao envolvimento da OpenAI.

Captura de tela do papel FrontierMath

Close de reconhecimento

Versão anterior do artigo que não tinha reconhecimento

Modelo OpenAI 03 obteve alta pontuação no benchmark FrontierMath

As notícias do envolvimento secreto da OpenAI estão levantando questões sobre as altas pontuações alcançadas pelo modelo de IA de raciocínio o3 e causando decepção com o projeto FrontierMath. A Epoch AI respondeu com transparência sobre o que aconteceu e o que estão fazendo para verificar se o modelo o3 foi treinado com o conjunto de dados FrontierMath.

Dar acesso à OpenAI ao conjunto de dados foi inesperado porque o objetivo é testar modelos de IA, mas isso não pode ser feito se os modelos souberem as perguntas e respostas de antemão.

Uma postagem no subreddit r/singularity expressou essa decepção e citou um documento que afirmava que os matemáticos não sabiam do envolvimento da OpenAI:

“Frontier Math, o recente benchmark matemático de ponta, é financiado pela OpenAI. A OpenAI supostamente tem acesso aos problemas e soluções. Isto é decepcionante porque o benchmark foi vendido ao público como um meio de avaliar modelos de fronteira, com o apoio de matemáticos de renome. Na realidade, a Epoch AI está construindo conjuntos de dados para OpenAI. Eles nunca divulgaram qualquer vínculo com a OpenAI antes.”

A discussão do Reddit citou uma publicação que revelou o envolvimento mais profundo da OpenAI:

“Os matemáticos que criaram os problemas para o FrontierMath não foram (ativamente)(2) informados sobre o financiamento da OpenAI.

…Agora, Epoch AI ou OpenAI não dizem publicamente que OpenAI tem acesso aos exercícios, respostas ou soluções. Ouvi de segunda mão que a OpenAI tem acesso a exercícios e respostas e que os utiliza para validação.”

Tamay Besiroglu (Perfil do LinkedIn), diretor associado da Epoch AI, reconheceu que a OpenAI tinha acesso aos conjuntos de dados, mas também afirmou que havia um conjunto de dados “holdout” ao qual a OpenAI não tinha acesso.

Ele escreveu no documento citado:

“Tamay da Epoch AI aqui.

Cometemos um erro ao não sermos mais transparentes sobre o envolvimento da OpenAI. Estávamos proibidos de divulgar a parceria até por volta do lançamento do o3 e, em retrospectiva, deveríamos ter negociado mais arduamente para sermos transparentes com os contribuidores do benchmark o mais rápido possível. Nosso contrato nos impediu especificamente de divulgar informações sobre a fonte de financiamento e o fato de que a OpenAI tem acesso a grande parte do conjunto de dados, mas não a todo. Assumimos esse erro e estamos comprometidos em fazer melhor no futuro.

Com relação ao uso de treinamento: Reconhecemos que a OpenAI tem acesso a uma grande fração dos problemas e soluções do FrontierMath, com exceção de um conjunto de resistência não visto pela OpenAI que nos permite verificar de forma independente as capacidades do modelo. No entanto, temos um acordo verbal de que estes materiais não serão utilizados no treinamento do modelo.

A OpenAI também apoiou totalmente nossa decisão de manter um conjunto de resistência separado e invisível – uma proteção extra para evitar overfitting e garantir uma medição precisa do progresso. Desde o primeiro dia, o FrontierMath foi concebido e apresentado como uma ferramenta de avaliação e acreditamos que estes acordos refletem esse propósito. “

Mais fatos sobre OpenAI e FrontierMath revelados

Elliot Glazer (perfil do LinkedIn/perfil do Reddit), o matemático-chefe da Epoch AI, confirmou que a OpenAI tem o conjunto de dados e que eles foram autorizados a usá-lo para avaliar o modelo de linguagem grande o3 da OpenAI, que é sua próxima IA de última geração a que se refere como um modelo de IA de raciocínio. Ele ofereceu sua opinião de que as pontuações mais altas obtidas pelo modelo o3 são “legítimas” e que a Epoch AI está conduzindo uma avaliação independente para determinar se o o3 teve ou não acesso ao conjunto de dados FrontierMath para treinamento, o que poderia definir as pontuações mais altas do modelo em um luz diferente.

Ele escreveu:

“O principal matemático da Epoch aqui. Sim, a OAI financiou isto e possui o conjunto de dados, o que lhes permitiu avaliar o3 internamente. Ainda não verificamos de forma independente a reivindicação de 25%. Para fazer isso, estamos atualmente desenvolvendo um conjunto de dados de resistência e seremos capazes de testar seu modelo sem que eles tenham qualquer exposição prévia a esses problemas.

Minha opinião pessoal é que a pontuação da OAI é legítima (ou seja, eles não treinaram no conjunto de dados) e que eles não têm incentivo para mentir sobre desempenhos de benchmarking interno. No entanto, não podemos garantir isso até que a nossa avaliação independente esteja concluída.”

Glazer também compartilhou que a Epoch AI iria testar o3 usando um conjunto de dados “holdout” ao qual a OpenAI não tinha acesso, dizendo:

“Vamos avaliar o3 com OAI tendo zero exposição anterior aos problemas de resistência. Isso será hermético.

Outra postagem de Glazer no Reddit descreveu como o “conjunto de validação” foi criado:

“Descreveremos o processo mais claramente quando a avaliação do conjunto de validação estiver realmente concluída, mas estamos escolhendo os problemas de validação aleatoriamente de um conjunto maior que será adicionado ao FrontierMath. O processo de produção é idêntico ao de sempre.”

Esperando por respostas

É aí que fica o drama até que a avaliação da Epoch AI seja concluída, o que indicará se a OpenAI treinou ou não seu modelo de raciocínio de IA com o conjunto de dados ou apenas o usou para benchmarking.

Imagem em destaque de Shutterstock/Antonello Marangi



Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *