O Escritório de Direitos Autorais dos EUA cita o risco legal em todas as etapas da IA generativa
O escritório de direitos autorais dos Estados Unidos divulgou uma versão antes da publicação de um relatório sobre o uso de materiais protegidos por direitos autorais para o treinamento de IA generativa, descrevendo um caso legal e factual que identifica os riscos de direitos autorais em todas as etapas do desenvolvimento generativo da IA.
O relatório foi criado em resposta à preocupação pública e no congresso com o uso de conteúdo protegido por direitos autorais, incluindo versões piratas, pelos sistemas de IA sem primeiro obter permissão. Enquanto o Escritório de Direitos Autorais não toma decisões legais, os relatórios que cria oferecem orientações legais e técnicas que podem influenciar a legislação e as decisões judiciais.
O relatório oferece quatro razões pelas quais as empresas de tecnologia de IA devem se preocupar:
- O relatório afirma que muitos atos de aquisição de dados, o processo de criação de conjuntos de dados a partir de trabalhos protegidos por direitos autorais e o treinamento pode “constituir violação prima facie”.
- Ele desafia a defesa comum da indústria que os modelos de treinamento não envolve “cópia”, observando que o processo de criação de conjuntos de dados envolve a criação de várias cópias e que as melhorias nos pesos do modelo também podem conter cópias desses trabalhos. O relatório cita relatórios de casos em que a IA reproduz trabalhos protegidos por direitos autorais, palavra para palavras ou cópias “quase idênticas”.
- Ele afirma que o processo de treinamento implica o direito de reprodução, um dos direitos exclusivos concedidos para enfatizar que a memorização e a regurgitação de conteúdo protegido por direitos autorais por modelos podem constituir violação, mesmo que não intencionais.
- O uso transformador, onde adiciona um novo significado a um trabalho original, é uma consideração importante na análise de uso justo. O relatório reconhece que “alguns usos de obras protegidas por direitos autorais no treinamento de IA provavelmente serão transformadores”, mas “discorda” do argumento de que o treinamento de IA é transformador simplesmente porque se assemelha a “aprendizado humano”, como quando uma pessoa lê um livro e aprende com ele.
Implicações de direitos autorais em todas as etapas do desenvolvimento da IA
Talvez a parte mais condenatória do relatório seja onde diz que pode haver problemas de direitos autorais em todas as etapas do desenvolvimento da IA e lista cada estágio do desenvolvimento e o que pode estar errado com ele.
““A. Coleta de dados e curadoria
As etapas necessárias para produzir um conjunto de dados de treinamento contendo trabalhos protegidos por direitos autorais implicam claramente o direito de reprodução…
B. Treinamento
O processo de treinamento também implica o direito de reprodução. Primeiro, a velocidade e a escala do treinamento exigem que os desenvolvedores baixem o conjunto de dados e o copiem para armazenamento de alto desempenho antes do treinamento.96 Segundo, durante o treinamento, obras ou partes substanciais dos trabalhos são temporariamente reproduzidas à medida que são “mostradas” ao modelo em lotes.
Essas cópias podem persistir o tempo suficiente para infringir o direito de reprodução, 160, dependendo do modelo em questão e das implementações específicas de hardware e software usadas pelos desenvolvedores.
Terceiro, o processo de treinamento – fornecendo exemplos de treinamento, medindo o desempenho do modelo em relação aos resultados esperados e atualizando iterativamente os pesos para melhorar o desempenho – pode resultar em pesos do modelo que contêm cópias dos trabalhos nos dados de treinamento. Nesse caso, a cópia subsequente dos pesos do modelo, mesmo por partes não envolvidas no processo de treinamento, também pode constituir violação prima facie.
C. Rag
RAG também envolve a reprodução de trabalhos protegidos por direitos autorais.110 Normalmente, Rag trabalha de uma de duas maneiras. Em um, o desenvolvedor de IA copia o material em um banco de dados de recuperação, e o sistema generativo de IA pode acessar posteriormente esse banco de dados para recuperar o material relevante e fornecê -lo ao modelo junto com o prompt do usuário.111 no outro, o sistema recupera o material de reprodução externo (por exemplo, um mecanismo de pesquisa ou um sistema específico) .181 Os métodos de reposição de reprodução de reprodução (por exemplo, um mecanismo de pesquisa ou um sistema específico).
D. Saídas
Os modelos de IA generativos às vezes em saída material que se replica ou se assemelham estreitamente a obras protegidas por direitos autorais. Os usuários demonstraram que a IA generativa pode produzir réplicas quase exatas de imagens estáticas de filmes, 112 personagens de direitos autorais, 113 ou texto de notícias.114 Esses resultados provavelmente infringem o direito de reprodução e, na medida em que adaptam os originais, o direito de preparar trabalhos derivados. ”
O relatório encontra riscos de infração em todas as etapas do desenvolvimento generativo da IA e, embora suas descobertas não sejam legalmente vinculativas, elas podem ser usadas para criar legislação e servir como orientação para os tribunais.
Takeaways
- O treinamento de IA e a violação de direitos autorais:
O relatório argumenta que a aquisição de dados e o treinamento de modelos podem envolver cópias não autorizadas, possivelmente constituindo “violação prima facie”. - Rejeição das defesas do setor:
O escritório de direitos autorais contesta o setor de IA comum afirma que o treinamento não envolve cópia e que o treinamento de IA é análogo ao aprendizado humano. - Uso justo e uso transformador:
O relatório discorda da ampla aplicação de uso transformador como defesa, especialmente quando baseado em comparações com a cognição humana. - Preocupação com todas as etapas do desenvolvimento da IA:
As preocupações com direitos autorais são identificadas em todas as etapas do desenvolvimento da IA, desde coleta de dados, treinamento, geração de recuperação (RAG) e saídas de modelo. - Memorização e pesos do modelo:
O escritório alerta que os modelos de IA podem manter o conteúdo protegido por direitos autorais em pesos, o que significa que mesmo o uso ou a distribuição desses pesos pode ser infrator. - Reprodução de saída e obras derivadas:
A capacidade da IA de gerar saídas quase idênticas (por exemplo, fotos, personagens ou artigos de filmes) levanta preocupações sobre violações dos direitos de reprodução e de trabalho derivado. - Risco de infração específica para trapos:
Ambos os métodos de RAG, copiando conteúdo em um banco de dados ou recuperação de fontes externas, são descritas como envolvendo reproduções potencialmente infratoras.
O relatório do US Copyright Office descreve várias maneiras pelas quais o desenvolvimento generativo da IA pode infringir a lei de direitos autorais, desafiando a legalidade de usar dados protegidos por direitos autorais sem permissão em todos os estágios técnicos, desde a criação do conjunto de dados até as saídas modeladas. Ele rejeita o uso da analogia do aprendizado humano como uma defesa e a ampla aplicação do setor de uso justo. Embora o relatório não tenha a mesma força que uma descoberta judicial, o relatório pode ser usado como orientação para legisladores e tribunais.
Imagem em destaque de Shutterstock/Treecha