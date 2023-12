Embora Dettmers não descreva as preocupações dos advogados, seus pares no chat identificam "livros com direitos autorais ativos" como a maior fonte provável de preocupação. Eles dizem que o treinamento com os dados deve "se enquadrar no uso justo", uma doutrina jurídica dos EUA que protege determinados usos não licenciados de obras com direitos autorais.

Dettmers, um estudante de doutorado da Universidade de Washington, disse à Reuters que não poderia comentar sobre as alegações.

Este ano, as empresas de tecnologia têm enfrentado uma série de ações judiciais de criadores de conteúdo que as acusam de roubar obras protegidas por direitos autorais para criarem modelos de IA generativos.

Se forem bem-sucedidos, esses casos poderão frear o desenvolvimento de IA generativa, pois poderão aumentar o custo da criação de modelos que consomem muitos dados, obrigando as empresas de IA a compensarem artistas, autores e outros criadores de conteúdo pelo uso de suas obras.

Ao mesmo tempo, novas regras provisórias na Europa que regulamentam a inteligência artificial podem forçar as empresas a divulgarem dados que usam para treinar seus modelos, expondo-as potencialmente a mais riscos legais.

A Meta lançou uma primeira versão de seu modelo de linguagem ampla Llama em fevereiro e publicou uma lista de conjuntos de dados usados para treinamento, incluindo "a seção Books3 do ThePile". A pessoa que montou esse conjunto de dados disse em outro fórum que ele contém 196.640 livros, de acordo com a denúncia.