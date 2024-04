O GPT-4, modelo de linguagem de inteligência artificial que está por trás do ChatGPT, foi treinado com mais de um milhão de horas de vídeos do YouTube, coletando dados sem autorização e provavelmente infringindo leis de direitos autorais, segundo reportagem do jornal The New York Times, publicada na última semana.

A OpenAI, empresa responsável pelo GPT-4, teria feito isso a partir de 2021, após usar praticamente todos os textos de fontes confiáveis em inglês para treinar seus algoritmos com inteligência artificial.

Como a IA é treinada

O GPT-4 é um dos chamados "modelos de linguagem grande" (LLM, na sigla em inglês), ou seja, uma inteligência artificial projetada para entender e gerar texto em uma escala significativamente grande.