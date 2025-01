Porém, foi no fim do ano passado que surgiu o modelo que hoje chacoalha todo o mercado de IA. A DeepSeek é uma startup chinesa que desenvolveu um modelo de código-aberto com desempenho similar ao ChatGPT, mas com o diferencial de ser mais otimizado e barato.

O que chama atenção nesse processo é que os chineses conseguiram driblar as sanções americanas que os impediam de ter acesso aos chips mais avançados para conseguir esse resultado, conforme comentamos no podcast "Deu Tilt" do UOL.

As GPUs H100 e H200 da Nvidia estão entre as mais poderosas, mas também estão na lista daquelas que não podem ser comercializadas com a China. Sem acesso ao que tem de mais avançado em chips, os chineses tiveram que pensar em estratégias para criar um modelo mais otimizado e eficiente. E foi isso que aconteceu.

De acordo com o Relatório Técnico da DeepSeek, eles precisaram de apenas 2,78 milhões de horas de uso de GPUs H800 —um chip com capacidade inferior customizado para a China. Para termos um grau de comparação, a Meta precisou de 30 milhões de horas de uso de GPU H100 para treinar o Llama 3.1, modelo por trás da IA da Meta.

Podemos também fazer uma comparação financeira. Estima-se que o custo para treinar o DeepSeek tenha sido de menos de US$ 6 milhões, enquanto o Google investiu mais de US$ 170 milhões para treinar o Gemini.

Esse processo de otimização no treinamento acaba refletido no custo de uso para seus clientes. Enquanto o preço da API do GPT-4o é de US$ 2,50 para cada 1 milhão de tokens de entrada, o DeepSeek custa apenas US$ 0,27 centavos. O mercado agora tem à sua disposição um modelo com desempenho parecido com o ChatGPT que custa praticamente um décimo do valor.