Topo

Como chatbots aprendem? De onde vêm as respostas que eles dão? Tire dúvidas

Peace,love,happiness/ Pixabay
Imagem: Peace,love,happiness/ Pixabay

De Tilt*, em São Paulo

09/02/2023 04h00Atualizada em 14/02/2023 10h05

A essa altura, você já deve ter ouvido falar de um chatbot (robô de conversas) com inteligência artificial capaz de escrever textos bem feitos e que até conseguiu "passar" numa faculdade nos EUA. Em dois meses de existência, o ChatGPT atingiu 100 milhões de usuários.

Diante dos resultados, uma nova era de pesquisas inteligentes na internet pode estar começando. Microsoft e Google que o digam. As empresas anunciaram que seus buscadores retornarão resultados escolhidos e escritos por IAs. Agora, como tudo funciona? De onde vêm as informações para as respostas que eles dão? Existe algum tipo de risco? Tire essas e outras dúvidas a seguir.

  • O que é um chatbot?

Literalmente, é um robô que responde a perguntas.

Você já pode ter interagido com um ao tentar falar com sua operadora de telefonia pelo WhatsApp. Porém, esses, liberados recentemente por grandes empresas de tecnologia, conseguem gerar respostas cada vez mais espertas e que simulam as que seriam dadas por humanos.

Google e Microsoft, por exemplo, querem usar esse tipo de tecnologia para fornecer respostas mais objetivas a perguntas feitas na busca.

Atualmente, se você faz busca por um assunto, os serviços retornam links para vários sites e, eventualmente, algumas perguntas e respostas relacionadas.

  • Como o chatbot sabe responder às perguntas?

De modo geral, existe uma técnica por trás chamada LLM (Large Language Model, ou Modelo Linguagem Grande, em tradução literal).

É um sistema que "aprende" uma língua - geralmente, por meio de exemplos de textos a que foi submetido — e que consegue prever que determinadas palavras combinam baseado num contexto, dado pela pergunta.

No fundo, não é necessariamente um "sistema inteligente". Ou seja, ele não pensa como os humanos. O que acontece é que ele é competente em juntar palavras e construir um texto com termos que se relacionam.

Normalmente o tempo de resposta é proporcional à "complexidade" daquilo que se espera saber nos modelos de linguagem.

  • Como um chatbot consegue prever um conjunto de palavras que façam sentido?

Uma das técnicas usadas no processo é o mascaramento.

É praticamente uma brincadeira de esconde-esconde. Imagine um monte de textos em que algumas palavras são tampadas. O sistema analisa o texto e tenta prever qual é a palavra mais apropriada.

O sistema vai aprendendo e, posteriormente, é usado para criar suas próprias frases a partir do que ele aprendeu. Quanto mais dados um chatbot receber, melhor ele ficará em dar respostas perto das de humanos.

Esses modelos com IA costumam ser treinados a partir de textos em grandes bancos de dados de computadores; o treino leva dias no caso dos sistemas menores. Para os maiores, isso pode levar semanas, explica o professor Fabio Cozman, diretor do centro de inteligência artificial da USP (Universidade de São Paulo).

  • Qual é exatamente a fonte dos dados desses chatbots?

Ainda há pouca clareza sobre as fontes usadas para treinar inteligência artificial, na maioria dos casos. Isso vale para as tecnologias usadas pela Microsoft e pelo Google.

O que se sabe até o momento é que:

ChatGPT: A sua desenvolvedora, a OpenAi, diz que treinou sua inteligência artificial com 300 bilhões de palavras obtidas da internet - o que inclui livros, artigos, websites e postagens.

Atualmente, ao usar o ChatGPT, fazendo uma solicitação do tipo — "me explique inteligência artificial como se eu fosse uma criança de 10 anos" -, o chatbot responde usando linguagem simplificada (já que é um pedido para facilitar a compreensão de uma criança) e sem citar nenhuma fonte.

Vale ressaltar que a versão do ChatGPT disponível desde dezembro do ano passado foi alimentada com dados até 2021 e usa uma base estática de informações. Ele também não tem compromisso com a realidade e diz isso em seu site.

Em um dos testes já realizados, professores perguntaram como coletar ovos de vaca (um questionamento baseado numa informação incorreta). O chatbot começou a listar recomendações como "usar uma luva e depois encontrar um ninho de vaca".

Microsoft: a empresa apresentou na terça-feira (7) a integração do ChatGPT ao seu mecanismo de busca, o Bing. Ela pegou o modelo de funcionamento do robô e o fez conversar com o seu sistema proprietário.

Ainda disponível apenas para algumas pessoas, a solução da Microsoft tem um diferencial: mostrar os links de sites nos quais o sistema se baseou para escrever uma resposta — algo que a versão original não faz.

Na resposta à pergunta "Estou planejando uma viagem de aniversário para setembro. Que lugares eu posso ir que são a menos de 3 horas de voo do aeroporto Heathrow, de Londres?" aparecem seis links de onde o sistema coletou as informações.

Google: Na segunda-feira (6), a companhia anunciou o Bard, seu bot conversacional. Ele não está disponível para todas as pessoas — apenas para "testadores confiáveis", destacou a empresa num evento realizado ontem (7) sobre inteligência artificial em seus serviços.

O Bard foi baseado no LaMDA (Modelo de Linguagem para Aplicações de Diálogo, em tradução livre) - aquele sistema que fez com que um engenheiro achasse que estava falando com um "robô consciente".

Nas demonstrações apresentadas, é possível perceber que tem um campo "Check it", onde possivelmnete será possível visualizar os links usados para escrever aquela resposta.

Não há muitos detalhes ainda sobre a novidade.

Por que é importante saber as fontes usadas por chatbots

Para o especialista em IA Diogo Cortiz, professor da PUC-SP e pesquisador no NIC.br (Núcleo de Informação e Coordenação do Ponto BR) , saber a fonte de dados é fundamental para checar se há representatividade de informações e se são dados enviesados ou não. "Estamos falando de modelos de escala, e que serão usados por milhares de pessoas."

Além disso, Cortiz cita a questão de responsabilidade. "Esses sistemas pegam dados de onde? Existe toda uma discussão sobre apropriação de conteúdos alheios. É necessário ainda discutir direito autoral e de propriedade, e modelos de economia digital."

"Se você já escreveu uma postagem de blog ou resenha de produto, ou comentou um artigo online, há uma boa chance de que essas informações tenham sido consumidas pelo ChatGPT", destaca uma análise feita pelo site The Conversation.

"Nenhum de nós foi questionado se a OpenAI poderia usar nossos dados. Esta é uma clara violação de privacidade, especialmente quando os dados são confidenciais e podem ser usados", acrescenta o texto.

Já está começando a ter briga por direitos autorais. A empresa de banco de imagens Getty Images está processando o Stability AI, uma empresa que usa IA para criar imagens a partir de uma descrição, por uso indevido de fotos.

Atualmente, boa parte das páginas da internet ganha dinheiro pela exibição de propagandas. Se o mecanismo de busca se baseia em links e faz com que haja redução no acesso às páginas, isso pode causar um problema para criadores de conteúdo.

O problema será agravado se o chatbot exibir respostas tiradas de sites específicos e não dizer de onde tirou as informações.

Atualmente, sites que querem aparecer em mecanismos de busca precisam informar isso, por meio de uma codificação. "Talvez a gente tenha que num futuro próximo avisar se permite que este conteúdo possa ser usado ou não para treinar uma inteligência artificial", comenta Diogo.

*Com informações de matéria do The Conversation