Topo

"Equipe" de algoritmos supera humanos em jogo de tiro "Quake III Arena"

O modo "Capture the Flag" do game "Quake III Arena" foi usado nos testes - Divulgação
O modo "Capture the Flag" do game "Quake III Arena" foi usado nos testes Imagem: Divulgação

De Washington

31/05/2019 10h00

Cuidado, jogadores profissionais: as máquinas podem estar chegando em breve para roubar seus trabalhos.

Uma equipe de programadores de uma empresa britânica de inteligência artificial projetou "agentes" automáticos que ensinaram a si mesmos como jogar um jogo de tiro multiplayer em primeira pessoa, e se tornaram tão bons que derrotaram os humanos consistentemente.

O trabalho dos pesquisadores da DeepMind, que pertence à empresa matriz do Google, Alphabet, foi descrito em um artigo publicado na revista Science nesta quinta-feira e marca a primeira vez que esse feito foi realizado.

Certamente, os computadores têm exercido seu domínio sobre os humanos em jogos entre duas pessoas baseados em turnos, como o xadrez, desde que o Deep Blue da IBM venceu Gary Kasparov, em 1997. Mais recentemente, um agente da GoogleAI venceu o jogador número um do mundo em Go, em 2017.

Mas a capacidade de jogar multiplayer envolvendo trabalho em equipe e interação em ambientes complexos permanecia uma tarefa insuperável.

Para o estudo, a equipe liderada por Max Jaderberg trabalhou em uma versão modificada do Quake III Arena, um jogo de tiro em primeira pessoa que foi lançado em 1999.

O modo de jogo que eles escolheram foi "Capture the Flag", que envolve trabalhar com os companheiros da equipe para pegar a bandeira do time adversário enquanto protegem a sua própria, forçando os jogadores a elaborar estratégias complexas que combinam agressão e defesa.

Depois que os agentes tiveram tempo para treinar a si próprios, suas proezas foram equiparadas aos testadores de jogos profissionais.

"Mesmo depois de 12 horas de prática, os humanos testadores de jogos só conseguiram vencer 25% dos jogos contra a equipe do agente", escreveram os pesquisadores, enquanto o desempenho dos agentes permaneceu superior mesmo quando seus tempos de reação foram artificialmente reduzidos para níveis humanos.

Novos passos para a IA

Os programadores confiaram no chamado "Reinforcement Learning" (RL, "aprendizado por reforço") para imbuir os agentes com suas habilidades.

"Inicialmente, eles não sabiam nada sobre o mundo e, em vez disso, estavam fazendo coisas completamente aleatórias e saltando sobre o local", disse Jaderberg à AFP.

Os agentes foram ensinados a se recompensar por capturar a bandeira, mas a equipe também desenvolveu uma série de métodos novos e inovadores para ampliar os limites do que é possível com o RL.

"Uma das contribuições do artigo é que cada agente aprende seu próprio sinal interno de recompensa", disse Jaderbeg, o que significa que os jogadores de IA recompensavam a si mesmos com magnitudes variadas por realizar tarefas como pegar a bandeira ou atirar com sucesso em um oponente.

Em seguida, eles descobriram que treinar uma população de agentes juntos, em vez de um de cada vez, fez a população como um todo aprender muito mais rápido.

Questões éticas

A equipe não comentou, no entanto, sobre o potencial da IA para uso futuro em ambientes militares.

A DeepMind declarou publicamente no passado que está comprometida em nunca trabalhar em qualquer projeto militar ou de vigilância, e a palavra "atirar" não aparece sequer uma vez no artigo (o processo é descrito como marcar adversários apontando um dispositivo a laser contra eles).

Jaderberg disse que sua equipe gostaria de explorar a possibilidade de os agentes jogarem na versão completa do Quake III Arena e descobrirem como sua inteligência artificial poderia funcionar em problemas fora dos jogos.

"Usamos jogos, como o Capture the Flag, como ambientes desafiadores para explorar conceitos gerais como planejamento, estratégia e memória, os quais acreditamos serem essenciais para o desenvolvimento de algoritmos que podem ser usados para ajudar a resolver problemas do mundo real", acrescentou.

ia/wd/db