Uma IA conseguiu trapacear com o melhor que a humanidade tem a oferecer depois de descobrir um exploit no clássico jogo de arcade Q * bert e correr com ele.
Embora as iterações anteriores da IA jogassem Q * bert corretamente, em algum ponto em seu aprendizado de como o jogo funciona, ele descobre um exploit que o permite acumular pontos insanos. Naturalmente, como qualquer jogador em busca de pontuação faria, ele repete o processo para que possa aumentar sua pontuação da maneira mais eficaz possível.
Você pode ver a IA trabalhando em torno das plataformas no vídeo abaixo. A princípio, parece que está pulando sem rumo entre as plataformas. Em vez de ver o jogo progredir para a próxima rodada, Q * bert fica preso em um loop onde todas as suas plataformas começam a piscar - é aqui que a IA pode então entrar em um frenesi de pontuação acumulando pontos enormes.
LEIA A SEGUINTE: Um dos recordes de jogo mais polêmicos foi finalmente desacreditado
como instalar mods no windows 10 minecraft
Como o AI venceu a guerra Q * bert
Quebrando o recorde de todos os tempos para o título, o AI acumulou uma pontuação impossivelmente alta graças à sua programação de algoritmo de estratégia de evolução. As estratégias de evolução (ES) diferem da aprendizagem por reforço usual (RL) que a IA tradicional usa, visto que é vista como mais escalável devido à sua aprendizagem geracional.
Cada ciclo de aprendizagem é referido como uma geração e continua sua tarefa até que uma condição definida seja satisfeita (neste caso, uma pontuação alta). A cada geração sucessiva, a IA absorve o conhecimento da geração anterior e, portanto, é melhor atingir o mesmo objetivo e superá-lo. Continue, e você terminará com uma IA que é absolutamente incomparável em sua tarefa. Isso é exatamente o que aconteceu aqui com a pontuação Q * bert.
Delineado em o papel , publicado na semana passada por pesquisadores da Universidade de Friburgo, Alemanha, parece que o bug não era uma quantidade conhecida. Na verdade, embora eles não fiquem muito surpresos em encontrar o bug, é interessante ver como a IA então foi em frente e aprendeu a explorá-la cada vez que tocava para maximizar seu potencial de pontuação.
LEIA A SEGUINTE: Esta inteligência artificial tem aprendido a dominar Super Mario Bros
Para encontrar o bug, o agente teve que primeiro aprender a quase completar o primeiro nível - isso não foi feito de uma vez, mas usando muitas pequenas melhorias, explicaram os pesquisadores à O registro . Suspeitamos que em algum momento do treinamento uma das soluções descendentes encontrou o bug e obteve uma pontuação muito melhor em comparação com seus irmãos, o que por sua vez aumentou sua contribuição para a atualização - seu peso foi o maior na média ponderada. Isso moveu lentamente a solução para o espaço onde mais e mais descendentes começaram a encontrar o mesmo bug.
Não sabemos as condições precisas em que o bug aparece; é possível que apareça apenas se o agente seguir um padrão que pareça subótimo, [por exemplo, quando o agente perde tempo, ou mesmo perde uma vida]. Se fosse esse o caso, seria extremamente difícil para o RL padrão encontrar o bug: se você usar recompensas incrementais, aprenderá estratégias que rapidamente geram alguma recompensa, em vez de estratégias de aprendizagem que não geram muitas recompensas por um tempo e então, de repente, ganhe muito.
Ver relacionados O campeão do Dragster, Todd Rogers, acaba de perder sua coroa após 35 anos Esta inteligência artificial tem aprendido a dominar Super Mario Bros 1-2 por 17 dias Veja este AI aprender a dirigir em GTA V no Twitch
No entanto, apesar dos resultados maravilhosos do bot, os pesquisadores não estão dizendo que este é um caso para defender a aprendizagem ES em vez de RL. Na verdade, ambos os sistemas têm seus próprios problemas e uma combinação dos dois é amplamente vista como a melhor opção no futuro.
O mesmo método ES em outros jogos Atari não trouxe nem perto dos mesmos resultados positivos. Por outro lado, RL é responsável por quebrar recordes à esquerda, direita e centro, incluindo bater o melhor jogador de GO do mundo. O ES ainda tem seu próprio lugar nas coisas, e é como a Nvidia realiza muito do seu treinamento de IA, pois requer mais poder computacional, mas alcançando melhores resultados por um longo período de tempo.
Independentemente de qual caminho se tornará o futuro para o desenvolvimento de IA, pelo menos este bot enganando o sistema não é tão ruim quanto este agora desgraçado campeão mundial de videogame .