Principal Serviços De Streaming AI aprende a trapacear no Q * bert de uma maneira que nenhum ser humano jamais fez

AI aprende a trapacear no Q * bert de uma maneira que nenhum ser humano jamais fez



Uma IA conseguiu trapacear com o melhor que a humanidade tem a oferecer depois de descobrir um exploit no clássico jogo de arcade Q * bert e correr com ele.

Embora as iterações anteriores da IA ​​jogassem Q * bert corretamente, em algum ponto em seu aprendizado de como o jogo funciona, ele descobre um exploit que o permite acumular pontos insanos. Naturalmente, como qualquer jogador em busca de pontuação faria, ele repete o processo para que possa aumentar sua pontuação da maneira mais eficaz possível.

Você pode ver a IA trabalhando em torno das plataformas no vídeo abaixo. A princípio, parece que está pulando sem rumo entre as plataformas. Em vez de ver o jogo progredir para a próxima rodada, Q * bert fica preso em um loop onde todas as suas plataformas começam a piscar - é aqui que a IA pode então entrar em um frenesi de pontuação acumulando pontos enormes.

LEIA A SEGUINTE: Um dos recordes de jogo mais polêmicos foi finalmente desacreditado

como instalar mods no windows 10 minecraft

Como o AI venceu a guerra Q * bert

Quebrando o recorde de todos os tempos para o título, o AI acumulou uma pontuação impossivelmente alta graças à sua programação de algoritmo de estratégia de evolução. As estratégias de evolução (ES) diferem da aprendizagem por reforço usual (RL) que a IA tradicional usa, visto que é vista como mais escalável devido à sua aprendizagem geracional.

Cada ciclo de aprendizagem é referido como uma geração e continua sua tarefa até que uma condição definida seja satisfeita (neste caso, uma pontuação alta). A cada geração sucessiva, a IA absorve o conhecimento da geração anterior e, portanto, é melhor atingir o mesmo objetivo e superá-lo. Continue, e você terminará com uma IA que é absolutamente incomparável em sua tarefa. Isso é exatamente o que aconteceu aqui com a pontuação Q * bert.

Delineado em o papel , publicado na semana passada por pesquisadores da Universidade de Friburgo, Alemanha, parece que o bug não era uma quantidade conhecida. Na verdade, embora eles não fiquem muito surpresos em encontrar o bug, é interessante ver como a IA então foi em frente e aprendeu a explorá-la cada vez que tocava para maximizar seu potencial de pontuação.

LEIA A SEGUINTE: Esta inteligência artificial tem aprendido a dominar Super Mario Bros

Para encontrar o bug, o agente teve que primeiro aprender a quase completar o primeiro nível - isso não foi feito de uma vez, mas usando muitas pequenas melhorias, explicaram os pesquisadores à O registro . Suspeitamos que em algum momento do treinamento uma das soluções descendentes encontrou o bug e obteve uma pontuação muito melhor em comparação com seus irmãos, o que por sua vez aumentou sua contribuição para a atualização - seu peso foi o maior na média ponderada. Isso moveu lentamente a solução para o espaço onde mais e mais descendentes começaram a encontrar o mesmo bug.

Não sabemos as condições precisas em que o bug aparece; é possível que apareça apenas se o agente seguir um padrão que pareça subótimo, [por exemplo, quando o agente perde tempo, ou mesmo perde uma vida]. Se fosse esse o caso, seria extremamente difícil para o RL padrão encontrar o bug: se você usar recompensas incrementais, aprenderá estratégias que rapidamente geram alguma recompensa, em vez de estratégias de aprendizagem que não geram muitas recompensas por um tempo e então, de repente, ganhe muito.

Ver relacionados O campeão do Dragster, Todd Rogers, acaba de perder sua coroa após 35 anos Esta inteligência artificial tem aprendido a dominar Super Mario Bros 1-2 por 17 dias Veja este AI aprender a dirigir em GTA V no Twitch

No entanto, apesar dos resultados maravilhosos do bot, os pesquisadores não estão dizendo que este é um caso para defender a aprendizagem ES em vez de RL. Na verdade, ambos os sistemas têm seus próprios problemas e uma combinação dos dois é amplamente vista como a melhor opção no futuro.

O mesmo método ES em outros jogos Atari não trouxe nem perto dos mesmos resultados positivos. Por outro lado, RL é responsável por quebrar recordes à esquerda, direita e centro, incluindo bater o melhor jogador de GO do mundo. O ES ainda tem seu próprio lugar nas coisas, e é como a Nvidia realiza muito do seu treinamento de IA, pois requer mais poder computacional, mas alcançando melhores resultados por um longo período de tempo.

Independentemente de qual caminho se tornará o futuro para o desenvolvimento de IA, pelo menos este bot enganando o sistema não é tão ruim quanto este agora desgraçado campeão mundial de videogame .

Artigos Interessantes

Escolha Do Editor

Como adicionar bibliotecas para acesso rápido no Windows 10
Como adicionar bibliotecas para acesso rápido no Windows 10
Você pode adicionar Bibliotecas ao Acesso rápido no Windows 10. Isso pode ser feito com um simples ajuste no Registro. Veja como isso pode ser feito.
Pausar atualizações do Windows na atualização de criadores do Windows 10
Pausar atualizações do Windows na atualização de criadores do Windows 10
Na Atualização para Criadores do Windows 10, você pode interromper a instalação das atualizações por até 35 dias. Uma nova opção está no aplicativo Configurações.
Como limitar a largura de banda da Internet em seu PC
Como limitar a largura de banda da Internet em seu PC
Está tendo problemas com as pessoas em sua casa ocupando toda a largura de banda? Aprenda a limitar a largura de banda por meio do QoS do roteador e de utilitários de software.
Como adicionar um destaque no Instagram sem postar uma história
Como adicionar um destaque no Instagram sem postar uma história
https://www.youtube.com/watch?v=srNFChLxl5c Os destaques do Instagram são uma ótima maneira de se aproximar de seus seguidores. Você pode compartilhar seus momentos especiais com eles, tornando assim seu perfil mais atraente. No entanto, existe uma maneira de você
Como chegar ao Pico de Vindagnyr no Impacto Genshin
Como chegar ao Pico de Vindagnyr no Impacto Genshin
Você gosta de quebra-cabeças e está pronto para explorar as montanhas geladas de Dragonspire? Desbloquear o Pico de Vindagnyr é uma longa e árdua cadeia de missões que o leva por todo o domínio. Se você estiver disposto a
Como alterar sua senha para o Google Play
Como alterar sua senha para o Google Play
Você tem medo de que alguém tenha acesso à sua conta do Google Play? Você notou algum comportamento incomum no app? Nesse caso, você provavelmente deve alterar sua senha imediatamente. Neste artigo, você aprenderá como mudar seu
Como fazer uma fogueira no Minecraft?
Como fazer uma fogueira no Minecraft?
Há três coisas que você pode observar para sempre: fogo, água e... o que quer que a terceira coisa seja para você. Hoje vamos falar sobre o primeiro. As fogueiras são uma maneira perfeita de dar vida a uma casa, com seu calor