Principal Serviços De Streaming AI aprende a trapacear no Q * bert de uma maneira que nenhum ser humano jamais fez

AI aprende a trapacear no Q * bert de uma maneira que nenhum ser humano jamais fez



Uma IA conseguiu trapacear com o melhor que a humanidade tem a oferecer depois de descobrir um exploit no clássico jogo de arcade Q * bert e correr com ele.

Embora as iterações anteriores da IA ​​jogassem Q * bert corretamente, em algum ponto em seu aprendizado de como o jogo funciona, ele descobre um exploit que o permite acumular pontos insanos. Naturalmente, como qualquer jogador em busca de pontuação faria, ele repete o processo para que possa aumentar sua pontuação da maneira mais eficaz possível.

Você pode ver a IA trabalhando em torno das plataformas no vídeo abaixo. A princípio, parece que está pulando sem rumo entre as plataformas. Em vez de ver o jogo progredir para a próxima rodada, Q * bert fica preso em um loop onde todas as suas plataformas começam a piscar - é aqui que a IA pode então entrar em um frenesi de pontuação acumulando pontos enormes.

LEIA A SEGUINTE: Um dos recordes de jogo mais polêmicos foi finalmente desacreditado

como instalar mods no windows 10 minecraft

Como o AI venceu a guerra Q * bert

Quebrando o recorde de todos os tempos para o título, o AI acumulou uma pontuação impossivelmente alta graças à sua programação de algoritmo de estratégia de evolução. As estratégias de evolução (ES) diferem da aprendizagem por reforço usual (RL) que a IA tradicional usa, visto que é vista como mais escalável devido à sua aprendizagem geracional.

Cada ciclo de aprendizagem é referido como uma geração e continua sua tarefa até que uma condição definida seja satisfeita (neste caso, uma pontuação alta). A cada geração sucessiva, a IA absorve o conhecimento da geração anterior e, portanto, é melhor atingir o mesmo objetivo e superá-lo. Continue, e você terminará com uma IA que é absolutamente incomparável em sua tarefa. Isso é exatamente o que aconteceu aqui com a pontuação Q * bert.

Delineado em o papel , publicado na semana passada por pesquisadores da Universidade de Friburgo, Alemanha, parece que o bug não era uma quantidade conhecida. Na verdade, embora eles não fiquem muito surpresos em encontrar o bug, é interessante ver como a IA então foi em frente e aprendeu a explorá-la cada vez que tocava para maximizar seu potencial de pontuação.

LEIA A SEGUINTE: Esta inteligência artificial tem aprendido a dominar Super Mario Bros

Para encontrar o bug, o agente teve que primeiro aprender a quase completar o primeiro nível - isso não foi feito de uma vez, mas usando muitas pequenas melhorias, explicaram os pesquisadores à O registro . Suspeitamos que em algum momento do treinamento uma das soluções descendentes encontrou o bug e obteve uma pontuação muito melhor em comparação com seus irmãos, o que por sua vez aumentou sua contribuição para a atualização - seu peso foi o maior na média ponderada. Isso moveu lentamente a solução para o espaço onde mais e mais descendentes começaram a encontrar o mesmo bug.

Não sabemos as condições precisas em que o bug aparece; é possível que apareça apenas se o agente seguir um padrão que pareça subótimo, [por exemplo, quando o agente perde tempo, ou mesmo perde uma vida]. Se fosse esse o caso, seria extremamente difícil para o RL padrão encontrar o bug: se você usar recompensas incrementais, aprenderá estratégias que rapidamente geram alguma recompensa, em vez de estratégias de aprendizagem que não geram muitas recompensas por um tempo e então, de repente, ganhe muito.

Ver relacionados O campeão do Dragster, Todd Rogers, acaba de perder sua coroa após 35 anos Esta inteligência artificial tem aprendido a dominar Super Mario Bros 1-2 por 17 dias Veja este AI aprender a dirigir em GTA V no Twitch

No entanto, apesar dos resultados maravilhosos do bot, os pesquisadores não estão dizendo que este é um caso para defender a aprendizagem ES em vez de RL. Na verdade, ambos os sistemas têm seus próprios problemas e uma combinação dos dois é amplamente vista como a melhor opção no futuro.

O mesmo método ES em outros jogos Atari não trouxe nem perto dos mesmos resultados positivos. Por outro lado, RL é responsável por quebrar recordes à esquerda, direita e centro, incluindo bater o melhor jogador de GO do mundo. O ES ainda tem seu próprio lugar nas coisas, e é como a Nvidia realiza muito do seu treinamento de IA, pois requer mais poder computacional, mas alcançando melhores resultados por um longo período de tempo.

Independentemente de qual caminho se tornará o futuro para o desenvolvimento de IA, pelo menos este bot enganando o sistema não é tão ruim quanto este agora desgraçado campeão mundial de videogame .

Artigos Interessantes

Escolha Do Editor

Qual foi o programa de aluguel de DVD da Netflix?
Qual foi o programa de aluguel de DVD da Netflix?
A Netflix costumava ser mais do que apenas um serviço de streaming. Eles também operavam um programa de aluguel de DVD que enviava DVDs pelo correio. Aqui está tudo o que você precisa saber!
Adicionar menu de contexto de unidades de otimização no Windows 10
Adicionar menu de contexto de unidades de otimização no Windows 10
Veja como adicionar 'Otimizar unidades' ao menu de contexto da unidade no Windows 10. Otimizar a unidade de disco é um processo muito importante.
Atalhos de teclado da área de trabalho do Telegram (teclas de atalho)
Atalhos de teclado da área de trabalho do Telegram (teclas de atalho)
Se você estiver usando o Telegram Desktop, pode estar interessado em aprender seus atalhos de teclado (teclas de atalho). Aqui está a lista.
Como corrigir problemas de conexão do Discord
Como corrigir problemas de conexão do Discord
15 soluções rápidas para quando o Discord não está funcionando ou conectando no iPhone, iPad, Android, Windows e Mac. Além disso, o que causa problemas de conexão do Discord.
Arquivos de tags: Windows 10 Build 17134
Arquivos de tags: Windows 10 Build 17134
Dicas e truques de Pokémon Go: 5 maneiras de capturar Pokémon raros e lendários
Dicas e truques de Pokémon Go: 5 maneiras de capturar Pokémon raros e lendários
Não há maneiras garantidas de encontrar Pokémon raros como Charmander, Eevee e Pikachu - mas há muitas maneiras de capturar as criaturas que você deseja de forma menos aleatória. Pokémon Go é um jogo de longa duração que
Faceoff do rastreador de fitness: Apple Watch vs Microsoft Band 2 vs Fitbit Surge
Faceoff do rastreador de fitness: Apple Watch vs Microsoft Band 2 vs Fitbit Surge
Os wearables transformaram-se de produtos de nicho para os obcecados por fitness em itens de uso diário no espaço de apenas alguns anos - um fato que não escapou à atenção das grandes marcas de tecnologia. Aqui nós colocamos três dos