Patryk Chrabaszcz, Ilya Loshchilov, et Frank Hutter, chercheurs à l’université de Freiburg (via) :

We also demonstrate qualitatively that ES algorithms have very different performance characteristics than traditional RL algorithms: on some games, they learn to exploit the environment and perform much better while on others they can get stuck in suboptimal local minima.

Un exemple avec le jeu de réflexion Q*bert :

In the second interesting solution, the agent discovers an in-game bug. First, it completes the first level and then starts to jump from platform to platform in what seems to be a random manner. For a reason unknown to us, the game does not advance to the second round but the platforms start to blink and the agent quickly gains a huge amount of points (close to 1 million for our episode time limit).

Les algorithmes évolutionnistes ne jouent pas, ils s’affrontent à mort pour remplir le seul objectif clairement énoncé, l’obtention du meilleur score. Un score obtenu par une découverte inopinée, un bug, dont les conditions d’existence sont peut-être entièrement liées au fonctionnement très particulier de ce type d’algorithmes. Cet exemple, aussi anodin soit-il, montre les problèmes éthiques soulevés par certains types d’intelligence artificielle. Nous ne pouvons pas continuer à développer librement des systèmes qui ne connaissent rien d’autre que l’opportunisme.