Les machines ont prouvé leur supériorité dans les jeux en tête-à-tête comme les échecs et les go, et même le poker - mais dans des versions multijoueurs complexes du jeu de cartes, les humains ont conservé leur avantage… jusqu'à présent. Une évolution du dernier agent d'IA aux pros du poker Flummox individuellement les bat maintenant de manière décisive dans les matchs de six personnes de style championnat.
Comme indiqué dans un article publié dans la revue Science Today, la collaboration CMU / Facebook qu'ils appellent Pluribus bat de manière fiable cinq joueurs de poker professionnels dans le même jeu, ou un pro a opposé à cinq copies indépendantes de lui-même. C'est un saut majeur en avant en capacité pour les machines, et étonnamment est également beaucoup plus efficace que les agents précédents, aussi.
Le poker individuel est un jeu bizarre, et non simple, mais la nature à somme nulle (quoi que vous perdez, l'autre joueur) le rend sensible à certaines stratégies dans lesquelles un ordinateur capable de calculer loin Assez peut se mettre à un avantage. Mais ajoutez quatre autres joueurs dans le mélange et les choses deviennent vraiment complexes, vraiment rapides.
Avec six joueurs, les possibilités de mains, de paris et de résultats possibles sont si nombreuses qu'il est effectivement impossible de les rendre compte, en particulier en une minute ou moins. Ce serait comme essayer de documenter de manière exhaustive chaque grain de sable sur une plage entre les vagues.
Pourtant, plus de 10 000 mains ont joué avec des champions, Pluribus a réussi à gagner de l'argent à un rythme constant, n'appuyant aucune faiblesse ou habitudes dont ses adversaires pourraient profiter. Quel est le secret? Hasard cohérent.
Même les ordinateurs regrettent
Pluribus a été formé, comme de nombreux agents de l'IA à jeu de nos jours, non pas en étudiant comment les humains jouent mais en jouant contre lui-même. Au début, c'est probablement comme regarder les enfants, ou pour moi, jouer au poker - des erreurs constantes, mais au moins l'IA et les enfants apprennent d'eux.
Le programme de formation a utilisé quelque chose appelé Minimisation des regrets contrefactuels de Monte Carlo. On dirait que lorsque vous prenez du whisky pour le petit déjeuner après avoir perdu votre chemise au casino, et d'une certaine manière, à la machine.
Minimisation du regret signifie simplement que lorsque le système finirait une main (contre lui-même, rappelez-vous), il jouerait alors cette main de différentes manières, explorant ce qui aurait pu arriver si l'avait vérifié ici au lieu de surélevé, plié au lieu de l'appel et ainsi de suite. (Parce que ça ne s'est pas vraiment produit, c'est contrefactual.)
UN monte Carlo L'arbre est un moyen d'organiser et d'évaluer beaucoup de possibilités, semblable à grimper à un arbre de la branche par branche et à noter la qualité de chaque feuille que vous trouvez, puis à choisir le meilleur une fois que vous pensez avoir suffisamment grimpé.
Si vous le faites à l'avance (cela se fait dans les échecs, par exemple), vous recherchez le meilleur mouvement pour choisir parmi. Mais si vous le combinez avec la fonction de regret, vous parcourez un catalogue de façons possibles le jeu aurait pu aller et observer qui aurait eu le meilleur résultat.
Ainsi, la minimisation des regrets contrefactuels de Monte Carlo n'est qu'un moyen d'étudier systématiquement ce qui aurait pu se passer si l'ordinateur avait agi différemment et ajustant son modèle de façon de jouer en conséquence.
casino en ligne gratowinLe jeu s'est produit à l'origine comme vous le voyez à gauche, avec une perte. Mais le moteur explore d'autres avenues où elle aurait pu faire mieux.
Bien sûr, le nombre de jeux est près de l'infini si vous voulez réfléchir à ce qui se passerait si vous aviez parié 101 $ plutôt que 100 $, ou si vous auriez gagné cette grosse main si vous aviez un botteur de huit au lieu d'un sept. Là-bas se trouve également un regret à l'infini, le genre qui vous maintient au lit dans votre chambre d'hôtel jusqu'au début du déjeuner.
La vérité est que ces changements mineurs comptent si rarement que la possibilité peut être essentiellement ignorée. Peu importe vraiment que vous pariez un mâle supplémentaire - donc tout pari à l'intérieur, disons, 70 et 130 peuvent être considérés exactement les mêmes par l'ordinateur. Même chose avec les cartes - que le cric soit un cœur ou une bêche n'a pas d'importance, sauf dans des situations très spécifiques (et généralement évidentes), donc 99.999% du temps où les mains peuvent être considérées comme équivalentes.
Cette «abstraction» des séquences de gameplay et le «seau» des possibilités réduisent considérablement les possibilités que Pluribus doit considérer. Il aide également à maintenir la charge de calcul faible; Pluribus a été formé sur un support de serveur de 64 cœurs relativement ordinaire sur environ une semaine, tandis que d'autres modèles pourraient prendre des années de processeur en grappes de haute puissance. Il fonctionne même sur une plate-forme (certes costaud) avec deux processeurs et 128 concerts de RAM.
Aléatoire comme un renard
La formation produit ce que l'équipe appelle un «plan» pour comment jouer qui est fondamentalement fort et qui battra probablement beaucoup de joueurs. Mais une faiblesse des modèles d'IA est qu'ils développent des tendances qui peuvent être détectées et exploitées.
Dans la rédaction de Pluribus de Facebook, il fournit l'exemple de deux ordinateurs jouant à des scisseurs de papier rocheux. L'un choisit au hasard tandis que l'autre choisit toujours le rock. Théoriquement, ils gagneraient tous les deux le même nombre de matchs. Mais si l'ordinateur essayait la stratégie all-rock sur un humain, il commencerait à perdre avec une rapidité et à ne jamais s'arrêter.
1. Casinoly | de 100 % jusqu'à 500 € + 200 tours gratuits |
2. Together | de 100 % jusqu'à 300 € + 100 free spins |
3. Cbet | Bonus de bienvenue et offres de 100 % jusqu'à 500 $ |
4. Madnix | de 100 % jusqu'à 100 € + 225 tours gratuits sans modalité de mise |
5. Cheri Casino | Bonus d'inscription 100 % de bonus de match jusqu'à 100 $ |
Comme un exemple simple dans le poker, peut-être qu'une série particulière de paris fait toujours que l'ordinateur se réalise en même temps que sa main. Si un joueur peut repérer cette série, il peut emmener l'ordinateur en ville à tout moment. Il est important de trouver et d'empêcher des ornières comme celles-ci pour créer un agent de jeu qui peut battre des humains ingénieux et observateurs.
Pour faire ce pluribus, fait quelques choses. Tout d'abord, il a modifié des versions de son plan à mettre en jeu si le jeu se penche vers le pliage, l'appel ou l'élevage. Différentes stratégies pour différents jeux signifient qu'elle est moins prévisible, et elle peut changer en une minute si les modèles de pari changent et que la main passe d'un appel à un bluffing.
Il s'engage également dans une recherche introspective courte mais complète en regardant comment elle jouerait si elle avait toutes les autres mains, d'un grand rien à une chasse directe, et comment il parierait. Il choisit ensuite son pari dans le contexte de tous ceux-ci, en faisant attention de le faire de telle manière qu'il ne pointe de personne en particulier. Étant donné la même main et le même jeu à nouveau, Pluribus ne choisirait pas le même pari, mais le varierait plutôt pour rester imprévisible.
Ces stratégies contribuent au «hasard cohérent» à laquelle j'ai fait allusion plus tôt, et qui faisait partie de la capacité du modèle à battre lentement mais de manière fiable certains des meilleurs joueurs du monde.
La lamentation de l'homme
Il y a trop de mains pour pointer un ou 10 particulier qui indique que le Power Pluribus apportait sur le jeu. Le poker est un jeu de compétences, de chance et de détermination, et un où les gagnants émergent après seulement des dizaines ou des centaines de mains.
Et ici, il faut dire que la configuration expérimentale ne reflète pas entièrement un jeu de poker ordinaire de six personnes. Contrairement à un vrai jeu, les dénombrements de puces ne sont pas maintenus comme un total en cours - pour chaque main, chaque joueur a reçu 10 000 jetons à utiliser comme ils le faisaient plaisir, et gagner ou perdre, il a également reçu 10 000 dans la prochaine main.
L'interface utilisée pour jouer au poker avec Pluribus. Fantaisie!
De toute évidence, cela limite plutôt les stratégies à long terme possibles, et en effet, "le bot ne recherchait pas des faiblesses dans ses adversaires qu'elle pourrait exploiter", a déclaré le chercheur Facebook IA Noam Brown. Vraiment Pluribus vivait dans le moment où peu d'humains peuvent.
Mais simplement parce qu'il ne basait pas son jeu sur les observations à long terme des habitudes ou des styles individuels des adversaires ne signifie pas que sa stratégie était superficielle. Au contraire, il est sans doute plus impressionnant, et jette le jeu sous un jour différent, qu'une stratégie gagnante existe qui fait pas s'appuyer sur des indices comportementaux ou l'exploitation des faiblesses individuelles.
Les pros qui avaient leur argent du déjeuner pris par l'implacable Pluribus étaient de bons sports, cependant. Ils ont salué le jeu de haut niveau du système, sa validation des techniques existantes et l'utilisation inventive de nouveaux. Voici une sélection de lamentations des humains déchus:
J'étais l'un des premiers joueurs à tester le bot, j'ai donc pu voir ses versions antérieures. Le bot est passé d'un joueur médiocre battable à la compétition avec les meilleurs joueurs du monde dans quelques semaines. Sa force majeure est sa capacité à utiliser des stratégies mixtes. C'est la même chose que les humains essaient de faire. C'est une question d'exécution pour les humains - pour le faire de manière parfaitement aléatoire et le faire de manière cohérente. Il était également satisfaisant de voir que beaucoup de stratégies que le bot utilise sont des choses que nous faisons déjà dans le poker au plus haut niveau. Avoir vos stratégies plus ou moins confirmées comme correctes par un supercalculateur est un bon sentiment. -Darren Elias
C'était incroyablement fascinant de jouer contre le bot de poker et de voir certaines des stratégies qu'il a choisies. Il y avait plusieurs pièces que les humains ne font tout simplement pas du tout, en particulier concernant son dimensionnement de pari. -Michael «Gags» Gagliano
Chaque fois que je joue au bot, j'ai l'impression de prendre quelque chose de nouveau à intégrer dans mon jeu. En tant qu'êtres humains, je pense que nous avons tendance à simplifier le jeu pour nous-mêmes, rendre les stratégies plus faciles à adopter et à nous souvenir. Le bot ne prend aucune de ces raccourcis et a un arbre de jeu extrêmement compliqué / équilibré pour chaque décision. -Jimmy Chou
Dans un jeu qui vous récompensera, le plus souvent, lorsque vous montrerez la discipline mentale, la concentration et la cohérence, et vous punir certainement lorsque vous n'avez pas les trois, en compétition pendant des heures contre un bot IA qui ne fait évidemment pas avoir à se soucier de ces lacunes est une tâche exténuante. Les détails techniques et les subtilités profondes de la capacité du poker du bot AI étaient remarquables, mais ce que j'ai sous-estimé était sa force la plus transparente - sa cohérence implacable. -Sean Ruane
Battre les humains au poker n'est que le début. Aussi bon joueur que cela soit, Pluribus est surtout une démonstration qu'un agent d'IA peut atteindre des performances surhumaines à quelque chose d'aussi compliqué que le poker à six joueurs.
«De nombreuses interactions réelles, telles que les marchés financiers, les enchères et la navigation du trafic, peuvent également être modélisés comme des interactions multi-agents avec la communication et la collusion limitées parmi les participants», écrit Facebook dans son blog.
Partenaires de casino associés