Googles neue KI hat bereits bei 49 Spielen gelernt, uns zu vernichten

Stefano Tinti / Shutterstock.com

Ohne irgendwelche Regeln oder vorherige Informationen zu erhalten, hat ein einfacher Computer gelernt, wie man 49 Classic spielt Atari-Spiele in nur zwei Wochen - und es hat verdammt gut gelernt, sie zu spielen. Am beeindruckendsten ist jedoch, dass der von Google entwickelte Algorithmus nicht einmal speziell für das Spielen von Spielen entwickelt wurde, sondern nur, um aus den eigenen Erfahrungen zu lernen.

Was bedeutet das außer der Tatsache, dass Computer uns mittlerweile überlegen sind? Space Invaders Und Ausbrechen , sowie Schach , Texas Holdem Poker Und Lösen von Zauberwürfeln ? Es stellt sich heraus, dass wir jetzt über die Anfangsstadien eines allgemeinen Lernalgorithmus verfügen, der Robotern und Computern helfen könnte, Experten für jede Aufgabe zu werden, die wir ihnen stellen, und das ist eine ziemlich große Sache.

„Dies ist das erste Mal, dass jemand ein einziges allgemeines Lernsystem entwickelt hat, das direkt aus Erfahrung lernen kann, um ein breites Spektrum anspruchsvoller Aufgaben zu meistern“, sagte Demis Hassabis, einer der leitenden Forscher. erzählte William Herkewitz von Beliebte Mechanik . Hassabis war einer der Mitbegründer von DeepMind Technologies, dem Unternehmen, das mit der Entwicklung des Algorithmus begann und letztes Jahr für angeblich 400 Millionen US-Dollar von Google aufgekauft wurde.



Veröffentlichung heute in Natur , Das Team erklärt, wie der Deep-Learning-Algorithmus, der Deep Q-Network oder DQN genannt wird, Spiele wie beherrschen konnte Boxen, Space Invaders Und Sternenschütze ohne jegliche Hintergrundinformationen. Dazu gehören Details wie die Frage, auf welche „Bösen“ man achten muss und wie man die Steuerelemente verwendet. Es hatte nur Zugriff auf die Partitur und die Pixel auf dem Bildschirm, um herauszufinden, wie man ein erfahrener Spieler wird.

Indem der Algorithmus die Spiele immer und immer wieder spielt und aus seinen Fehlern lernt, lernt er zuerst, wie man das Spiel richtig spielt, und dann, innerhalb von zwei Wochen, wie man gewinnt.

Natürlich ist dies nicht das erste Programm, das einem Computer beibringt, ein erfahrener Spieler zu werden. Vor etwas mehr als 20 Jahren beherrschte ein Programm namens TD-Gammon Backgammon. Der Unterschied besteht jedoch darin, dass TD-Gammon bei ähnlichen Spielen wie Schach und Dame nie so gut abschneiden konnte, wie Toby Walsh, ein Informatiker von National ICT Australia und UNSW, der nicht an der Forschung beteiligt war, sagte: erklärt drüben bei The Conversation .

Der DQN-Algorithmus hingegen könnte dank zweier technologischer Fortschritte eine Reihe unterschiedlicher Spiele meistern.

Zunächst setzt DQN auf eine positiv verstärkende Lernmethode namens Q-Learning. Das bedeutet im Grunde, dass der Algorithmus alles tun wird, was er kann – jeden Knopf drücken und den Joystick wie ein Verrückter bewegen –, um „Q“ näher zu kommen, einem Wert, den Informatiker als ultimative Belohnung festgelegt haben. Im Fall dieses Experiments war die Belohnung ein Spielergebnis, und je höher, desto besser.

Als Herkewitz erklärt dafür Beliebte Mechanik , Das ist nicht so einfach, wie es sich anhört:

„Um zu verstehen, wie Sie Ihre Punktzahl in einem Spiel wie … maximieren können Space Invaders, Sie müssen tausend verschiedene Fakten erkennen: wie sich die pixeligen Außerirdischen bewegen, die Tatsache, dass Sie durch das Schießen auf sie Punkte erhalten, wann Sie schießen müssen, was das Schießen bewirkt, die Tatsache, dass Sie den Panzer steuern und viele weitere Annahmen, von denen die meisten ein Mensch sind Der Spieler versteht es intuitiv. Und wenn der Algorithmus dann zu einem Rennspiel, einem Side-Scroller oder Pac-Man „Es muss völlig neue Fakten erfahren.“

Aber hier kommt die zweite Verbesserung ins Spiel: DQN basiert auf einem Netzwerk, das von der Fähigkeit des menschlichen Gehirns inspiriert wurde, Hintergrundgeräusche von wichtigen Informationen zu trennen. Das bedeutet, dass DQN in der Lage ist, auf der Grundlage seiner bisherigen Erfahrungen wertvolle Informationsbündel zu sammeln und daraus zu lernen.

Obwohl dies ein großartiger Durchbruch ist, ist es wichtig zu beachten, dass es sich noch nicht um einen echten allgemeinen Lernalgorithmus handelt. Programmierer mussten immer noch einen Q-Wert für das Programm festlegen, damit es lernen konnte – ein wirklich intelligentes System wäre in der Lage, seine eigenen Ziele zu erarbeiten, um eine neue Fähigkeit zu beherrschen.

Und DQN versteht die Spiele, die es spielt, nie wirklich, wie es ein Mensch tun würde, sondern lernt nur, was zu tun ist, um eine bessere Punktzahl zu erzielen. Aus diesem Grund gab es einige Spiele, die DQN nicht meistern konnte, wie zum Beispiel Montezumas Rache (Sie können mehr darüber lesen bei Die Washington Post ) .

Das Team hofft, den Algorithmus in Zukunft so zu erweitern, dass er dabei helfen kann, große Mengen wissenschaftlicher Daten zu sichten und zu eigenen Schlussfolgerungen zu gelangen. „Dieses System, das wir entwickelt haben, ist nur eine Demonstration der Leistungsfähigkeit der allgemeinen Algorithmen“, sagte einer der Entwickler, Koray Kavukcuoglu, sagte Herkewitz . „Die Idee besteht darin, dass zukünftige Versionen des Systems auf jedes sequentielle Entscheidungsproblem verallgemeinert werden können.“

Erfahren Sie mehr darüber, wie DQN lernt Natur Video unten, und testen Sie Ihre eigenen Atari-Fähigkeiten Hier .

Quellen: Beliebte Mechanik , Die Unterhaltung

Lesen Sie dies als nächstes: Dieses Computerprogramm hat Texas Hold'em Poker „gelöst“.

Über Uns

Die Veröffentlichung Unabhängiger, Nachgewiesener Fakten Von Berichten Über Gesundheit, Raum, Natur, Technologie Und Umwelt.