ID.nl logo
Huis

Hoe kunstmatige intelligentie Ms. Pac-Man leerde spelen

Met 999.990 punten heeft een kunstmatige intelligentie de absolute high-score gehaald op het inmiddels 36 jaar oude spel Ms. Pac-Man. De PCM-redactie moest met 13.160 punten genoegen nemen. Wij vroegen de leider van het team achter deze kunstmatige intelligentie hoe ze een computer Ms. Pac-Man hebben leren spelen en waarom.

Kunstmatige Intelligentie is een zeer breed studieveld binnen de informatica. Doel is computers te ontwikkelen die zich bewust zijn van hun omgeving, beslissingen kunnen nemen en aan de hand daarvan leren. Dat hoeft niet te leiden tot zelfdenkende machines die – in de Hollywood-stijl – de wereld overnemen. Realistischer zijn de intelligente computers die zelfrijdende auto’s bedienen. Die zijn zich bewust van de weg, andere auto’s, voetgangers en overige obstakels. Aan de hand daarvan nemen ze stuurbeslissingen en ze leren steeds beter te rijden.

Het in Canada opgerichte bedrijf Maluuba ontwikkelt kunstmatige intelligentie om taal te begrijpen. Het bedrijf is grofweg verdeeld in drie teams. Eén team zorgt dat computers teksten kunnen lezen en daar vervolgens vragen over kunnen beantwoorden. Deze divisie heeft een computer het boek Harry Potter en de Steen der Wijzen laten lezen. Daarna kon de computer inhoudelijke vragen over het boek beantwoorden.

Een tweede team binnen Maluuba richt zich op ‘dialog’. Dat zijn systemen die proberen het juiste antwoord te geven als er tegen ze gepraat wordt. Dat kan bijvoorbeeld gebruikt worden in de telefooncentrale van de eerste hulp. De beller geeft aan wat het probleem is, en de computer zorgt door vragen te stellen dat deze met de juiste hulppost wordt verbonden.

Reinforcement learning

Harm van Seijen (research manager bij Microsoft) werkt voor het derde team in Maluuba, dat zich richt op Reinforcement Learning. Een fundamenteel onderzoeksveld waar de andere twee teams hun voordeel mee doen. Kunstmatige Intelligentie is onderverdeeld in verschillende subvelden waaronder Machine Learning. Binnen dit subveld proberen onderzoekers machines te leren leren. Daar zijn weer onderliggende velden in, bijvoorbeeld Neurale Netwerken die leren op basis van voorbeelden. Daar leert een computer bijvoorbeeld katten op de foto te herkennen door foto’s met en zonder kat te bekijken.

Het veld Reinfocement Learning laat computers leren door beloningen aan beslissingen toe te kennen. De computer probeert door verschillende beslissingen te nemen de hoogst mogelijke score te halen. Dat kan ingezet worden in combinatie met het dialog-systeem van het andere team bij Maluuba, bijvoorbeeld om een systeem te bouwen dat telefonische verkopers argumenten geeft om een product te verkopen.

Volgt na een argument een aankoop, dan genereert dat een positieve beloningsscore. Wordt er niet gekocht, dan is de score nul. Gooit de klant de hoorn op de haak, dan volgt er een negatieve score. Op den duur leert de computer zo welke argumenten goed zijn voor de verkoop en welke minder.

In 2015 is bij de University of Toronto een Reinforcement Learning-onderzoek uitgevoerd met behulp van computerspellen van de (antieke) Atari 2600. Het onderzoeksteam gebruikte daar een zogenaamde Deep Reinforcement Learning techniek om de computer spellen te leren spelen. Met deze nieuwe aanpak wist de computer na training bij zes van de zeven geteste spellen een betere score neer te zetten dan welke andere computer ook. In drie gevallen was de computer zelfs beter dan de beste menselijke spelers.

Verschil met Pac-Man

Het in 1981 gelanceerde spel Ms. Pac-Man zat niet bij de titels die in dit onderzoek met succes gespeeld zijn. Harm: “De techniek bij dat onderzoek doet het heel goed bij zo’n 75 procent van de spellen. Maar bij andere titels, waaronder Ms. Pac-Man, werkte het heel slecht. Waarom was niet duidelijk. We hebben geprobeerd dat uit te leggen, maar konden het niet verklaren. Een doelstelling van ons onderzoek was daarom uitvinden waarom het zo moeilijk was en dat vervolgens op te lossen.”

Ms. Pac-Man is de opvolger van het in 1980 verschenen spel Pac-Man. Voor wie het niet kent (wat we ons nauwelijks kunnen voorstellen): in beide spellen moet de speler het titelkarakter door een doolhof sturen om zo pellets, die in de gangen liggen, op te eten. Is het doolhof leeg, dan begint het volgende level. Vier spoken proberen de speler op zijn beurt op te eten. Door één van de vier in het doolhof aanwezige power pellets op te eten, kan de speler tijdelijk de rollen omdraaien en extra punten scoren door spoken op te eten. Af en toe verschijnt er tijdelijk een stuk fruit in het doolhof. Weet de speler dit op te eten, dan levert dat bonuspunten op.

In werkelijkheid zitten er behoorlijke verschillen tussen Pac-Man en Ms. Pac-Man

-

Op het eerste gezicht lijkt Ms. Pac-Man niet meer aan Pac-Man toe te voegen dan een strik, een oog, lippenstift en een schoonheidsvlek. In werkelijkheid zitten er behoorlijke verschillen tussen de twee titels. Zo beweegt Ms. Pac-Man zich door vier verschillende doolhoven terwijl Pac-Man steeds in hetzelfde doolhof verschijnt. Het fruit beweegt in Ms. Pac-Man, terwijl het in de vorige titel stil lag. Zeker belangrijk voor lerende machines: de spoken in Pac-Man verplaatsen zich relatief aan hoe de speler loopt. Dat maakt het mogelijk om bewegingspatronen te ontdekken en daar de speelstijl op aan te passen. In Ms. Pac-Man bewegen de spoken zich met meer willekeur, waardoor een patroon niet te ontwaren is.

Hoogst mogelijke Pac-Man-score

Pac-Man en Ms. Pac-Man zijn over de afgelopen 37 jaar in een onwaarschijnlijke hoeveelheid varianten op de markt gebracht. De website highscore.com houdt wereldwijd de hoogste scores van computerspellen bij. Een snelle zoektocht op deze site geeft 568 varianten van het spel Ms. Pac-Man. Voor de Atari 2600-variant (die in dit onderzoek gebruikt is) kunnen we kiezen uit een high-score geboekt op een originele Atari 2600 spelcomputer (154.630) of op computer die de Atari emuleert (266.330). Kortom, de score van het team van Harm is 3,75 keer zo hoog als de hoogst genoteerde score in Ms. Pac-Man ooit. Harm: “Dit is de hoogst mogelijke score omdat deze daarna reset naar 0 punten.”

Om dit te bereiken is er een creatieve aanpak van de Reinforcement Learning techniek gebruikt. Het team van Maluuba noemt dit de Hybrid Reward Architecture. Harm: “In Reinforcement Learning heb je te maken met een beloningsfunctie. Normaal heb je één agent die probeert de beloning te maximaliseren. Wij hebben die functie opgesplitst in een hoeveelheid kleinere deelfuncties. We hoeven daarom niet met één agent een complex probleem op te lossen, maar hebben een grote verzameling agents die kleine problemen proberen op te lossen.”

Binnen Ms. Pac-Man maakte het team van allerlei losse onderdelen in het spel een agent. Onder meer de pellets in het doolhof, de spoken, de power-pellets en de ‘eetbare spoken’ (na het eten van een power-pellet) werden agents. In totaal gaven 163 verschillende agents aan of ze vonden dat Ms. Pac-Man omhoog, omlaag, linksaf of rechtsaf moest bewegen.

De beslissing van iedere agent kreeg ook een eigen gewicht. Harm: “Iedere agent spreekt een voorkeur voor actie uit en geeft aan hoe belangrijk hij is. Wat een spook wil is van meer belang dan wat een pellet wil.” Op basis van een zogenaamde ‘lineaire combinatie van Q-waarden’ gebruikt de computer die meningen om een afgewogen beslissing te nemen.

4000 uur later

Hoe beter die beslissing in de eindscore uitpakt, hoe eerder de computer die in een volgend spelletje opnieuw zal nemen. Op die manier leert de machine een steeds hogere score op Ms. Pac-Man te noteren. De computer heeft in totaal bijna 4.000 uur Ms. Pac-Man moeten spelen om de topscore te kunnen noteren. Uitgaande van de vuistregel dat iemand met een 40-urige werkweek gemiddeld per jaar 1.650 uur werkt, vertaalt zich dat naar bijna 2,5 jaar trainen voor een mens. Het spelletje waarbij de topscore behaald werd nam 1 uur en 16 minuten in beslag.

In werkelijkheid heeft het vanzelfsprekend geen 2,5 jaar geduurd voor deze score bereikt werd. Voor het experiment was het niet nodig om de computer op menselijke snelheid te laten spelen. Met behulp van een standaard PC met Intel Core i7-processor is de 4.000 uur training uitgevoerd in 30 uur. Daarvoor was eerst een 20 uur durende optimalisatie nodig in een parallel rekenend netwerk van computers. De totaal benodigde ‘werkelijke’ tijd om Ms. Pac-Man te verslaan werd zo teruggebracht naar 50 uur.

De computer heeft in totaal bijna 4.000 uur Ms. Pac-Man moeten spelen om de topscore te kunnen noteren.

-

Natuurlijk investeren Microsoft en Maluuba niet in Reinforcement Learning om de hoogste score op een computerspel te kunnen claimen. Het team van Harm voert voor de bedrijven fundamenteel onderzoek uit. Op basis van hun bevindingen kunnen de andere twee teams van Maluuba hun toepassingen verder optimaliseren.

Harm: “In het algemeen probeer je met Reinforcement Learning uit data goed gedrag te leren. Dat kun je potentieel voor veel dingen gebruiken. Binnen taal bijvoorbeeld om in dialogs de juiste respons te berekenen. Dat kan bij simpele taken gewoon met de hand gecodeerd worden. Maar als het om ingewikkeld gedrag gaat, kan dat niet meer. Dan wil je dat er zelf geleerd wordt aan de hand van data. Daar wordt Reinforced Learning voor gebruikt.”

Zelf aan de slag

Wil je zelf met kunstmatige intelligentie aan de slag, dan volgen hier enkele tips:

Stap 1: Bezoek de Arcade Learning Environment

De Arcade Learning Environment biedt een framework waarmee onderzoekers en hobbyisten AI agents voor Atari 2600 spellen kunnen bouwen. Om hiermee aan de slag te gaan is Linux of OS X nodig. Daarnaast dien je over kennis van Python en C++ te beschikken.

Stap 2: Bezoek OpenAI Gym

Op de website van OpenAI Gym kun je het gereedschap vinden om zelf een Reinforcement Learning algoritme te ontwikkelen. Om dit gereedschap te gebruiken is kennis van de programmeertaal Python praktisch. Naast de mogelijkheid om te ontwikkelen, biedt de OpenAI Gym ook opties om resultaten van je werk te vergelijken met die van anderen. De site bevat daarnaast documentatie en een forum om vragen te stellen.

Stap 3: Kies je project

OpenAI Gym biedt een keur aan omgevingen om je eigen kunstmatige intelligentie voor te ontwikkelen. Daar zitten beginnersprojecten bij en mogelijkheden om met de standaard bordspellen aan de gang te gaan. Je kunt zelfs je eigen 2D- en 3D-robotsimulaties maken. Eén van de mogelijke omgevingen waar je voor kunt kiezen zijn de klassieke Atari-computerspellen.

Stap 4: Breid je omgeving uit

Een handig aspect van OpenAI Gym is dat het kan overweg met algoritmes die in andere frameworks gemaakt zijn. Zo kun je de deeplearning Python libraries die Theano biedt inzetten. Ook de open-source Machine Intelligence-uitbreidingen van TensorFlow werken goed met OpenAI Gym samen.

▼ Volgende artikel
Review Apple iPad Air (2025) – Een nog snellere processor
Huis

Review Apple iPad Air (2025) – Een nog snellere processor

Nog geen jaar na de vorige uitvoering brengt Apple een nieuwe iPad Air uit. De veranderingen zijn dan ook niet heel groot, want het enige verschil is dat de tablet nu is voorzien van een M3-processor in plaats van een M2-processor. Blijft de iPad Air hiermee een aanrader? Wij hebben hem voor je getest.

Uitstekend
Conclusie

De iPad Air met M2-processor was een prima tablet, en dat geldt ook voor deze opvolger met een nog snellere chip. Je krijgt met deze iPad Air veel kracht in handen en je kunt dezelfde geavanceerde Pencil Pro gebruiken als op de iPad Pro. Ten opzichte van die iPad Pro zit het belangrijkste verschil in het scherm, want de nóg duurdere iPad Pro heeft een oledscherm met hoge verversingssnelheid. Daar moet je wel een paar honderd euro meer voor betalen waardoor deze iPad Air een interessante optie blijft voor wie een iPad met lekker veel kracht zoekt.

Plus- en minpunten
  • Snelle hardware
  • Prima scherm
  • Goede bouwkwaliteit
  • Goede accuduur
  • Geen hogere verversingssnelheid
  • Hoge meerprijzen opslag
  • Dure accessoires

De nieuwe iPad Air laat zich kort omschrijven: Apple heeft de M2-chip vervangen door een M3. Dat is geen groot probleem: Apple gaf de iPad Air vorig jaar een update waarmee deze qua functionaliteit vrijwel identiek was aan de iPad Pro van het jaar daarvoor en je net als bij de Pro kon kiezen uit twee formaten. Uiterlijk is er geen verschil met de vorige generatie iPad Air: de aluminium tablet is nog steeds verkrijgbaar in een 11- en 13inch-variant, waarbij je kunt kiezen uit dezelfde vier kleuren als vorig jaar. De bouwkwaliteit van de aluminium behuizing is uitstekend.

©Jeroen Boer - ID.nl

De iPad Air ziet er hetzelfde uit als de variant van vorig jaar.

Er is overigens wel een heel een klein verschil waardoor je aan de buitenkant kunt zien dat je de nieuwste iPad Air van de M3-generatie in handen hebt. Apple heeft de aanduiding 'iPad Air' namelijk van de achterkant verwijderd. 

©Jeroen Boer - ID.nl

Het enige verschil is dat er geen 'iPad Air' meer op de achterkant staat.

Qua aansluitingen vind je onderop een usb-c-poort die je behalve voor opladen ook kunt gebruiken voor het aansluiten van een beeldscherm. De aan-uitschakelaar is voorzien van een goedwerkende vingerafdrukscanner. Dat is wel de enige manier van biometrische identificatie; in tegenstelling tot iPhones of de iPad Pro ontbreekt de soms nog wat sneller werkende gezichtsherkenning.

©Jeroen Boer - ID.nl

De iPad Air heeft een usb-c-poort die je gebruikt om de tablet op te laden.

Hoge meerprijzen

De prijzen beginnen bij 719 euro voor het 11inch-model terwijl de 13inch-uitvoering bij 969 euro begint. Voor dat geld krijg je 128 GB opslag. Alle varianten hebben dezelfde M3-processor in combinatie met 8 GB RAM. Wil je 256 GB opslag, dan betaal je 130 euro meer, terwijl de volgende stappen naar 512 GB of 1 TB je ieder nog eens 250 euro kosten. Afhankelijk van je opslagwensen wordt de iPad dus al snel een heel stuk duurder. Daarnaast kun je nog kiezen voor een 5G-variant, waarvoor je 170 euro meer betaalt. Deze variant is voorzien van een ingebouwde e-sim; er is geen fysieke simkaartslot.

Scherm zonder ProMotion

De iPad Air heeft precies hetzelfde scherm als vorig jaar en dat betekent een 11- of 13inch-scherm dat gebruikmaakt van een IPS-paneel. Het scherm combineert goede kleuren met een prima contrast en een helderheid die hoog genoeg kan. Wat we wel jammer vinden, is dat Apple de toch best prijzige iPad Air niet voorziet van een scherm met een hogere verversingssnelheid dan 60 Hz. Zo'n hogere verversingssnelheid die Apple 'ProMotion' noemt zou zeker in combinatie met de stylus waarschijnlijk een vloeiender ervaring opleveren. 

Nog snellere processor

De snellere processor is het belangrijkste verschil met zijn voorganger, en de chip die we al kennen uit andere Apple-producten stelt niet teleur. De M3-processor is in benchmarks op single-coregebied ongeveer 18 procent sneller dan de M2, terwijl de multicore-prestaties zo'n 25 procent hoger liggen. In de benchmark Geekbench 6 zet de iPad een Single-Core Score van 3063 punten neer, terwijl de Multi-Core Score 11.914 punten bedraagt.

De vernieuwde iPad Air is in theorie dus nog iets soepeler in bijvoorbeeld grafische toepassingen, al is de M4-chip in de iPad Pro nog een stukje sneller. Het is gissen waarom Apple nog voor de in andere producten uitgefaseerde M3 koos; misschien hadden ze er nog veel van liggen of wil het bedrijf genoeg onderscheid met de iPad Pro houden. Uiteindelijk maakt het ook weer niet zo heel veel uit, want in de praktijk zijn zowel de vorige als de huidige variant van de iPad Air gewoon snel. De accuduur van de geteste 11inch-uitvoering is erg goed en komt bij normaal gebruik zoals browsen in de buurt van de door Apple geclaimde 10 uur.

Vernieuwd toetsenbord

De iPad Air is compatibel met Apples beste stylus: de Pencil Pro. Deze stylus (149 euro) is druk- en kantelgevoelig en detecteert bovendien of je de stylus draait. Hierdoor kun je in tekenapps als Procreate bijzonder realistisch tekenen. De stylus wordt gekoppeld en opgeladen door hem magnetisch aan de zijkant te plakken, waarmee dit in de praktijk een prettige accessoire is. De iPad Air is trouwens ook compatibel met de goedkopere Apple Pencil usb-c, die minder mogelijkheden heeft en opgeladen wordt met een usb-c-kabel. Als je wilt tekenen, dan raden we je de Pencil Pro aan.

©Jeroen Boer - ID.nl

De Pencil Pro plak je magnetisch aan de zijkant om hem op te laden.

We kregen van Apple ook het vernieuwde Magic Keyboard voor de iPad Air, dat uiteraard ook compatibel is met de iPad Air met M2-processor. Ten opzichte van het vorige Magic Keyboard dat oorspronkelijk voor de oudere generatie iPad Pro was ontworpen, krijg je een rij functietoetsen. Hierdoor kun je de iPad nog beter als laptopvervanger gebruiken.

Ten opzichte van het Magic Keyboard voor de huidige iPad Pro ontbreekt helaas de achtergrondverlichting in de toetsen en de aluminium polssteun, terwijl de prijs van het toetsenbord met 329 euro niet veel lager is. Het is daarnaast jammer dat het toetsenbord er alleen nog in een witte variant is. Dat is toch vlekgevoeliger dan een zwarte uitvoering. 

©Jeroen Boer - ID.nl

Het vernieuwde Magic Keyboard heeft nu functietoetsen.

Conclusie

De iPad Air met M2-processor was een prima tablet, en dat geldt ook voor deze opvolger met een nog snellere chip. Je krijgt met deze iPad Air veel kracht in handen en je kunt dezelfde geavanceerde Pencil Pro gebruiken als op de iPad Pro. Ten opzichte van die iPad Pro zit het belangrijkste verschil 'm in het scherm, want de nog duurdere iPad Pro heeft een oledscherm met hoge verversingssnelheid. Daar moet je wel een paar honderd euro meer voor neertellen, waardoor deze iPad Air een interessante optie blijft voor wie een iPad met lekker veel kracht zoekt.

▼ Volgende artikel
Waar voor je geld: 5 draagbare DAB+-radio's voor mee op vakantie
© Olga Yastremska, New Africa, Afr
Huis

Waar voor je geld: 5 draagbare DAB+-radio's voor mee op vakantie

Bij ID.nl zijn we dol op kwaliteitsproducten waar je niet de hoofdprijs voor betaalt. Daarom speuren we een paar keer per week binnen een bepaald thema naar zulke deals. Dit keer hebben we vijf DAB+-radio's voor je gevonden die je ook nog eens heel makkelijk meeneemt, op vakantie bijvoorbeeld.


Digitale radio via DAB+ (Digital Audio Broadcasting) biedt een helder en storingsvrij radiosignaal, met een steeds groter zenderaanbod. Dat maakt het luisteren een stuk aangenamer. Dankzij modellen met ingebouwde accu of batterijen ben je niet gebonden aan een stopcontact. Voeg daar een netstroomaansluiting aan toe en je hebt een toestel dat net zo makkelijk op de camping als op het aanrecht in de keuken dienst kan doen.

Denver DAB-18 Radio DAB+

De Denver DAB-18 is een compacte DAB+/FM-radio die een retro uiterlijk combineert met moderne functionaliteit. De geïntegreerde Bluetooth-functie maakt het mogelijk om draadloos muziek te streamen vanaf je smartphone of tablet. Daarnaast beschikt de radio over een AUX-ingang voor het aansluiten van externe apparaten. Met de dubbele alarmfunctie en snoozefunctie is de DAB-18 ook geschikt als wekkerradio. Het dimbare lcd-display toont duidelijk informatie over zenders en instellingen. De radio werkt zowel op netstroom als op 4 C-batterijen. Met 20 voorkeuzezenders (10 DAB+ en 10 FM) heb je snel toegang tot je favoriete stations.

Audizio Milan

De Audizio Milan is een compacte draagbare DAB+/FM-radio. De Milan biedt zowel DAB+ als FM-ontvangst, waardoor je kunt genieten van een breed scala aan radiostations met heldere geluidskwaliteit. Dankzij de Bluetooth-functionaliteit kun je draadloos muziek streamen vanaf je smartphone of tablet. Met de ingebouwde 2000mAh-accu heb je genoeg stroom voor zo'n 10 uur luisterplezier, en kan de radio via usb worden opgeladen. Het 2,4-inch kleurendisplay toont duidelijk informatie over zenders en instellingen.

Grundig DTR 4500 BT DAB

De Grundig DTR 4500 BT DAB heeft Bluetooth 5.0-functionaliteit en kun je naast het luisteren naar DAB-stations ook gebruiken om te streamen vanaf je smartphone of tablet. De radio beschikt over een 2.0 stereo luidsprekersysteem met een totaal vermogen van 10 watt RMS. Het 2,4-inch kleurendisplay biedt duidelijke informatie over zenders en instellingen, en de helderheid is in drie stappen aan te passen. Hoewel de DTR 4500 BT DAB geen ingebouwde accu heeft, kan hij natuurlijk wel gewoon op netstroom worden aangesloten.

Lenco PDR-040EF Bambus

De Lenco PDR-040EF Bambus is gemaakt van echt bamboe en gerecycled ABS met tarwevezel, wat niet alleen een mooie uitstraling geeft, maar ook bijdraagt aan duurzaamheid. Met Bluetooth 5.0-functionaliteit kun je eenvoudig muziek streamen vanaf je smartphone of tablet. De radio beschikt over een 3 watt RMS luidspreker en een passieve basradiator. De ingebouwde 2000mAh accu biedt tot 16 uur afspeeltijd via Bluetooth en tot 12 uur via FM of DAB+, waardoor je de hele dag kunt genieten van je favoriete muziek, zowel thuis als onderweg. Daarnaast is de radio uitgerust met een klok- en alarmfunctie, een 3,5 mm hoofdtelefoonaansluiting en een telescoopantenne.

Kenwood CR-M30DAB-R

Deze compacte Kenwood kan overweg met FM-radio en DAB+. De radio beschikt over Bluetooth-functionaliteit, waardoor je draadloos muziek kunt streamen vanaf je smartphone of tablet. Dankzij de geïntegreerde oplaadbare batterij kun je tot 7 uur genieten van je favoriete muziek zonder dat je een stopcontact nodig hebt. Daarnaast is de radio voorzien van een helder LCD-scherm dat informatie over zenders en instellingen duidelijk weergeeft. Met de mogelijkheid om zowel op netstroom als op de interne accu te werken, kun je de CR-M30DAB op verschillende manieren gebruiken.