ID.nl logo
Verkiezingen: AI-chatbots neigen naar links en zijn inconsistent, zegt TNO
© AK | ID.nl
Huis

Verkiezingen: AI-chatbots neigen naar links en zijn inconsistent, zegt TNO

Taalmodellen als ChatGPT zijn razendsnel populair geworden. Ze helpen mensen bij veel leeswerk, zoals het samenvatten zoals de verschillende standpunten van onze nationale politieke partijen. Maar hoe betrouwbaar en onbevooroordeeld zijn ze? TNO en Kieskompas hebben een experiment uitgevoerd om dat uit te zoeken.

In het experiment lieten TNO en Kieskompas verschillende taalmodellen de vragen van de stemhulp van het Kieskompas 2023 meerdere malen beantwoorden. De modellen blijken niet helemaal onbevooroordeeld: ze komen uit aan de linkerkant van het politieke spectrum. Daarnaast geven ze niet consistent antwoord op subjectieve vragen en vertonen ze door kleine veranderingen in de vraag al snel heel ander gedrag.

Welke AI-modellen zijn onderzocht?

Aan de hand van populariteit, beschikbaarheid, toegankelijkheid en herkomst zijn zijn de volgende vijf generatieve AI-taalmodellen geselecteerd: Meta’s Llama-2, OpenAI’s GPT3.5, 4, en 4.5-turbo en Falcon-40b-Instruct van TII. Elk model is geprepareerd voor het experiment, bijvoorbeeld door het opzetten van één consistente vraag. Deze is voor elk model licht aangepast om aan het specifieke format van het model te voldoen (zoals het vertalen in het Engels).

Hoe ging het experiment in zijn werk?

Modellen kunnen naast direct een vraag beantwoorden ook gebruik maken van context. Wanneer er context wordt toegevoegd, geeft dat de modellen een indicatie hoe de gebruiker de antwoorden graag wil terugzien, waardoor er soms beter resultaat teruggegeven wordt. Vandaar dat elk model getoetst is mét en zonder contextuele toevoegingen. Ze begrijpen bijvoorbeeld beter wat voor antwoord er van ze verwacht worden als ze al een voorbeeld gehad hebben van een vraag met een antwoord dat binnen de keuzemogelijkheid van het Kieskompas valt (‘Helemaal mee eens’, ‘Mee eens’, ‘Neutraal’, ‘Niet mee eens’, ‘Helemaal niet mee eens’ en ‘Geen mening’).

De antwoorden zijn door Kieskompas vertaald in coördinaten die TNO over het politiek landschap van Nederland heeft gelegd.

©Kieskompas/TNO

Figuur 1: Resultaat van alle getoetste modellen op het Nederlands Politiek Landschap (een enkel puntje betekent dit dat het model op elke stelling bij 10 pogingen 10 keer hetzelfde antwoord gaf).

©Kieskompas/TNO

Figuur 2: Resultaat van alle getoetste modellen zonder context. Een enkel puntje betekent dit dat het model op elke stelling bij 10 pogingen 10 keer hetzelfde antwoord gaf).

Resultaten: wisselvalig en niet neutraal

Wat opvalt aan de resultaten is dat de modellen heel wisselvallig zijn ( te zien aan de ingekleurde vlakken) en ook dat de modellen met name links georiënteerd zijn (zie figuren 1 en 2). Handmatige analyse liet zien dat OpenAI’s GPT modellen zeer snel bereid zijn om antwoord te geven op de stellingen.

Meta’s Llama geeft beter aan dat het daadwerkelijk een model is dat antwoord geeft. Maar zodra context gegeven wordt, geeft ook Llama altijd antwoord op de vraag. Falcon is nog het meest voorzichtig, maar ook met gegeven context door het geven van een voorbeeldvraag verandert het gedrag van dit model aanzienlijk en geeft het wel zijn mening (zoals ook te zien hieronder).

TII en Meta hebben hun modellen getraind om voorzichtiger te zijn en om controversiële vragen niet te beantwoorden. Bovendien zijn de modellen van OpenAI consistenter; als je ze meerdere keren dezelfde vraag voorlegt krijg je vaker hetzelfde antwoord dan bij de geteste concurrenten.

©Kieskompas/TNO

Voorbeeld van het effect van context (modellen kregen allen dezelfde voorbeeldvraag) bij het antwoord van AI-taalmodel Falcon op een vraag van Kieskompas. Klik voor een grotere afbeelding.

Modellen zijn ondoorzichtig

Doordat niet transparant is hoe de modellen getraind zijn, is het niet te zeggen of een model in een andere context een hele andere mening kan geven. Het is dus onmogelijk om te achterhalen waarom het model tot bepaalde antwoorden komt.

Dat taalmodellen vooringenomenheid en inconsistentie vertonen lijkt misschien onschuldig, maar het kan grote gevolgen hebben. Grootschalig gebruik van zulke taalmodellen kan de effecten van vooroordelen bij mensen op de lange termijn vergroten.

GPT-NL: een Nederlands taalmodel

Mede daarom gaat Nederland een eigen open taalmodel ontwikkelen: GPT-NL. Dit model is nodig voor het ontwikkelen, versterken en bestendigen van de digitale soevereiniteit. TNO, NFI en SURF gaan samen het model ontwikkelen om zo een belangrijke stap te zetten richting transparant, eerlijk en toetsbaar gebruik van AI naar Nederlandse en Europese waarden en richtlijnen en met respect voor het eigenaarschap van data.

▼ Volgende artikel
Ontslagen bij Ubisoft Toronto, Splinter Cell-remake nog wel in ontwikkeling
Huis

Ontslagen bij Ubisoft Toronto, Splinter Cell-remake nog wel in ontwikkeling

Ubisoft heeft bevestigd dat er ongeveer veertig werknemers van diens studio in Toronto, Canada worden ontslagen. Wel benadrukt het bedrijf dat de Splinter Cell-remake nog altijd in ontwikkeling is.

De veertig ontslagen werknemers beslaan ongeveer acht procent van de complete Ubisoft Toronto-studio. Dat is een van de grotere Ubisoft-studio's. "Dit besluit is niet lichtzinnig gemaakt en zegt niets over het talent, de motivatie en bijdrage van de individuen", zo stelde een woordvoerder.

Ubisoft Toronto heeft odner andere Far Cry 6, Splinter Cell: Blacklist en Watch Dogs Legion ontwikkeld. Ook werkt het al geruime tijd aan een remake van Splinter Cell. Ubisoft heeft benadrukt dat die remake in ontwikkeling blijft bij de studio.

Remake van Splinter Cell

In 2021 werd de remake van de klassieke stealthgame Splinter Cell aangekondigd. Sindsdien is er maar mondjesmaat informatie over de game naar buiten gekomen. Kort na de aankondiging werd gemeld dat het verhaal wordt herschreven voor een moderner publiek.

Eind vorig jaar bleek dat David Grivel terugkeerde naar Ubisoft Toronto om aan het spel te werken. Hij nam de regie van de remake oorspronkelijk op zich, maar vertrok in 2022. Inmiddels is hij dus weer terug op het oude nest en werkt hij weer aan het spel.

Watch on YouTube

Reorganisatie van Ubisoft

Afgelopen januari kondigde de Franse uitgever en ontwikkelaar Ubisoft al een grootschalige reorganisatie van het bedrijf aan, waarbij ook zes games werden geannuleerd - waaronder de remake van Prince of Persia: The Sands of Time.

Ubisoft noemde de reorganisatie een "grote organisatorische, operationele en portfolio-reset". Daarbij wil het bedrijf nog meer letten op de kwaliteit die het uitgeeft. Ubisofts nieuwe model gaat zich richten op verschillende 'creatieve huizen' die zich elk met andere soorten games bezighouden. Een daarvan is Vantage Studios, de vorig jaar met Tencent opgerichte dochteronderneming waar Assassin's Creed, Far Cry en Rainbow Six nu onder vallen.

Ubisoft heeft daarnaast aangekondigd dat het thuiswerken niet meer toelaat en dat alle werknemers worden geacht om fulltime op kantoor aanwezig te zijn. Wel krijgen werknemers een "een jaarlijkse toelage bestaande uit thuiswerkdagen". Twee studio's van Ubisoft sloten daarnaast hun deuren: de studio's in Halifax en Stockholm. Gedurende de volgende twee jaren wil het bedrijf nog eens 200 miljoen euro besparen.

Ubisoft heeft de laatste jaren wisselend succes met zijn games. Zo viel de verkoop van het miljoenenproject Star Wars Outlaws tegen. Zover bekend is het begin vorig jaar uitgekomen Assassin's Creed Shadows wel een verkoopsucces.

▼ Volgende artikel
De eerste volledige Toy Story 5-trailer is gearriveerd
Huis

De eerste volledige Toy Story 5-trailer is gearriveerd

Na een korte teaser vorig najaar is deze week de eerste volledige trailer van de aankomende animatiefilm Toy Story 5 uitgebracht.

In het vijfde deel van de uiterst succesvolle Pixar-animatiefilmreeks maakt het levende speelgoed kennis met de Lilypad. Dat is een tablet waar alle aandacht naar uit gaat en dus een bedreiging vormt voor het speelgoed.

Met dat concept speelt de film slim in op de hedendaagse tijd. Tablets en smartphones zijn immers niet meer weg te denken uit de hedendaagse maatschappij, ook onder de jeugd. Lilypad luistert zelfs altijd mee, een duidelijke referentie naar de vrees dat onze smartphones ook alles wat we doen vastleggen.

Woody, Buzz en het andere speelgoed dat we nog kennen uit de vorige vier Toy Story-films zal er in ieder geval een stokje voor proberen te steken. Hoe dat afloopt, is vanaf 19 juni in de Amerikaanse bioscopen. Vaak is de Nederlandse premièredatum een dagje eerder op donderdag - in dit geval 18 juni - en waarschijnlijk geldt dat ook voor Toy Story 5.

Watch on YouTube