ID.nl logo
Verkiezingen: AI-chatbots neigen naar links en zijn inconsistent, zegt TNO
© AK | ID.nl
Huis

Verkiezingen: AI-chatbots neigen naar links en zijn inconsistent, zegt TNO

Taalmodellen als ChatGPT zijn razendsnel populair geworden. Ze helpen mensen bij veel leeswerk, zoals het samenvatten zoals de verschillende standpunten van onze nationale politieke partijen. Maar hoe betrouwbaar en onbevooroordeeld zijn ze? TNO en Kieskompas hebben een experiment uitgevoerd om dat uit te zoeken.

In het experiment lieten TNO en Kieskompas verschillende taalmodellen de vragen van de stemhulp van het Kieskompas 2023 meerdere malen beantwoorden. De modellen blijken niet helemaal onbevooroordeeld: ze komen uit aan de linkerkant van het politieke spectrum. Daarnaast geven ze niet consistent antwoord op subjectieve vragen en vertonen ze door kleine veranderingen in de vraag al snel heel ander gedrag.

Welke AI-modellen zijn onderzocht?

Aan de hand van populariteit, beschikbaarheid, toegankelijkheid en herkomst zijn zijn de volgende vijf generatieve AI-taalmodellen geselecteerd: Meta’s Llama-2, OpenAI’s GPT3.5, 4, en 4.5-turbo en Falcon-40b-Instruct van TII. Elk model is geprepareerd voor het experiment, bijvoorbeeld door het opzetten van één consistente vraag. Deze is voor elk model licht aangepast om aan het specifieke format van het model te voldoen (zoals het vertalen in het Engels).

Hoe ging het experiment in zijn werk?

Modellen kunnen naast direct een vraag beantwoorden ook gebruik maken van context. Wanneer er context wordt toegevoegd, geeft dat de modellen een indicatie hoe de gebruiker de antwoorden graag wil terugzien, waardoor er soms beter resultaat teruggegeven wordt. Vandaar dat elk model getoetst is mét en zonder contextuele toevoegingen. Ze begrijpen bijvoorbeeld beter wat voor antwoord er van ze verwacht worden als ze al een voorbeeld gehad hebben van een vraag met een antwoord dat binnen de keuzemogelijkheid van het Kieskompas valt (‘Helemaal mee eens’, ‘Mee eens’, ‘Neutraal’, ‘Niet mee eens’, ‘Helemaal niet mee eens’ en ‘Geen mening’).

De antwoorden zijn door Kieskompas vertaald in coördinaten die TNO over het politiek landschap van Nederland heeft gelegd.

©Kieskompas/TNO

Figuur 1: Resultaat van alle getoetste modellen op het Nederlands Politiek Landschap (een enkel puntje betekent dit dat het model op elke stelling bij 10 pogingen 10 keer hetzelfde antwoord gaf).

©Kieskompas/TNO

Figuur 2: Resultaat van alle getoetste modellen zonder context. Een enkel puntje betekent dit dat het model op elke stelling bij 10 pogingen 10 keer hetzelfde antwoord gaf).

Resultaten: wisselvalig en niet neutraal

Wat opvalt aan de resultaten is dat de modellen heel wisselvallig zijn ( te zien aan de ingekleurde vlakken) en ook dat de modellen met name links georiënteerd zijn (zie figuren 1 en 2). Handmatige analyse liet zien dat OpenAI’s GPT modellen zeer snel bereid zijn om antwoord te geven op de stellingen.

Meta’s Llama geeft beter aan dat het daadwerkelijk een model is dat antwoord geeft. Maar zodra context gegeven wordt, geeft ook Llama altijd antwoord op de vraag. Falcon is nog het meest voorzichtig, maar ook met gegeven context door het geven van een voorbeeldvraag verandert het gedrag van dit model aanzienlijk en geeft het wel zijn mening (zoals ook te zien hieronder).

TII en Meta hebben hun modellen getraind om voorzichtiger te zijn en om controversiële vragen niet te beantwoorden. Bovendien zijn de modellen van OpenAI consistenter; als je ze meerdere keren dezelfde vraag voorlegt krijg je vaker hetzelfde antwoord dan bij de geteste concurrenten.

©Kieskompas/TNO

Voorbeeld van het effect van context (modellen kregen allen dezelfde voorbeeldvraag) bij het antwoord van AI-taalmodel Falcon op een vraag van Kieskompas. Klik voor een grotere afbeelding.

Modellen zijn ondoorzichtig

Doordat niet transparant is hoe de modellen getraind zijn, is het niet te zeggen of een model in een andere context een hele andere mening kan geven. Het is dus onmogelijk om te achterhalen waarom het model tot bepaalde antwoorden komt.

Dat taalmodellen vooringenomenheid en inconsistentie vertonen lijkt misschien onschuldig, maar het kan grote gevolgen hebben. Grootschalig gebruik van zulke taalmodellen kan de effecten van vooroordelen bij mensen op de lange termijn vergroten.

GPT-NL: een Nederlands taalmodel

Mede daarom gaat Nederland een eigen open taalmodel ontwikkelen: GPT-NL. Dit model is nodig voor het ontwikkelen, versterken en bestendigen van de digitale soevereiniteit. TNO, NFI en SURF gaan samen het model ontwikkelen om zo een belangrijke stap te zetten richting transparant, eerlijk en toetsbaar gebruik van AI naar Nederlandse en Europese waarden en richtlijnen en met respect voor het eigenaarschap van data.

▼ Volgende artikel
It Takes Two- en Split Fiction-maker bezig met opnames voor nieuwe game
Huis

It Takes Two- en Split Fiction-maker bezig met opnames voor nieuwe game

Hazelight Studios, de ontwikkelaar van de succesvolle coöperatieve games It Takes Two en Split Fiction, heeft een nieuwe game in ontwikkeling en is op dit moment bezig met de opnames ervoor.

Enige tijd geleden gaf regisseur Josef Fares al aan dat er een nieuwe game in ontwikkeling was bij de studio, maar nu heeft hij op social media een foto geplaatst waarop Fares te zien is met drie acteurs in motion capturing-pakken. Daarmee wordt dus duidelijk gemaakt dat de opnames voor de game in ieder geval al in volle gang zijn.

Overigens is de identiteit van de acteurs niet bekend. Fares houdt zijn arm voor de gezichten van de acteurs. Mogelijk zijn het dus bekende acteurs en wil hij dat nog verhullen, al is dat speculatie. Over speculatie gesproken: het feit dat er drie acteurs te zien zijn, doet sommige fans vermoeden dat de nieuwe game van Hazelight mogelijk met drie spelers tegelijk te spelen valt in plaats van twee, maar ook dat is nog alles behalve bevestigd.

View post on X

Over de games van Hazelight Studios

Hazelight Studios is gespecialiseerd in het creëren van games die coöperatief doorlopen moeten worden. No Way Out, It Takes Two en Split Fiction vergen allen twee spelers. Daarbij draait het om samenwerken, wat hun games een populaire bezigheid maakt voor gamende koppels en vrienden.

It Takes Two bleek een grote hit voor de studio. In het spel spreekt een dochter van een ruziënd stel een vloek over het tweetal uit, waardoor ze minuscuul worden. Ze zullen moeten leren communiceren en samenwerken om zich uit deze hachelijke situatie te redden, terwijl ze als kleine poppen door een uitvergrote versie van hun huis en tuin reizen.

Na het succes van It Takes Two bracht Hazelight het conceptueel vergelijkbare Split Fiction uit. Die game draait om twee schrijvers, Mio en Zoe, die worden ingehuurd om verhalen te creëren voor een technologie die deze verhalen levensecht kan simuleren. De vrouwen worden door het bedrijf achter de technologie echter gevangen in een simulatie, en in de game wordt er constant tussen de twee verhalen van Mio en Zoe geschakeld. Dat levert zowel fantasievolle als futuristische settings op.

Zowel It Takes Two als Split Fiction komen met een Friend Pass. Dat houdt in dat maar één speler de game hoeft te kopen, en de tweede speler gratis online mee kan spelen. De games zijn ook via splitscreen samen op de bank speelbaar.

Watch on YouTube
▼ Volgende artikel
Apple is nu de volledige eigenaar van hitserie Severance
Huis

Apple is nu de volledige eigenaar van hitserie Severance

Apple heeft de volledige rechten op de Apple TV-serie Severance overgenomen, en gaat de serie voortaan binnenshuis produceren.

De eerste twee seizoenen van Severance staan al op Apple TV, maar de serie werd geproduceerd door Fifth Season. Apple Studios was alleen de distributeur. Daar is nu verandering gekomen: Apple heeft iets minder dan 70 miljoen dollar betaald voor de volledige rechten op de serie.

Dat betekent dat het bedrijf de productie van de serie voortaan ook zelf gaat doen, al zal Fifth Season wel als executive producer aangesteld blijven. Ook showrunner Dan Erickson en uitvoerden producent Ben Stiller (die we natuurlijk ook kunnen van vele comedyfilms) blijven hun rollen bekleden, dus aan de kwaliteit van de serie verandert als het goed is niets.

Watch on YouTube

Financiële stabiliteit

Volgens Deadline zou de overname mogelijk gedaan zijn om de productie van de show financieel stabiel te houden. In het tweede seizoen waren de productiekosten naar het schijnt zo'n 20 miljoen dollar per aflevering, en Apple kan door zijn formaat dit beter dragen.

Het plan is dat Severance in totaal vier seizoenen krijgt - al worden een vijfde seizoen en een spin-off ook niet uitgesloten. De opnames van het langverwachte derde seizoen moet aankomende zomer starten. De makers van de serie willen eerst de scripts zover mogelijk afkrijgen, zodat ze bij schrijfwerk van de laatste afleveringen van het seizoen nog relatief goedkoop terug kunnen gaan naar scripts van eerdere afleveringen om wijzigingen aan te brengen waar nodig.

Watch on YouTube

Over Severance

De Apple TV-serie Severance draait om Mark S., die een opmerkelijke kantoorbaan bij het bedrijf Lumon Industries heeft: zodra hij op kantoor komt, weet hij niets van zijn leven buiten kantoor. Wanneer hij klaar is en weer naar huis gaat, weet hij niets van zijn werk. Dat komt door een speciale procedure waardoor de herinneringen van de werkplek in het privéleven gescheiden worden.

Dit concept is de voedingsbodem voor een ingewikkelde en verrassende serie waarin Mark samen met zijn collega's langzaam maar zeker probeert te achterhalen hoe de vork precies in de steel steekt bij Lumon. Zoals gezegd zijn er inmiddels twee seizoenen uitgekomen, die beiden op streamingdienst Apple TV te zien zijn.