AI pakt veel data van sociale media: kun je daar iets tegen doen?
Veel bedrijven die een eigen AI aanbieden, kopen of gebruiken data die gebruikers delen op sociale media om hun diensten te trainen. Daardoor is de kans groot dat jouw gegevens (zoals posts, foto’s en blogs) in de grote informatiebak met datapunten belanden.
Niemand wil dat zijn gegevens of bestanden ongevraagd in een trainngsmodel van AI terechtkomen. De grote vraag is dan: kun je hier iets tegen doen?
Het antwoord daarop is "Ja, maar ..." In dit artikel leggen we uit wat je kunt doen, wat het probleem is en wie zich er schuldig aan maken.
Lees ook: AI: van razendsnelle ontwikkeling tot strikte regulering
Aangezien we veel sociale media gratis gebruiken, verdienen aanbieders aan ons als klanten door onze gegevens (al dan niet geanonimiseerd) door te verkopen. Dat is een feit waar veel mensen al van op de hoogte zijn: als een dienst gratis is, dan ben jij het product. Dat socialmediabedrijven een stap verdergaan, is minder duidelijk. Want veel van dat soort ondernemingen verkopen hun gegevens tegenwoordig ook aan AI-bedrijven, die hun taalmodellen (en andere diensten) daar vervolgens mee kunnen trainen.
Al die data belanden dan in een grote informatiebak met datapunten. Iedereen die weleens iets op het internet achtergelaten heeft, heeft daar iets aan toegevoegd. Bewust of onbewust, bedoeld of onbedoeld. En dat maakt dit best een omstreden ontwikkeling. Het maakt ook niet uit of het om chatbots of generatieve AI gaat: de bedrijven werken op eenzelfde wijze. De New York Times is inmiddels een rechtszaak begonnen tegen ChatGPT-eigenaar OpenAI, omdat die zonder toestemming de artikelendatabase gebruikt zou hebben om de chatbot te trainen.
Geen zin in AI, maar wel in een digitale gesprekspartner?
Een slimme speaker is altijd klaar voor een praatje!
©bongkarn - stock.adobe.com
Gebruikersdata sociale media naar AI-bedrijven
Nu gaat dat laatste voorbeeld over een journalistieke krant, maar het laat wel zien dat er veel wrijving is. Een voorbeeld dichter bij huis voor veel internetgebruikers is waarschijnlijk Twitter (we hebben nog een beetje moeite met de naam X).
In het aangepaste privacybeleid staat tegenwoordig dat het platform gebruikersdata kan gebruiken voor het trainen van AI. Om welke AI-dienst het precies gaat, is niet duidelijk, maar waarschijnlijk die van eigenaar Elon Musk zelf. Daarnaast betreft het 'alleen openbare data, en geen dm’s of andere privézaken'.
Twitter is niet het enige sociale medium dat z’n handen hieraan vuilmaakt. Eind 2023 maakte Meta (bekend van Facebook) bekend dat het gebruikersdata gebruikt voor het trainen van generatieve AI (waarmee je zelf afbeeldingen, teksten en meer maakt). Maak je dus gebruik van Facebook, Instagram of Threads, dan worden je posts gebruikt. Ook voor het trainen van Meta’s chatbot, een ontwikkeling die we ook bij TikTok en Snapchat zien. De bot van Snapchat, genaamd My AI, gebruikt daarnaast de gesprekken om zichzelf verder te ontwikkelen.
Eén van de grootste boosdoeners is misschien wel Reddit. Het grootste internetforum op aarde sloot een deal met Google, dat daardoor toegang krijgt tot alle gebruikersdata en posts voor het trainen van AI-modellen.
Van YouTube weten we dat het kunstmatige intelligentie gebruikt voor het aanbevelen van video’s. En hoewel andere bedrijven soms die video’s gebruiken om hun AI te trainen, is het niet zo dat YouTube dat op dit moment doet. Tot slot is het zo dat partijen als Tumblr en Wordpress ook op het punt staan data te verkopen aan Midjourney en OpenAI.
©bloomicon
Wat kun je hiertegen doen?
Soms voelt het alsof je machteloos bent tegenover al die grote bedrijven die producten aanbieden waar je in de loop der tijd aan gewend bent geraakt. Maar je kunt je wapenen met kennis én je kunt er in sommige gevallen iets tegen doen. Zo kun je bijvoorbeeld beginnen bij deze handige tool van de Washington Post, waarin je kunt zien welke sociale media deel uitmaken van de dataset waarmee Google Bard getraind is. Reddit laat bijna acht miljoen tokens achter, terwijl Wordpress goed is voor 14.000 en Tumblr voor 1,6 miljoen tokens.
Verder kun je bij sommige diensten voorkomen dat je data gebruikt worden. Mocht je je bij Meta willen afmelden voor het gebruik van je data, dan kun je daarvoor dit formulier invullen. Hiermee voorkom je dat derde partijen je data gebruiken; onduidelijk is of je daarmee ook Meta zelf beperkt. En bij Tumblr kun je via de bloginstellingen een schuifregelaar omzetten waarmee je voorkomt dat je data door derde partijen geraadpleegd wordt. Profielen op Instagram, Twitter en meer kun je privé maken, zodat de data niet openbaar zijn – maar garanties kunnen we niet geven.
De beste manier om te voorkomen dat je data gebruikt wordent voor het trainen van AI, is de accounts overal te verwijderen. Nu snappen we dat zoiets niet altijd een optie is. Maar als je dergelijke diensten niet gebruikt, dan kunnen andere mensen daar ook niet mee aan de haal gaan. Waarschijnlijk ben al te laat voor alle gegevens die reeds in de informatiebak beland zijn. Dat is dan jammer voor de vakantiekiekjes uit 2010. Maar voor het vervolg is verwijderen dus de beste optie – misschien ook een goed moment voor je persoonlijke social media purge.