ID.nl logo
Huis

Hoe computers foto's herkennen via deep learning

Er zijn vele redenen waarom het handig is om automatisch beelden te kunnen herkennen. Naast de wetenschappelijke uitdaging is er ook de enorme groei van video en foto’s online. Op Facebook alleen al worden op dit moment per minuut 136.000 foto’s gepubliceerd. Het zoeken in deze gigantische verzamelingen vergt uiterst slimme technologie: deep learning.

Bij de foto’s die we maken met onze smartphones en digitale camera’s bestaat de enige informatie vaak uit generieke metadata zoals datum, tijd, type toestel en eventueel gps-coördinaten.

In veel gevallen weten we niet wat er op die foto’s staat en is de enige manier om daarachter te komen, de foto’s bekijken. Tenminste, tot voor kort.

De afgelopen jaren zien we een sterke groei in het onderzoek naar deep learning en ook een aantal startups het gebied van deep learning, het geautomatiseerd in kaart brengen van de inhoud van visuele content, het zogenoemde taggen.

Gezichtsherkenning

De afgelopen jaren hebben we al kennisgemaakt met gezichtsherkenning in foto’s. Google Picasa (nu vervangen door Google Photo’s) was een van de eerste programma’s (voor het grote publiek) dat dit kon.

De reden voor Google om dit te doen was aan de ene kant het ontwikkelen van nieuwe technologie, maar er was ook een commerciële overweging: door het aanbieden van deze functie kun je je verzameling foto’s beter doorzoeken en ga je hopelijk meer gebruikmaken van de diensten van Google.

Een andere partij die heel duidelijk de waarde kent van een verzameling foto’s is stockfotoleverancier iStock. Iedere foto die de dienst online aanbiedt is voorzien van tussen de 20 en 50 tags die de inhoud beschrijven. Dit taggen wordt grotendeels door mensen gedaan met behulp van een standaardlijst van tags. Afhankelijk van de foto zijn tags in gebruik die het onderwerp (vrouw, auto), de sfeer (vrijheid) of het concept beschrijven.

De waarde van tags

Alle tags helpen je om de foto te vinden doordat ze zoektermen bevatten. Zonder deze zoektermen is de omvangrijke verzameling van iStock veel minder waardevol, je zou dan alle foto’s moeten gaan bekijken.

Afhankelijk van de wijze van publicatie en uit welke fotoverzameling wordt gekozen, kan het gebruik van een foto van enkele euro’s tot honderden euro’s kosten. Er is dus ook echt een businessmodel: beter vindbaar betekent meer omzet. De tags overlappen qua inhoud, omdat dit de vindbaarheid vergroot. In het praktijkvoorbeeld aan het einde van het artikel gaan we zelf de foto uit het kader analyseren en kijken zelf welke tags er worden gegenereerd.

Opvallend is dat er zowel stemmingen of gevoelens (Freedom) zijn getagd, als harde feiten zoals Mountain Range. Sommige tags worden handmatig toegevoegd op basis van de informatie van de fotograaf (locatie, leeftijd modellen en etniciteit).

Hoe werkt deep learning?

Deep learning is qua technologie niet echt nieuw, in die zin dat er al jaren aan gewerkt wordt. Het herkennen van objecten is een technologie die teruggaat tot de jaren 50 met Rosenblatt’s Perceptron, een systeem geïnspireerd door de werking van het menselijk brein. Voordat deep learning en geautomatiseerde herkenning rond 2012 met de opmars begon zijn, zijn er diverse technologieën ontwikkeld die het mogelijk maken om te selecteren op bepaalde aspecten.

Dit waren op regels gebaseerde systemen. Een voorbeeld is herkenning van seksueel getinte afbeeldingen waar de aanwezigheid van een hoog percentage huidkleurige pixels een indicatie is om een afbeelding als zodanig te labelen. Hier zit ook de makke, een close-up van een gezicht zal waarschijnlijk als seksueel getint wordt aangemerkt. Een mens moet op dat moment de uiteindelijke beslissing nemen bij de classificatie.

Ook andere op regels gebaseerde modellen werden gebruikt om afbeeldingen te taggen. Zo zijn de grote aanwezigheid van gele pixels (zandkleurig) en blauwe pixels (water, lucht) een indicatie van een mogelijke strandopname. Regels zijn echter beperkt doordat zij altijd uitgaan van een vooraf beschreven situatie. Dat maakt modellen die erop gebaseerd zijn inflexibel.

Deep learning is het vermogen van een computer om kennis te vergaren zonder expliciet te worden geprogrammeerd.

-

In 2012 begon het tijdperk van deep learning. Dat beschrijft het vermogen van een computer of systeem om te leren (kennis vergaren) zonder expliciet te worden geprogrammeerd. Geautomatiseerde beeldherkenning werkt met het voeden van een systeem met een groot aantal voorbeelden, waarna het in staat moet zijn om soortgelijke voorbeelden te beoordelen. Het bestaat uit de software die kan leren, in dit geval het in kaart brengen van afbeelding met daarbij de kennis wat in de afbeelding te zien is (berg, auto, vrouw, zomer). Dit wordt gebundeld in een model. Dit model kan specifiek zijn, zoals bij auto’s, of meer generiek. In het laatste geval ziet het model wel dat het een auto is, maar waarschijnlijk niet het merk.

Deze technologie is trouwens niet alleen geschikt voor beeldverwerking, ook handschriftherkenning, ocr (optical character recognition) en spraakherkenning zijn geschikte toepassingen. Ook hierbij geldt dat het gaat om het herkennen van woorden, handschriften enzovoort.

Herkennen

Herkennen van objecten is kinderspel. Letterlijk zelfs: op jonge leeftijd leren we objecten te herkennen en maken we verbindingen tussen een object en de naam. We beginnen met iets een ‘ding’ te noemen (of zelfs ‘dat’), dan wordt het een ‘vogel’ en eindigen, afhankelijk van onze kennis, bij bijvoorbeeld een mus. Wanneer een specifiek type vogel wordt geleerd dan wordt die soort toegevoegd.

Daarnaast kijken we naar kenmerken. Daarbij maken we al snel een hele slimme inschatting: we herkennen de basisvorm (vleugels, snavel) en classificeren het dier als een vogel, ook al hebben we deze vogel nog nooit gezien. We leren objecten herkennen doordat we dus niet ‘absoluut’ kijken maar relatief. We kijken meer naar generieke aspecten dan naar specifieke zaken. Als je een kind vraagt om een huis te tekenen is de kans groot dat het een vierkant blok wordt met een driehoek erboven. Dat is de essentie van een huis, raam, schoorsteen en deur horen daar ook bij. Dat wordt aangeleerd en helpt om zaken te kunnen classificeren.

Een computer kijkt niet naar het totaalplaatje, maar deelt het beeld op in kleine vierkantjes. Bij ieder vierkant wordt gekeken of er een vorm of kleur op staat die het kent (van de voorbeelden waarmee het getraind is, bijvoorbeeld een stukje van een wiel. Op na een aantal van deze analyses worden de stukjes bij elkaar gelegd en vormen bijvoorbeeld een of twee wielen. Op dat moment neemt de waarschijnlijkheid toe dat het een vervoersmiddel is (want die hebben vaak wielen). Het zou ook een hoepel kunnen zijn, wat ook rond is, dus als een hoepel ook een bekend object is neemt daarvan ook de waarschijnlijkheid toe.

Als alle afzonderlijke zaken uiteindelijk zijn bekeken en opgesteld, komt er bijvoorbeeld uit dat het vanwege het herkennen van twee wielen en een stuur zeer waarschijnlijk een fiets is. Als het systeem nog meer objecten kent met wielen, niet zijnde een fiets, zal het daar ook nog een waarschijnlijkheid aan verbinden.

Een computer kijkt niet naar het totaal plaatje maar deelt het beeld op inkleine vierkantjes.

-

Trainen

Zoals gezegd wordt het ‘leren’ van het systeem gedaan door het aanbieden van een aantal afbeeldingen met tags (de ‘ground truth’) die worden gebruikt om het model te maken. Later in dit artikel gaan we zelf aan de slag met geautomatiseerde beeldherkenning. We gebruiken hiervoor de api’s van Clarifai, een bedrijf dat is gespecialiseerd in geautomatiseerde beeldherkenning. Clarifai wordt gebruikt bij stockfotografie bedrijven zoals 500px en Pond5 om het taggen van stockfoto’s te ondersteunen en te versnellen. Clarifai biedt een volledige suite van diensten inclusief het zelf maken van een model.

Een model zoals dat van Clarifai is getraind met miljoenen foto’s. Clarifai gebruikt meerdere modellen, generiek (breed) of meer specifiek, inclusief een model met de titel NSFW. Op dit moment is het nog niet haalbaar om alle concepten en objecten in een model onder te brengen, dan zou de analyse te lang duren.

Het hoofdmodel van Clarifai identificeert meer dan 11.000 generieke concepten zoals objecten, concepten en gevoelens. Vooral dit laatste is subjectief omdat bijvoorbeeld vrijheid moeilijk te definiëren is als visuele vorm.

Als je een verkeerd model (met kennis) gebruikt bij een afbeelding, bijvoorbeeld een model voor voedsel met een foto van een tropisch strand, levert dat geen of foute tags op. Het model kent tenslotte niet de zaken die in de foto’s staan. In het generieke model wordt wel voedsel als tag herkend maar is een specifiek model nodig om daar verfijning in aan te brengen (bijvoorbeeld pizza).

Hoewel we op dit moment volgens sommigen bijna op menselijk niveau beeldherkenning kunnen doen is er nog voldoende ruimte voor verbetering. Een van die gebieden is het ‘voor de gek houden’ van het systeem. Het blijkt redelijk eenvoudig om beelden fout te laten classificeren, door bijvoorbeeld zoekpatronen mee te nemen. Hierdoor kan het systeem beweren dat een afbeelding met 99,99 procent zekerheid een bepaalde voorstelling is, terwijl het in feite nergens op lijkt. Het systeem zou kunnen worden getraind met ‘anti afbeeldingen’ om dit tegen te gaan.

Tekst: Rob Blaauboer

▼ Volgende artikel
Waar voor je geld: 5 robotgrasmaaiers voor een mooi gazon
© Philips
Huis

Waar voor je geld: 5 robotgrasmaaiers voor een mooi gazon

Bij ID.nl zijn we gek op producten waar je niet de hoofdprijs voor betaalt. Een paar keer per week speuren we daarom binnen een bepaald thema naar zulke deals. In de zomer groeit gras altijd wat sneller, maar de kans is natuurlijk groot dat je voor langere periode op vakantie bent. Dan komt een robotgrasmaaier zeker van pas.

Robotmaaiers zijn slimme, automatische grasmaaiers die zelfstandig je gazon bijhouden. Je stelt een maaischema in (vaak via een app), en de robot doet de rest – hij maait regelmatig een klein stukje gras, zodat het gazon altijd netjes blijft. Je hoeft dus nooit meer zelf met de maaier aan de slag. Bijkomend voordeel: je gazon wordt vanzelf onderhouden, zelfs als je op vakantie bent.

Gardena smart SILENO city 400

Dit apparaat is ontworpen voor gazons tot 400 vierkante meter en werkt volledig automatisch. Je kunt hem bedienen via de Gardena Smart App, waarmee je maaischema's kunt instellen en de voortgang kunt volgen. De maaier gebruikt LONA-technologie, een vorm van kunstmatige intelligentie die je tuin in kaart brengt en zich aanpast aan de indeling. Zo weet hij precies waar en wanneer hij moet maaien. Hij kan hellingen tot 35 procent aan en navigeert moeiteloos door smalle doorgangen van minimaal 60 cm breed. Met een geluidsniveau van slechts 57 dB(A) is hij een van de stilste in zijn klasse. De maaier werkt in alle weersomstandigheden en keert automatisch terug naar het laadstation wanneer de accu bijna leeg is. Een volle lading duurt ongeveer 75 minuten en biedt een maaitijd van 65 minuten.

🌄 Grasoppervlakte: 400m²
🚜 Maaitijd: 65 minuten

Gardena smart SILENO city 250

Dit model is ontworpen voor kleinere tuinen tot ongeveer 250 vierkante meter en is eigenlijk het kleinere broertje van de hierboven besproken SILENO city 400. De specificaties zijn nagenoeg gelijk. Ook deze maaier werkt volledig automatisch en is eenvoudig te bedienen via de Gardena Smart App. Bij slecht weer, zoals regen of vorst, past de maaier zijn schema automatisch aan. Met een geluidsniveau van slechts 57 dB(A) is hij stil in gebruik. Na een maaironde van ongeveer 65 minuten keert hij automatisch terug naar het laadstation, waar hij in ongeveer 75 minuten volledig oplaadt. Schoonmaken is eenvoudig: je kunt hem gewoon afspoelen met de tuinslang.

🌄 Grasoppervlakte: 250m²
🚜 Maaitijd: 65 minuten

Robomow RT300

De Robomow RT300 is een compacte robotmaaier die ideaal is voor kleine tuinen tot 300 vierkante meter. Met zijn wendbaarheid en maaibreedte van 18 cm zorgt hij voor een gelijkmatig gemaaid gazon. De maaihoogte is instelbaar tussen 15 en 60 mm, waardoor je zelf kunt bepalen hoe kort het gras wordt. Dankzij de Li-ion accu maait hij tot 75 minuten en laadt hij in 180 minuten weer op. De RT300 kan hellingen tot 30 procent aan en is uitgerust met functies zoals een zwevend maaidek, randmaaimodus, diefstalbeveiliging en bluetooth-connectiviteit. Bij aankoop ontvang je 125 meter perimeterdraad en 150 draadpinnen voor de installatie.

🌄 Grasoppervlakte: 300m²
🚜 Maaitijd: 75 minuten

Philips 3000-serie RSL3000/10

De Philips RSL3000/10 is geschikt voor een flinke tuin van ongeveer 1.000 vierkante meter. Je kunt hem bedienen via een app op je telefoon, waar je onder andere kunt instellen wanneer hij moet maaien. Hij gebruikt GPS om systematisch over het gazon te rijden, zodat hij geen stukken overslaat of dubbel doet. De maaier heeft sensoren die merken wanneer het regent. Dan stopt hij automatisch met maaien en rijdt terug naar zijn laadstation. Ook kan hij over hellingen rijden tot zo'n 36 procent, wat handig is als je tuin niet helemaal vlak is. Als de accu leeg is, gaat hij zelf opladen. Hij werkt ongeveer 2 uur op een volle batterij en het opladen duurt zo'n 2,5 uur.

🌄 Grasoppervlakte: 1000m²
🚜 Maaitijd: 120 minuten


Bosch Indego S+ 500

De Bosch Indego S+ 500 is een robotmaaier die geschikt is voor gazons tot ongeveer 500 vierkante meter. Hij werkt volledig automatisch en kan via de Bosch Smart Gardening-app worden bediend. Via deze app kun je maaischema's instellen en je kunt er de voortgang mee volgen. Dankzij de LogiCut-technologie maait de robot in systematische banen, wat efficiënter is dan willekeurige patronen. De maaier heeft een maaibreedte van 19 cm en kan de maaihoogte instellen tussen 3 en 5 cm. Hij is geschikt voor hellingen tot 27 procent en heeft een accuduur van ongeveer 60 minuten, met een oplaadtijd van ongeveer een uur. De maaier is uitgerust met een 18V lithium-ion batterij en weegt ongeveer 7,7 kg.

🌄 Grasoppervlakte: 500m²
🚜 Maaitijd: 60 minuten

▼ Volgende artikel
Nieuw van Philips: tafelgrill met infuser voor échte barbecuesmaak
© Philips
Huis

Nieuw van Philips: tafelgrill met infuser voor échte barbecuesmaak

Met de Philips Tafelgrill geniet je deze zomer van een ontspannen barbecue, gewoon aan tafel. Geen gesleep met houtskool of iemand die steeds bij het vuur moet blijven. Dankzij het compacte ontwerp en de slimme aroma-infuser haal je de karakteristieke rooksmaak zó je woonkamer of tuin in. Zo kan iedereen gewoon blijven zitten én mee grillen.

Rooksmaak aan tafel

De geïntegreerde rook- en aroma-infuser maakt het verschil. Voeg wat houtsnippers of verse kruiden toe onder het glazen deksel en laat het apparaat de rest doen. Je ruikt het meteen: die kenmerkende geur van een echte barbecue. De tafelgrill warmt snel op en behoudt een constante temperatuur, zodat vlees, vis of groente perfect gegaard wordt. Het royale grilloppervlak van 1250 cm² biedt genoeg ruimte om met het hele gezin of een groep vrienden aan tafel te genieten.

Wat zijn goede houtsnippers voor je tafelgrill?

De infuser van de Philips Tafelgrill werkt perfect met houtsnippers. Deze zorgen niet alleen voor rook, maar ook voor extra smaak. Elke houtsoort geeft zijn eigen karakter:

  • Hickory: sterk en kruidig, populair bij vlees zoals ribs of pulled pork
  • Appel: zacht, fruitig aroma – lekker bij kip en vis
  • Kers: licht zoet, subtieler dan appel, geschikt voor varkensvlees
  • Eik: robuust en aards, combineert goed met rundvlees
  • Beuk: milder, rokerig zonder bitterheid – allround inzetbaar

Gebruik altijd snippers die speciaal bedoeld zijn voor koken en zorg dat ze droog zijn of licht vochtig gemaakt worden voor gebruik.

Twee grilloppervlakken voor meer variatie

De grillplaat is aan twee kanten te gebruiken: de geribbelde zijde is ideaal voor biefstuk, zalmfilet of hamburgers. De vlakke kant leent zich juist voor delicate ingrediënten zoals groente, spek of zelfs een eitje. Zo bereid je verschillende gerechten tegelijk en naar ieders smaak. Alles wordt egaal verwarmd en overtollig vet wordt netjes opgevangen, wat het schoonmaken vergemakkelijkt.

Kruidenideeën voor in de infuser

Naast houtsnippers kun je ook experimenteren met kruiden of een mix daarvan. Denk aan rozemarijn, tijm, laurier, citroenschil, komijnzaad, knoflookvlokken of gedroogde chili voor een pittig tintje. Even laten meedampen onder het glazen deksel en je hele tafel ruikt naar een zomerse barbecue.

©Philips

Prijs en beschikbaarheid

De Philips Tafelgrill HD6212/90 is per direct verkrijgbaar bij onder andere bol.com. De adviesprijs is 129,99 euro.