ID.nl logo
Zekerheid & gemak

Hoe werkt machine learning precies?

Software die uit zichzelf kan leren, daar kijken we niet meer van op. Denk aan spraakherkenning die ons telkens beter begrijpt, of een slimme thermostaat die na een tijdje weet wanneer we dagelijks van ons werk komen en dan de verwarming al op tijd wat hoger zet. Maar hoe werkt machine learning precies?

We spreken van machinelearning als een programma in staat is om zonder menselijke inbreng te leren hoe het een specifieke taak kan uitvoeren en beter wordt in die taak hoe meer ervaring het heeft. Er is dus geen mens die een algoritme programmeert om die taak uit te voeren; de mens programmeert een algoritme dat uit zichzelf leert om de taak uit te voeren.

Hoe programmeer je zo’n algoritme om te leren? Kort door de bocht bestaat dat leren eruit dat het algoritme zoveel mogelijk informatie uit een verzameling gegevens haalt en zo een signaal van ‘ruis’ kan onderscheiden in die gegevens. Zo zijn in spraakherkenningstechnologie de gegevens een geluidsopname, terwijl de informatie de uitgesproken woorden zijn. Al de rest van de geluidsopname is ruis.

In de praktijk trainen we de software op een trainingset, een verzameling gegevens die een goede voorstelling vormen van de gegevens die de software zal tegenkomen. Nadat de software op die manier getraind is, kan ze ook onbekende gegevens aan. Wel moet de taak altijd duidelijk afgelijnd zijn. Software die spraak herkent, kun je niet integraal inzetten om muziek te herkennen en al zeker niet om gezichten te herkennen.

Neuraal netwerk

Neurale netwerken (‘artificial neural networks’) vormen een belangrijke aanpak in machinelearning. Ze bootsen de werking van de hersenen na, die een biologisch neuraal netwerk vormen: een kluwen van ontzettend veel verbindingen tussen neuronen (hersencellen). Een kunstmatig neuraal netwerk bestaat meestal uit meerdere lagen: een invoerlaag van neuronen die de invoer van een probleem voorstellen, een uitvoerlaag van neuronen die de oplossing van het probleem voorstellen, en één of meer tussenliggende lagen die berekeningen uitvoeren.

Bij een fully connected neural network krijgt elk neuron invoer van alle neuronen in de laag ervoor en geeft het zijn uitvoer aan alle neuronen in de laag erna. Bij een convolutioneel neuraal netwerk is een neuron niet afhankelijk van alle neuronen in de vorige laag. Een neuraal netwerk programmeer je niet door expliciet aan te geven hoe het een probleem moet oplossen; je ‘traint’ het door het vele voorbeelden van een probleem te geven, waardoor het uit zichzelf de taak leert.

Deep learning

Vooral deeplearning maakt de laatste jaren furore in de wereld van machinelearning. Bij deeplearning gebruikt het algoritme een groot aantal lagen tussen input en output. De invoerlaag verwerkt de input en stuurt die door naar de volgende laag, die zijn input verwerkt en naar de volgende laag doorstuurt, enzovoort, tot er aan het einde de output uitkomt. Dit grote aantal lagen maakt complexe transformaties mogelijk.

Een prominente gebruiker van deeplearning is Google DeepMind. In 2014 nam Google de start-up DeepMind uit Cambridge over. Begin 2016 kwam het in het nieuws met de overwinning van AlphaGo op de menselijke kampioen in het bordspel go. En het systeem van DeepMind blinkt uit in het spelen van games zoals Space Invaders en Pac Man.

Google DeepMind combineert deeplearning op een convolutioneel neuraal netwerk met het zogenoemde Q-learning om spelletjes te leren spelen zonder dat het hoeft te weten wat de goede zet is: het algoritme krijgt alleen informatie over ‘winst’ of ‘verlies’. Google DeepMind noemt hun techniek deep reinforcement learning.

Google heeft het geld voor de mensen en de computers om op grote schaal machine learning te ontwikkelen

-

Wat heeft Google DeepMind dat anderen niet hebben? “Vooral geld,” zegt Sander Bohte, onderzoeker bij het Amsterdamse CWI (Centrum voor Wiskunde & Informatica). “Wanneer je een industrieel onderzoekslabo hebt waar een paar honderd briljante mensen werken, verkrijg je de resultaten van Google DeepMind. Google heeft het geld om de beste mensen ter wereld aan te nemen en ze hebben geld voor krachtige computerclusters. Zij kunnen dus op een heel andere schaal werken dan universiteiten.”

Facebook, Microsoft, Apple...

Google is niet de enige die geld investeert in machinelearning. Facebook heeft een Applied Machine Learning-team dat spam herkent, foto’s automatisch tagt en nog heel wat andere slimme taken uitvoert op het sociale netwerk.

In 2015 kocht Microsoft het bedrijf Equivio, dat patronen in grote hoeveelheden e-mails en documenten doorspit. En Apple nam in 2016 de vooraanstaande onderzoeker Ruslan Salakhutdinov aan als hoofd van zijn AI Research team. Ook Amazon, Twitter en Baidu zijn bezig met machinelearning. En dan is er nog IBM, dat met zijn supercomputer Watson belangrijke toepassingen ontwikkelt.

De kunstmatige neurale netwerken die een belangrijke rol spelen in machinelearning zijn losjes geïnspireerd op de neuronen in onze hersenen. Maar ze werken helemaal niet zo efficiënt, zegt Sander Bohte: “Onze hersenen verbruiken zo’n 25 W energie. Een neuraal netwerk op een pc verbruikt al snel 300 W. Dat kunnen we niet in een drone implementeren, want die verbruikt dan te veel energie om lang in de lucht te blijven op zijn batterijlading."

"En als we een neuraal netwerk ter grootte van de hersenen zouden maken, zou dat 5 MW verbruiken. Onze kunstmatige neurale netwerken zijn dus aanzienlijk minder efficiënt dan hun biologische evenknieën.”

De grote uitdaging is dus om dat verschil te verkleinen. Dat kunnen we volgens Sander Bohte bereiken als we ons nog meer laten inspireren op biologische neurale netwerken: “Neuronen in onze hersenen communiceren met pulsen. Gemiddeld sturen ze één puls per seconde. Maar neuronen zijn niet continu actief. Soms doen ze een seconde niets en soms vuren ze tien keer op een seconde.”

Spiking neural networks

Sander Bohte doet onderzoek naar spiking neural networks, die net zoals biologische neuronen geen energie gebruiken wanneer er niets gebeurt. “We hopen zo neurale netwerken toch een factor 100 energie-efficiënter te maken,” zegt hij. IBM gebruikt dezelfde aanpak in zijn TrueNorth-processor, die met een miljoen neuronen maar 70 mW verbruikt.

Spiking neurale netwerken hebben volgens Sander Bohte nog een ander voordeel: ze zijn compatibel met biologische neuronen omdat ze dezelfde taal spreken. “We kunnen een spiking neuraal netwerk in principe rechtstreeks op ons brein aansluiten. Zo werk ik nu samen met het Leids Universitair Medisch Centrum om cochleaire implantaten te verbeteren. "

"Ik verwacht dat neuroprotheses met spiking neurale netwerken binnen vijf jaar mogelijk zijn. En ik verwacht ook veel van het Amerikaanse DARPA, dat veel geld steekt in projecten binnen het BRAIN Initiative met als doel om 1 miljoen gelijktijdige ‘aansluitingen’ met de hersenen te maken.”

Onbetrouwbare resultaten

Een nadeel van neurale netwerken is dat ze een soort ‘black box’ vormen: wanneer ze een resultaat geven, weet je niet hoe ze tot dat resultaat komen. In sommige domeinen is dat helemaal geen wenselijke eigenschap. Stel dat we software ontwikkelen om een arts te helpen bij het nemen van juiste beslissingen. Als de software een diagnose stelt, maar de arts helemaal niet weet waarop die diagnose gebaseerd is, kan hij daarop niet vertrouwen. Een verkeerde beslissing kan immers een grote impact hebben.

“In zulke domeinen werk je daarom liever met predictieve modellen die voor de expert te begrijpen zijn,” zegt Gilles Vandewiele, doctoraatsstudent aan het Internet Technology and Data Science Lab (IDLab) van de Universiteit Gent – imec. Gilles Vandewiele werkt daarom met decision support systemen.

Wanneer neurale netwerken een resultaat geven, weet je niet hoe ze daartoe zijn gekomen

-

“Dat vereist vaak meer menselijke inbreng dan een neuraal netwerk, omdat we zelf aan feature extraction (het verminderen van de hoeveelheid middelen die nodig zijn om een grote set van gegevens te beschrijven – red.) doen, terwijl dat bij deeplearning automatisch gebeurt. Maar het resultaat is dan wel een begrijpelijk model dat vaak sneller getraind kan worden dan zijn tegenpool, omdat we dan geen miljoenen parameters meer moeten leren.”

Naast de medische sector zijn ook de financiële en juridische sectoren geïnteresseerd in deze aanpak, omdat experts in die domeinen een uitleg moeten kunnen geven bij hun beslissingen. “De nauwkeurigheid ligt bij deeplearning wel nog hoger. Bij de keuze tussen deeplearning- en decision support-systemen maak je altijd de afweging tussen nauwkeurigheid en begrijpelijkheid van het model.”

Ook IBM Watson is op deze aanpak gebaseerd. De DeepQA-software die het hart uitmaakt van Watson kan allerlei gestructureerde en ongestructureerde gegevens combineren en zijn beslissingen uitleggen. IBM heeft Watson dan ook al in meerdere ziekenhuizen ingezet en waagt zich met het systeem ook aan weersvoorspellingen.

Lees verder op de volgende pagina.

Vandewiele wijst ook op Kaggle, een online platform dat programmeerwedstrijden in data science-problemen organiseert. “Op Kaggle vind je heel veel state-of-the-art oplossingen voor machinelearning-problemen. Voor problemen die niet over afbeeldingen, video’s of geluid gaan, is de meest prominente tactiek om hoge classificaties te halen het trainen van heel veel verschillende modellen op basis van geëxtraheerde features en dan de voorspellingen van die modellen gebruiken als nieuwe features voor een finaal model.

Een van de meest voorkomende algoritmes daarvoor is eXtreme Gradient Boosting (XGBoost), een algoritme gebaseerd op beslissingsbomen.” In 2015 en 2016 haalden doctoraatsstudenten van de Universiteit Gent de eerste respectievelijk tweede plaats in de Data Science Bowl van Kaggle.

Bayesiaans netwerk

Nog een andere aanpak in machinelearning vormen de Bayesiaanse netwerken. Een Bayesiaans netwerk is een probabilistisch grafisch model dat de conditionele afhankelijkheden van willekeurige variabelen voorstelt. Zo kun je de relaties tussen ziektes en symptomen voorstellen. Bij het voorkomen van bepaalde symptomen, kun je dan berekenen wat de kans is op allerlei ziektes.

“Voor een Bayesiaans netwerk moet je ontzettend sterke aannames maken over de wereld,” zegt Peter Grünwald van het Amsterdamse CWI. “Je moet aangeven hoe groot de kans is op alle mogelijke toestanden van de wereld, je prior beliefs. Voor complexere problemen gaat dat al snel over een kansverdeling van miljoenen getallen. Het is conceptueel niet zo eenvoudig om je dan voor te stellen waar je nu eigenlijk mee bezig bent.”

Peter Grünwald is daarom voorstander van een informatietheoretische aanpak. “Eigenlijk is dat een veralgemening van de Bayesiaanse methode, maar de interpretatie ervan is helemaal anders, in termen van datacompressie. De kern bestaat uit het minimum description length (MDL) principle. Dit principe zegt dat de beste hypothese voor een bepaalde verzameling gegevens degene is die leidt tot de beste compressie van deze gegevens.”

Als je ruwe data zoals x- en y-coördinaten letterlijk zou opschrijven zonder enige compressie, zouden die veel ruimte innemen. Maar als er een patroon tussen x en y bestaat, bijvoorbeeld y is een functie van x, dan kun je die gegevens kleiner opschrijven. Je schrijft dan de functie op en daarna de x-coördinaten. Die tweede manier comprimeert de gegevens beter dan de eerste en is dus een betere hypothese.

Machine learning en robots

We denken bij machinelearning doorgaans aan ‘virtuele’ oplossingen zoals slimme assistenten en vertaalprogramma’s, maar we zien ook meer en meer oplossingen in robotica, die een effect in de echte wereld hebben. “Het is een hele uitdaging om robots te leren bewegen en ze zo adaptief mogelijk te maken in menselijke situaties,” zegt Francis wyffels, die hiernaar onderzoek doet aan het IDLab van de Universiteit Gent.

Vooral in kleinere bedrijven is die aanpak interessant. Terwijl grotere productiebedrijven vaak grotendeels geautomatiseerde fabrieken hebben met robots die zonder enige menselijke inbreng hun werk doen, gaat het bij mkb’s vaak anders: de robots krijgen steeds wisselende taken en voeren die in nauwe samenwerking met mensen uit. Dat vereist heel wat meer intelligentie én aanpassingsvermogen.

Het is een hele uitdaging om robots te leren bewegen en ze zo adaptief mogelijk te maken in menselijke situaties

-

Om intelligentere robots mogelijk te maken, is ook heel wat fundamenteel onderzoek nodig. Zo bekijken onderzoekers hoe ze de werking van robots meer door biologische processen kunnen laten inspireren. “In onze ruggengraat zitten de Central Pattern Generators (CPG’s), neurale netwerken die de spieren aansturen. Voor motorische controle op hoog niveau zijn de hersenen natuurlijk nog nodig, maar de CPG’s werken op een lager niveau. De controle gebeurt dus door neurale netwerken op verschillende niveaus,” legt Francis wyffels uit.

“We kunnen dan ook allerlei basisbewegingen doen zonder dat onze hersenen dat moeten aansturen. Robots werken daarentegen doorgaans met één centraal programma dat alles aanstuurt. Wat als je nu de bewegingen van een robot ook hiërarchisch laat aansturen, met onafhankelijk werkende motorneuronen zoals in onze ruggengraat? Dit onderzoek staat wel nog in zijn kinderschoenen, maar het is een veelbelovende aanpak.”

Binnen enkele jaren zouden we ons domoticasysteem volgens Francis wyffels niet meer via een aanraakscherm aan de muur of via onze tablet aansturen, maar we zouden ermee op een natuurlijke manier communiceren via een soort kunstmatige huiscoach.

“Zo’n sociale robot waarmee je spreekt kan de aversie van veel mensen voor technische systemen overwinnen. Veel mensen zijn bang voor een domoticasysteem omdat ze in de war raken door al die knopjes en instellingen. Dat is allemaal veel te abstract voor hen. We hebben alle bouwblokken om een sociale interactie met ons domoticasysteem te ontwikkelen: goede spraakherkenning, beeldverwerking, kennis over human-robot interaction enzovoort. De ontwikkelingen zullen hier dus niet zo heel lang op zich laten wachten.”

De toekomst

De vooruitgang in machinelearning zal niet alleen in ons dagelijks leven gevolgen hebben, maar ook breder in onze maatschappij. Vaak hoor je het doemscenario dat we allemaal onze banen gaan verliezen aan computers. Artsen, journalisten, juristen, ... volgens de doemdenkers is hun baan binnen afzienbare tijd bijna volledig te automatiseren. Onderzoeksbureau Forrester voorspelt dat in 2021 al zes procent van de banen in de VS door robots zijn overgenomen.

Toch is het toekomstbeeld niet zo negatief voor onze baanvooruitzichten als vaak wordt voorgesteld. In zijn rapport ‘Preparing for the Future of Artificial Intelligence’ van eind 2016 schetste de Obama-administratie in één van zijn laatste publicaties dat we onze banen kunnen behouden als we mens en machine laten samenwerken om elkaars zwakheden te compenseren.

Zo vermeldt het rapport een studie waarbij afbeeldingen van cellen van lymfeknopen door een computer of door een dokter beoordeeld werden om te bepalen of het om kanker ging. De computer maakte 7,5 procent fouten, de menselijke patholoog 3,5 procent fouten. Maar als de patholoog werd bijgestaan door een computer, werd het foutpercentage van de gecombineerde aanpak gereduceerd tot 0,5 procent.

De grootste uitdaging in het domein is volgens Francis wyffels dat we te weinig mensen hebben die onderzoek doen naar machinelearning. Dat is volgens hem ook een gevolg van het gebrek aan interesse in wetenschappen en technologie bij de jeugd, in het bijzonder de informaticawetenschappen. Het sterotypische beeld van de asociale computernerd is nog altijd niet uitgeroeid.

“Hier ligt een grote taak voor de overheden en scholen: zij moeten onze jeugd voldoende laten kennismaken met informaticawetenschappen en hen leren om met de snelle veranderingen in de toekomst om te gaan. Er zijn gelukkig heel wat scholen die al op eigen houtje initiatieven invoeren om hun leerlingen warm te maken voor informaticawetenschappen.” Om leerkrachten daarbij te helpen, richtte Francis wyffels de vzw Dwengo op en heeft hij didactisch materiaal op de website program-uurtje verzameld.

▼ Volgende artikel
Waar voor je geld: 5 fonduesets voor een gezellige avond
© M.studio - stock.adobe.com
Huis

Waar voor je geld: 5 fonduesets voor een gezellige avond

Bij ID.nl zijn we gek op producten waar je niet de hoofdprijs voor betaalt. Daarom gaan we een paar keer per week voor je op zoek naar zulke aanbiedingen. Met Kerst en Oud en Nieuw voor de deur is het weer tijd om te bedenken wat je wil gaan eten. Wat dacht je van fondueen? Met deze vijf fonduesets maak je indruk op je vrienden en familie.

Met een fondueset smelt je de lekkerste kazen en dep je je broodje of vlees in bouillon of kaas. Fonduesets zijn de ultieme sfeermakers voor de feestdagen, of het nu met vrienden is of familie en of je kiest voor romige kaas, bouillon of chocolade; het is op en top genieten. Een absolute must-have voor elke levensgenieter en perfect voor de feestdagen. Wij vonden vijf betaalbare fonduesets voor je.

Boska Elektrische Fondueset Pro - 8 personen

De Boska Elektrische Fondueset Pro is ontworpen voor liefhebbers van kaas‑ en vleesfondue. De set bestaat uit een geëmailleerde gietijzeren pot met een inhoud van circa 2,15 liter, waardoor je genoeg ruimte hebt voor een volledige kaasfondue of bouillon. Het verwarmingselement is elektrisch en beschikt over een instelbare thermostaat; hierdoor kun je de temperatuur naar wens aanpassen voor verschillende soorten fondue. Een handig indicatielampje laat zien wanneer het element aan staat. De pot staat op een stevige basis en heeft een extra lang snoer van twee meter, zodat je hem makkelijk midden op tafel plaatst. Bij de set worden acht fonduevorken geleverd die zijn voorzien van gekleurde markeringen. De combinatie van gietijzer en emaille zorgt voor een gelijkmatige warmteverdeling en eenvoudige reiniging.

Swissmar Lausanne 11‑delige fondueset - 6 personen

De Zwitserse fabrikant Swissmar levert met de Lausanne een 11‑delige fondueset die is gericht op traditioneel fonduen. De set bestaat uit een koperen pan met een geëmailleerde binnenkant en een zware RVS‑branderschaal. Doordat koper de warmte snel opneemt en verdeelt, is de fondue snel op temperatuur. De pan staat op een robuuste stalen houder waarin een brander met regelaar zit; hiermee pas je de vlamsterkte aan voor kaas‑, bouillon‑ of chocoladefondue. In de doos zitten verschillende accessoires, waaronder zes vorkjes en een branderschaal. Deze set is niet elektrisch, waardoor je hem zelfs buiten of op de camping kunt gebruiken.

Mäser Fondueset - 4 personen

De fondueset van Mäser bestaat uit een roestvrijstalen pan met bijbehorende brander. Roestvrij staal is slijtvast en eenvoudig te reinigen; je kunt de pan na gebruik in de vaatwasser zetten. De set heeft een inhoud van rond één liter, voldoende voor een kaas‑ of chocoladefondue voor een klein gezelschap. Er worden meerdere fonduevorkjes meegeleverd met gekleurde puntjes om ze te onderscheiden. Dankzij de stevige basis staat de pan stabiel op tafel, terwijl de gelijkmatige warmteverdeling voorkomt dat de inhoud aanbrandt. Omdat het geen elektrisch toestel is, gebruik je de brander met brandgel of spiritus.

Baumalu 385050 fondueset - 6 personen

Deze fondueset van Baumalu bestaat uit een zware gietijzeren pan die op een decoratieve houten plaat staat. Gietijzer houdt de warmte goed vast en is geschikt voor zowel kaas‑ als chocoladefondue. De bijgeleverde brander plaats je onder de pan; je regelt de vlamsterkte met een draaiknop. Omdat de pot stevig op de houten plaat staat, blijft hij stabiel en kras je niet op de tafel. In de set zitten fonduevorkjes met houten handvatten.

Tristar FO‑1107 Fonduepan - 8 personen

De Tristar FO‑1107 is een elektrische fondueset met een inhoud van ongeveer 1,5 liter. Je gebruikt deze pan voor verschillende soorten fondue, zoals kaas, bouillon of chocolade. Het verwarmingselement levert circa 1000 watt en heeft een instelbare thermostaat, zodat je de temperatuur kunt aanpassen aan het type fondue. Een indicatielampje geeft aan wanneer het apparaat actief is. De pan heeft een antiaanbaklaag, een cool‑touch handgreep en staat op een antislipvoet voor extra stabiliteit. Er worden acht fonduevorkjes meegeleverd en door de ring bovenop blijven de vorkjes op hun plek tijdens het fonduen.

▼ Volgende artikel
Van papier tot pixels: altijd je administratie op orde
© px.palette
Huis

Van papier tot pixels: altijd je administratie op orde

Papieren facturen, garantiebonnetjes, contracten en andere documenten slingeren al snel overal rond. Waarom niet alles digitaal bewaren, zodat je het in enkele klikken terugvindt? In dit artikel vind je gratis tools en praktische tips om je administratie te scannen, te taggen, doorzoekbaar te maken en veilig op te slaan zonder veel gedoe.

Wat gaan we doen?

We geven diverse tips en tools om administratieve en andere papieren documenten efficiënt en ordelijk te digitaliseren. Dat gaat van scannen en OCR’en tot organiseren, automatiseren, back-uppen en meer.

Tip 1: Scanner

Stel, je wilt een hele reeks documenten digitaliseren, zoals garantiebewijzen of facturen. We gaan ervan uit dat je een scanner in huis hebt, eventueel als onderdeel van een all-in-one-printer. Zo’n toestel is goed geschikt voor stabiele, rechte scans, en een (soms optionele) documentinvoer maakt het extra handig bij grotere aantallen. Je scant het best op zo’n 300 dpi, in grijswaarden of kleur, en bewaart het resultaat bij voorkeur als pdf. Helaas genereert de meegeleverde scansoftware vaak alleen pdf’s met een afbeelding van de tekst, waardoor je die later niet kunt doorzoeken of kopiëren.

©OttoPles

Er bestaan ook heel wat printers met een ingebouwde scanner.

Tip 2: NAPS2

Gebruik in dit geval beter scansoftware met geïntegreerde OCR, zoals het gratis en opensource NAPS2 (www.naps2.com, Windows, macOS en Linux). Start de app, klik op Nieuw profiel en op Apparaat kiezen om je scanner te selecteren. Je kunt kiezen uit drie drivertypes: WIA (ingebouwd in Windows, beperkt), TWAIN (krachtiger) en ESCL (voor moderne netwerk- of wifi-scanners, vergelijkbaar met Apple AirScan). Doorgaans kies je voor TWAIN. Stel de scanopties in en open Geavanceerd voor extra instellingen. Typ een profielnaam en bevestig met OK.

Klik nu op de knop OCR en download de gewenste talen, zoals Dutch en English. Plaats een vinkje bij PDFs doorzoekbaar maken middels OCR en kies taal en modus (Snel of Beste). Vink ook de andere opties aan en druk op Scannen.

Klik daarna op het pijlknopje bij PDF opslaan en kies PDF-instellingen. Vul bij Standaard bestandspad een bestandsnaam in – gebruik eventueel ‘placeholders’ als $(YY)-$(MM)-$(DD) – en kies bij Compatibiliteit bij voorkeur PDF/A, zoals PDF/A-2b. Dit formaat slaat namelijk alle lettertypes, kleurprofielen en structuurinformatie in het bestand zelf op, wat ‘garandeert’ dat je het document ook jaren later nog in zijn oorspronkelijke vorm te zien krijgt. Vink Onthoud deze instellingen aan, klik op OK, selecteer de scans en kies PDF opslaan. Het is trouwens ook mogelijk om een (niet-doorzoekbaar) pdf-bestand in NAPS2 te importeren, dit vervolgens te OCR’en en als PDF/A te bewaren.

NAPS2 is prima opensource-scansoftware, met geïntegreerde meertalige OCR-module.

Pdf-printer

De focus van dit artikel ligt op papieren brondocumenten, maar we willen zeker ook (de gratis versie van) PDFCreator vermelden (www.pdfforge.org/pdfcreator). Je kunt deze namelijk als virtuele printer installeren om zo allerlei documenttypen om te zetten naar PDF(/A).

Start na installatie de app, open het tabblad Printer, vink PDFCreator aan en kies via de moersleutel het bestaande profiel PDF/A (archiefbestand). Bevestig met Opslaan en sluit de app. Open nu een document in een willekeurige toepassing, open het afdrukvenster en selecteer PDFCreator als printer. Een dialoogvenster opent waarin je het document meteen kunt opslaan als PDF/A-bestand (standaardversie 2b, maar dit is aanpasbaar via het uitklapmenu).

Je kunt zo’n virtuele printer ook inzetten om documenten automatisch als PDF/A op te slaan in een zelf te bepalen map. Maak hiervoor in PDFCreator op het tabblad Profielen een nieuw profiel aan (bijvoorbeeld PDF/A in map Facturen), kies bijvoorbeeld PDF/A-2b als formaat en geef tevens een specifieke opslaglocatie op. Koppel dit profiel op het tabblad Printer aan een nieuwe virtuele printer (bijvoorbeeld PDF/A-facturen). Zo maak je meerdere profielen en printers aan, waarbij elk PDF/A-bestand automatisch in een andere map terechtkomt.

Je kunt ook meerdere virtuele printers aanmaken, telkens met een aangepast profiel.

Tip 3: Mobiel

Een vlakbedscanner is zeker handig, maar niet noodzakelijk, want je kunt tegenwoordig ook prima scannen met je smartphone. Met de juiste app wordt het beeld automatisch ge-OCR’d en indien nodig rechtgetrokken. Een van de betere apps is Adobe Scan, beschikbaar via www.kwikr.nl/adobescan of in de appstore van Android en iOS.

Installeer en start de app. De gratis versie volstaat meestal, al laat de betaalde versie (circa 10 euro per maand) je onder meer tot 100 pagina’s per bestand scannen (in plaats van 25) en pdf’s exporteren naar Office 365-formaten.

Meld je aan, bijvoorbeeld via je Google-account, en tik op Scan. Je kunt het resultaat onder meer uitsnijden, roteren en de helderheid en het contrast aanpassen. Kies Blijven scannen voor extra pagina’s of tik op PDF opslaan zodra je klaar bent. De pdf belandt standaard in je Adobe-account (https://acrobat.adobe.com), maar je kunt het bestand ook delen of (via Meer) bijvoorbeeld opslaan in Google Drive. Het pdf-bestand is standaard doorzoekbaar, controleer bij Voorkeuren of Tekstherkenning uitvoeren op opgeslagen PDF wel is ingeschakeld, maar het is geen PDF/A. Wil je dat, dan kun je het bestand alsnog omzetten met reeds eerder vermelde, gratis tools als NAPS2 of PDFCreator (zie ook kader ‘Pdf-printer’).

Met (het gratis) Adobe Scan kun je ook meerdere pagina’s laten OCR’en en in één pdf bewaren.

Tip 4: Tags koppelen

Om naderhand snel het gewenste document te kunnen terugvinden, zorg je er dus allereerst voor dat je documenten doorzoekbaar zijn (bij pdf’s kan dit via OCR: zie tip 2). Je kunt gerust ook zelf extra trefwoorden, zeg maar digitale kleefbriefjes, aan je documenten koppelen.

Met een tool als TagSpaces (www.tagspaces.org, Windows, macOS en Linux) tag je in één keer meerdere bestanden en mappen met eigen trefwoorden. Bestaande tags voeg je simpelweg toe door ze naar bestanden te slepen. TagSpaces heeft ook een krachtige zoekfunctie waarmee je snel documenten met de juiste tag(s) terugvindt.

Handig zijn ook ‘smart tags’: je bepaalt dan zelf de criteria, waarna nieuwe bestanden automatisch de juiste tags krijgen. Deze tags kun je opslaan in aparte sidecar-bestanden (JSON) of je voegt ze achteraan de bestandsnaam toe: een bestand als aanpassing.pdf bijvoorbeeld wordt dan iets als aanpassing[huur indexering].pdf. De betaalde Pro-versie (42 euro per jaar) heeft enkele geavanceerde opties, zoals het toekennen van tags op basis van lokale AI-taalmodellen.

TagSpaces is een krachtige taggingtool, maar met een zekere leercurve.

Tip 5: Tags zoeken

Vind je TagSpaces toch wat overkill, dan zijn er andere manieren om documenten van (doorzoekbare) trefwoorden te voorzien. Je kunt in Verkenner (met sneltoets F2) trefwoorden toevoegen aan de bestandsnaam, maar het kan ook anders. Klik met rechts op een bestand of selectie, kies Eigenschappen en open het tabblad Details. Afhankelijk van het bestandstype kun je hier tags toevoegen bij velden als Titel, Onderwerp, Labels, Categorieën en Opmerkingen. Dit werkt goed bij bijvoorbeeld Office-bestanden en afbeeldingen, maar pdf-documenten laten zich minder makkelijk taggen. Dit kan bijvoorbeeld wel bij het aanmaken van zo’n document vanuit NAPS2 of PDFCreator. Bij deze laatste kun je bij een profiel titel, auteur, onderwerp en trefwoorden meegeven.

Vanuit de Verkenner kun je vervolgens zoeken op deze tags, ook in pdf-bestanden (ook al zijn ze niet zichtbaar op het tabblad Details). Navigeer naar de juiste map of het station en typ in de zoekbalk van de Verkenner labels:<trefwoord>.

Werkt dit niet, dan ontbreekt waarschijnlijk een geschikt zoekfilter. Je kunt zo’n Adobe-IFilter alsnog installeren via deze link. Je kunt dit controleren vanuit het Configuratiescherm: open Indexeringsopties, klik op Geavanceerd en scrol op het tabblad Bestandstypen naar pdf. Daar hoort PDF Filter (of eventueel Reader Search Handler) te staan, en Eigenschappen en inhoud van het bestand indexeren moet zijn ingeschakeld. Zorg er tevens voor dat alle gewenste mappen zijn opgenomen bij Deze locaties beheren (via de knop Wijzigen).

Met het juiste filter kun je ook vanuit de Verkenner naar tags binnen pdf-documenten zoeken.

Tip 6: Opslagstructuur

Je documenten zijn nu doorzoekbaar en mogelijk ook getagd, maar er is nog een derde belangrijk aspect: bewaar alles met logische bestandsnamen in een doordachte mappenstructuur.

Voor bestandsnamen plaats je de belangrijkste info, zoals projectnaam en/of datum, liefst vooraan. Gebruik de ISO-notatie (JJJJ-MM-DD), zodat je bestanden makkelijk chronologisch sorteert. Zoals vermeld in tips 4 en 5 kun je de naam aanvullen met trefwoorden, gescheiden door een koppelteken of onderstrepingsteken (vermijd spaties of speciale tekens). Eventueel voeg je achteraan een versienummer toe, zoals _v1. Een voorbeeld is 2025-08-31_Huurcontract_Appartement_v1.pdf.

Breng de bestanden onder in een logische structuur, bijvoorbeeld op datum, per project of klant, of per categorie (zoals Huis, Werk, Gezondheid, Financieel enzovoort). Je zult merken: dankzij consistente map- en bestandsnamen vind je documenten sneller terug.

Sneller zoeken binnen een logische mappenstructuur (en met labels).

Tip 7: Organisatietool

Je hebt een logische mappenhiërarchie opgezet, maar je moet natuurlijk ook zorgen dat documenten in de juiste map terechtkomen. Externe hulp van een organisatietool als het gratis Dropit (www.dropitproject.com, werkt nog onder Windows 11) of File Juggler (www.filejuggler.com, betaalde versie 44 euro) kan daarbij handig zijn. We bekijken kort deze laatste.

Start de geïnstalleerde tool op en klik op Add rule (of eerst op Add rule group als je de regels wilt categoriseren). Stel dat je alle pdf’s die in de map \gedeeld terechtkomen automatisch wilt verplaatsen op basis van trefwoorden. Vul dan Description in en klik op de knop met drie puntjes bij Monitor om de bronmap te kiezen. Via het tandwielpictogram kun je eventueel Examine everything regularly <frequentie> between checks instellen, wat ook goed werkt voor gedeelde netwerkmappen.

Klik daarna op de plus-knop bij If en stel het filtercriterium in, bijvoorbeeld: Any of the following / Other / PDF Properties / Keywords. Bevestig met Insert en geef het trefwoord op bij Contains / Text. Je kunt via de plus-knop extra filters instellen en kiezen tussen Any of All of the following.

Leg nu de gewenste actie vast bij Then: klik op de plusknop, kies bijvoorbeeld Move file en vul de doelmap in bij to. Bewaar je filter met Save and close. Op het tabblad Rules klik je op de pijlknop naast je filter om het te activeren. Test het resultaat.

Organiseer je bestanden automatisch op basis van eigen, gecombineerde zoekfilters.

DMS

Met de tips rond doorzoekbaar maken, taggen en ordenen uit dit artikel, en met tools als TagSpaces en File Juggler, raak je al ver. Wil je je administratie nog professioneler organiseren, dan kom je uit bij een volwaardig Document Management System, kortweg DMS. Flexibele opensource-tools zijn bijvoorbeeld Papermerge en Paperless NGX. Beide installeer je het makkelijkst op Windows via Docker (Docker Desktop for Windows, met WSL2).

Na installatie bereik je het browserdashboard van de tool standaard via http://<ip-adres>:8000. Beide tools bieden OCR aan om gescande documenten doorzoekbaar te maken. Je documenten kunnen ook automatisch worden verwerkt op basis van eigen filters, en er zijn krachtige zoekopties ingebouwd. Beide tools kun je meteen uitproberen via een online demo (log in met demo / demo).

Een krachtig DMS als Paperless-ngx maakt het bijhouden van je administratie veel efficiënter.

Tip 8: Zoektool

Zoals gezegd laat de ingebouwde zoektool in Windows je met de juiste filters en instellingen ook zoeken naar metadata, zoals trefwoorden in pdf’s. Met zoekfilters en operatoren zijn zelfs complexe opdrachten mogelijk, zoals labels:factuur auteur:Toon van Daele grootte:>300kB gewijzigdop:dit jaar. Echt gebruiksvriendelijk of handig is deze functie helaas niet. Je bent dan beter af met een tool als Agent Ransack (alias Filelocator Pro, www.mythicsoft.com/agentransack). Ook de gratis Lite-versie ondersteunt netwerkshares, Booleaanse operatoren, reguliere expressies en zoeken naar metadata via IFilter.

Start de tool, zet deze op Expert en open het tabblad Hoofd. Vul bij Bevat tekst je zoekterm in en bij Zoek in het gewenste station of de map. Eventueel kun je ook filters instellen voor Grootte en Gewijzigd Na / Voor. Op het tabblad Datum voeg je extra tijdsfilters toe en op het tabblad Opties vink je zeker Office en PDF documenten aan. Vul je bij Bevat tekst een pdf-trefwoord in, dan vindt Agent Ransack ook de bijbehorende bestanden. In het tabblad Treffers (rechtsonder) zie je bij gevonden bestanden bijvoorbeeld Keywords: <gezocht_trefwoord>. Met een dubbelklik open je meteen het bestand.

Agent Ransack laat gecombineerde en krachtige filters toe en zoekt ook in metadata.

Tip 9: Back-ups

Je administratie digitaliseren is een goed idee, maar dit is pas veilig met een degelijke back-upstrategie. Het best hanteer je hier de 3-2-1-regel: drie datakopieën (hoofdversie en twee back-ups), op twee soorten media, waarvan minstens één kopie op een andere locatie. Zo bescherm je je data tegen hardwarestoringen, ransomware, brand en diefstal.

Een uitstekende gratis en opensource back-uptool is Duplicati (www.duplicati.com, Windows en macOS), die we zelf al jaren dagelijks geautomatiseerd gebruiken voor back-ups naar zowel een netwerkschijf (NAS) als de cloud (Google Drive).

Installeer het gedownloade msi-bestand. Klik na afloop met rechts op het programma-pictogram in het Windows-systeemvak en kies Open om het browserdashboard te starten. Verschijnt First Run Setup, klik dan op Yes en stel een wachtwoord in. Je kunt Duplicati in je browser openen via http://localhost:8200. Wil je ook toegang vanaf een andere pc in je netwerk, open Instellingen in Duplicati en vink Remote toegang toestaan aan, zodat het dashboard bereikbaar is via http://<intern_ip-adres>:8200. Klik vervolgens op +Back-up toevoegen, laat Een nieuwe back-up instellen geselecteerd en vul een naam in. Schakel bij opslag buiten je netwerk versleuteling in. Geef vervolgens doel- en bronlocatie op en bepaal wanneer en hoe vaak de back-up wordt uitgevoerd. Duplicati maakt standaard incrementele back-ups, waarbij alleen nieuwe of gewijzigde data worden opgeslagen, waardoor het back-upvolume beperkt blijft.

Duplicati is een betrouwbare, gebruiksvriendelijke en flexibele back-uptool.

Tip 10: Beveiliging

Een goede back-upstrategie is cruciaal om je data veilig te bewaren, maar veiligheid draait ook om privacy. De beste manier om te voorkomen dat onbevoegden inzage krijgen in je (medische, financiële …) gegevens is versleuteling. In tip 9 vermeldden we al dat je in Duplicati back-ups automatisch kunt versleutelen met sterke AES-256-encryptie. Maar ook de data op je originele opslaglocatie wil je wellicht beveiligen.

Hiervoor kun je een gratis opensource-tool als VeraCrypt gebruiken, die naast containerbestanden ook complete partities of schijven kan versleutelen met sterke algoritmen als AES-256. We hebben niet de ruimte hier verder op in te gaan, maar hier vind je meer uitleg. Ook handig is Cryptomator om via je lokale synchronisatiemap data te versleutelen bij cloudopslagdiensten als Google Drive, OneDrive of Dropbox. Je vindt hier meer uitleg daarover.

Daarnaast kun je voor diverse documenttypes ook individuele bestanden beveiligen met een wachtwoord, al is dit vaak minder robuust dan een volledig versleutelde opslaglocatie. Dit kan bijvoorbeeld vanuit verschillende Office-applicaties, maar ook met pdf-tools zoals NAPS2 (bij PDF-instellingen vink je PDF versleutelen aan) en PDFCreator (bij Profielen, via Actie toevoegen / Versleuteling).

Ook in NAPS2 kun je pdf-documenten met een wachtwoord beveiligen.