Verborgen informatie vinden op het Deep Web: Deel 1

Google, Facebook, Amazon en de ‘kleinere’ concurrenten op de zoekmarkt weten samen volgens internetwijsheid slechts de weg op één procent van het internet; het topje van de ijsberg. De rest is het zogenaamde Deep Web. Welke mysterieuze informatie kun je daar vinden? En hoe doe je dat?

Zoekmachines en sociale netwerken kunnen redelijk goed omgaan met publiek beschikbare informatie op internet, zoals websites, blogs, downloads, webwinkels en openbare sociale media. Maar het grootste deel van internet bestaat uit afgeschermde content, zoals webmail, sites en servers met logins, instituuts- en bedrijfsdatabanken, cloudopslag, enzovoort.

Dit deel van het internet wordt niet gezien door de Googles, Facebooks en Amazons van deze wereld, is daardoor onbekend bij de gemiddelde internetgebruiker en vaak niet eens bereikbaar met een normale webbrowser. Deze niet-publieke informatie wordt Deep Web genoemd.

Een klein deel van het Deep Web wordt aangeduid met de term Dark Web. Dit is een verzamelnaam voor versleutelde webdiensten waar enerzijds politieke dissidenten en klokkenluiders veilig zouden kunnen communiceren, maar waar dankzij cryptovaluta ook drugs, geweld en andere narigheid te koop zijn. Het Deep Web is dus veel meer dan het Dark Web.

Hoe vind je informatie op het Deep Web dan wel? Onderstaande sites helpen je daarbij.

Deep Web Tech

Onderzoeksorganisaties en grote bedrijven kunnen met het doorzoeken van het Deep Web hun resultaten verbeteren. Deep Web Tech biedt daarvoor de dienst Explorit Everywhere! aan. Dit is een zoekmachine die reguliere bronnen op internet combineert met wat je er zelf aan toevoegt.

Dat kunnen bijvoorbeeld betaalde zoekdiensten zijn, abonnementen op databanken met onderzoeksgegevens en ga zo maar door. Door gebruik te maken van de technologie van Deep Web Tech is het mogelijk om vanuit één zoekvenster al die verschillende bronnen te doorzoeken om vervolgens de resultaten te filteren. Dat maakt zoeken door uitgebreide bronnen overzichtelijker.

Deze zoekmachine is niet gratis, maar de website biedt een testvenster aan om te laten zien wat mogelijk is. Met een zoekopdracht op de website kun je in één keer door 63 verschillende overheidsbronnen zoeken. Het brengt leuk in beeld hoeveel verschillen er zijn tussen zulke specifieke resultaten en bijvoorbeeld de standaardresultaten van Google.

DuckDuckGo

DuckDuckGo is als zoekmachine vooral bekend doordat de dienst altijd aangehaald wordt als privacy-vriendelijk alternatief voor Google. Je kunt er gewoon mee zoeken op het reguliere internet waarbij DuckDuckGo belooft advertentietrackers te blokkeren, zoekgeschiedenis privé te houden en je persoonlijke gegevens te respecteren.

Resultaten van zoekopdrachten blijven breder doordat ze niet aan je klikgedrag uit het verleden worden aangepast. Naast deze functionaliteit biedt DuckDuckGo meer. Zo zijn er plugins om de allround privacy van browsers te verbeteren en deze zoekmachine als standaard in te stellen. Qua zoekgedrag is DuckDuckGo zeer geschikt voor mensen die het Deep Web willen onderzoeken. Er worden namelijk ook bestemmingen op plaatsen als het TOR-netwerk en Wolfram|Alpha geïndexeerd.

Maar hoe komt een zoekdienst aan geld? Uiteindelijk willen de 55 medewerkers van DuckDuckGo ook graag een salaris aan het einde van de maand. Welnu, de zoekdienst haalt omzet uit het serveren van advertenties via het Yahoo-Bing alliance network en door samenwerking met Amazon en eBay.

Google Scholar

Is het mogelijk om een tekst over zoekmachines te schrijven zonder Google te noemen? Klaarblijkelijk niet. Wie een zoektocht door het Deep Web gaat ondernemen kan niet aan de slag zonder Google Scholar te overwegen.

Via deze loot aan de Google boom kun je zoeken in academische teksten en (Amerikaanse) jurisprudentie. Het is een bijna onmisbaar stuk gereedschap voor academici en (Amerikaanse) juristen die niet de populairste teksten zoeken, maar juist de obscure onderzoeken, rapporten en boeken die nodig zijn om een onderzoek af te kunnen ronden met betrouwbare bronvermelding.

Buiten Google Scholar om zijn er ook vergelijkbare andere diensten. CiteSeerX bijvoorbeeld is een gratis alternatief dat wat minder resultaat biedt en daarnaast zijn er betaalde diensten zoals Scopus van Elsevier. Google Scholar biedt gratis toegang tot naar schatting 389 miljoen academische documenten, wat het tot de grootste academische zoekmachine in de wereld maakt.

Hidden Wiki

Internet browsen via TOR doet soms denken aan de roerige begintijden in de vroege jaren 90. The Hidden Wiki biedt binnen dat kader een mooie casus over de complexiteit van een volledig vrij internet. Deze overzichtspagina werkt als een index van Deep Web-websites voor mensen die via TOR browsen.

Het is opgezet als een Wiki, wat inhoudt dat iedereen de pagina kan bewerken en er altijd naarstig gezocht wordt naar vrijwilligers om orde in de chaos te scheppen. De inhoud van de index kan daardoor van dag tot dag radicaal veranderen. Naar verluidt is de privésleutel van deze site een aantal jaar geleden gestolen waardoor het ook nooit helemaal zeker is of je op de echte Hidden Wiki bent. De link die wij bieden is die voor de etalage op het reguliere internet. Dat is vooralsnog het beste startpunt om op de Hidden Wiki terecht te komen.

Qua inhoud wordt door de aanhang veel tijd besteed aan het ophemelen van de geneugten van absolute vrijheid op internet. Wat je vooral tegenkomt zijn zaken als drugs, wapens, maak je eigen bom en verhandelingen rondom cryptovaluta zoals Bitcoin. Natuurlijk is er ook een mogelijkheid om naar Wikileaks te uploaden en anoniem te praten, maar daar ligt niet het zwaartepunt van deze bestemming. Hopelijk spreekt het voor zich dat je uiterst voorzichtig doet met de links op deze pagina.

Internet Archive: Wayback Machine

Websites komen en gaan, en zelfs degenen die lang blijven veranderen over tijd. Het Internet Archive probeert websites te archiveren en biedt via de eigen website een Wayback Machine aan. Vul hier het adres van een website in en het archief geeft je een tijdlijn met daarin momentopnames.

Je kunt zien hoe vaak de website is gearchiveerd en via een kalender de momentopnames van deze site bezoeken. De dienst is onofficieel van start gegaan in 1996 en officieel gelanceerd in 2001. Toen waren er al tegen de 10 miljard gearchiveerde webpagina’s beschikbaar. Vanzelfsprekend is niet iedere wijziging op iedere pagina te vinden. Een standaard indexering van internet met de ‘crawlers’ van het archief kost ongeveer anderhalf jaar.

Ook opslag is een factor. Het internet archief groeit sinds 2014 met 20 terabytes per maand en op dit moment neemt het meer dan 25 petabytes opslagruimte in. Meer dan genoeg om enkele regenachtige zondagen aan nostalgisch surfen te wijden.

Ga verder naar deel 2.