ID.nl logo
Superefficiënt! Je video ondertitelen of transcriberen met AI
© khunkornStudio - stock.adobe.com
Huis

Superefficiënt! Je video ondertitelen of transcriberen met AI

De introductie van de vraagbaak ChatGPT zorgde een jaar geleden voor een enorme hype, en vormde het startsein voor de lancering van talloze andere op AI gebaseerde producten. Whisper komt uit dezelfde koker als ChatGPT en helpt bij het omzetten van spraak naar tekst, op basis van geavanceerde modellen.

In dit artikel laten we zien hoe je Whisper kunt benutten om een transcriptie of vertaling te maken van een audio- of videobestand. Dat kan online via Google Colab of op je eigen pc.

  • Installeer Whisper via Google Drive
  • Of installeer Whisper op je pc, samen met Python, FFmpeg en PyTorch
  • Download videobestanden
  • Laat Whisper een transcriptie of direct een vertaling maken

Lees ook: Handig: laat je PowerPoint-presentatie realtime vertalen!

Wil je een transcriptie of ondertitels hebben voor bepaalde audio- of videobestanden? Bijvoorbeeld content voor YouTube, opgenomen vergaderingen, een podcast of leerzame video? Dit kan tegenwoordig automatisch én vrijwel foutloos. Het kan natuurlijk al langer, maar er zaten vaak veel missers bij. Dat zie je ook al aan de automatisch gegenereerde ondertitels op YouTube. Het is ook best een uitdaging. De menselijke spraak is erg divers, met veel accenten en dialecten, maar ook verschil in spreeksnelheid en intonatie. Er kunnen bovendien storende achtergrondgeluiden zijn, zoals het verkeer of bouwwerkzaamheden. Een spreker kan onduidelijk overkomen of onzeker zijn. Omdat woorden verschillende betekenissen kunnen hebben, kan ten slotte ook de context onderscheidend zijn.

Zelf een podcast maken?

Een goede microfoon is noodzaak

Geholpen door AI zijn tegenwoordig heel nauwkeurige transcripties mogelijk. Teksten kunnen daarbij ook meteen worden vertaald. Dat laten we zien in dit artikel, waarin we met Whisper (zie kader ‘Wat is Whisper’) aan de slag gaan. We beginnen in de cloud met Google Colab. Daarna maken we vertalingen vanaf een lokale pc. Dit versnelt wellicht je proces en maakt je minder afhankelijk van de cloud.

©bestforbest - stock.adobe.com

Met Whisper kun je gesproken audio omzetten naar tekst.

Wat is Whisper Whisper is een gratis en opensource tool van OpenAI. Deze organisatie ken je wellicht van de vraagbaak ChatGPT of van DALL·E 2, die afbeeldingen kan genereren op basis van een omschrijving. De kracht van Whisper ligt bij het herkennen en omzetten van spraak in audio- en videobestanden. Dit kan voor het Engels en ongeveer honderd andere talen. Je kunt Whisper op je eigen pc installeren. Het programma werkt dan volledig offline. Wel helpt het als je een stevig systeem hebt. Het programma is getraind aan de hand van een grote dataset met veel variaties van menselijke spraak. Mede daardoor kan Whisper nauwkeurige vertalingen maken. Je kunt zelf de omvang van het model kiezen, waarbij een groter model nauwkeuriger is, maar ook fors meer rekenkracht vereist.

1 Benodigdheden

Voor het werken met Whisper heb je niet per se een pc nodig: je kunt cloud computing inzetten. Dat kan – omdat het een Python-project is – zelfs gratis met Google Colab. Daar beginnen we in dit artikel dan ook mee. Wil je niet afhankelijk zijn van een clouddienst, dan kun je Whisper ook lokaal op je pc installeren. De software is namelijk opensource. Voor aanvullende informatie kun je op de GitHub-pagina terecht. Verderop in dit artikel behandelen we een lokale installatie in meer detail. Hiervoor heb je overigens wel een capabel systeem nodig, anders zal het maken van de transcripties erg lang duren. Om het rekenwerk te versnellen, gebruiken we een grafische kaart van Nvidia.

Whisper is opensource en heeft een eigen GitHub-pagina.

2 Verschillende modellen

Je kunt bij het werken met Whisper uit verschillende modellen kiezen, oplopend in omvang. De meertalige modellen heten achtereenvolgens tiny, base, small, medium en large. Als je Whisper gebruikt, moet je één van deze modellen kiezen. Er zijn ook modellen voor alleen het Engels. Deze heten tiny.en, base.en, small.en en medium.en. Hoewel je voor Engels ook gewoon de meertalige modellen kunt gebruiken, zijn deze specifieke Engelstalige modellen wat nauwkeuriger, al merk je dat vooral bij de kleinere modellen tiny.en en base.en. We kiezen in dit artikel steeds voor het medium-model, met voor Engels de .en-versie. Probeer en vergelijk zeker de kleinere modellen als je een minder zwaar systeem of minder tijd hebt.

Er zijn verschillende modellen die invloed hebben op de nauwkeurigheid en snelheid.

3 Google Colab

Je kunt voor weinig geld cpu-kracht in de cloud huren. Voor gpu-kracht betaal je vaak veel meer. Google Colab biedt het allemaal voor niks. In feite is Colab, voluit ‘Colaboratory’, een Python-omgeving in de cloud. Je kunt de omgeving gewoon via een browser benaderen met een gratis Google-account. Door de opmars van grafisch intensieve AI-toepassingen, vaak met Python als basis, is het platform van Google flink in trek. Dat maakt het wat onzeker of deze dienst kan blijven bestaan en gratis blijft. Maar dat geldt voor veel experimentele diensten van de techgigant. Daarom laten we verderop in dit artikel, vanaf stap 10, ook zien hoe je lokaal op je eigen pc kunt werken met Whisper, voor als de stekker eruit gaat.

Google Colab kun je gratis gebruiken met je Google-account.

4 Koppeling Google Drive

We beginnen in Google Drive waar je Colab als app kunt koppelen. Kies daarvoor Nieuw / Meer / Meer apps koppelen. Vul in het zoekveld Google Colaboratory in. Klik op de bewuste app en kies dan Installeren. Na het doorlopen van de stappen is Google Colaboratory gekoppeld aan je Google Drive en kun je het venster sluiten.

Je kunt de app in enkele stappen toevoegen aan je Google Drive.

5 Whisper installeren

Nadat de app is gekoppeld kun je onder Nieuw / Meer direct Google Colaboratory openen. Linksboven kun je de naam van het project (Untitled0.jpynb) veranderen. We maken hier YouTube-demo.jpynb van. Kies in het menu Runtime voor Runtimetype wijzigen. Selecteer onder Hardwareversnelling een gpu. De beschikbaarheid kan variëren. In dit voorbeeld kiezen we T4 GPU. Klik dan op Opslaan. De grafische kracht zal automatisch in ons project worden benut. Plak de onderstaande opdrachten in het tekstvak achter het uitvoerenicoontje en voer het uit. Daarmee worden Whisper en FFmpeg geïnstalleerd. Dit framework zorgt ervoor dat alle denkbare mediabestanden kunnen worden gedecodeerd:

!whisper "energiebesparen.mp4" --model medium

en:

!sudo apt update && sudo apt install ffmpeg

We installeren Whisper en het bekende FFmpeg-framework.

6 Bestand uploaden

We gebruiken enkele bestanden van YouTube (zie kader ‘Bronbestanden voor Whisper’) en geven deze een makkelijke naam om mee te werken, te weten homelab.mp4, zweden.mp4 en energiebesparen.mp4. Om ervoor te zorgen dat je binnen Colab met deze bestanden kunt werken, gaan we ze eerst uploaden. Klik daarvoor op het bestandenicoontje links in Colab. Je kunt de gewenste videobestanden slepen naar het bestandsvenster of uploaden via het uploadicoontje. Zorg er wel voor dat je de originele bestanden ook zelf op je pc hebt. Als je de omgeving verlaat, zal de zogenoemde runtime worden verwijderd. Daarmee verdwijnen ook de geüploade bestanden. Je zult ze de volgende keer opnieuw moeten uploaden. Ook zul je dan overigens weer het correcte runtimetype moeten kiezen en Whisper moeten installeren.

Je kunt mediabestanden uploaden naar Google.

Bronbestanden voor Whisper Je kunt voor Whisper allerlei soorten mediabestanden gebruiken. In dit artikel gebruiken we drie video’s van YouTube met speelduur van zo’n 15 tot 25 minuten. We gebruiken een Engelse video (met Duits accent) van Christian Lempa over zijn Home Lab, een Nederlands vlog van Linda Meijers over wonen in Zweden en een Nederlandse video over het besparen van energie van onze eigen ID.nl waarin meerdere personen aan het woord komen. Via www.x2mate.com downloaden we de YouTube-video’s als mp4-bestand in 720p voor verwerking in Whisper. We hadden eventueel ook alleen de audio in mp3-formaat kunnen downloaden, maar voor de beoordeling is het videobestand met ingebakken audio makkelijker. Whisper maakt namelijk automatisch een ondertitelbestand (in .srt-formaat). Veel videospelers geven dit weer. Hierdoor kun je direct het resultaat beoordelen en eventueel vergelijken met de automatisch gegenereerde ondertitels van YouTube.

7 Transcripties maken

Het is tijd om Whisper aan het werk te zetten met de gekozen videobestanden. Kijk eerst of je Whisper kunt aanroepen met de opdracht !whisper. Je ziet dan ook de optionele parameters. We beginnen met de Engelse video en kiezen het model medium.en. Klik op + Code en voer de onderstaande opdracht in, waarin we zoals je ziet het bestand en het model specificeren:

!whisper "homelab.mp4" --model medium.en

Voor de andere video’s gebruiken we --model medium. Dat is een meertalig model met hoge nauwkeurigheid. De taal zal steeds automatisch worden herkend:

!whisper "zweden.mp4" --model medium

en:

!whisper "energiebesparen.mp4" --model medium

Google had zo’n drie tot zes minuten per video nodig om de transcripties te maken. Na afloop kun je de tekstbestanden downloaden, waaronder het ondertitelbestand (.srt). Vanuit het bestandsvenster kun je alle tekstbestanden downloaden naar je pc.

We zetten Whisper aan de slag om een transcriptie voor de video’s te maken.

8 Vertalingen maken

Wat vaak onderbelicht blijft, is dat Whisper ook tekst kan vertalen. Dat is heel praktisch als je bijvoorbeeld een YouTube-video hebt die internationaal wordt bekeken. Met de opdracht hieronder kun je een Engelstalige transcriptie maken voor een Nederlandstalige video. Het vraagt waarschijnlijk iets meer nabewerking, maar een groot deel van het werk is in ieder geval al voor je gedaan:

!whisper "energiebesparen.mp4" --model medium --task translate --language en

Whisper kan de tekst ook direct voor je vertalen naar bijvoorbeeld het Engels.

9 Resultaat bekijken

De meeste videospelers zullen automatisch ondertitels laten zien als je het ondertitelbestand in dezelfde map zet en ook dezelfde naam geeft als je videobestand. We zien dat de transcripties steeds van hoge kwaliteit zijn. Versprekingen zijn vaak al gecorrigeerd. De video’s zijn ook veel beter te volgen dan met de automatische transcriptie die YouTube zelf aanbiedt. Ook wordt er veel beter en nauwkeuriger gebruikgemaakt van leestekens. Je zult hooguit nog wat kleine aanpassingen willen maken voor bijvoorbeeld enkele woorden die verkeerd zijn geïnterpreteerd. Dat gaat natuurlijk heel eenvoudig in het tekstbestand zelf, maar er zijn ook tools die je voor srt-bestanden kunt gebruiken.

Het ondertitelbestand wordt door veel videospelers direct herkend.

10 Lokale installatie

Een lokale installatie onder Windows is zeker niet lastig, maar er is best wat software vereist om alles te laten werken. Om te beginnen moet je Python downloaden en installeren. Hoewel een wat oudere versie wordt aangeraden, zijn we geen problemen tegengekomen bij gebruik van de meest recente versie 3.12.0. Let er bij de installatie van Python op dat je een vinkje zet bij Add python.exe to PATH. Je kunt Python dan vanuit elke map op de pc aanroepen. Installeer vervolgens ook Git voor Windows. Bij deze installatie kun je alle standaardopties accepteren. Belangrijk is dat Git daarbij ook weer aan het path wordt toegevoegd.

Zorg dat Python wordt toegevoegd aan het path in Windows.

11 Grafische kaart

Heb je een grafische kaart van Nvidia, dan kun je de berekeningen van Whisper flink versnellen, zoals we verderop zullen laten zien. Hiervoor dien je CUDA te installeren. We gebruiken versie 11.8. Selecteer op de downloadpagina Windows met de architectuur x86_64 en selecteer je versie van Windows (doorgaans 10 of 11). De hier gekozen versie van CUDA wordt ook door PyTorch ondersteund, dat we in de volgende stap gaan installeren. Doorloop de installatie. Kies daarbij in het venster Installatieopties voor Aangepast (geavanceerd). Vink vervolgens alle onderdelen uit behalve CUDA. Zo voorkom je dat onder andere de huidige drivers voor je grafische kaart worden vervangen door een oudere versie.

Je hoeft voor dit project alleen CUDA te installeren.

12 FFmpeg installeren

Je hebt voor een lokale installatie ook het framework FFmpeg nodig. Klik op de downloadpagina op het Windows-icoontje en kies Windows builds from gyan.dev. Download het archief (ffmpeg-git-full.7z) en pak het uit met de ingebakken tool van Windows of bijvoorbeeld 7-Zip. Hernoem de map naar ffmpeg en verplaats deze naar de C-schijf. Het bestand ffmpeg.exe bevindt zich dan in C:\ffmpeg\bin. Deze map gaan we aan het path toevoegen. Druk op Windows-toets+R, vul in sysdm.cpl en druk op Enter. Open dan het tabblad Geavanceerd en kies Omgevingsvariabelen. Dubbelklik op Path. In het venster klik je op Nieuw om een pad toe te voegen. Vul dan in: C:\ffmpeg\bin. Bewaar de aanpassingen en herstart je systeem.

We zorgen ervoor dat FFmpeg wordt toegevoegd aan het path.

13 PyTorch

Zet alle videobestanden waarvoor je een transcriptie wil maken in een map. Klik dan in Windows Verkenner rechts op een lege plek in de map en kies Openen in terminal. Als het goed is, kun je nu alle opdrachten uitvoeren voor geïnstalleerde toepassingen, zoals: python --version, ffmpeg en git.

We gaan eerst een recente versie van PyTorch installeren dat nodig is voor Whisper. Ga daarvoor naar de website van PyTorch en kies de opties Stable, Windows, Pip, Python en CUDA 11.8. Kopieer het commando. In dit geval ziet dat er als volgt uit:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Voer deze opdracht uit in de terminal. Kom je geen problemen tegen, ga dan verder met de volgende opdrachten:

pip3 install setuptools-rust

en:

pip3 install git+https://github.com/openai/whisper.git

De installatie van Whisper is nu als het goed is geslaagd, zodat we in de volgende stap transcripties kunnen gaan maken.

Via de website van PyTorch kun je het commando achterhalen dat nodig is voor de installatie.

14 Whisper starten

De opdrachten voor het maken van de transcriptie verschillen niet van de eerdergenoemde opdrachten in Google Colab:

whisper "homelab.mp4" --model medium.en

of:

whisper "zweden.mp4" --model medium

of:

whisper "energiebesparen.mp4" --model medium

Als CUDA beschikbaar, is zal automatisch de grafische kaart worden gebruikt. Geholpen door een RTX 3080 grafische kaart is de transcriptie voor de video zweden.mp4 met het model medium binnen drie minuten gereed. Dit ligt in lijn met de snelheid via Colab. Heb je geen grafische kaart of geen CUDA? Dan zal de processor worden gebruikt, wat flink veel extra tijd kost (zie kader ‘Grafische kaart sterk aanbevolen’). Je kunt dat zelf ervaren met de optie --device cpu. Dit forceert het gebruik van de processor. Als CUDA wél beschikbaar is, geeft deze opdracht overigens een waarschuwing.

Whisper maakt relatief snel de transcriptie voor de video.

Grafische kaart aanbevolen Transcripties maken met de processor is tijdrovend. Zelfs op een 16-core AMD Ryzen 9 5950X is voor transcriptie van zweden.mp4 ruim twintig minuten nodig. De processor wordt daarbij steeds met zo’n 70 procent belast. Met de RTX 3080 lukt het binnen drie minuten met veel lagere belasting. Een grafische kaart is dus zeker geen overbodige luxe. Dat hoeft geen RTX 3080 te zijn. Er is vooral genoeg VRAM nodig. Een RTX 2060 of RTX 3060 helpt al enorm, maar je zult zeker verschil merken als je een snellere kaart in je systeem prikt. Loop je tegen problemen aan? Je kunt binnen Python controleren of CUDA beschikbaar is. Start daarvoor Python met python. Voer dan na elkaar de volgende opdrachten in. Je krijgt als het goed is True als resultaat: import torch torch.cuda.is_available()

Watch on YouTube
▼ Volgende artikel
Voormalige Assassin's Creed-baas klaagt Ubisoft aan
Huis

Voormalige Assassin's Creed-baas klaagt Ubisoft aan

Marc-Alexis Côté, die voorheen de Assassin's Creed-gamefranchise bij Ubisoft overzag, heeft dat bedrijf nu aangeklaagd.

Nieuw op ID: het complete plaatje

Misschien valt het je op dat er vanaf nu ook berichten over games, films en series op onze site verschijnen. Dat is een bewuste stap. Wij geloven dat technologie niet stopt bij hardware; het gaat uiteindelijk om wat je ermee beleeft. Daarom combineren we onze expertise in tech nu met het laatste nieuws over entertainment. Dat doen we met de gezichten die mensen kennen van Power Unlimited, dé experts op het gebied van gaming en streaming. Zo helpen we je niet alleen aan de beste tv, smartphone of laptop, maar vertellen we je ook direct wat je erop moet kijken of spelen. Je vindt hier dus voortaan de ideale mix van hardware én content.

Afgelopen oktober werd aangekondigd dat Côté vertrokken was bij het bedrijf. Dat gebeurde rond dezelfde tijd als dat Ubisoft de Assassin's Creed-franchise onderbracht onder Vantage Studios, een nieuwe dochteronderneming die het samen met Tencent heeft opgericht. Côté heeft decennialang aan de Assassin's Creed-franchise gewerkt en stond de laatste jaren aan het hoofd van de populaire spellenreeks.

Côté zou toen Assassin's Creed naar Vantage Studios ging een aanbod van Ubisoft hebben gekregen om een andere leidende positie binnen het bedrijf aan te nemen. Côté liet kort daarna publiekelijk weten dat deze positie niet vergelijkbaar was met zijn eerdere werk.

De aanklacht

Nu klaagt Côté Ubisoft dus aan, zo meldt CBC Radio Canada. Volgens hem zou hij de rol van 'Head of Production' aangeboden hebben gekregen binnen Ubisoft nadat Assassin's Creed binnen Vantage Studios werd ondergebracht, gevolgd door een mogelijke positie als 'Creative House'.

Volgens Côté zou hij daardoor leiderschap krijgen over "tweederangs" Ubisoft-franchises. Aangezien hij daarvoor de Assassin's Creed-franchise overzag, voelde dit voor hem als een wezenlijke stap terug.

Côté nam naar eigen zeggen twee weken vrij om over deze situatie te reflecteren. Aan het einde van die periode zou Ubisoft hebben geëist dat hij een besluit moest maken en besloot Côté dat dit een onacceptabele situatie was, en een "ontslag in vermomming". Hij eiste dan ook ontslagvergoeding, waarna hij te horen kreeg dat hij niet meer op werk hoefde te komen en Ubisoft aankondigde dat hij was vertrokken.

Volgens Côté heeft Ubisoft geclaimd dat hij vrijwillig is vertrokken, zodat men geen ontslagvergoeding hoefde te betalen. Côté eist nu twee jaar aan loon als ontslagvergoeding en 75.000 dollar aan schadevergoeding vanwege machtsmisbruik en schade aan zijn reputatie. In totaal komt dat neer op meer dan 1,3 miljoen dollar. Ook wil hij dat het concurrentiebeding komt te vervallen.

Vantage Studios en Assassin's Creed

Ubisoft richtte vorig jaar samen met het Chinese Tencent de dochteronderneming Vantage Studios op. Daar zijn de drie belangrijkste Ubisoft-franchise in ondergebracht, namelijk Assassin's Creed, Far Cry en Rainbow Six. Ook de ontwikkelteams die aan deze reeksen werken maken nu onderdeel uit van Vantage Studios.

De Assassin's Creed-franchise is al jarenlang een van de belangrijkste gamereeksen van de Franse uitgever Ubisoft. In de spellen gebruiken spelers parkour, stealth en gevechten om diverse exotische locaties uit de geschiedenis te verkennen. Het meest recente deel is het vorig jaar uitgekomen Assassin's Creed Shadows.

▼ Volgende artikel
ChatGPT krijgt advertenties in gratis versie en goedkoopste abonnement
© Robert - stock.adobe.com
Huis

ChatGPT krijgt advertenties in gratis versie en goedkoopste abonnement

OpenAI gaat advertenties tonen in ChatGPT - voor nu alleen nog in de Verenigde Staten, al is het mogelijk dat dit uiteindelijk wereldwijd uitgerold wordt.

Nieuw op ID: het complete plaatje

Misschien valt het je op dat er vanaf nu ook berichten over games, films en series op onze site verschijnen. Dat is een bewuste stap. Wij geloven dat technologie niet stopt bij hardware; het gaat uiteindelijk om wat je ermee beleeft. Daarom combineren we onze expertise in tech nu met het laatste nieuws over entertainment. Dat doen we met de gezichten die mensen kennen van Power Unlimited, dé experts op het gebied van gaming en streaming. Zo helpen we je niet alleen aan de beste tv, smartphone of laptop, maar vertellen we je ook direct wat je erop moet kijken of spelen. Je vindt hier dus voortaan de ideale mix van hardware én content.

De populaire AI-tool ChatGPT wordt wereldwijd door vele miljoenen mensen gebruikt, dus advertenties konden eigenlijk niet uitblijven. OpenAI gaat de komende weken dan ook tests in de Verenigde Staten beginnen rondom advertenties, zo schrijft het bedrijf. Aangezien het om een test gaat, lijkt het haast vanzelfsprekend dat ze uiteindelijk ook wereldwijd ingezet gaan worden, al heeft OpenAI hier nog geen duidelijkheid over gegeven.

Over de advertenties in ChatGPT

De advertenties zullen onder het antwoord die de AI-tool op vragen van de gebruiker geeft verschijnen. Daarbij benadrukt OpenAI dat de advertenties niet de antwoorden van de tool zullen beïnvloeden, en dat minderjarige gebruikers de advertenties voor nu nog niet zullen zien.

View post on X

Daarnaast houdt ChatGPT ook rekening met de onderwerpen die in de AI-tool worden besproken. Bij gevoelige onderwerpen, zoals mentale gezondheid en politiek, zullen de advertenties vooralsnog niet verschijnen. Daarbij is het de bedoeling dat de advertenties gerelateerd zijn aan het onderwerp dat besproken wordt.

ChatGPT Go

De reclames verschijnen alleen in gesprekken van gratis gebruikers en het Go-abonnement. ChatGPT Go is het goedkoopste betaalde abonnement van de AI-tool en kost 8 euro per maand. ChatGPT Go werd vorig jaar al in specifieke markten beschikbaar gesteld, en is sinds enkele dagen wereldwijd beschikbaar. Verder zijn er nog de duurdere Plus-, Pro-, Business- en Enterprise-abonnementen. Daar zullen geen advertenties op verschijnen.

Zoals gezegd is deze test met advertenties voor nu alleen nog maar voor de Verenigde Staten bedoeld. OpenAI heeft nog niets gecommuniceerd over wanneer we ze in andere landen, zoals in Nederland, te zien gaan krijgen. Hieronder is een voorbeeld te zien van hoe advertenties er op ChatGPT uit kunnen gaan zien.