ID.nl logo
Programmeren in Python met ChatGPT - Deel 3
© Dahina - stock.adobe.com
Huis

Programmeren in Python met ChatGPT - Deel 3

In deel 2 van deze artikelreeks leerde je hoe je verslagen van vergaderingen kon samenvatten met de OpenAI-API in de programmeertaal Python. Maar je kunt nog meer: het taalmodel achter ChatGPT is in staat om teksten te analyseren en daaruit besproken onderwerpen te halen. Zo kun je documenten automatisch op onderwerp ordenen.

In dit derde deel laten we ChatGPT onze teksten analyseren om daaruit de onderwerpen te extraheren, zodat we zelf gemakkelijker onze teksten kunnen taggen of ordenen:

  • Eerst zorgen we ervoor dat de juiste bestanden gevonden worden
  • Daarna laten we de bestanden analyseren
  • Tot slot zorgen we ervoor dat de gevonden onderwerpen worden omgezet in tags

Lees ook: Weg met de chaos! Organiseer je bestanden met TagSpaces

Code downloaden In deze workshop worden wat voorbeelden van stukken code gegeven. Omdat overtikken van code erg foutgevoelig is, kun je die code beter downloaden en daarna bekijken of kopiëren. Via deze link kun je twee bestanden downloaden: het bestand extract_tags.py (dat het eindresultaat van deze workshop bevat) en het bestand gptcode-dl3.txt (dat alle losse opdrachten uit deze hele aflevering bevat).

In deel 2 zagen we al dat ChatGPT veel meer kan dan gewoon conversaties voeren. Het taalmodel draait zijn hand bijvoorbeeld niet om voor de taak om teksten samen te vatten. We kunnen dat principe in nog veel extremere vorm doorzetten: vraag om de besproken onderwerpen van een tekst te geven in enkele woorden. Dat is ideaal om automatisch tags aan teksten toe te kennen om ze daarna sneller terug te vinden. In dit deel realiseren we dit met de OpenAI-API in Python waar je ondertussen al wat vertrouwd mee bent.

Alle bestanden doorlopen

Kopieer het Python-script summarize_docx_files.py uit deel 2. Dit bestand gebruiken we als basis en passen we hier aan. Vervang allereerst de systeemprompt in het begin:

SYSTEM_PROMPT = "Beschrijf de vijf belangrijkste onderwerpen die in de volgende tekst besproken zijn."

We gaan de systeemprompt later nog verder aanpassen, want zoals we in de vorige delen van de reeks hebben gezegd, moet die prompt zo specifiek mogelijk zijn. Maar we moeten ergens beginnen.

Voor het samenvatten van verslagen gingen we ervan uit dat alle Word-bestanden zich in dezelfde directory bevonden. Nu willen we veel meer bestanden verwerken, ook als ze zich in subdirectory’s bevinden. Daarom veranderen we de functie process_docx_files in:

De code kun je bekijken in het bestand gptcode-dl3.txt, te downloaden via deze pagina.

Met rglob krijgen we een lijst van alle paden die op .docx eindigen. We controleren dan nog voor de zekerheid of het om een bestand gaat en niet om een directory waarvan de naam eindigt op .docx. Daarna lezen we de inhoud met de functie read_docx die we vorige keer hadden gemaakt.

Sla in Visual Studio Code met Ctrl+S het script op onder de naam extract_tags.py en open een opdrachtregelvenster met het menu Terminal / New Terminal. Voer het programma hierin als volgt uit:

python extract_tags.py directorymetdocumenten

Vervang directorymetdocumenten door het daadwerkelijke pad waarin al je te analyseren documenten staan.

Grotere bestanden analyseren

Als je dit nu toepast op een directory met grotere documenten, crasht je Python-programma met een foutmelding zoals:

openai.error.InvalidRequestError: This model's maximum context length is 4097 tokens. However, your messages resulted in 4202 tokens. Please reduce the length of the messages.

Dat is een beperking van het model gpt-3.5-turbo, dat maar iets meer dan 4000 tokens kan verwerken. Met een ander model kunnen we meer tokens verwerken, maar allereerst willen we dat het programma niet meer crasht en gewoon doorgaat met de volgende teksten als één specifieke tekst te lang is. Vervang daarom de regel print(get_completion(text, SYSTEM_PROMPT)) helemaal op het einde door:

De code kun je bekijken in het bestand gptcode-dl3.txt, te downloaden via deze pagina.

Voor elk document dat te groot is, krijgen we nu nog altijd de foutmelding. Maar het programma gaat dan verder met het volgende document.

Zoals gezegd kunnen we ook nog het model in het begin van het programma vervangen:

DEFAULT_MODEL = "gpt-3.5-turbo-16k"

Dit 16K-model ondersteunt vier keer zoveel tokens, maar je betaalt er wel twee keer zoveel voor per token.

De taalmodellen van OpenAI bestaan in verschillende versies. Wil je langere documenten analyseren, dan betaal je meer.

Van onderwerpen naar tags

Als je de voorgaande code uitvoert, krijg je volledige zinnen of korte steekwoorden terug met beschrijvingen van de onderwerpen. Dat is niet onze bedoeling. We moeten dus in de systeemprompt duidelijk maken wat we wél willen: korte tags van één of twee woorden:

SYSTEM_PROMPT = "Geef de vijf belangrijkste tags die de volgende tekst beschrijven. Elke tag is één of twee woorden lang. Scheid de tags van elkaar door een komma."

Het resultaat is deze keer wel wat we verwachten, al slipt er soms een tag van drie woorden door. Maar als dat iets als ‘Raspberry Pi Pico’ is, zien we dat door de vingers. Als we deze tags verder willen verwerken, moeten we ze wel consistent maken. Daarvoor schrijven we een extra functie.

Nabewerking

Een voorbeeld maakt dit duidelijk. Stel dat ons programma de volgende tags uit een tekst haalt: Zigbee, Z-Wave, Bluetooth Mesh, Thread, Domoticaprotocollen. Dan willen we daar een lijst van maken met tags zigbee, z-wave, bluetooth-mesh, thread en domoticaprotocollen. Dat doen we met de volgende functie:

De code kun je bekijken in het bestand gptcode-dl3.txt, te downloaden via deze pagina.

De parameter tags is gewoon een string zoals ‘Domoticacontroller, Home Assistant, Raspberry Pi, Domoticatoestellen, Installatie’ die we van de OpenAI-API terugkrijgen. We splitsen die op elke komma, waardoor we een lijst met tags krijgen. Voor elke tag in die lijst halen we met strip() eerst alle spaties in het begin en eind weg, zetten we met lower() alle letters om naar kleine letters en vervangen we dan elke spatie in het midden door een koppelteken (-).

Om nu de tags te normaliseren, vervangen we de regel print(get_completion(text, SYSTEM_PROMPT)) op het einde van het script door:

De code kun je bekijken in het bestand gptcode-dl3.txt, te downloaden via deze pagina.

Je krijgt nu voor elk document de tags te zien in de vorm van een lijst in Python:

['zigbee', 'z-wave', 'bluetooth-mesh', 'thread', 'domoticaprotocollen']

Artikelen per tag

Tot nu toe gebruiken we de tags gewoon als een heel beknopte samenvatting van documenten. Maar we kunnen het ook omdraaien: na het extraheren van alle tags, kunnen we aan elke tag de documenten koppelen die door deze tag worden beschreven. Zo kunnen we achteraf heel eenvoudig opvragen welke documenten bij een specifieke tag horen.

Hoe doen we dit? Daarvoor vervangen we de hele for-lus op het einde van het programma door de volgende code:

De code kun je bekijken in het bestand gptcode-dl3.txt, te downloaden via deze pagina.

We maken dus eerst een lege dictionary documents aan. Daarna lopen we weer door alle bestanden met hun overeenkomstige tekst. We vragen aan de OpenAI-API om de tags uit te tekst te extraheren en we normaliseren die. Voor elke tag bekijken we dan of die al in de dictionary zit. Zo nee, dan voegen we die toe met als bijbehorende waarde een lege lijst. Daarna voegen we het pad van het geanalyseerde document aan die tag toe.

Uiteindelijk wanneer we alle bestanden op deze manier hebben geanalyseerd, bevat de dictionary documents tags met een lijst van bijbehorende bestanden. Die laten we nu tag na tag zien. En zo weet je onmiddellijk welke documenten je nodig hebt als je meer over een onderwerp wilt weten!

Kijk welke documenten over specifieke tags gaan.

Volgende week maandag het vierde deel van deze reeks! Hierin laten we ChatGPT in Python teksten vertalen en geschreven opdrachten omzetten in een computertaal.

Lees ook:

▼ Volgende artikel
Waar voor je geld: vijf 5.1-surroundsets voor minder dan 300 euro
© ID.nl
Huis

Waar voor je geld: vijf 5.1-surroundsets voor minder dan 300 euro

Bij ID.nl zijn we gek op producten waar je niet de hoofdprijs voor betaalt. Daarom gaan we een paar keer per week op zoek naar zulke deals. Met de feestdagen voor de deur kijken we dit keer naar 5.1-surroundsets voor de woonkamer. Want wat is er nou leuker om je favoriete film of serie te kijken met supergoed geluid? Of bij het gamen? Voor minder dan 300 euro welteverstaan.

Een 5.1 speakerset is een geluidssysteem dat is opgebouwd uit zes verschillende luidsprekers. Het cijfer 5 staat voor de satellietluidsprekers: een middenkanaal voor spraak, twee speakers voorin (links en rechts) en twee speakers die je achter je plaatst. De .1 verwijst naar de subwoofer, die specifiek de lage bastonen voor zijn rekening neemt. Doordat deze luidsprekers rondom de luisterpositie worden geplaatst, komt het geluid vanuit verschillende richtingen op je af. Dit creëert een ruimtelijk effect waardoor je bij het kijken van films en series of het spelen van games wordt omringd door geluid.

Logitech Z906

Deze set is ontworpen om meerdere audiobronnen tegelijkertijd te kunnen verwerken. Je sluit tot zes apparaten aan, zoals een televisie, gameconsole of computer, via de beschikbare digitale optische, digitale coaxiale of analoge ingangen. De set beschikt over een bedieningsconsole die je stapelt bij je apparatuur en een draadloze afstandsbediening voor bediening vanaf de bank. Het systeem levert een continu vermogen van 500 watt en is THX-gecertificeerd, wat betekent dat het voldoet aan specifieke prestatie-eisen voor bioscoopgeluid. De decodering ondersteunt Dolby Digital en DTS-soundtracks. Naast de subwoofer krijg je vier satellietluidsprekers en een middenkanaal die je flexibel kunt plaatsen.

RMS of uitgangsvermogen?

Bij het vergelijken van specificaties kom je vaak de termen RMS en totaal uitgangsvermogen tegen, en het is slim om vooral op die eerste te letten. RMS staat voor het continue vermogen en geeft eerlijk weer wat de speakers constant kunnen leveren zonder dat het geluid vervormt. Je kunt het zien als de basissnelheid die een hardloper een uur lang volhoudt, terwijl het totaal uitgangsvermogen of piekvermogen slechts een korte sprint van enkele seconden is. Fabrikanten zetten dat hogere piekvermogen vaak groot op de doos als marketingmiddel, maar als je wilt weten hoe krachtig de set echt is tijdens een hele film, concert, serie of game, geeft de RMS-waarde je het meest betrouwbare beeld.

Sony HT-S40R

Bij dit systeem worden de achterste luidsprekers aangestuurd door een draadloze versterker, waardoor er geen kabels van de soundbar voorin de kamer naar achteren hoeven te lopen. De soundbar zelf beschikt over drie kanalen en werkt samen met de subwoofer en de twee achterspeakers voor de 5.1-weergave. Het totale uitgangsvermogen bedraagt 600 watt. Voor de connectiviteit maak je gebruik van HDMI ARC, een optische ingang of een analoge aansluiting. Daarnaast is er Bluetooth 5.0 aanwezig voor het streamen van audio vanaf mobiele apparaten. De soundbar kan aan de muur worden bevestigd of voor de televisie worden geplaatst.

Trust GXT 658 Tytan

Dit geluidssysteem is eigenlijk voornamelijk bedoeld voor games en in combinatie met een pc of gameconsole, waarbij de houten subwoofer het middelpunt vormt. De basweergave is gesynchroniseerd met geïntegreerde LED-verlichting die reageert op het ritme van het geluid. Het systeem schakelt automatisch naar een stand-by modus wanneer het niet in gebruik is. De set wordt geleverd met een afstandsbediening waarmee je onder andere de bas en het volume regelt. De kabels voor de achterste luidsprekers hebben een lengte van 8 meter, wat plaatsing in grotere ruimtes mogelijk maakt zonder verlengsnoeren. Het piekvermogen ligt op 180 watt.

Hisense AX5100G

Dit audiosysteem ondersteunt Dolby Atmos-technologie voor een ruimtelijke geluidsweergave. De set bestaat uit een soundbar, een losse subwoofer en twee achterluidsprekers. Met een totaal vermogen van 340 watt worden de verschillende frequenties verdeeld over de speakers. Je hebt de beschikking over diverse equalizer-modi, waaronder instellingen voor nieuws, film en games. Aansluiten op de televisie gaat via HDMI eARC, maar er zijn ook opties voor USB en een optische kabel. De achterspeakers plaats je achter de luisterpositie om het surround-effect van de 5.1-opstelling te completeren.

Sony HT-S20R

Je installeert dit systeem met een soundbar, subwoofer en twee bedrade achterspeakers. De soundbar verzorgt de linker-, rechter- en middenkanalen, terwijl de externe subwoofer de lage tonen voor zijn rekening neemt. Het systeem heeft een totaal vermogen van 400 watt en ondersteunt Dolby Digital. Via de USB-poort speel je audiobestanden direct af van een geheugenstick. Voor de verbinding met de televisie gebruik je HDMI ARC, maar als je televisie dit niet ondersteunt, zijn er optische en analoge ingangen beschikbaar. De set beschikt over diverse geluidsmodi die je met een knop op de afstandsbediening selecteert.

▼ Volgende artikel
AOC lanceert betaalbare 420Hz-gamingmonitor voor competitieve spelers
© AGON by AOC | KateStudio/Shutterstock
Huis

AOC lanceert betaalbare 420Hz-gamingmonitor voor competitieve spelers

AOC brengt met de Gaming 25G4KUR een monitor op de markt die volledig is afgestemd op competitieve gamers. Het 24,5-inch scherm haalt een verversingssnelheid tot 420 Hz en biedt snelle reactietijden, Adaptive-Sync en ergonomische instelmogelijkheden.

Supersnel beeld voor competitieve spelers

De AOC Gaming 25G4KUR (adviesprijs 259 euro) is bedoeld voor wie elke milliseconde telt. Dankzij een overklokte verversingssnelheid van 420 Hz (400 Hz standaard) en een responstijd tot 0,3 milliseconde reageert het scherm vrijwel direct op elke actie. Dat maakt hem geschikt voor snelle shooters, esports-toernooien en spelers die vloeiende bewegingen en minimale vertraging willen.

Het 24,5-inch formaat is populair onder professionele esports-spelers, omdat het speelveld overzichtelijk blijft zonder dat de ogen veel hoeven te bewegen. De Full HD-resolutie zorgt ervoor dat hoge framerates haalbaar zijn, zelfs met een middenklasse grafische kaart.

©AGON by AOC

Heldere kleuren en vloeiende beelden

De 25G4KUR gebruikt een Fast IPS-paneel met brede kijkhoeken en een kleurdekking van 121 procent sRGB. Het scherm is compatibel met NVIDIA G-SYNC. Adaptive-Sync, zorgt ervoor dat beelden vloeiend blijven zonder haperingen of tearing. DisplayHDR 400 biedt bovendien een iets hoger contrast en betere helderheid dan standaard SDR-monitoren.

Ontworpen voor urenlang gamen

AOC rust de monitor uit met functies die lange gamesessies comfortabeler moeten maken. De flicker-free achtergrondverlichting en blauwlichtreductie verminderen vermoeide ogen, terwijl de ergonomische standaard in hoogte verstelbaar is en kantel-, draai- en rotatiefuncties heeft. Via AOC's G-Menu-software kunnen spelers profielen aanmaken, instellingen aanpassen en de Low Input Lag-modus activeren.

MiniLED-monitor in januari

In januari 2026 brengt AOC nog een nieuw model uit: de Gaming U27G4XM. Deze 27-inch 4K-monitor gebruikt MiniLED-technologie met 1152 local dimming-zones en heeft een DisplayHDR 1000-certificering. Dankzij de hoge helderheid (1200 nits) en het diepe contrast biedt hij beeldkwaliteit die dicht in de buurt komt van OLED, maar zonder risico op inbranden. De U27G4XM krijgt een adviesprijs van 449 euro.