ID.nl logo
Zo krijg je stembesturing op de Raspberry Pi
© Reshift Digital
Huis

Zo krijg je stembesturing op de Raspberry Pi

Met slimme assistenten zoals Google Assistant, Amazon Echo en Apple geef je opdrachten met je stem. Leuk, maar je stemopnames worden wel naar de cloud gestuurd voor verwerking. Met een Raspberry Pi en de opensource-software Rhasspy kun je stembesturing volledig lokaal realiseren, zelfs zonder internet. Je stemopdrachten koppel je dan aan Node-RED of een domoticasysteem zoals Home Assistant, en dat zonder dat Google, Amazon of Apple de hele tijd meeluistert. Zelfs in het Nederlands.

1 Raspberry Pi

Rhasspy heeft minstens een Raspberry Pi 2 nodig, maar we raden toch minstens model 3 aan. Als je complexe zaken wilt gaan doen, is een Raspberry Pi 4 zelfs aan te raden. Daarnaast heb je ook een microfoon en luidspreker nodig. Deze workshop hebben we met de ReSpeaker 2 Mics pHAT van Seeed uitgeprobeerd. Deze prik je op de gpio-header van de Raspberry Pi. De HAT heeft twee microfoons ingebouwd en een luidspreker sluit je aan via de 3,5mm-audiojack of de JST2.0-stekker. Wij gebruiken die laatste, waarop we een 3inch-luidspreker van 8 ohm en 1 watt aansluiten.

2 Audiodrivers

We gaan ervan uit dat je op je Raspberry Pi al de nieuwste Raspbian hebt geïnstalleerd, en via ssh (of een toetsenbord en scherm) opdrachten kunt intypen. Als je de ReSpeaker 2 Mics pHAT of andere audiohardware van Seeed gebruikt, dien je eerst een driver te installeren. Dat doe je met deze drie opdrachten:

git clone https://github.com/respeaker/seeed-voicecardcd seeed-voicecardsudo ./install.sh

Herstart daarna je Raspberry Pi met sudo reboot. Als je daarna weer inlogt, zou je in de uitvoer van de commando’s arecord -l (de lijst van microfoons) en aplay -l (de lijst van luidsprekers) de ReSpeaker-hardware moeten zien.

©PXimport

3 Installeer Rhasspy

Rhasspy kun je installeren in een Docker-container, in een virtuele Python-omgeving of als een Hass.io-add-on voor Home Assistant. In deze workshop voeren we de installatie uit met Docker Compose. Volg onze basiscursus Docker op Raspberry Pi elders in dit nummer om Docker en Docker Compose te installeren, en maak het volgende bestand docker-compose.yml aan:

version: '3.7'services:rhasspy:image: rhasspy/rhasspy:2.5.0-precontainer_name: rhasspyrestart: alwaysvolumes:- /home/pi/containers/rhasspy/profiles:/profilesports:- 12101:12101devices:- /dev/snd:/dev/sndcommand: --user-profiles /profiles --profile nl

Bekijk op het forum van Rhasspy wat de nieuwste versie is en pas het image indien nodig aan. Op het moment van schrijven was dat rhasspy/rhasspy:2.5.0-pre.

©PXimport

4 Webinterface

Maak de Docker-container van Rhasspy met het commando docker-compose up -d. Nadat Rhasspy is opgestart, kun je de webinterface bereiken via http://IPADRES:12101 met in plaats van IPADRES het werkelijke ip-adres van je Raspberry Pi. Dat laatste kom je te weten met de opdracht ip a op je Pi. Kijk naar het ip-adres bij eth0 als je ethernet gebruikt of wlan0 als je wifi gebruikt. In de webinterface zie je rechts bovenaan in het blauw nl staan: dat is het teken dat Rhasspy het Nederlandse profiel gebruikt. Je ziet bovenaan ook een link naar de Getting Started Guide: de documentatie wordt gewoon door dezelfde webserver getoond.

©PXimport

5 Audio-instellingen

Klik links op het icoontje van de gereedschapskist. Je krijgt nu alle services van Rhasspy te zien en die zijn standaard allemaal uitgeschakeld. Rhasspy is eigenlijk een toolkit om een stemassistent mee te maken en voor elk van deze services heb je meerdere keuzes. Selecteer PyAudio bij Audio Recording, en aplay bij Audio Playing. Klik onderaan op Save Settings, waarna Rhasspy herstart. Klik op Audio Recording / Test en kies de microfoon, bijvoorbeeld seeed-2mic-voicecard. Klik op Audio Playing en Refresh en kies je luidspreker, bijvoorbeeld Direct hardware device without any conversions. Sla je wijzigingen nog eens op.

©PXimport

6 Kies een activatiewoord

In de volgende stap kies je een ‘wake word’: het woord dat je tegen Rhasspy dient te zeggen om je stemassistent te activeren. Selecteer Porcupine bij Wake Word en sla je wijzigingen op. Klik dan op Wake Word en Refresh. In de lijst voor de knop Refresh kun je nu uit een tiental activatiewoorden kiezen, zoals porcupine (de standaard) en hey pico. Als je je eigen activatiewoord wilt aanmaken, dan kan dat met de Picovoice Console. Maak een directory genaamd porcupine in je profielmap van Rhasspy en plaats het bestand daar. Daarna kun je het in de instellingen selecteren. Vergeet niet op Save Settings te klikken.

©PXimport

7 Spraak naar tekst en andersom

Stel Speech to Text in op Kaldi (als je een Raspberry Pi 4 hebt, want dit vraagt meer rekenkracht) of Pocketsphinx (voor eerdere modellen). Zet Text to Speech op Espeak en sla je wijzigingen op. Als je de pagina daarna ververst, krijg je de melding dat Rhasspy bestanden moet downloaden. De speech-to-text-engine heeft immers een akoestisch model en basiswoordenboek nodig. Klik bovenaan op Download. Als alles gedownload is, krijg je de melding Training Profile. Je krijgt ook de melding dat Rhasspy niet zeker is van enkele woorden hoe het die moet uitspreken.

©PXimport

8 Woordenboek

Klik op View bij de melding over onbekende woorden of klik in de zijbalk links op het icoontje met de twee aanhalingstekens. Rhasspy heeft al een gok gedaan over de uitspraak van de onbekende woorden, door er hun fonetische transcriptie bij te zetten. Klik op check to be sure om de beschikbare fonemen te bekijken. Klopt er iets niet, pas dit dan aan. Klik tot slot op Confirm Guesses. De woorden worden dan samen met hun uitspraak toegevoegd aan je lijst met Custom Words. Merk je later dat je een verkeerde uitspraak hebt toegevoegd, dan kun je deze altijd op deze pagina nog aanpassen.

©PXimport

9 Je bedoeling herkennen

Dan rest er nog één component die we moeten instellen: Intent Recognition. Stel die in op Fsticuffs en sla je wijzigingen op. Na de herstart zou Rhasspy je opdrachten moeten herkennen. Welke zinnen Rhasspy exact herkent, vind je op de pagina Sentences. De inhoud daarvan heeft de syntaxis van een ini-bestand, en elke sectie is een ‘intent’ of bedoeling. Bekijk bijvoorbeeld de regel [GetTime] met daarna de regel hoe laat is het. Dat betekent: als je de zin “hoe laat is het” uitspreekt, verstaat Rhasspy dit als de bedoeling GetTime. Je kunt hier ook complexere regels invullen, op de pagina staat een link naar de volledige syntaxis.

©PXimport

10 Test!

Ga nu naar de pagina Test en typ een van de zinnen uit de pagina Sentences in het tekstveld naast Recognize. Klik op de knop ernaast. Als je bijvoorbeeld “zet de woonkamerlamp aan” invoert, verschijnt er na een druk op de knop ChangeLightState onder, de waarde woonkamerlamp bij het slot name en de waarde aan bij het slot state. Als je op Show JSON klikt, krijg je gedetailleerdere informatie over wat Rhasspy herkent. Als dit werkt, is de ultieme test het daadwerkelijk uitspreken: spreek het activatiewoord uit (bijvoorbeeld “hey pico”) en daarna je zin. Als alles goed gaat, toont de testpagina nu je woorden in tekst, inclusief de herkende intent en slots.

©PXimport

Rhasspy verstaat me niet!

Het succes van Rhasspy hangt van allerlei factoren af. Allereerst van de kwaliteit van je microfoon. De hier voorgestelde ReSpeaker 2 Mics pHAT is oké, maar geen hoogvlieger en hij heeft een beperkt bereik. Vermijd ook stoorzenders zoals achtergrondgeluid. Als Rhasspy moeilijk je activatiewoord (wake word) verstaat, probeer dan een ander uit (een zelfgetraind activatiewoord werkt het best). Als Rhasspy je opdrachten na het activatiewoord moeilijk verstaat, probeer dan eens een andere speech-to-text engine. Als het daarna echt nog niet goed werkt, overweeg dan om naar het Engels over te schakelen: de spraaktechnologie voor het Engels werkt doorgaans beter dan die voor het Nederlands.

©PXimport

11 Actie!

Rhasspy herkent nu wat je zegt en achterhaalt de bedoeling daarachter, maar doet er nog niets mee. Gelukkig ondersteunt Rhasspy diverse manieren om op je ‘intents’ te reageren. Standaard stuurt Rhasspy bij het herkennen van een intent een event met JSON-code uit via een WebSocket. Je kunt dan in een ander programma naar deze WebSocket-events luisteren en daarop reageren. Een handig programma daarvoor is Node-RED, dat je ook eenvoudig op je Raspberry Pi met Docker installeert.

©PXimport

12 WebSockets

Kies in Node-RED uit het palet links onder het kopje network een node websocket in en versleep die naar de werkruimte in het midden. Dubbelklik erop, laat het type op Listen on staan en klik bij Path op het icoontje van het potlood naast Add new websocket-listener. Vul bij Path de url ws://rhasspy:12101/api/events/intent in, of vervang rhasspy in de url door de hostname of het ip-adres van je Raspberry Pi als je Node-RED op een andere computer hebt draaien. Laat Send/Receive op payload staan en klik op Add. Geef dan je node websocket in een naam en klik op Done.

13 Debug

Sleep nu een node debug (in het onderdeel common helemaal bovenaan) naar de werkruimte. Verbind het rechtse grijze vakje van je websocket-node met het linkse grijze vakje van de debug-node. Klik dan op Deploy om je flow in Node-RED uit te rollen. Klik nu op het menu helemaal rechts bovenaan en dan op View / Debug messages. Rechts krijg je nu alle boodschappen van de debug-node te zien. Als je nu tegen Rhasspy praat en die de intent herkent, krijg je in het debug-venster de JSON-code van de intent te zien.

©PXimport

14 Van string naar object

Maar eerst dienen we de JSON-string (een reeks tekens) naar een JSON-object om te zetten. Sleep een node json uit het onderdeel parser en plaats die tussen de websocket- en debug-nodes. Daarvoor dien je de bestaande verbindingen te verwijderen (selecteer en druk op Delete) en nieuwe verbindingen te maken. Als je nu weer op Deploy klikt en tegen Rhasspy praat, zie je in het debug-venster de intent in de vorm van een object in plaats van een string. Onderdelen kun je nu uitklappen, bijvoorbeeld het deelobject intent met daaronder name die de naam van de herkende intent bevat, zoals “GetTime”.

©PXimport

15 Wat zei je?

Hang nu een node switch (uit function) achter de json-node en dubbelklik erop. Vul bij Property de eigenschap msg.payload.intent.name in en vul bij de regel onderaan achter == niets in, omdat een niet herkende zin een intent zonder naam krijgt. Klik op Done. Voeg achter de switch-node een node change (uit function) toe, dubbelklik erop en zet de payload op Wat zei je?. Geef de node eventueel een naam en klik op Done. Hang achter deze node een node http request (uit network), verander de methode naar POST en vul bij de url http://rhasspy:12101/api/text-to-speech in. Klik op Done en dan Deploy.

©PXimport

16 Intents herkennen

Als je nu iets zegt dat Rhasspy niet verstaat, antwoordt hij “Wat zei je?”. Door nu aan de switch andere regels toe te voegen, kun je voor elke herkende intent een andere actie laten uitvoeren. Klik in de eigenschappen van de switch-node op het knopje +add onderaan om een regel toe te voegen en vul in het veld na het isgelijkteken GetTime in. Er verschijnt nu een extra uitgang aan de switch-node. Hang daar een node function (in het onderdeel function) achter en verbind die ook met je http request. Dubbelklik op de intent en geef die de naam GetTime.

©PXimport

17 Hoe laat is het?

In de function-node schrijf je een javascript-functie, die de tijd uitvoer als een tekst, die door de http request aan Rhasspy wordt doorgegeven om uit te spreken. In die functie maak je eerst een variabele timeString, waaraan je de uitvoer van de methode toLocaleTimeString op een nieuw Date-object toekent. Op het einde van de functie geef je de payload terug, waaraan je de string “Het is” en de tijd toekent. In die tijd vervang je de dubbele punt (:) door de string “ uur “. Als je deze node nu opslaat en de flow uitvoert via Deploy, antwoordt Rhasspy je op je vraag hoe laat het is.

©PXimport

18 Slots

GetTime is een eenvoudige intent, maar complexere intents zoals ChangeLightState bevatten ook slots. Die kun je eenvoudig uit de JSON-code halen in Node-RED. Voeg een nieuwe regel in de switch-node toe en test op ChangeLightState. Hang hieraan een node template (in het onderdeel function) en verbind die ook weer met de http request. Vul in het tekstveld template de code Ik zet de {{ payload.slots.name }} {{ payload.slots.state }} in. Hiermee antwoordt Rhasspy je “Ik zet de woonkamerlamp aan”, als je “Zet de woonkamerlamp aan” vraagt, en hetzelfde voor andere apparaten en toestanden die voor de intent zijn gedefinieerd.

©PXimport

19 Apparaten aansturen

Uiteraard kun je Rhasspy op deze manier ook acties laten uitvoeren, zoals je lampen daadwerkelijk in- en uitschakelen. Hoe dat precies gebeurt, hangt af van wat voor lampen je hebt en welke API deze aanbieden. Voor een REST API gebruik je een http request, voor apparaten die MQTT spreken gebruik je mqtt out en definieer je een mqtt-broker. Uiteraard kun je ook allerlei nodes toevoegen voor extra functionaliteit en dan kun je zo bijvoorbeeld je Philips Hue-lampen via spraak aansturen.

©PXimport

20 En verder

Rhasspy is een heel flexibel systeem voor spraakbesturing. Bijna elk onderdeel kun je wel vervangen of aanpassen. Bekijk zeker de interne documentatie van je installatie. We hebben ons in deze workshop gefocust op de integratie met Node-RED, maar ook met het domoticasysteem Home Assistant is er een uitstekende integratie. Via de http en de WebSocket API en MQTT-boodschappen die het Hermes-protocol volgen, kun je bovendien in principe elk systeem met Rhasspy koppelen. Bezoek zeker ook het Rhasspy-forum waar een behulpzame community actief is.

©PXimport

Meerdere apparaten met Rhasspy

Je kunt Rhasspy ook op meerdere Raspberry Pi’s verspreid in je huis installeren. Eén Raspberry Pi is dan de base of master, en die neemt de spraakherkenning, spraaksynthese en herkenning van de intents op zich. Op de andere Raspberry Pi’s (dat kunnen zelfs Raspberry Pi Zero’s zijn) activeer je alleen de audioverwerking van de microfoon en luidspreker en de herkenning van het wake word. Je spreekt dan tegen een van de satellieten, die herkent het activatiewoord en stuurt je audioboodschap naar de base, die er een intent in herkent. Als je Node-RED-flow dan een antwoord naar de spraaksynthese stuurt, wordt die audio op zijn beurt naar de luidspreker van de juiste satelliet gestuurd.

©PXimport

▼ Volgende artikel
Waar voor je geld: vijf 5.1-surroundsets voor minder dan 300 euro
© ID.nl
Huis

Waar voor je geld: vijf 5.1-surroundsets voor minder dan 300 euro

Bij ID.nl zijn we gek op producten waar je niet de hoofdprijs voor betaalt. Daarom gaan we een paar keer per week op zoek naar zulke deals. Met de feestdagen voor de deur kijken we dit keer naar 5.1-surroundsets voor de woonkamer. Want wat is er nou leuker om je favoriete film of serie te kijken met supergoed geluid? Of bij het gamen? Voor minder dan 300 euro welteverstaan.

Een 5.1 speakerset is een geluidssysteem dat is opgebouwd uit zes verschillende luidsprekers. Het cijfer 5 staat voor de satellietluidsprekers: een middenkanaal voor spraak, twee speakers voorin (links en rechts) en twee speakers die je achter je plaatst. De .1 verwijst naar de subwoofer, die specifiek de lage bastonen voor zijn rekening neemt. Doordat deze luidsprekers rondom de luisterpositie worden geplaatst, komt het geluid vanuit verschillende richtingen op je af. Dit creëert een ruimtelijk effect waardoor je bij het kijken van films en series of het spelen van games wordt omringd door geluid.

Logitech Z906

Deze set is ontworpen om meerdere audiobronnen tegelijkertijd te kunnen verwerken. Je sluit tot zes apparaten aan, zoals een televisie, gameconsole of computer, via de beschikbare digitale optische, digitale coaxiale of analoge ingangen. De set beschikt over een bedieningsconsole die je stapelt bij je apparatuur en een draadloze afstandsbediening voor bediening vanaf de bank. Het systeem levert een continu vermogen van 500 watt en is THX-gecertificeerd, wat betekent dat het voldoet aan specifieke prestatie-eisen voor bioscoopgeluid. De decodering ondersteunt Dolby Digital en DTS-soundtracks. Naast de subwoofer krijg je vier satellietluidsprekers en een middenkanaal die je flexibel kunt plaatsen.

RMS of uitgangsvermogen?

Bij het vergelijken van specificaties kom je vaak de termen RMS en totaal uitgangsvermogen tegen, en het is slim om vooral op die eerste te letten. RMS staat voor het continue vermogen en geeft eerlijk weer wat de speakers constant kunnen leveren zonder dat het geluid vervormt. Je kunt het zien als de basissnelheid die een hardloper een uur lang volhoudt, terwijl het totaal uitgangsvermogen of piekvermogen slechts een korte sprint van enkele seconden is. Fabrikanten zetten dat hogere piekvermogen vaak groot op de doos als marketingmiddel, maar als je wilt weten hoe krachtig de set echt is tijdens een hele film, concert, serie of game, geeft de RMS-waarde je het meest betrouwbare beeld.

Sony HT-S40R

Bij dit systeem worden de achterste luidsprekers aangestuurd door een draadloze versterker, waardoor er geen kabels van de soundbar voorin de kamer naar achteren hoeven te lopen. De soundbar zelf beschikt over drie kanalen en werkt samen met de subwoofer en de twee achterspeakers voor de 5.1-weergave. Het totale uitgangsvermogen bedraagt 600 watt. Voor de connectiviteit maak je gebruik van HDMI ARC, een optische ingang of een analoge aansluiting. Daarnaast is er Bluetooth 5.0 aanwezig voor het streamen van audio vanaf mobiele apparaten. De soundbar kan aan de muur worden bevestigd of voor de televisie worden geplaatst.

Trust GXT 658 Tytan

Dit geluidssysteem is eigenlijk voornamelijk bedoeld voor games en in combinatie met een pc of gameconsole, waarbij de houten subwoofer het middelpunt vormt. De basweergave is gesynchroniseerd met geïntegreerde LED-verlichting die reageert op het ritme van het geluid. Het systeem schakelt automatisch naar een stand-by modus wanneer het niet in gebruik is. De set wordt geleverd met een afstandsbediening waarmee je onder andere de bas en het volume regelt. De kabels voor de achterste luidsprekers hebben een lengte van 8 meter, wat plaatsing in grotere ruimtes mogelijk maakt zonder verlengsnoeren. Het piekvermogen ligt op 180 watt.

Hisense AX5100G

Dit audiosysteem ondersteunt Dolby Atmos-technologie voor een ruimtelijke geluidsweergave. De set bestaat uit een soundbar, een losse subwoofer en twee achterluidsprekers. Met een totaal vermogen van 340 watt worden de verschillende frequenties verdeeld over de speakers. Je hebt de beschikking over diverse equalizer-modi, waaronder instellingen voor nieuws, film en games. Aansluiten op de televisie gaat via HDMI eARC, maar er zijn ook opties voor USB en een optische kabel. De achterspeakers plaats je achter de luisterpositie om het surround-effect van de 5.1-opstelling te completeren.

Sony HT-S20R

Je installeert dit systeem met een soundbar, subwoofer en twee bedrade achterspeakers. De soundbar verzorgt de linker-, rechter- en middenkanalen, terwijl de externe subwoofer de lage tonen voor zijn rekening neemt. Het systeem heeft een totaal vermogen van 400 watt en ondersteunt Dolby Digital. Via de USB-poort speel je audiobestanden direct af van een geheugenstick. Voor de verbinding met de televisie gebruik je HDMI ARC, maar als je televisie dit niet ondersteunt, zijn er optische en analoge ingangen beschikbaar. De set beschikt over diverse geluidsmodi die je met een knop op de afstandsbediening selecteert.

▼ Volgende artikel
AOC lanceert betaalbare 420Hz-gamingmonitor voor competitieve spelers
© AGON by AOC | KateStudio/Shutterstock
Huis

AOC lanceert betaalbare 420Hz-gamingmonitor voor competitieve spelers

AOC brengt met de Gaming 25G4KUR een monitor op de markt die volledig is afgestemd op competitieve gamers. Het 24,5-inch scherm haalt een verversingssnelheid tot 420 Hz en biedt snelle reactietijden, Adaptive-Sync en ergonomische instelmogelijkheden.

Supersnel beeld voor competitieve spelers

De AOC Gaming 25G4KUR (adviesprijs 259 euro) is bedoeld voor wie elke milliseconde telt. Dankzij een overklokte verversingssnelheid van 420 Hz (400 Hz standaard) en een responstijd tot 0,3 milliseconde reageert het scherm vrijwel direct op elke actie. Dat maakt hem geschikt voor snelle shooters, esports-toernooien en spelers die vloeiende bewegingen en minimale vertraging willen.

Het 24,5-inch formaat is populair onder professionele esports-spelers, omdat het speelveld overzichtelijk blijft zonder dat de ogen veel hoeven te bewegen. De Full HD-resolutie zorgt ervoor dat hoge framerates haalbaar zijn, zelfs met een middenklasse grafische kaart.

©AGON by AOC

Heldere kleuren en vloeiende beelden

De 25G4KUR gebruikt een Fast IPS-paneel met brede kijkhoeken en een kleurdekking van 121 procent sRGB. Het scherm is compatibel met NVIDIA G-SYNC. Adaptive-Sync, zorgt ervoor dat beelden vloeiend blijven zonder haperingen of tearing. DisplayHDR 400 biedt bovendien een iets hoger contrast en betere helderheid dan standaard SDR-monitoren.

Ontworpen voor urenlang gamen

AOC rust de monitor uit met functies die lange gamesessies comfortabeler moeten maken. De flicker-free achtergrondverlichting en blauwlichtreductie verminderen vermoeide ogen, terwijl de ergonomische standaard in hoogte verstelbaar is en kantel-, draai- en rotatiefuncties heeft. Via AOC's G-Menu-software kunnen spelers profielen aanmaken, instellingen aanpassen en de Low Input Lag-modus activeren.

MiniLED-monitor in januari

In januari 2026 brengt AOC nog een nieuw model uit: de Gaming U27G4XM. Deze 27-inch 4K-monitor gebruikt MiniLED-technologie met 1152 local dimming-zones en heeft een DisplayHDR 1000-certificering. Dankzij de hoge helderheid (1200 nits) en het diepe contrast biedt hij beeldkwaliteit die dicht in de buurt komt van OLED, maar zonder risico op inbranden. De U27G4XM krijgt een adviesprijs van 449 euro.