Stem van nederland logo
Transparent Header Menu

Inleiding

Deze Case-study neemt u mee op een boeiende reis door de ontwikkeling van een synthetische stem, bedoelt om niet alleen het internetlandschap zal verrijken, maar ook het leven van degenen die vertrouwen op tekst-naar-spraaktechnologie zal gaan verbeteren. 

We zullen u meenemen door de belangrijkste stadia van ons project, waarbij we de technologische aspecten, ontwerpprocessen en de beslissingen belichten die hebben geleid tot succes van het initiatief. We willen graag onze ervaringen, successen en uitdagingen met u delen, en we hopen dat deze case-study zal  bijdragen aan een breder begrip van hoe technologie kan worden ingezet om een meer inclusieve samenleving te creëren.

foto met spraakondersteuning man

Onze voornaamste doelgroep omvat in principe alle Nederlanders die profijt hebben van de ondersteuning van een synthetische stem bij dagelijkse taken zoals informatie opnemen. Echter, onze specifieke focus ligt op de blinde en slechtziende gemeenschap in Nederland, die afhankelijk is van voorleesstemmen in hun dagelijkse leven. 

Deze stemmen worden gebruikt voor diverse toepassingen, waaronder telefoons, computers en meer. Uiteindelijk willen we een positieve impact hebben op hun levenskwaliteit en hen in staat stellen om informatie toegankelijk en efficiënt te consumeren.

Doelstellingen

Onze doelstellingen zijn tweeledig en omvatten zowel onderzoek, aspecten als ontwikkeling en design aspecten.
  • Het in kaart brengen van huidige oplossingen en functionele behoeften en wensen van onze doelgroep.  Onderzoek naar de technische vereisten en zorgen die de doelgroep heeft met betrekking tot het gebruik van synthetische stemmen.
  • Het begrijpen van de emotionele behoeften en voorkeuren van de doelgroep, zodat de nog te ontwikkelen synthetische stem niet alleen functioneel, maar ook emotioneel aangenaam is om naar te luisteren.
  • Het vinden van een stem en spreekstijl die aansluit op de behoefte van gebruikers.
  • Het ontwikkelen van een eerste versie van een eigen text-to-speech.
  • De nieuw ontwikkelde stem testen en vergelijken met de stemmen die momenteel in gebruik zijn, en andere synthetische stemmen.

Project Aanleiding

De aanleiding van dit project was de veroudering van de stemmen die jaren geleden zijn ontwikkeld en die tot op de dag van vandaag voornamelijk worden gebruikt door blinde en slechtziende mensen in Nederland. Deze stemmen, hoewel functioneel, voldoen niet meer aan de moderne standaarden van spraaktechnologie. De belangrijkste reden voor het voortdurende gebruik van deze stemmen leek simpelweg te zijn dat er geen goed toegankelijk alternatief beschikbaar was.

Daarnaast hebben we overwogen dat gebruikers mogelijk zo gewend zijn geraakt aan de stemmen die ze oorspronkelijk zijn gaan gebruiken, dat ze nu geen behoefte meer voelen om over te schakelen naar nieuwere, betere alternatieven. Om dit te onderzoeken en een dieper inzicht te verkrijgen, hebben we tijdens de gebruikersonderzoeken ook deze kwestie aan de orde gesteld.

Het project werd gestart op initiatief van Koninklijke Visio met ondersteuning van het SIDN fonds. Phoebe Ohayon en Maikel van der Wouden , namens Voice Branding, werkte nauw samen met Timon van Hasselt en Jesse Wienholts namens Visio. In het begin van het project was Maarten Lens-FitzGerald en de Nederlandse Spraak Coalitie betrokken.

Begin Traject

Het project begon met een vooronderzoek naar de huidige oplossingen. We onderzochten welke stemmen momenteel beschikbaar zijn en welke het meest worden gebruikt. Naast het onderzoeken van de beschikbare stemmen, bekeken we ook hoe deze stemmen worden gebruikt door blinde en slechtziende mensen. We brachten de belangrijkste use-cases in kaart en onderzochten de verschillen en overeenkomsten tussen gebruikers met betrekking tot persoonlijke spraakinstellingen.

Dit deden we door in gesprek te gaan met gebruikers. Dit onderzoek is gebaseerd op menselijke inzichten, redeneringen en voorkeuren van gebruikers. De focus was hoofdzakelijk het verkrijgen van kwalitatieve informatie om te komen tot zinvolle inzichten en hypothesen. 

  • Het identificeren van de wensen van de gebruikers met betrekking tot de functionele aspecten van de synthetische stem.

  • Het onderzoeken van aspecten zoals spraaksnelheid, verstaanbaarheid, geluidskwaliteit en de spanningsboog.

  • Begrijpen hoe gebruikers de implementatie van deze stem in hun dagelijks leven ervaren en voorkeuren op dat gebied.
 
  • Het identificeren van emotionele verwachtingen en voorkeuren; geslacht, persoonlijkheid, leeftijd, accent, etniciteit, etc. 
  • Het begrijpen en definiëren van de gewenste stijlvorm en spreekstijl die toepasselijk is voor de belangrijkste use-cases. 
  • Onderzoeken wat de voorkeuren zijn op het gebied van menselijkheid en natuurlijkheid t.o.v. een synthetische stem.

 We ontdekten dat sommige gebruikers de stem bijvoorbeeld 40% sneller hebben staan dan anderen, wat betekent dat een reader de tekst veel sneller voorleest in vergelijking met de normale spreeksnelheid. Het was echter opvallend om te leren dat lang niet alle gebruikers hun screenreader op een hogere snelheid hebben ingesteld. Daarnaast was het interessant om te ontdekken dat gebruikers soms wisselen van snelheid, afhankelijk van de soort content die zij op deze manier tot zich nemen. Ook hadden enkele gebruikers de pitch van hun stem aangepast om te zorgen dat de klank fijner in het gehoor ligt.

De meeste gebruikers werkten met VoiceOver, NVDA en JAWS. Deze software worden het meest gebruikt vanwege hun robuuste functionaliteit, brede compatibiliteit.  NVDA is gratis en open-source, waardoor het toegankelijk is voor een breed publiek, inclusief mensen en organisaties met beperkte middelen. Xander en Claire zijn de meest gebruikte stemmen op dit moment.

Doormiddel van het documenteren en thematisch analyseren van de gebruikers interviews in het begin traject hebben de voorkeuren en behoeften van onze doelgroep zorgvuldig onderzocht om te identificeren waar ruimte was voor verbetering en innovatie:

  • Op het gebied van uitspraak: Betere uitspraak van woorden, namen, afkortingen etc.

  • Op het gebied van spreken: Een stem met een meer natuurlijke spreekstijl zou een grote verbetering zijn.

  • Op het gebied van kwaliteit: Betere hoogwaardige geluidskwaliteit is wenselijk zonder Artificiële geluiden en ruis.

  • Op het gebied van diversiteit: Er zijn er meer stemmen nodig om uit te kiezen.

  • Op het gebied van meertaligheid. Het zou fijn zijn als stemmen bijvoorbeeld Engelse woorden ook goed uitspreken in een tekst.
In dit project hebben we geprobeerd de meningen en ervaringen van gebruikers centraal te stellen. Om hierover te leren in deze fundamentele onderzoeksfase hebben we 13  interviews gedaan met gebruikers waarin we testjes deden met 11 verschillende, huidig beschikbare, text-naar-spraak stemmen. Uit dit onderzoek kwamen allerlei belangrijke thema’s en gebruikersvoorkeuren waaronder;
  • Lichte voorkeur voor vrouwenstemmen
  • Vloeiend en natuurlijk klinken is belangrijk.
  • Afwezigheid van een karakteristiek of regionaal accent is belangrijk.
  • Interpunctie (intonatie en pauzes) en spellingsfouten moeten hoorbaar zijn.
  • Gebruikers zouden controle willen over stijl en expressie in een stem voor verschillende use-cases. 
  • Brede implementatie en beschikbaarheid: Toegangelijk middels verschillende besturingssystemen en hardware. 
  • De stem moet goed om kunnen gaan met Engelse woorden in nederlandse teksten. 
  • De stem zou Engelse teksten moeten kunnen voorlezen met een goede uitspraak en dus multi-lingual zijn. 
  • Stemmen die gemaakt zijn m.b.v. Deep Neural Networks (DNN) zijn beter dan stemmen die ontwikkeld zijn middels Unit Selection techniek. 
  • Verstaanbaarheid en helderheid moet goed blijven bij het versnellen van de stem. 
  • Gebruikers hebben verschillende persoonlijke voorkeuren voor de snelheid instellingen van de stem. 
  • Gebruikers luisteren soms de hele dag naar een stem dus de stem moet niet teveel “presence” en energie hebben in het hoog frequency gebied want daar word je nogal moe van na een tijd. 
  • Gebruikers willen een stem met een warme ronde klank wat betreft timbre. 
  • Relatief timide expressie en variatie in ritme, intonatie en dynamiek wordt verlangt omdat het merendeel van gebruik vooral functioneel is.

Middenfase

Het project vorderde met een perceptie onderzoek om een goede stem te vinden voor onze eigen (nog te ontwikkelen) synthetische stem. Op basis van alle resultaten en onze kennis verkregen door het begin traject, zijn we opzoek gegaan naar stem acteurs die mee wilden werken aan dit onderzoek. 

We hebben een grote hoeveelheid stemacteurs die ons geschikt leken uitgenodigd om auditie te doen. Uiteindelijk hebben we 12 verschillende stemacteurs geselecteerd. 6 mannen en 6 vrouwen. We hebben met hen auditiemateriaal opgenomen waarmee we zijn gaan testen met gebruikers.

Vervolgens zijn we de kwalitatieve gebruikerstesten gaan ontwikkelen. Alle stemmen zijn op verschillende manieren geëvalueerd door gebruikers. We hebben onderzoeksvragen gesteld aan gebruikers over het karakter van de stemmen, de emotie, perceptie en hun associatie op basis van het luisteren naar de samples. 

Tijdens de sessies interacteren deelnemers met de auditiematerialen van de stemmen. We observeren hun gedrag en focussen op emotionele en functionele feedback. We vroegen de deelnemers om op verschillende vragen van de moderators te reageren en hun mening te delen. 

In deze fase deden we (voorafgaand aan kwantitatief onderzoek) 10 gebruikers sessies van 60 minuten om directionele resultaten verkijgen. Het belangrijkste voor ons was begrijpen welke stemmen de gebruikers prefereerde en vooral waarom.

Zoals eerder vermeld staan de meningen en ervaringen van gebruikers centraal in dit project. Ook uit het onderzoek in het midden traject kwamen allerlei belangrijke thema’s en gebruikersvoorkeuren waaronder;
  • Een aantal gebruikers gaf aan dat ze stemmen die ze goed vonden in deze kwalitatieve gebruikerstesten zouden prefereren boven de stem die ze op dit moment in gebruik hebben. Het andere deel van de gebruikers gaf aan dat ze stemmen die ze goed vonden voor een langere tijd zouden willen vergelijken met de stem die ze huidig in gebruik hebben om daarna te bepalen of ze de stem zouden willen vervangen.
  • Stem 10 was consistent de best scorende stem, ook toen er op een later moment nog een Enquête is uitgezet. Dit is uiteindelijk de stem geworden waarvan wij een synthetische versie hebben ontwikkeld.
  • De stemmen die casual overkwamen (alsof ze spraken zoals je normaal ook zou spreken wanneer je iemand tegenkomt op straat) in plaats van meer pretentieus werden het best gewaardeerd.
  • De betrouwbaarheid die mensen horen in een stem beïnvloed natuurlijk de beoordeling van een stem en hoe een stem overkomt, maar het lijkt geen sterke indicator voor voorkeur.
  • Uit de resultaten komt naar voren dat stemmen ouder dan 40 relatief beter lijken te scoren.
  • Uitspraak is natuurlijk belangrijk voor de voorkeur en beoordeling van een stem, maar het lijkt erop dat het vooral belangrijk is dat de uitspraak gewoon goed is. Perfectie en stijl, schoonheid en precisie lijkt niet te zorgen voor extra voorkeur.
  • De afwezigheid van een typerend accent lijkt nogal belangrijk voor een goede stem die door een brede doelgroep fijn gevonden wordt, maar totale afwezigheid versus een bijna niet hoorbaar of nogal licht accent lijkt geen verschil te maken.

Ontwerpproces

Als eerste namen we contact op met het voice talent over de resultaten en vroegen haar of ze nog steeds wilde meewerken aan het project. Vervolgens werden er opname sessies ingepland voor de opname van spraak data. Spraak data zijn gegevens waarmee we de uiteindelijke text-naar-spraak stem hebben ontwikkeld. Voordat we deze spraak data konden produceren moesten we eerst een wel-gebalanceerd opname script ontwikkelen. Hierna is de data in meerdere opnamesessies opgenomen in de studio, na-bewerkt en geprepareerd voor het trainen van een text-naar-spraak stem model.

Het proces begint dus met het verzamelen van spraakopnames van een menselijke spreker. Deze opnames dienen als basis voor de synthetische stem. Het is van cruciaal belang om een breed scala aan klanken, woorden en zinsconstructies vast te leggen om de stem zo veelzijdig mogelijk te maken.

Uiteindelijk hebben we meer dan 4 uur aan spraakdata opgenomen. De opnames zijn ge-edit en gemixt. We hebben er voor gezorgd dat er geen bijgeluiden en klikjes etc. in de audio zat. De uiteindelijk geselecteerde 4 uur aan spraak data is van topkwaliteit volgens alle metingen: 

  • Diversiteit: Goede mix van lange en korte zinnen. Algemene en context specifieke zinnen. Vraagzinen, statements etc.

  • Geluidskwaliteit: De SNR (signaal – noise verhouding) van de spraak data is van topkwaliteit.

  • Uitspraak: Ieder woord in de dataset was goed uitgesproken. De uitspraakscore gemeten met ASR (automatic speech recognition) modellen was zo goed als optimaal. Ook dit draagt bij aan een rijke dataset. 

Origineel (Menselijk)

TTS (Synthetisch)

Eindfase

De (voorlopige) eindfase van dit project had de volgende hoofddoelstelling: Evaluatie. De TTS-stem hebben we getest en geëvalueerd met gebruikers. In deze gebruikerstesten lag de focus op technische evaluatie, spraakkwaliteit en verstaanbaarheid, natuurlijkheid, klankkleur, spreekstijl en functionaliteit. Om feedback te verzamelen betreffende deze aspecten en functionaliteit te meten, hebben we een prototype NVDA implementatie ontwikkeld waarmee getest kon worden. Dit in combinatie met beoordelingen door menselijke luisteraars heeft ons een voorzien van een geslaagd en leerzaam evaluatieproces.

We hebben getest met ons nieuw ontwikkelde live tekst naar spraak voice model. Gebruikers hebben de stem vergeleken met huidige screenreader stemmen en openbaar beschikbare tekst naar spraak stemmen van aanbieders zoals Microsoft, Readspeaker en Google.

Op basis van het gebruikersonderzoek waarin zeven deelnemers de TTS-stem Mechteld hebben geëvalueerd, kan worden geconcludeerd dat Mechteld overwegend positief is ontvangen, met enkele aandachtspunten voor verdere optimalisatie.

Positieve Bevindingen:

  1. Natuurlijkheid en Menselijkheid: Veel deelnemers vonden Mechteld natuurlijker klinken dan andere stemmen. Vooral de glijdende uitspraak van klinkers en de intonatie werden als prettig en menselijk ervaren.
  2. Gebruiksgemak bij Versneld Tempo: Mechteld presteerde uitstekend bij hoge snelheden. De articulatie bleef goed en ze was duidelijker dan andere stemmen in deze context.
  3. Uitspraak van Engelse Termen: De stem presteerde relatief goed met Engelse woorden in Nederlandse teksten, wat een belangrijke factor is voor gebruikers die regelmatig tweetalige content beluisteren.
  4. Rust en Toonhoogte: De stem werd over het algemeen als rustig, warm, en gemoedelijk ervaren, zonder te hoog of te overheersend te klinken.
  5. Algemene Waardering: De scores varieerden van 7 tot 9.5, waarbij meerdere deelnemers aangaven dat ze de stem direct zouden installeren als deze beschikbaar was.

Verbeterpunten:

  1. Leeftijd en geslacht: Een enkele deelnemer vond de stem iets te oud klinken of had een specifieke voorkeur voor een mannenstem.
  2. Punctuatie: Sommige stukken konden nog wat natuurlijker klinken met betere afronding van zinnen en pauzes tussen getallenreeksen.
  3. Specifieke woorden: Er kwamen een aantal woorden en namen voorbij die qua uitspraak nog verbeterd kunnen worden met lexicons.
  4. Afkortingen: Wanneer mogelijk zouden afkortingen uitgesproken moeten worden afhankelijk van de context van de tekst.

Specifieke Gebruikscontexten:

  1. Navigatie en Nieuwsartikelen: Mechteld werd bijzonder goed beoordeeld voor navigatietoepassingen en het voorlezen van nieuwsartikelen.
  2. E-mails en Documenten: Bij complexe e-mails en juridische documenten werd de articulatie en intonatie zeer gewaardeerd, hoewel langere pauzes bij het voorlezen van getallenreeksen gewenst waren.

Gebruikersbereidheid en Potentie:

De meerderheid van de deelnemers gaf aan bereid te zijn om over te schakelen naar Mechteld zodra deze beschikbaar zou zijn, wat een sterke indicatie is van de potentie en bruikbaarheid van deze TTS-stem.

Eindresultaat

De TTS-stem Mechteld wordt door gebruikers overwegend positief beoordeeld als een natuurlijke, menselijk klinkende stem die goed presteert bij versnelde weergave en in complexe tekstscenario’s. Hoewel er enkele verbeterpunten zijn wat betreft uitspraak, punctuatie en interpunctie bij specifieke taken, toont het gebruikersonderzoek aan dat Mechteld een veelbelovende optie is voor toekomstige implementatie in TTS-toepassingen.

De volgende stap

Na de succesvolle fases van ons onderzoek naar de TTS-stem Mechteld, willen we nu de volgende stap zetten: de stem beschikbaar maken voor blinde en slechtziende gebruikers. Ons doel is om Mechteld te integreren in technologieën en diensten die deze gebruikers dagelijks gebruiken, waardoor hun toegang tot informatie en zelfstandigheid aanzienlijk wordt verbeterd.

We zijn op zoek naar bedrijven en organisaties die met ons willen samenwerken om Mechteld te implementeren in diverse toepassingen zoals screenreaders, navigatiesystemen, en andere spraakondersteunende technologieën. Door onze krachten te bundelen, kunnen we een inclusievere samenleving creëren waarin blinde en slechtziende mensen dezelfde toegang hebben tot informatie en communicatie als ziende mensen.

Waar we samenwerking zoeken:

  • Technologiebedrijven: Ontwikkelaars van screenreaders, navigatiesystemen, en andere spraakgestuurde technologieën.
  • Onderwijsinstellingen: Scholen en universiteiten die technologieën voor visueel gehandicapte studenten willen verbeteren.
  • Gezondheids- en Welzijnsorganisaties: Instellingen die werken met blinde en slechtziende mensen en hun zelfstandigheid willen vergroten.
  • Overheidsinstanties: Overheden die inclusiviteit en toegankelijkheid willen bevorderen binnen hun diensten en communicatie.

Hoe u kunt helpen:

Wij staan open voor verschillende vormen van samenwerking, waaronder:

  • Technische Integratie: Implementatie van Mechteld in uw bestaande systemen en technologieën.
  • Financiële Ondersteuning: Investeringen of subsidies om de verdere ontwikkeling en distributie van Mechteld te ondersteunen.

Onze Missie

Door samen te werken, kunnen we ervoor zorgen dat Mechteld bijdraagt aan een betere dagelijkse ervaring van spraakondersteuning voor blinde en slechtziende mensen, waardoor zij op een prettigere manier toegang tot de maatschappij krijgen.

Bent u geïnteresseerd in een samenwerking of wilt u meer informatie? Neem dan contact met ons op.

Contact

Info@stemvannederland.com

© Alle rechten voorbehouden