Stem van nederland logo
Transparent Header Menu

Inleiding

Deze Case-study neemt u mee op een boeiende reis door de ontwikkeling van een synthetische stem, bedoelt om niet alleen het internetlandschap zal verrijken, maar ook het leven van degenen die vertrouwen op tekst-naar-spraaktechnologie zal gaan verbeteren. 

We zullen u meenemen door de belangrijkste stadia van ons project, waarbij we de technologische aspecten, ontwerpprocessen en de beslissingen belichten die hebben geleid tot succes van het initiatief. We willen graag onze ervaringen, successen en uitdagingen met u delen, en we hopen dat deze case-study zal  bijdragen aan een breder begrip van hoe technologie kan worden ingezet om een meer inclusieve samenleving te creëren.

Onze voornaamste doelgroep omvat in principe alle Nederlanders die profijt hebben van de ondersteuning van een synthetische stem bij dagelijkse taken zoals informatie opnemen. Echter, onze specifieke focus ligt op de blinde en slechtziende gemeenschap in Nederland, die afhankelijk is van voorleesstemmen in hun dagelijkse leven. 

Deze stemmen worden gebruikt voor diverse toepassingen, waaronder telefoons, computers en meer. Uiteindelijk willen we een positieve impact hebben op hun levenskwaliteit en hen in staat stellen om informatie toegankelijk en efficiënt te consumeren.

Doelstellingen

Onze doelstellingen zijn tweeledig en omvatten zowel onderzoek, aspecten als ontwikkeling en design aspecten.

  • Het in kaart brengen van huidige oplossingen en functionele behoeften en wensen van onze doelgroep.  Onderzoek naar de technische vereisten en zorgen die de doelgroep heeft met betrekking tot het gebruik van synthetische stemmen.

  • Het begrijpen van de emotionele behoeften en voorkeuren van de doelgroep, zodat de nog te ontwikkelen synthetische stem niet alleen functioneel, maar ook emotioneel aangenaam is om naar te luisteren.

  • Het vinden van een stem en spreekstijl die aansluit op de behoefte van gebruikers.

  • Het ontwikkelen van een eerste versie van een eigen text-to-speech.

  • De nieuw ontwikkelde stem testen en vergelijken met de stemmen die momenteel in gebruik zijn, en andere synthetische stemmen.

Project Aanleiding

De aanleiding van dit project was de veroudering van de stemmen die jaren geleden zijn ontwikkeld en die tot op de dag van vandaag voornamelijk worden gebruikt door blinde en slechtziende mensen in Nederland. Deze stemmen, hoewel functioneel, voldoen niet meer aan de moderne standaarden van spraaktechnologie. De belangrijkste reden voor het voortdurende gebruik van deze stemmen leek simpelweg te zijn dat er geen goed toegankelijk alternatief beschikbaar was.

Daarnaast hebben we overwogen dat gebruikers mogelijk zo gewend zijn geraakt aan de stemmen die ze oorspronkelijk zijn gaan gebruiken, dat ze nu geen behoefte meer voelen om over te schakelen naar nieuwere, betere alternatieven. Om dit te onderzoeken en een dieper inzicht te verkrijgen, hebben we tijdens de gebruikersonderzoeken ook deze kwestie aan de orde gesteld.

Het project werd gestart op initiatief van Koninklijke Visio met ondersteuning van het SIDN fonds. Phoebe Ohayon en Maikel van der Wouden , namens Voice Branding, werkte nauw samen met Timon van Hasselt en Jesse Wienholts namens Visio. In het begin van het project was Maarten Lens-FitzGerald en de Nederlandse Spraak Coalitie betrokken.

Begin Traject

Het project begon met een vooronderzoek naar de huidige oplossingen. We onderzochten welke stemmen momenteel beschikbaar zijn en welke het meest worden gebruikt. Naast het onderzoeken van de beschikbare stemmen, bekeken we ook hoe deze stemmen worden gebruikt door blinde en slechtziende mensen. We brachten de belangrijkste use-cases in kaart en onderzochten de verschillen en overeenkomsten tussen gebruikers met betrekking tot persoonlijke spraakinstellingen.

Dit deden we door in gesprek te gaan met gebruikers. Dit onderzoek is gebaseerd op menselijke inzichten, redeneringen en voorkeuren van gebruikers. De focus was hoofdzakelijk het verkrijgen van kwalitatieve informatie om te komen tot zinvolle inzichten en hypothesen. 

  • Het identificeren van de wensen van de gebruikers met betrekking tot de functionele aspecten van de synthetische stem.

  • Het onderzoeken van aspecten zoals spraaksnelheid, verstaanbaarheid, geluidskwaliteit en de spanningsboog.

  • Begrijpen hoe gebruikers de implementatie van deze stem in hun dagelijks leven ervaren en voorkeuren op dat gebied.
 
  • Het identificeren van emotionele verwachtingen en voorkeuren; geslacht, persoonlijkheid, leeftijd, accent, etniciteit, etc.

  • Het begrijpen en definiëren van de gewenste stijlvorm en spreekstijl die toepasselijk is voor de belangrijkste use-cases.

  • Onderzoeken wat de voorkeuren zijn op het gebied van menselijkheid en natuurlijkheid t.o.v. een synthetische stem.

 We ontdekten dat sommige gebruikers de stem bijvoorbeeld 40% sneller hebben staan dan anderen, wat betekent dat een reader de tekst veel sneller voorleest in vergelijking met de normale spreeksnelheid. Het was echter opvallend om te leren dat lang niet alle gebruikers hun screenreader op een hogere snelheid hebben ingesteld. Daarnaast was het interessant om te ontdekken dat gebruikers soms wisselen van snelheid, afhankelijk van de soort content die zij op deze manier tot zich nemen. Ook hadden enkele gebruikers de pitch van hun stem aangepast om te zorgen dat de klank fijner in het gehoor ligt.

De meeste gebruikers werkten met VoiceOver, NVDA en JAWS. Deze software worden het meest gebruikt vanwege hun robuuste functionaliteit, brede compatibiliteit.  NVDA is gratis en open-source, waardoor het toegankelijk is voor een breed publiek, inclusief mensen en organisaties met beperkte middelen. Xander en Claire zijn de meest gebruikte stemmen op dit moment.

Doormiddel van het documenteren en thematisch analyseren van de gebruikers interviews in het begin traject hebben de voorkeuren en behoeften van onze doelgroep zorgvuldig onderzocht om te identificeren waar ruimte was voor verbetering en innovatie:

  • Op het gebied van uitspraak: Betere uitspraak van woorden, namen, afkortingen etc.

  • Op het gebied van spreken: Een stem met een meer natuurlijke spreekstijl zou een grote verbetering zijn.

  • Op het gebied van kwaliteit: Betere hoogwaardige geluidskwaliteit is wenselijk zonder Artificiële geluiden en ruis.

  • Op het gebied van diversiteit: Er zijn er meer stemmen nodig om uit te kiezen.

  • Op het gebied van meertaligheid. Het zou fijn zijn als stemmen bijvoorbeeld Engelse woorden ook goed uitspreken in een tekst.

In dit project hebben we geprobeerd de meningen en ervaringen van gebruikers centraal te stellen. Om hierover te leren in deze fundamentele onderzoeksfase hebben we 13  interviews gedaan met gebruikers waarin we testjes deden met 11 verschillende, huidig beschikbare, text-naar-spraak stemmen. Uit dit onderzoek kwamen allerlei belangrijke thema’s en gebruikersvoorkeuren waaronder;

  • Lichte voorkeur voor vrouwenstemmen

  • Vloeiend en natuurlijk klinken is belangrijk.

  • Afwezigheid van een karakteristiek of regionaal accent is belangrijk.

  • Interpunctie (intonatie en pauzes) en spellingsfouten moeten hoorbaar zijn.

  • Gebruikers zouden controle willen over stijl en expressie in een stem voor verschillende use-cases.

  • Brede implementatie en beschikbaarheid: Toegangelijk middels verschillende besturingssystemen en hardware.

  • De stem moet goed om kunnen gaan met Engelse woorden in nederlandse teksten.

  • De stem zou Engelse teksten moeten kunnen voorlezen met een goede uitspraak en dus multi-lingual zijn.

  • Stemmen die gemaakt zijn m.b.v. Deep Neural Networks (DNN) zijn beter dan stemmen die ontwikkeld zijn middels Unit Selection techniek.

  • Verstaanbaarheid en helderheid moet goed blijven bij het versnellen van de stem.

  • Gebruikers hebben verschillende persoonlijke voorkeuren voor de snelheid instellingen van de stem.

  • Gebruikers luisteren soms de hele dag naar een stem dus de stem moet niet teveel “presence” en energie hebben in het hoog frequency gebied want daar word je nogal moe van na een tijd.

  • Gebruikers willen een stem met een warme ronde klank wat betreft timbre.

  • Relatief timide expressie en variatie in ritme, intonatie en dynamiek wordt verlangt omdat het merendeel van gebruik vooral functioneel is.

Contact

Info@stemvannederland.com

© Alle rechten voorbehouden