Deze Case-study neemt u mee op een boeiende reis door de ontwikkeling van een synthetische stem, bedoelt om niet alleen het internetlandschap zal verrijken, maar ook het leven van degenen die vertrouwen op tekst-naar-spraaktechnologie zal gaan verbeteren.
We zullen u meenemen door de belangrijkste stadia van ons project, waarbij we de technologische aspecten, ontwerpprocessen en de beslissingen belichten die hebben geleid tot succes van het initiatief. We willen graag onze ervaringen, successen en uitdagingen met u delen, en we hopen dat deze case-study zal bijdragen aan een breder begrip van hoe technologie kan worden ingezet om een meer inclusieve samenleving te creëren.
Onze voornaamste doelgroep omvat in principe alle Nederlanders die profijt hebben van de ondersteuning van een synthetische stem bij dagelijkse taken zoals informatie opnemen. Echter, onze specifieke focus ligt op de blinde en slechtziende gemeenschap in Nederland, die afhankelijk is van voorleesstemmen in hun dagelijkse leven.
Deze stemmen worden gebruikt voor diverse toepassingen, waaronder telefoons, computers en meer. Uiteindelijk willen we een positieve impact hebben op hun levenskwaliteit en hen in staat stellen om informatie toegankelijk en efficiënt te consumeren.
De aanleiding van dit project was de veroudering van de stemmen die jaren geleden zijn ontwikkeld en die tot op de dag van vandaag voornamelijk worden gebruikt door blinde en slechtziende mensen in Nederland. Deze stemmen, hoewel functioneel, voldoen niet meer aan de moderne standaarden van spraaktechnologie. De belangrijkste reden voor het voortdurende gebruik van deze stemmen leek simpelweg te zijn dat er geen goed toegankelijk alternatief beschikbaar was.
Daarnaast hebben we overwogen dat gebruikers mogelijk zo gewend zijn geraakt aan de stemmen die ze oorspronkelijk zijn gaan gebruiken, dat ze nu geen behoefte meer voelen om over te schakelen naar nieuwere, betere alternatieven. Om dit te onderzoeken en een dieper inzicht te verkrijgen, hebben we tijdens de gebruikersonderzoeken ook deze kwestie aan de orde gesteld.
Het project werd gestart op initiatief van Koninklijke Visio met ondersteuning van het SIDN fonds. Phoebe Ohayon en Maikel van der Wouden , namens Voice Branding, werkte nauw samen met Timon van Hasselt en Jesse Wienholts namens Visio. In het begin van het project was Maarten Lens-FitzGerald en de Nederlandse Spraak Coalitie betrokken.
Het project begon met een vooronderzoek naar de huidige oplossingen. We onderzochten welke stemmen momenteel beschikbaar zijn en welke het meest worden gebruikt. Naast het onderzoeken van de beschikbare stemmen, bekeken we ook hoe deze stemmen worden gebruikt door blinde en slechtziende mensen. We brachten de belangrijkste use-cases in kaart en onderzochten de verschillen en overeenkomsten tussen gebruikers met betrekking tot persoonlijke spraakinstellingen.
Dit deden we door in gesprek te gaan met gebruikers. Dit onderzoek is gebaseerd op menselijke inzichten, redeneringen en voorkeuren van gebruikers. De focus was hoofdzakelijk het verkrijgen van kwalitatieve informatie om te komen tot zinvolle inzichten en hypothesen.
We ontdekten dat sommige gebruikers de stem bijvoorbeeld 40% sneller hebben staan dan anderen, wat betekent dat een reader de tekst veel sneller voorleest in vergelijking met de normale spreeksnelheid. Het was echter opvallend om te leren dat lang niet alle gebruikers hun screenreader op een hogere snelheid hebben ingesteld. Daarnaast was het interessant om te ontdekken dat gebruikers soms wisselen van snelheid, afhankelijk van de soort content die zij op deze manier tot zich nemen. Ook hadden enkele gebruikers de pitch van hun stem aangepast om te zorgen dat de klank fijner in het gehoor ligt.
De meeste gebruikers werkten met VoiceOver, NVDA en JAWS. Deze software worden het meest gebruikt vanwege hun robuuste functionaliteit, brede compatibiliteit. NVDA is gratis en open-source, waardoor het toegankelijk is voor een breed publiek, inclusief mensen en organisaties met beperkte middelen. Xander en Claire zijn de meest gebruikte stemmen op dit moment.
Doormiddel van het documenteren en thematisch analyseren van de gebruikers interviews in het begin traject hebben de voorkeuren en behoeften van onze doelgroep zorgvuldig onderzocht om te identificeren waar ruimte was voor verbetering en innovatie:
Het project vorderde met een perceptie onderzoek om een goede stem te vinden voor onze eigen (nog te ontwikkelen) synthetische stem. Op basis van alle resultaten en onze kennis verkregen door het begin traject, zijn we opzoek gegaan naar stem acteurs die mee wilden werken aan dit onderzoek.
We hebben een grote hoeveelheid stemacteurs die ons geschikt leken uitgenodigd om auditie te doen. Uiteindelijk hebben we 12 verschillende stemacteurs geselecteerd. 6 mannen en 6 vrouwen. We hebben met hen auditiemateriaal opgenomen waarmee we zijn gaan testen met gebruikers.
Vervolgens zijn we de kwalitatieve gebruikerstesten gaan ontwikkelen. Alle stemmen zijn op verschillende manieren geëvalueerd door gebruikers. We hebben onderzoeksvragen gesteld aan gebruikers over het karakter van de stemmen, de emotie, perceptie en hun associatie op basis van het luisteren naar de samples.
Tijdens de sessies interacteren deelnemers met de auditiematerialen van de stemmen. We observeren hun gedrag en focussen op emotionele en functionele feedback. We vroegen de deelnemers om op verschillende vragen van de moderators te reageren en hun mening te delen.
In deze fase deden we (voorafgaand aan kwantitatief onderzoek) 10 gebruikers sessies van 60 minuten om directionele resultaten verkijgen. Het belangrijkste voor ons was begrijpen welke stemmen de gebruikers prefereerde en vooral waarom.
Als eerste namen we contact op met het voice talent over de resultaten en vroegen haar of ze nog steeds wilde meewerken aan het project. Vervolgens werden er opname sessies ingepland voor de opname van spraak data. Spraak data zijn gegevens waarmee we de uiteindelijke text-naar-spraak stem hebben ontwikkeld. Voordat we deze spraak data konden produceren moesten we eerst een wel-gebalanceerd opname script ontwikkelen. Hierna is de data in meerdere opnamesessies opgenomen in de studio, na-bewerkt en geprepareerd voor het trainen van een text-naar-spraak stem model.
Het proces begint dus met het verzamelen van spraakopnames van een menselijke spreker. Deze opnames dienen als basis voor de synthetische stem. Het is van cruciaal belang om een breed scala aan klanken, woorden en zinsconstructies vast te leggen om de stem zo veelzijdig mogelijk te maken.
Uiteindelijk hebben we meer dan 4 uur aan spraakdata opgenomen. De opnames zijn ge-edit en gemixt. We hebben er voor gezorgd dat er geen bijgeluiden en klikjes etc. in de audio zat. De uiteindelijk geselecteerde 4 uur aan spraak data is van topkwaliteit volgens alle metingen:
Origineel (Menselijk)
De (voorlopige) eindfase van dit project had de volgende hoofddoelstelling: Evaluatie. De TTS-stem hebben we getest en geëvalueerd met gebruikers. In deze gebruikerstesten lag de focus op technische evaluatie, spraakkwaliteit en verstaanbaarheid, natuurlijkheid, klankkleur, spreekstijl en functionaliteit. Om feedback te verzamelen betreffende deze aspecten en functionaliteit te meten, hebben we een prototype NVDA implementatie ontwikkeld waarmee getest kon worden. Dit in combinatie met beoordelingen door menselijke luisteraars heeft ons een voorzien van een geslaagd en leerzaam evaluatieproces.
We hebben getest met ons nieuw ontwikkelde live tekst naar spraak voice model. Gebruikers hebben de stem vergeleken met huidige screenreader stemmen en openbaar beschikbare tekst naar spraak stemmen van aanbieders zoals Microsoft, Readspeaker en Google.
Op basis van het gebruikersonderzoek waarin zeven deelnemers de TTS-stem Mechteld hebben geëvalueerd, kan worden geconcludeerd dat Mechteld overwegend positief is ontvangen, met enkele aandachtspunten voor verdere optimalisatie.
Positieve Bevindingen:
Verbeterpunten:
Specifieke Gebruikscontexten:
Gebruikersbereidheid en Potentie:
De meerderheid van de deelnemers gaf aan bereid te zijn om over te schakelen naar Mechteld zodra deze beschikbaar zou zijn, wat een sterke indicatie is van de potentie en bruikbaarheid van deze TTS-stem.
De TTS-stem Mechteld wordt door gebruikers overwegend positief beoordeeld als een natuurlijke, menselijk klinkende stem die goed presteert bij versnelde weergave en in complexe tekstscenario’s. Hoewel er enkele verbeterpunten zijn wat betreft uitspraak, punctuatie en interpunctie bij specifieke taken, toont het gebruikersonderzoek aan dat Mechteld een veelbelovende optie is voor toekomstige implementatie in TTS-toepassingen.
Na de succesvolle fases van ons onderzoek naar de TTS-stem Mechteld, willen we nu de volgende stap zetten: de stem beschikbaar maken voor blinde en slechtziende gebruikers. Ons doel is om Mechteld te integreren in technologieën en diensten die deze gebruikers dagelijks gebruiken, waardoor hun toegang tot informatie en zelfstandigheid aanzienlijk wordt verbeterd.
We zijn op zoek naar bedrijven en organisaties die met ons willen samenwerken om Mechteld te implementeren in diverse toepassingen zoals screenreaders, navigatiesystemen, en andere spraakondersteunende technologieën. Door onze krachten te bundelen, kunnen we een inclusievere samenleving creëren waarin blinde en slechtziende mensen dezelfde toegang hebben tot informatie en communicatie als ziende mensen.
Waar we samenwerking zoeken:
Hoe u kunt helpen:
Wij staan open voor verschillende vormen van samenwerking, waaronder:
Onze Missie
Door samen te werken, kunnen we ervoor zorgen dat Mechteld bijdraagt aan een betere dagelijkse ervaring van spraakondersteuning voor blinde en slechtziende mensen, waardoor zij op een prettigere manier toegang tot de maatschappij krijgen.
Bent u geïnteresseerd in een samenwerking of wilt u meer informatie? Neem dan contact met ons op.
Contact ons team persoonlijk voor meer informatie.
JesseWienholts@visio.org
timonvanhasselt@visio.org
phoebe@voicebranding.nl
maikel@voicebranding.nl
Info@stemvannederland.com
© Alle rechten voorbehouden