Siri, de spraakcomputer van Apple, roept ergernis op omdat hij gebruikers niet altijd verstaat en daardoor niet doet wat zij willen. In de nabije toekomst kunnen, dankzij het promotieonderzoek van Bea van Meerveld, slimmere ‘Siri’s’ leren om net zo goed te luisteren als een mens: “Spraakherkenningsoftware zal dan minder fouten maken omdat zij achtergrondruis beter kan filteren. Ze zal zelfs de spraak van twee mensen, die door elkaar heen praten, apart kunnen analyseren.”
Docente en onderzoeker bij logopedie Bea van Meerveld (37) onderzocht in samenwerking met de afdeling Kunstmatige Intelligentie van de Rijksuniversiteit Groningen hoe spraakcomputers kunnen worden verbeterd. Hoewel moderne spraakherkenners veel sneller zijn dan hun voorgangers zitten qua technische mogelijkheden aan hun plafond. “De huidige systemen doen hun werk redelijk onder ideale omstandigheden. Is er sprake van meer dan één spreker of bijgeluiden, dan raakt de computer in de war.”
Google Maps
Software die spraak herkent werkt met grote databases en brute rekenkracht. Die zijn nodig omdat het systeem alle spraak en omgevingsruis ongefilterd binnenkrijgt. “Je verbetert de spraakherkenning niet door de databanken te vergroten. Daar worden computers trager van. Met kleinere databanken werken, zoals Siri en Google Maps doen, is ook geen oplossing. Deze toepassingen zijn wel snel, maar bevatten relatief weinig informatie. Je moet bij Google Maps een bestaande straatnaam inspreken, anders raakt het programma van slag.”
Van Meerveld heeft meegewerkt aan de ontwikkeling van software die in een laboratoriumopstelling al bijna net zo goed spraak kan analyseren als een mens. Het programma wordt gebruikt om de binnenkomende signalen te bewerken voordat ze naar de databank gaan. “Onze hersenen kunnen heel goed spraakpatronen herkennen. De menselijke stem genereert een voorspelbaar spraakpatroon dat uit een grote hoeveelheid geluidsfrequenties bestaat. Als in een drukke kroeg de helft van zo’n patroon wegvalt, kunnen onze hersens nog steeds goed inschatten wat onze gesprekspartner zegt.”
“Ik gebruik het beeld van een hond die voor de helft zichtbaar is. Als mens weet je dat het een hond is en kun je aardig gokken hoe de onzichtbare helft er uitziet.” De huidige software gooit informatie over spraakpatronen weg. Het programma dat Van Meerveld ontwikkelde, laat de computer spraakpatronen onderscheiden en benutten. Zo kan in de toekomst van een halve hond een hele worden gemaakt – met minder databankcapaciteit.
De volgende stap is software ontwikkelen die aan een half woord genoeg heeft. “Onze hersenen kunnen inschatten wat iemand, na een paar opgevangen woorden, van plan is nog te gaan zeggen. Om bij het beeld van de hond te blijven: een mens kan niet alleen aan een halve hond zien dat het een hond is, maar ook voorspellen waar die hond naartoe zal lopen. Dat kunstje moet mijn software nog leren.”
Mama appelsap
Toch gaat het ook bij de mens soms mis. “Ons brein wil zo graag structureren en patronen herkennen, dat het in een vreemde taal Nederlandse woorden meent te herkennen. Wij horen dan Michael Jackson in Wanna Be Startin’ Something ‘mama appelsap’ zingen. En daarna horen we nooit meer iets anders als het liedje voorbijkomt. Irritant, maar we hebben toch voordeel van deze vorm van patroonherkenning op basis van verwachtingen omdat die waardevolle informatie kan opleveren in situaties waarin iemand snel moet beslissen.”
HANS INVERNIZZI
Tips? Mail win@windesheim.nl
Dit is zeer relevant onderzoek van Dr. Van Meerveld. Het gaat om een innovatieve manier om de immense rekenkracht van computers effectief in te zetten voor potentieel zeer significante toepassingen.