Het begrijpen van de nauwkeurigheid van AI-ondertitels: Een uitgebreide gids

Geschreven door Markus Aregger | april 13, 2023

Gesloten ondertiteling is een effectieve techniek om de toegankelijkheid, betrokkenheid en informatiebehoud tijdens presentaties en live‑evenementen te verbeteren. Dit, samen met veranderende videogebruikgewoonten op het gebied van videostreaming, heeft recentelijk de adoptie van AI‑aangedreven ondertiteling bij live‑evenementen en zakelijke vergaderingen versneld.

Maar wanneer het gaat om het kiezen van een provider voor uw eigen vergadering of evenement, is de meest gestelde vraag: hoe nauwkeurig zijn automatische live-ondertitels?

Het korte antwoord is dat, onder ideale omstandigheden, automatische ondertitels in gesproken talen tot 98% nauwkeurigheid kunnen bereiken, gemeten aan de hand van Word Error Rate (WER).

En ja, er's een lange, iets complexer antwoord. In dit artikel willen we u een overzicht geven van hoe nauwkeurigheid wordt gemeten, welke factoren de nauwkeurigheid beïnvloeden, en hoe u de nauwkeurigheid naar nieuwe hoogten kunt tillen.

In dit artikel

Hoe automatische ondertiteling werkt
Wat wordt beschouwd als goede ondertitelingskwaliteit?
Welke factoren beïnvloeden de nauwkeurigheid?
Het meten van de nauwkeurigheid van automatische ondertiteling
Inzicht in Word Error Rate (WER)
Zeer nauwkeurige ondertiteling voor uw live-evenementen

Voordat we in de cijfers duiken, laten we een stap terugnemen en kijken hoe automatische ondertiteling werkt.

Hoe automatische ondertiteling werkt

Automatische ondertiteling

Automatische ondertitels zetten spraak om in tekst die in realtime op het scherm wordt weergegeven in dezelfde taal als de spraak. ASR - Automated Speech Recognition - is een soort kunstmatige intelligentie die wordt gebruikt om deze transcripties van gesproken zinnen te produceren.

De technologie, vaak bekend als "speech-to-text,", wordt gebruikt om automatisch woorden in audio te herkennen en de stem naar tekst te transcriberen.

AI-vertaalde ondertitels

AI-aangedreven vertaalengines vertalen automatisch ondertitels die in een andere taal verschijnen. Dit staat ook bekend als machinaal vertaalde ondertitels of machinaal vertaalde bijschriften.

Aanbevolen artikel

Waarom u overweegt live-ondertiteling toe te voegen aan uw volgende evenement

Lees artikel →

In dit artikel behandelen we automatische ondertiteling. Als u meer wilt weten over de nauwkeurigheid van AI-vertaalde ondertiteling, bekijk dit artikel.

Wat wordt beschouwd als goede ondertitelingskwaliteit?

De Federal Communications Commission (FCC) stelde in 2014 essentiële kenmerken vast om te bepalen of ondertiteling "uitstekend" is:

Nauwkeurigheid -Ondertitels moeten zo volledig mogelijk overeenkomen met de gesproken woorden
Volledigheid - Ondertiteling loopt van het begin tot het einde van de uitzending, voor zover mogelijk.
Plaatsing - Ondertiteling blokkeert geen belangrijke visuele inhoud en is gemakkelijk te lezen.
Synchronisatie - Ondertitels worden uitgelijnd met de audiospoor en verschijnen op een leesbare snelheid.

Afbeelding: AI-vertaalde live-ondertiteling tijdens een webinar

Welke factoren beïnvloeden de nauwkeurigheid?

De geselecteerde AI-engine

Niet alle spraak-naar-tekst engines leveren identieke resultaten. Sommige presteren beter in het algemeen, terwijl andere beter zijn in bepaalde talen. En zelfs bij gebruik van dezelfde engine kunnen de resultaten sterk variëren afhankelijk van accenten, geluidsniveaus, onderwerpen, enzovoort.

Dat is de reden waarom we bij Interprefy voortdurend de beste engines benchmarken om te bepalen welke de meest nauwkeurige resultaten opleveren. Als gevolg hiervan kan Interprefy gebruikers de beste oplossing bieden voor een specifieke taal, rekening houdend met aspecten zoals latentie en kosten. Onder ideale omstandigheden hebben we een consistente nauwkeurigheid tot 98% waargenomen voor verschillende talen.

De kwaliteit van de audio-invoer

Kwaliteitsinvoer is vereist voor geautomatiseerde spraakherkenningstechnologie om kwaliteitsoutput te produceren. Het is simpel: hoe hoger de kwaliteit en helderheid van audio en stem, hoe beter de resultaten.

Audiokwaliteit - Net als conferentie-interpretatie, slechte audio-invoerapparatuur, zoals ingebouwde computermicrofoons, kan een negatieve impact hebben.
Duidelijke spraak & uitspraak - Presentatoren die luid, goed getimed en duidelijk spreken, worden meestal met hogere nauwkeurigheid ondertiteld.
Achtergrondgeluid - Zware gerommel, blaffende honden of papieren geritsel die door de microfoon wordt opgepikt, kan de kwaliteit van de audio‑invoer sterk aantasten.
Accenten - sprekers met ongebruikelijke of sterke accenten, evenals niet‑moedertaalsprekers, veroorzaken problemen voor veel spraakherkenningssystemen.
Overlappende spraak - Als twee personen over elkaar heen praten, zal het systeem het moeilijk hebben om de juiste spreker correct te detecteren.

Aanbevolen artikel

Hoe nauwkeurig zijn ondertitels in Zoom, Teams en Interprefy?

Lees artikel →

Hoe de nauwkeurigheid van automatische ondertitels te meten

De meest gangbare metriek om de nauwkeurigheid van ASR te meten is Word Error Rate (WER), die de feitelijke transcriptie van de spreker vergelijkt met het resultaat van de ASR-output.

Bijvoorbeeld, als 4 van de 100 woorden fout zijn, zou de nauwkeurigheid 96% zijn. 

Inzicht in Word Error Rate (WER)

WER bepaalt de kortste afstand tussen een transcriptietekst die is gegenereerd door een spraakherkenningssysteem en een referentietranscript dat door een mens (de grondwaarheid) is geproduceerd.

WER stemt correct geïdentificeerde woordreeksen op woordniveau op voordat het totale aantal correcties (substituties, deleties en inserties) wordt berekend die nodig zijn om referentie- en transcriptieteksten volledig op één lijn te brengen. De WER wordt vervolgens berekend als de verhouding van het aantal benodigde aanpassingen tot het totale aantal woorden in de referentietekst. Een lagere WER duidt over het algemeen op een nauwkeuriger spraakherkenningssysteem.

Voorbeeld van woordfoutpercentage: 91,7% nauwkeurigheid

Laten we een voorbeeld nemen van een woordfoutpercentage van 8.3% - of 91.7% nauwkeurigheid en de verschillen vergelijken tussen de originele transcriptie van de toespraak en de door ASR gemaakte ondertitels:

Origineel transcript:	ASR-ondertiteling uitvoer:
Bijvoorbeeld, ik doe gebruik slechts zeer beperkt van de essentiële zaken mits ik graag één specifiek punt in meer detail wil behandelen, vrees ik dat ik roep bij individuele staatsparlementen om het verdrag te ratificeren alleen nadat de rol van het Europese gerechtshof is verduidelijkt, kan zeer nadelige gevolgen hebben.	Bijvoorbeeld, ik ook zou alleen zeer beperkt gebruik maken van de vrijstellingen die ik graag in meer detail op één specifiek punt wil ingaan ik vrees dat de oproep aan individuele staatsparlementen om het verdrag te ratificeren alleen nadat de rol van het Europese Hof van Justitie is verduidelijkt zeer nadelige effecten kan hebben.

In dit voorbeeld hebben de ondertitels één woord gemist en vier woorden vervangen:

Metingen: {'matches': 55, 'deletions': 1, 'insertions': 0, 'substitutions': 4}
Vervangingen: [('too', 'do'), ('use', 'used'), ('exemptions', 'essentials'), ('the', 'i')]
Verwijderingen: ['would']

De berekening van de Word Error Rate is daarom:

WER = (verwijderingen + substituties + invoegingen) / (verwijderingen + substituties + overeenkomsten) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083

WER negeert de aard van fouten

Nu in het bovenstaande voorbeeld zijn niet alle fouten even impactvol.

De WER-meting kan misleidend zijn omdat deze ons niet vertelt hoe relevant/belangrijk een bepaalde fout is. Simpele fouten, zoals de alternatieve spelling van hetzelfde woord (movable/moveable), worden door de lezer vaak niet als fouten beschouwd, terwijl een substitutie (exemptions/essentials) meer impact kan hebben.

WER-cijfers, met name voor spraakherkenningssystemen met hoge nauwkeurigheid, kunnen misleidend zijn en komen niet altijd overeen met de menselijke perceptie van correctheid. Voor mensen zijn verschillen in nauwkeurigheidsniveaus tussen 90 en 99% vaak moeilijk te onderscheiden.

Waargenomen woordfoutpercentage

Interprefy heeft een eigen en taalspecifieke ASR-foutmetriek ontwikkeld, genaamd Perceived WER. Deze metriek telt alleen fouten die de menselijke verstaanbaarheid van de spraak beïnvloeden en niet alle fouten. Waargenomen fouten zijn doorgaans lager dan WER, soms zelfs tot wel 50%. Een waargenomen WER van 5-8% is meestal nauwelijks merkbaar voor de gebruiker.

De onderstaande grafiek toont het verschil tussen WER en waargenomen WER voor een zeer nauwkeurig ASR-systeem. Let op het verschil in prestaties voor verschillende datasets (S0‑S4) van dezelfde taal.

Zoals weergegeven in de grafiek, is de door mensen waargenomen WER vaak aanzienlijk beter dan de statistische WER.

De onderstaande grafiek illustreert verschillen in nauwkeurigheid tussen verschillende ASR-systemen die werken met dezelfde spraakdataset in een bepaalde taal, gebruikmakend van waargenomen WER. 

Zeer nauwkeurige ondertiteling voor uw live-evenementen

We've gezien een nauwkeurigheid van 97% voor onze automatische ondertitels dankzij de combinatie van onze unieke technische oplossing en de zorg die wij voor onze klanten dragen. Alexander Davydov, Hoofd AI Delivery bij Interprefy

Als je op zoek bent naar zeer nauwkeurige automatische ondertitels tijdens een evenement, zijn er drie belangrijke zaken waar je rekening mee moet houden:

Gebruik een oplossing van topklasse

In plaats van een kant-en-klare engine te kiezen om alle talen te dekken, ga voor een provider die de best beschikbare engine voor elke taal in uw evenement gebruikt.

Geïnteresseerd in het begrijpen wat de beste engine u kan bieden? Lees ons artikel: De toekomst van live-ondertiteling: Hoe Interprefy AI toegankelijkheid mogelijk maakt

Optimaliseer de engine

Kies een leverancier die de AI kan aanvullen met een op maat gemaakt woordenboek om te garanderen dat merknamen, vreemde namen en acroniemen correct worden vastgelegd.

Zorg voor audio‑invoer van hoge kwaliteit

Als de audio-invoer slecht is, zal het ASR-systeem niet in staat zijn om een goede outputkwaliteit te bereiken. Zorg ervoor dat de spraak luid en duidelijk kan worden vastgelegd.

Bekijk volledige post