Gesloten ondertiteling is een effectieve techniek om de toegankelijkheid, betrokkenheid en informatiebehoud tijdens presentaties en live‑evenementen te verbeteren. Dit, samen met veranderende videogebruikgewoonten op het gebied van videostreaming, heeft recentelijk de adoptie van AI‑aangedreven ondertiteling bij live‑evenementen en zakelijke vergaderingen versneld.
Maar wanneer het gaat om het kiezen van een provider voor uw eigen vergadering of evenement, is de meest gestelde vraag: hoe nauwkeurig zijn automatische live-ondertitels?
Het korte antwoord is dat, onder ideale omstandigheden, automatische ondertitels in gesproken talen tot 98% nauwkeurigheid kunnen bereiken, gemeten aan de hand van Word Error Rate (WER).
En ja, er's een lange, iets complexer antwoord. In dit artikel willen we u een overzicht geven van hoe nauwkeurigheid wordt gemeten, welke factoren de nauwkeurigheid beïnvloeden, en hoe u de nauwkeurigheid naar nieuwe hoogten kunt tillen.
Voordat we in de cijfers duiken, laten we een stap terugnemen en kijken hoe automatische ondertiteling werkt.
Automatische ondertitels zetten spraak om in tekst die in realtime op het scherm wordt weergegeven in dezelfde taal als de spraak. ASR - Automated Speech Recognition - is een soort kunstmatige intelligentie die wordt gebruikt om deze transcripties van gesproken zinnen te produceren.
De technologie, vaak bekend als "speech-to-text,", wordt gebruikt om automatisch woorden in audio te herkennen en de stem naar tekst te transcriberen.
AI-aangedreven vertaalengines vertalen automatisch ondertitels die in een andere taal verschijnen. Dit staat ook bekend als machinaal vertaalde ondertitels of machinaal vertaalde bijschriften.
In dit artikel behandelen we automatische ondertiteling. Als u meer wilt weten over de nauwkeurigheid van AI-vertaalde ondertiteling, bekijk dit artikel.
De Federal Communications Commission (FCC) stelde in 2014 essentiële kenmerken vast om te bepalen of ondertiteling "uitstekend" is:
Niet alle spraak-naar-tekst engines leveren identieke resultaten. Sommige presteren beter in het algemeen, terwijl andere beter zijn in bepaalde talen. En zelfs bij gebruik van dezelfde engine kunnen de resultaten sterk variëren afhankelijk van accenten, geluidsniveaus, onderwerpen, enzovoort.
Dat is de reden waarom we bij Interprefy voortdurend de beste engines benchmarken om te bepalen welke de meest nauwkeurige resultaten opleveren. Als gevolg hiervan kan Interprefy gebruikers de beste oplossing bieden voor een specifieke taal, rekening houdend met aspecten zoals latentie en kosten. Onder ideale omstandigheden hebben we een consistente nauwkeurigheid tot 98% waargenomen voor verschillende talen.
Kwaliteitsinvoer is vereist voor geautomatiseerde spraakherkenningstechnologie om kwaliteitsoutput te produceren. Het is simpel: hoe hoger de kwaliteit en helderheid van audio en stem, hoe beter de resultaten.
De meest gangbare metriek om de nauwkeurigheid van ASR te meten is Word Error Rate (WER), die de feitelijke transcriptie van de spreker vergelijkt met het resultaat van de ASR-output.
Bijvoorbeeld, als 4 van de 100 woorden fout zijn, zou de nauwkeurigheid 96% zijn.
WER bepaalt de kortste afstand tussen een transcriptietekst die is gegenereerd door een spraakherkenningssysteem en een referentietranscript dat door een mens (de grondwaarheid) is geproduceerd.
WER stemt correct geïdentificeerde woordreeksen op woordniveau op voordat het totale aantal correcties (substituties, deleties en inserties) wordt berekend die nodig zijn om referentie- en transcriptieteksten volledig op één lijn te brengen. De WER wordt vervolgens berekend als de verhouding van het aantal benodigde aanpassingen tot het totale aantal woorden in de referentietekst. Een lagere WER duidt over het algemeen op een nauwkeuriger spraakherkenningssysteem.
Laten we een voorbeeld nemen van een woordfoutpercentage van 8.3% - of 91.7% nauwkeurigheid en de verschillen vergelijken tussen de originele transcriptie van de toespraak en de door ASR gemaakte ondertitels:
| Origineel transcript: | ASR-ondertiteling uitvoer: |
| Bijvoorbeeld, ik doe gebruik slechts zeer beperkt van de essentiële zaken mits ik graag één specifiek punt in meer detail wil behandelen, vrees ik dat ik roep bij individuele staatsparlementen om het verdrag te ratificeren alleen nadat de rol van het Europese gerechtshof is verduidelijkt, kan zeer nadelige gevolgen hebben. | Bijvoorbeeld, ik ook zou alleen zeer beperkt gebruik maken van de vrijstellingen die ik graag in meer detail op één specifiek punt wil ingaan ik vrees dat de oproep aan individuele staatsparlementen om het verdrag te ratificeren alleen nadat de rol van het Europese Hof van Justitie is verduidelijkt zeer nadelige effecten kan hebben. |
In dit voorbeeld hebben de ondertitels één woord gemist en vier woorden vervangen:
De berekening van de Word Error Rate is daarom:
WER = (verwijderingen + substituties + invoegingen) / (verwijderingen + substituties + overeenkomsten) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083
Nu in het bovenstaande voorbeeld zijn niet alle fouten even impactvol.
De WER-meting kan misleidend zijn omdat deze ons niet vertelt hoe relevant/belangrijk een bepaalde fout is. Simpele fouten, zoals de alternatieve spelling van hetzelfde woord (movable/moveable), worden door de lezer vaak niet als fouten beschouwd, terwijl een substitutie (exemptions/essentials) meer impact kan hebben.
WER-cijfers, met name voor spraakherkenningssystemen met hoge nauwkeurigheid, kunnen misleidend zijn en komen niet altijd overeen met de menselijke perceptie van correctheid. Voor mensen zijn verschillen in nauwkeurigheidsniveaus tussen 90 en 99% vaak moeilijk te onderscheiden.
Interprefy heeft een eigen en taalspecifieke ASR-foutmetriek ontwikkeld, genaamd Perceived WER. Deze metriek telt alleen fouten die de menselijke verstaanbaarheid van de spraak beïnvloeden en niet alle fouten. Waargenomen fouten zijn doorgaans lager dan WER, soms zelfs tot wel 50%. Een waargenomen WER van 5-8% is meestal nauwelijks merkbaar voor de gebruiker.
De onderstaande grafiek toont het verschil tussen WER en waargenomen WER voor een zeer nauwkeurig ASR-systeem. Let op het verschil in prestaties voor verschillende datasets (S0‑S4) van dezelfde taal.
Zoals weergegeven in de grafiek, is de door mensen waargenomen WER vaak aanzienlijk beter dan de statistische WER.
De onderstaande grafiek illustreert verschillen in nauwkeurigheid tussen verschillende ASR-systemen die werken met dezelfde spraakdataset in een bepaalde taal, gebruikmakend van waargenomen WER.
We've gezien een nauwkeurigheid van 97% voor onze automatische ondertitels dankzij de combinatie van onze unieke technische oplossing en de zorg die wij voor onze klanten dragen. Alexander Davydov, Hoofd AI Delivery bij Interprefy
Als je op zoek bent naar zeer nauwkeurige automatische ondertitels tijdens een evenement, zijn er drie belangrijke zaken waar je rekening mee moet houden:
Gebruik een oplossing van topklasse
In plaats van een kant-en-klare engine te kiezen om alle talen te dekken, ga voor een provider die de best beschikbare engine voor elke taal in uw evenement gebruikt.
Geïnteresseerd in het begrijpen wat de beste engine u kan bieden? Lees ons artikel: De toekomst van live-ondertiteling: Hoe Interprefy AI toegankelijkheid mogelijk maakt
Optimaliseer de engine
Kies een leverancier die de AI kan aanvullen met een op maat gemaakt woordenboek om te garanderen dat merknamen, vreemde namen en acroniemen correct worden vastgelegd.
Zorg voor audio‑invoer van hoge kwaliteit
Als de audio-invoer slecht is, zal het ASR-systeem niet in staat zijn om een goede outputkwaliteit te bereiken. Zorg ervoor dat de spraak luid en duidelijk kan worden vastgelegd.