Leergebied | Interprefy

Audiocompressie in RSI ontcijferd door audio‑engineer Richard Schiller

Written by Dora Murgu | August 16, 2022

We hebben dit artikel geüpload naar onze Interprefied-podcast en het is nu beschikbaar in uw favoriete podcastdirectory.

Luister en download de podcast hieronder:

 

 

Beschikbaar voor download op:

 

Geluidskwaliteit is iets dat ons de hele dag begeleidt. Van het aanzetten van de radio in de ochtend tot het binge‑kijken van die nieuwe tv‑serie laat in de nacht, goede audio is iets wat we vaak als vanzelfsprekend beschouwen. Hoewel het's meestal vrij gemakkelijk is om slechte audio te herkennen, is goede geluidskwaliteit in feite een behoorlijk complex onderwerp. Een goed voorbeeld is een tien jaar oude discussie tussen vinyl‑liefhebbers en andere audiofielen over welk formaat superieure geluidskwaliteit biedt: cd of vinyl.

Bij remote tolken is het kunnen ontvangen en verzenden van kwaliteitsgeluid cruciaal. Om ervoor te zorgen dat informatie nauwkeurig wordt verwerkt en een plezierige audio-ervaring veilig te stellen, terwijl het gehoor van mensen wordt beschermd.

Een audio-first platform, we're voortdurend bezig met nieuwe manieren om het gedrag van sprekers beïnvloeden, evenals het implementeren van innovatieve audio‑oplossingen die superieure geluidskwaliteit waarborgen. Een vaak besproken onderwerp, geluidscompressie kan echt helpen om de geluidsbeleving positief te beïnvloeden - indien correct toegepast.

We gingen zitten met Richard Schiller, Audio Engineer en Senior Product Manager bij Interprefy om te begrijpen wat geluidscompressie is, hoe het wordt gebruikt in RSI, en wat de geluidskwaliteit beïnvloedt.

Hallo Richard, vertel ons een beetje over je achtergrond en wat je doet.

Hoi Dora, fijn om weer met je te praten. Mijn functie bij Interprefy is Senior Product Manager. Ik houd toezicht op de richting en details van het product. Ik ben bovendien een opgeleide geluidstechnicus. Ik heb oorspronkelijk gewerkt bij de grootste omroeporganisatie voor spraakradio ter wereld, de BBC World Service. Die achtergrond maakt dat je geobsedeerd bent door helderheid en consistentie.

Consistentie was de sleutel tot het laten werken van radio op grote schaal, en helderheid was de kern van wat we leverden. Ik heb ook gewerkt in muziekproductie en televisie. Ik heb de meeste functies in dat beroep uitgevoerd, waaronder producent, regisseur, presentator en scenarioschrijver.

Dan je’re de juiste persoon om de miljoen-dollar vraag te beantwoorden: wat is compressie?

Er zijn twee verschillende en niet‑gerelateerde zaken die compressie in geluid worden genoemd: Oorspronkelijk was er dynamische compressie, een circuit of tegenwoordig een algoritme dat het geluidsniveau automatisch regelt. Dit wordt voornamelijk gebruikt om het dynamisch bereik — de afstand tussen de zachtste en luidste geluiden — te verkleinen. Vervolgens kwam bit‑rate reductie, een systeem om de hoeveelheid audiogegevens die opgeslagen of getransporteerd moeten worden te verminderen.

Dynamische compressie en bit-rate reductie kunnen goed of slecht worden gebruikt.

Dus, zijn ze goed of slecht?

Noch. Net als bijna alles, kunnen deze twee technieken goed of slecht worden gebruikt. Slecht gebruikt, dan zijn ze niet goed, maar er is niets aan een van beide vormen van compressie dat zegt dat ze inherent slecht zijn.

Dynamische compressie is in wezen vergelijkbaar met een apparaat dat het geluidsniveau in de gaten houdt en de volumeknop naar beneden draait wanneer het geluid te hard wordt. Het draait het vervolgens weer omhoog wanneer het geluid zachter wordt. Het helpt mensen zowel luide als stille passages even goed te horen. Het is in wezen niet anders dan een mens met volumeregeling die hij naar beneden draait – en ik benadruk dat dynamische compressie gaat over het verminderen van het volume, vandaar de naam.

Dus, waar komt de zorg over compressie vandaan?

Dynamische compressie maakt het geluid stiller en dat is vaak ongewenst, dus wordt het gevolgd door een vooraf ingestelde volumeregeling om het weer harder te maken. Omdat compressie het niveau van het signaal egaliseert, kun je op één van twee manieren gaan. Het kan zo worden ingesteld dat het stiller is maar makkelijker te horen, of harder en meer opvallend. Als ik even uit de discussie kan stappen om een belangrijk punt te maken: als je denkt dat het geluid te hard is, zet het dan zachter. Neem altijd de controle over je eigen luisterniveau.

Het’s niet alleen het niveau dat fout kan zijn, wat de tijdconstanten van een compressor worden genoemd, is ook van belang. Ten slotte is er de ratio. Deze wordt vaak te agressief ingesteld en dat’s de meest voorkomende oorzaak van compressie die spraak onbegrijpelijk maakt.

Een van de meest irritante toepassingen zijn slecht ontworpen Automatic Gain Control (AGC)-circuits in zowel oude consumentenelektronica als in algoritmen die door sommige pc's worden gebruikt. AGC's en ruispoorten staan vaak standaard ingeschakeld op laptops en andere apparaten. Dus dynamiek is alomtegenwoordig in ons leven. Slecht ingestelde compressie kan de plosieve en sibilante geluiden afknippen, waardoor spraak moeilijk te begrijpen is. Je kunt dit horen als een doffe kwaliteit van de harde medeklinkers aan het begin van woorden, vooral bij het eerste woord van een zin. Een ander teken van een slecht ingestelde AGC is te zien wanneer iemand een luid woord zegt, gevolgd door een stil woord, en je het einde van het stille woord hoort maar moeite hebt om het begin ervan te horen.

Let’s overstappen op RSI. Hoe verschilt de geluidskwaliteit in muziek van de geluidskwaliteit in spraak?

Er is veel dat gemeenschappelijk is, maar in elk geval moet je voorzichtig zijn om te begrijpen wat goed is. Mensen nemen cijfers van klassieke muziekopnames gemaakt in akoestisch behandelde studio’s en passen die toe op spraak. In sommige opzichten is spraak gemakkelijker dan een orkest, en in sommige opzichten is het moeilijker.

De bovenste delen van de bandbreedte, bijvoorbeeld, zijn niet zo belangrijk voor spraak als voor sommige instrumenten. Er is een goed argument om te zeggen dat bij sommige percussie bandbreedte koning is, terwijl voor spraak soepelheid moet heersen. Het’s waarom een opname‑engineer een andere microfoon zal gebruiken voor een persoon dan voor een snaredrum of cymbaal.

Ik weet dat sommige mensen tegen me zullen schreeuwen dat de frequenties tussen 18kHz en 20kHz essentieel zijn voor spraak, maar ze simpelweg niet. Over het algemeen zijn de allerbeste en duurste microfoons die opnametechnici voor spraak gebruiken aren’t geschikt voor die frequenties omdat ze gewoon don’t nodig hebben.

En dit is niet zomaar toevallig. Stel dat je in een bos bent en naar een persoon een paar meter verderop luistert, met hun mond direct naar je oor gericht (en je bent jong genoeg om nog 20 kHz te kunnen horen). Als je dan je gezicht draait zodat je de spreker kunt zien en zij draaien zijwaarts, zou je de 20 kHz component niet meer horen, of tenminste sterk verminderd. Deze zeer hoge frequenties worden in de natuurlijke wereld niet goed bewaard en zijn daarom voor ons niet belangrijk, omdat het leven onmogelijk zou zijn als ze dat wel waren.

Het bereiken van helderheid is genuanceerder dan mensen het graag willen weergeven.

Dus, voor het doel van simultaanvertolking, is het niet essentieel om toegang te hebben tot frequenties tot 15.000 Hz?

De uitdaging hier is dat ik kan klinken alsof ik zeg dat tweede plaats goed genoeg is, maar de waarheid van dit alles is dat het bereiken van helderheid genuanceerder is dan mensen het graag willen weergeven. Vergelijkbaar is een bandbreedte van 15 kHz beter dan 10 kHz voor spraak, wat beter is dan 6 kHz en zo verder.

Een plattere (gladdere) respons tot 10 kHz kan echter beter zijn voor begrip dan een hobbelige respons tot 15 kHz. Evenzo kan spraak die niet slecht dynamisch gecomprimeerd is met een bandbreedte van 6 kHz gemakkelijker te begrijpen zijn dan een bandbreedte van 15 kHz met vreselijke compressie.

Wat dit allemaal betekent is dat het behouden van de frequentierespons belangrijk is, natuurlijk, maar andere factoren zijn ook belangrijk, en geen van hen zal dingen op zichzelf perfect maken. Het specifieke probleem met de respons is dat naarmate je hoger op de schaal gaat, de opbrengsten aanzienlijk afnemen. Dus, onze neiging om te obsessief te zijn over de hogere registers wijst erop dat het iets is dat we begrijpen en gemakkelijk kunnen beschrijven, in plaats van de werkelijke positie in de waardeketen te weerspiegelen.

Een bandbreedte van 15 kHz of meer moet deel uitmaken van een volledig programma van goede prestaties, maar in letterlijke zin is het noch essentieel voor goed, gemakkelijk begrip, noch garandeert het dat.

Er zijn beweringen dat RSI-platforms een dynamische bereikcompressie toepassen die leidt tot slecht geluid. Is dit waar voor Interprefy?

Nee. Er is geen behoefte aan dynamische bereikcompressie in de algemene werking. Dat betekent niet dat we het nooit gebruiken. We hebben momenteel iets in het laboratorium dat compressie toepast die echt opwindend is. Het is ontworpen voor luisteraars, of het nu publiek, delegaten of tolken zijn. Het kan door elke persoon worden ingeschakeld als ze dat willen, of uitgeschakeld blijven als ze dat niet doen. 

Uitmuntendheid komt voort uit het toepassen van technologie op de juiste plaats en op de juiste manier. Het’s gaat om afstemming, het zoeken naar perfectie bij elke stap, en het toepassen van kleine incrementele veranderingen over het hele systeem.

Let’s praten over de afgevaardigden voor een moment, omdat we allemaal die ervaring hebben gehad waarin een spreker gewoon vreselijk klinkt.

Ja. Absoluut Dora. En ik ben echt gepassioneerd over het elimineren daarvan. De echt grote problemen zijn de zeer slechte apparatuur die door veel sprekers wordt gebruikt en hun gebrek aan begrip over wat ze moeten doen om geluidskwaliteit te waarborgen.

Hoe lossen we dat op?

Zoals bij bijna alles, ligt de oplossing in het aanpakken van veel verschillende factoren. We hebben sprekers nodig die betere microfoons gebruiken, we hebben hen nodig die meer kennis hebben van microfoontechnieken en die meer aandacht besteden aan achtergrondgeluid en echo. There's veel educatie te doen hier, iets wat we ook zijn begonnen met onze spreker huishouding video campagne.

We kunnen hier ook technologie gebruiken om te helpen. In de toekomst kunnen jij en ik terugkomen op dit onderwerp en praten over hoe technologie mensen kan helpen hun eigen kwaliteit te verbeteren en de problemen te compenseren wanneer ze het niet kunnen'.

Het grote verschil zit tussen goed uitgeruste apparatuur die goed is geconfigureerd en slechte apparatuur die slecht is geconfigureerd.

Dus, als we het geluid dat via hardware wordt ontvangen, zoals een harde console, vergelijken met dat ontvangen via Interprefy, zou er niet veel verschil zijn zolang de spreker geschikte apparatuur gebruikt?

Ja, dat’s juist Dora. Het grote verschil hier is niet tussen lokaal en op afstand werken, het’s tussen beter uitgeruste apparatuur die goed is geconfigureerd en slechte apparatuur die slecht is geconfigureerd. Er is geen inherente verschil voor een hardware-gebaseerd lokaal systeem qua geluidskwaliteit. Veel vergader- en evenementdeelnemers die RSI-systemen gebruiken hebben microfoons die beter zijn dan hun tegenhangers op locatie. Sommigen willen deelnemen met apparaten die slechter zijn. Net als alles in het bedrijfsleven moet het op de juiste manier worden beheerd.

Dus, wat is het verschil tussen RSI en een hardware‑gebaseerde oplossing?

Wat RSI levert, is keuze. Keuze door flexibiliteit. Toen mijn vrouw voor het eerst zwanger werd, zei haar werkgever, een man, haar simpelweg dat ze geen baan meer had. Gelukkig is dat nu illegaal. Ik denk graag dat RSI betekent dat die tolken die niet willen of niet kunnen reizen, flexibeler kunnen werken. Ik vond de slechte houding die mijn vrouw ondervond niet prettig en net zoals ik denk dat werkgevers alles moeten doen om mensen te laten werken, ongeacht hun conditie of levensstijlnoden, vind ik dat het onze taak is, als systeemleveranciers, die flexibiliteit ook in te bouwen.

RSI-oplossingen zijn ook flexibel voor organisaties. Je kunt overal een conferentie of vergadering houden en de configuratie direct opzetten of wijzigen. Onlangs hebben we een astronaut geholpen om met de wereld te praten terwijl hij zich op het International Space Station bevond. Aannemen dat een astronaut persoonlijk aanwezig moest zijn, zou natuurlijk belachelijk zijn.

Terugkomend op compressie, wat zou je zeggen tegen degenen die vragen om compressie volledig te elimineren?

Het afschaffen van compressie, van welke vorm van compressie dan ook, is geen wondermiddel. Mag ik hier nogmaals benadrukken, er is geen wondermiddel. Een deel van de holistische oplossing is het elimineren van het slechte gebruik van compressie - zowel slechte dynamische compressie als slechte bitrate-compressie. Dat betekent dat er ingenieurs nodig zijn die in de industrie werken, die de technologie begrijpen en deze in detail begrijpen.

Wat als we meer dan één compressiefunctie achter elkaar gebruiken? Is dat automatisch slecht?

Dit staat bekend als cascaderende compressie. Nee, het's niet automatisch slecht voor dynamische of bitrate-compressie.

Er zijn specifieke problemen met cascaderende compressie en wanneer je oplossingen ontwerpt, moet je hard werken. Het is heel redelijk om bezorgd te zijn over cascaderende compressie omdat het veel inspanning kost om het te laten werken, maar als je bekwaam bent, kan het gedaan worden. En heel goed gedaan. Neem dynamische compressie als voorbeeld, twee van de grootste audio-innovaties ooit kwamen voort uit het gebruik van cascaderende dynamische compressie.

Sommige mensen lijken bijzonder goed in het beoordelen van factoren zoals compressie, zou je ze moeten gebruiken om je te helpen?

Er is maar één manier om audio te beoordelen en dat noemen we blind testing. Bij voorkeur dubbelblinde tests. Iedereen die je vertelt dat hij bijzonder goed is in het horen van audio-problemen, vraag of dat in blind testing was, dat is testen in een programma waarin ze niet weten welke welke is en waar het wordt geleid door iemand die niet verbonden is met de beoordeling. Alle tests zouden ook een reeks luisteraars moeten gebruiken.

Veel mensen, waarschijnlijk de meesten, denken dat ze uitzonderlijk goed horen, maar slechts ongeveer één op de twintig doet dat. Het is alsof we allemaal denken dat we geweldige chauffeurs zijn.

Goed geluid is iets dat je bereikt door veel zorg te nemen en holistisch te werken.

Sommige mensen lijken erg meninggevend over geluidskwaliteit en hoe die te bereiken. Wat is jouw antwoord aan hen?

Mensen die in binaire termen spreken, die praten in ‘musts’ en ‘must nots’, zijn, ervaring heeft mij geleerd, verkeerd. Ik don’t vind het vervelend om compressie of een ander audio‑tool een ongepaste slechte naam te krijgen. Niet omdat ik er bijzonder van houd, of een voorvechter ben van compressie in het bijzonder, maar omdat goed geluid iets is dat je bereikt door veel zorg te nemen en holistisch te werken. Echte perfectionisten zijn non-binary, gebruiken de volledige toolkit, en geven zich niet over aan simplistische reducties.

Alle geluidsverwerking kan slecht en goed worden uitgevoerd. Goed uitgevoerd betekent dat de juiste configuratie wordt gebruikt en toegepast waar het voordelig is. Dynamische compressie kan vreselijk zijn als het slecht wordt toegepast, maar dat betekent niet dat het universeel verkeerd is. Correct toegepast, het's een ongelooflijk voordeel.