Hvilken signalbehandlingsteknikk er riktig for enheten din?


Akustiske signalbehandlingsteknikker som stråleforming og blindkildeseparasjon forbedrer forståeligheten av fanget tale, men hvilken teknikk er best for hvilken applikasjon?

I en stadig mer støyende verden kan det være en kamp å høre klart. Og det er like sant for elektroniske enheter som det er for mennesker, noe som er et problem hvis de er designet for å fange opp eller svare på stemmene våre. Signalene som når mikrofonene deres er en blanding av stemmer, bakgrunnsstøy og andre forstyrrelser som romklang. Dette betyr at kvaliteten og forståeligheten til den fangede talen kan bli alvorlig påvirket – noe som fører til dårlig ytelse.

Forståelig tale er avgjørende for teknologi som spenner fra telefoner, datamaskiner og konferansesystemer til transkripsjonstjenester, bilinfotainment, hjemmeassistenter og høreapparater. Signalbehandlingsteknikker som stråleforming og blindkildeseparasjon (BSS) kan hjelpe – men de har forskjellige fordeler og ulemper. Så hvilken teknikk er best for hvilken applikasjon?

Lydstråleforming er en av de mest allsidige multimikrofonmetodene for å fremheve en bestemt kilde i en akustisk scene. Beamformers kan deles inn i to typer, avhengig av hvordan de fungerer – datauavhengige eller adaptive. En av de enkleste formene for data-uavhengige stråleformere er en delay-and-sum beamformer, hvor mikrofonsignalene er forsinket for å kompensere for de forskjellige veilengdene mellom en målkilde og de forskjellige mikrofonene. Dette betyr at når signalene summeres, vil målkilden som kommer fra en bestemt retning oppleve koherent kombinering og det forventes at signaler som kommer fra andre retninger vil i noen grad lide av destruktiv kombinering.

I mange lydforbrukerapplikasjoner vil imidlertid disse typene stråleformere være til liten nytte ettersom de trenger at bølgelengden til signalet er liten sammenlignet med størrelsen på mikrofongruppen. De fungerer godt i førsteklasses konferansesystemer med mikrofonarrayer på 1 m i diameter som inneholder hundrevis av mikrofoner for å dekke det brede dynamiske spekteret av bølgelengder. Men disse systemene er dyre å produsere og derfor kun egnet for bedriftskonferansemarkedet.

Forbrukerenheter, derimot, har vanligvis bare noen få mikrofoner i en liten gruppe, så delay-and-sum beamformers sliter ettersom de store bølgelengdene av tale kommer til en liten mikrofongruppe. En delay-and-sum beamformer på størrelse med et normalt høreapparat, for eksempel, kan ikke gi noen retningsdiskriminering ved lave frekvenser – og ved høye frekvenser er den begrenset i sin retning til et front/back-nivå av diskriminering.

Et annet problem er det faktum at lyd ikke beveger seg i rette linjer – en gitt kilde har flere forskjellige veier til mikrofonene, hver med forskjellige mengder refleksjon og diffraksjon. Dette betyr at enkle delay-and-sum beamformers ikke er særlig effektive til å trekke ut en interessekilde fra en akustisk scene. Men de er veldig enkle å implementere og gir en liten fordel, så de ble ofte brukt i eldre enheter.

Én adaptiv stråleformer er minimum varians forvrengningsfri respons (MVDR) stråleformer. Dette prøver å sende signalet som kommer fra målretningen på en forvrengningsfri måte, mens det forsøkes å minimere effekten ved utgangen til stråleformeren. Dette har effekten av å prøve å bevare målkilden mens støyen og interferensen dempes.

Denne teknikken kan fungere godt under ideelle laboratorieforhold, men i den virkelige verden kan mikrofonfeil og etterklang føre til unøyaktighet i modelleringen av effekten av kildeplasseringen i forhold til matrisen. Resultatet er at disse stråleformerne ofte yter dårlig fordi de vil begynne å kansellere deler av målkilden. En stemmeaktivitetsdetektor kan legges til for å løse målkanselleringsproblemet, og tilpasningen av stråleformeren kan slås av når målkilden er aktiv. Dette kan fungere bra når det bare er én målkilde, men hvis det er flere konkurrerende høyttalere, har denne teknikken begrenset effektivitet.

I tillegg krever MVDR-stråleforming – akkurat som forsinkelse-og-sum-stråleforming og de fleste andre typer stråleforming – kalibrerte mikrofoner, samt kunnskap om mikrofongruppens geometri og målkilderetningen. Noen stråleformere er svært følsomme for nøyaktigheten til denne informasjonen og kan avvise målkilden fordi den ikke kommer fra den angitte retningen.

Mange moderne enheter bruker en annen stråleformingsteknikk kalt adaptiv sidelobe-kansellering, som prøver å fjerne kildene som ikke er fra interesseretningen. Disse er state-of-the-art innen moderne høreapparater og lar brukeren konsentrere seg om kilder rett foran seg. Men den betydelige ulempen er at du må se på det du hører på, og det kan være vanskelig hvis du trenger visuell oppmerksomhet andre steder – for eksempel når du ser på en dataskjerm og prøver å diskutere det du ser med en kollega.

En alternativ tilnærming til å forbedre taleforståelighet i støyende miljøer er bruken av BSS. Tidsfrekvensmaskering BSS estimerer tidsfrekvensomhyllingen til hver kilde og demper deretter tidsfrekvenspunktene som domineres av interferens og støy. En annen type BSS bruker lineære flerkanalsfiltre. Den akustiske scenen er delt inn i dens bestanddeler ved hjelp av statistiske modeller for hvordan kilder generelt oppfører seg. BSS beregner deretter et flerkanalsfilter hvis utgang passer best til disse statistiske modellene. Ved å gjøre det trekker den ut alle kildene i scenen, ikke bare én.

Flerkanals filtermetoden kan håndtere mikrofonfeil og vil takle etterklang og flere konkurrerende høyttalere. Den trenger ingen forkunnskaper om kildene, mikrofongruppen eller den akustiske scenen, siden alle disse variablene er absorbert i utformingen av flerkanalsfilteret. Endre en mikrofon, eller en kalibreringsfeil, endrer ganske enkelt det optimale flerkanalsfilteret.

Siden BSS fungerer fra lyddataene i stedet for mikrofongeometrien, er det en veldig robust tilnærming som er ufølsom for kalibreringsproblemer og som generelt kan oppnå mye høyere separasjon av kilder i virkelige situasjoner enn noen stråleformer. Og fordi den skiller alle kildene uavhengig av retning, kan den brukes til å følge en flerveis samtale automatisk. Dette er spesielt nyttig for hørselshjelpeapplikasjoner der brukeren ønsker å følge en samtale uten å måtte samhandle med enheten manuelt. BSS kan også være veldig effektivt når det brukes i VoIP-samtaler, smarte hjemmeenheter og infotainmentapplikasjoner i bilen.

Men BSS er ikke uten problemer. For de fleste BSS-algoritmer avhenger antallet kilder som kan separeres av antall mikrofoner i arrayet. Og fordi det fungerer fra dataene, trenger BSS en konsistent referanseramme, som for øyeblikket begrenser teknikken til enheter som har en stasjonær mikrofongruppe – for eksempel et bordhøreapparat, en mikrofongruppe for faste konferansesystemer eller videosamtaler fra en telefon eller nettbrett som holdes stødig i hendene eller på et bord.

Når det er bakgrunnsskravling, vil BSS generelt skille de mest dominerende kildene i blandingen, som kan inkludere den irriterende høylytte personen på nabobordet. Så for å fungere effektivt, må BSS kombineres med en tilleggsalgoritme for å bestemme hvilke av kildene som er interessekildene.

BSS i seg selv skiller kilder veldig bra, men reduserer ikke bakgrunnsstøyen med mer enn ca 9dB. For å oppnå virkelig god ytelse, må den være sammenkoblet med en støyreduksjonsteknikk. Mange løsninger for støyreduksjon bruker kunstig intelligens (AI) – den brukes for eksempel av Zoom og andre konferansesystemer – for å analysere signalet i tids-frekvensdomenet og deretter prøve å identifisere hvilke komponenter som skyldes signalet og hvilke som er på grunn av støy. Dette kan fungere bra med bare en enkelt mikrofon. Men det store problemet med denne teknikken er at den trekker ut signalet ved dynamisk gating av tidsfrekvensinnholdet, noe som kan føre til ubehagelige artefakter i dårlige signal-til-støy-forhold (SNR), og den kan introdusere betydelig latens.

En støydempingsalgoritme med lav latens kombinert med BSS gir derimot opptil 26dB støydemping og gjør produktene egnet for bruk i sanntid – med en ventetid på bare 5ms og en mer naturlig lyd med færre forvrengninger enn AI-løsninger . Spesielt høreapparater trenger ultralav latenstid for å holde leppesynkronisering, siden det er ekstremt forstyrrende for brukere hvis lyden de hører ligger etter munnbevegelsene til personen de snakker med.

Med et økende antall signalbehandlingsteknikker å velge mellom, er det viktigere enn noen gang å velge den rette for applikasjonen din. Valget krever vurdering ikke bare av ytelsen du trenger, men situasjonen der du trenger applikasjonen for å fungere, og de fysiske begrensningene til produktet du har i tankene.


Dave Betts er Chief Science Officer ved lydprogramvarespesialist AudioTelligence. Han har løst komplekse problemer innen lyd i over 30 år, med erfaring som spenner fra lydrestaurering og lydetterforskning til å designe innovative lydalgoritmer brukt i storfilmer. Hos AudioTelligence leder Dave et team av forskere som leverer innovative kommersielle lydløsninger for forbrukerelektronikk, hørselshjelp og bilmarkedet.

Relatert innhold:

For mer innebygd, abonner på Embeddeds ukentlige e-nyhetsbrev.