Vi viste dem sjakkspill og de ble uslåelige motstandere; vi fikk dem til å lese tekstene våre og de begynte å skrive; de lærte også å male og retusjere fotografier. Har noen tvilt på at kunstig intelligens ikke kan gjøre det samme med tale og musikk?
Googles forskningsavdeling presenterte AudioLM (papir), et rammeverk for å generere høykvalitetslyd som forblir konsistent på lang sikt. For å gjøre dette tar han utgangspunkt i et opptak på bare noen få sekunder, og er i stand til å forlenge det på en naturlig og sammenhengende måte. Mer spesifikt, hun oppnår dette uten å bli trent med tidligere transkripsjoner eller merknader til tross for at den genererte talen er syntaktisk plausibel og semantisk plausibel. Dessuten opprettholder den identiteten og prosodien til høyttaleren til det punktet at lytteren ikke er i stand til å skjelne hvilken del av lyden som er original og hvilken del som er generert av en kunstig intelligens.
Eksemplene på denne kunstige intelligensen er slående. Ikke bare er den i stand til å gjengi artikulasjon, tonehøyde, klang og intensitet, men den er også i stand til å fange opp lyden av høyttalerens pust og danne meningsfulle setninger. Hvis den ikke starter fra en studiolyd, men fra en lyd med bakgrunnsstøy, reproduserer AudioLM den for å gi den kontinuitet. Du kan lytte til flere eksempler på AudioLM-nettstedet.
En kunstig intelligens trent i semantikk og akustikk
Hvordan er det ? Å generere lyd eller musikk er ikke noe nytt. Men metoden utviklet av Google-forskere for å løse problemet er som følger. Fra hver lyd trekkes semantiske markører ut for å kode en høynivåstruktur (fonem, leksikon, semantikk …) og akustiske markører (høyttaleridentitet, opptakskvalitet, bakgrunnsstøy …). Med disse dataene allerede behandlet og forståelig for kunstig intelligens, AudioML begynner arbeidet med å etablere et hierarki der det først forutsier semantiske markører som deretter brukes som begrensninger for å forutsi de akustiske markørene. Disse blir deretter gjenbrukt på slutten for å konvertere bitene til noe mennesker kan høre.
Denne semantiske separasjonen av akustikk, og dens hierarki, er ikke bare en fordelaktig praksis for å trene språkmodeller til å generere tale. Ifølge forskerne er det også mer effektivt å straffeforfølge pianokomposisjoner, slik de viser på nettsiden deres. Det er mye bedre enn modeller som kun er trent ved hjelp av akustiske markører.
Det viktigste med AudioLMs kunstige intelligens er ikke at den er i stand til å jage taler og melodier, men at den kan gjøre alt samtidig. Det er derfor, en unik språkmodell som kan brukes til å konvertere tekst til tale en robot kan lese hele bøker og gi voiceover-fagfolk en pause eller gjøre en hvilken som helst enhet i stand til å kommunisere med folk ved hjelp av en kjent stemme. Denne ideen har allerede blitt utforsket av Amazon, som har vurdert å bruke stemmene til sine kjære i sine Alexa-høyttalere.
Spennende eller farlig?
Programvare som Dalle-2 og Stable Diffusion er gode verktøy for å skissere ideer eller generere kreative eiendeler på sekunder, som illustrasjonen som brukes på forsiden av denne artikkelen. Lyd kan være enda viktigere, og man kan tenke seg at en kunngjørers stemme blir brukt på etterspørsel av ulike virksomheter. Filmer kan til og med dubbes med stemmene til avdøde skuespillere. Leseren kan lure på om denne muligheten, selv om den er spennende, ikke ville være farlig. Ethvert lydopptak kan manipuleres til politiske, juridiske eller rettslige formål. Ifølge Google, mens mennesker sliter med å oppdage hva som er menneskelig intelligens og hva som er kunstig intelligens, kan en datamaskin oppdage om lyd er organisk eller ikke. Med andre ord, det er ikke bare maskinen som kan erstatte oss men for å forbedre arbeidet hans, vil det være viktig å ha en annen maskin.
Foreløpig er AudioLM ikke åpent for publikum, det er kun en språkmodell som kan integreres i ulike prosjekter. Men denne demoen, sammen med OpenAIs musikkprogram Jukebox, viser hvor raskt vi går inn i en ny verden der ingen vil vite, eller bry seg, om det bildet ble tatt av en person eller det er en person eller en kunstig generert voiceover på andre enden av linjen i sanntid.