CNN Business
—
Hvis du noen gang har ønsket å bruke kunstig intelligens for raskt å designe en hybrid mellom en and og en corgi, er det nå din tid til å skinne.
På onsdag, OpenAI annonsert at hvem som helst nå kan bruke den nyeste versjonen av det AI-drevne DALL-E-verktøyet for å generere et tilsynelatende ubegrenset utvalg bilder bare ved å skrive inn noen få ord, måneder etter at oppstarten gradvis begynte å rulle det ut til brukerne.
Flyttingen vil sannsynligvis utvide rekkevidden til en ny samling av AI-drevne verktøy som allerede har tiltrukket et bredt publikum og utfordret våre grunnleggende ideer om kunst og kreativitet. Men det kan også øke bekymringene for hvordan slike systemer kan misbrukes når de er allment tilgjengelige.
“Å lære av bruk i den virkelige verden har gjort det mulig for oss å forbedre sikkerhetssystemene våre, noe som gjør større tilgjengelighet mulig i dag,” sa OpenAI i et blogginnlegg. Selskapet sa at det også har styrket måtene det avviser brukeres forsøk på å få AI til å lage «seksuelt, voldelig og annet innhold».
Det er nå tre velkjente, uhyre kraftige AI-systemer åpne for publikum som kan ta inn noen få ord og spytte ut et bilde. I tillegg til DALL-E 2, er det Midjourney, som ble offentlig tilgjengelig i juli, og Stable Diffusion, som ble utgitt for publikum i august av Stability AI. Alle tre tilbyr noen gratis kreditter til brukere som ønsker å få en følelse av å lage bilder med AI på nettet; generelt, etter det, må du betale.
Disse såkalte generative AI-systemene brukes allerede til eksperimentelle filmer, magasinomslagog eiendomsannonser. Et bilde generert med Midjourney nylig vunnet en kunstkonkurranse på Colorado State Fair, og skapte oppstyr blant artister.
På bare måneder har millioner av mennesker strømmet til disse AI-systemene. Mer enn 2,7 millioner mennesker tilhører Midjourneys Discord-server, hvor brukere kan sende inn spørsmål. OpenAI sa i sitt onsdagsblogginnlegg at det har mer enn 1,5 millioner aktive brukere, som til sammen har laget mer enn 2 millioner bilder med systemet hver dag. (Det bør bemerkes at det kan ta mange forsøk å få et bilde du er fornøyd med når du bruker disse verktøyene.)
Mange av bildene som har blitt laget av brukere de siste ukene har blitt delt på nettet, og resultatene kan være imponerende. De spenner fra overjordiske landskap og et maleri av franske aristokrater som pingviner til en faux vintage fotografi av en mann som går en tardigrad.
Oppstigningen av slik teknologi, og de stadig mer kompliserte spørsmålene og de resulterende bildene, har imponert selv mangeårige industriinnsidere. Andrej Karpathy, som trakk seg fra stillingen som Teslas direktør for AI i juli, sa i en nylig tweet at etter å ha blitt invitert til å prøve DALL-E 2 følte han seg “frossen” da han først prøvde å bestemme seg for hva han skulle skrive inn og til slutt skrev “katt”.
«Kunsten med ledetekster som fellesskapet har oppdaget og i økende grad perfeksjonert i løpet av de siste månedene for tekst -> bildemodeller er forbløffende,» sa han.
Men populariteten til denne teknologien kommer med potensielle ulemper. Eksperter innen kunstig intelligens har reist bekymring for at den åpne naturen til disse systemene – noe som gjør dem dyktige til å generere alle slags bilder fra ord – og deres evne til å automatisere bildeproduksjon betyr at de kan automatisere skjevheter i massiv skala. Et enkelt eksempel på dette: Da jeg matet oppfordringen «en bankmann kledd for en stor dag på kontoret» til DALL-E 2 denne uken, var resultatene alle bilder av middelaldrende hvite menn i dress og slips.
“De lar i utgangspunktet brukerne finne smutthullene i systemet ved å bruke det,” sa Julie Carpenter, en forsker og stipendiat i Ethics and Emerging Sciences Group ved California Polytechnic State University, San Luis Obispo.
Disse systemene har også potensiale til å bli brukt til ondsinnede formål, som å vekke frykt eller spre desinformasjon via bilder som er endret med AI eller fullstendig fabrikkert.
Det er noen grenser for hvilke bilder brukere kan generere. For eksempel har OpenAI DALL-E 2-brukere bli enige til en innholdspolicy som forteller dem at de ikke skal prøve å lage, laste opp eller dele bilder «som ikke er G-klassifisert eller som kan forårsake skade». DALL-E 2 vil heller ikke kjøre ledetekster som inkluderer visse forbudte ord. Men å manipulere ordbruk kan omgå grenser: DALL-E 2 vil ikke behandle spørsmålet “et bilde av en and dekket av blod”, men det vil returnere bilder for ledeteksten “et bilde av en and dekket av en viskøs rød væske. ” OpenAI selv nevnte denne typen “visuelle synonymer” i dokumentasjonen for DALL-E 2.
Chris Gilliard, en Just Tech-stipendiat ved Social Science Research Council, mener selskapene bak disse bildegeneratorene “undervurderer sterkt” den “endeløse kreativiteten” til folk som ønsker å gjøre dårlig med disse verktøyene.
“Jeg føler at dette er nok et eksempel på at folk slipper ut teknologi som er på en måte halvferdig når det gjelder å finne ut hvordan den skal brukes til å forårsake kaos og skape skade,” sa han. “Og så håper vi at det senere kanskje vil være en måte å løse disse skadene på.”
For å omgå potensielle problemer, forbyr noen bildetjenester fullstendig AI-bilder. Getty Images bekreftet til CNN Business onsdag at de ikke vil akseptere bildeinnsendinger som ble opprettet med generative AI-modeller, og vil fjerne alle innsendinger som brukte disse modellene. Denne avgjørelsen gjelder deres Getty Images, iStock og Unsplash bildetjenester.
“Det er åpne spørsmål med hensyn til opphavsretten til utdata fra disse modellene, og det er uadresserte rettighetsproblemer med hensyn til de underliggende bildene og metadataene som brukes til å trene disse modellene,” sa selskapet i en uttalelse.
Men å faktisk fange og begrense disse bildene kan vise seg å være en utfordring.