Deepfake muzika imituoja konkretaus atlikėjo stilių, įskaitant jų balsą. Kaip tai gali skambėti taip tikroviškai?

Muzika ilgą laiką sugebėjo išvengti „deepfake“ pasaulio, nes buvo tiesiog per sudėtinga susintetinti kažkieno balsą. Visa tai pasikeitė dėl AI technologijos pažangos. Dėl to atsirado garsių atlikėjų balso klonai, kuriuos galima panaudoti kuriant naujus vokalinius takelius.

Dirbtinio intelekto įrankiams tampant vis labiau prieinamiems paprastiems žmonėms, netikra muzika tampa vis didesne problema. Štai kas tai yra ir kaip jis sukurtas.

Deepfake muzikos raida

Kai girdite savo mėgstamą atlikėją dainuojant „Spotify“ ar „YouTube“, vargu ar pagalvoji, kad tai gali būti netikra, tačiau dėl dirbtinio intelekto tai tapo realybe. Be netikrų vaizdų ir vaizdo įrašų, taip pat yra netikra muzika.

AI įrankiai gali tiksliai atkurti žmogaus dainuojamąjį balsą, mokydami dirbtinio intelekto modelį pagal jo balso garso pavyzdžius. Sukurta atlikėjo gerbėjų arba AI technologijos gerbėjų, vis daugiau žmonių bando sukurti vokalinius dvilypius kūrinius.

instagram viewer

Žmonės daugelį metų bandė susintetinti balsą naudodami kompiuterį, pradedant 1961 m., kai IBM 7094 buvo pirmasis dainuojantis kompiuteris. Galite išgirsti kompiuteriu sukurtas balsas dainuojantis Daisy Bell „YouTube“ klipe ir pabandykite įsivaizduoti, kokia nuostabi buvo ši akimirka.

Greitai į priekį į 21 amžių ir AI technologija pagerino sintezuoto balso kokybę ir leido mums daryti tai, ko dauguma iš mūsų iki šiol nemanė įmanoma, pavyzdžiui, klonuoti žmonių balsus.

Tiesiog pažiūrėkite į šį klipą, kuriame Roberto Nicksonas paverčia savo balsą atlikėju ir reperiu Kanye Westu. Žiūrint vaizdo įrašą atrodo keista, jis tikrai skamba kaip Kanye, bet taip pat nepatogu žiūrėti. Per daug negalvojant apie tai, kaip menininkas gali galvoti ar jaustis, ir be leidimo, tai gali būti vertinama kaip pasisavinimas kažkieno balsu.

Skirtingai nuo Daisy Bell kompiuterinio perteikimo, dirbtinio intelekto vokalo klonavimas gali tiksliai atkurti kažkieno balsas, apimantis visus subtilius tembro skirtumus, padedančius atpažinti unikalų kažkieno vokalą profilį. Tačiau nelicencijuota ir be leidimo atliekama deepfake muzika turi rimtų problemų, kurias aptarsime vėliau.

Kaip kuriamos „Deepfake“ dainos

Deepfake dainoms kurti naudojami įvairūs metodai, tačiau daugelis jų naudoja AI technologiją. Atvirojo kodo projektai, pvz „SoftVC VITS“ dainuojamojo balso konvertavimo projektas „GitHub“.Pavyzdžiui, sukūrė dirbtinio intelekto modelį, kuris daro tai, kas sakoma jo pavadinime: konvertuoja garso pavyzdį į dainavimo balsą.

Šis modelis paima esamą dainuojančio asmens garso failą ir konvertuoja jį į kažkieno kito balsą. Tokie dalykai kaip originalaus balso tekstai ir ritmas išsaugomi, tačiau tonas, tembras ir asmeninės balso savybės konvertuojamos į balsą, nurodytą mokymo duomenų rinkinyje.

Atminkite, kad kitos dainos dalys vis tiek gali būti sukurtos rankiniu būdu, pvz., sukurti ritmus ir melodijas to paties stiliaus ir žanro kaip ir originalus atlikėjas.

Norint sukurti Kanye Westo balso klastotę, į SoftVC VITS modelį reikėjo įvesti trečiosios šalies duomenų rinkinį, kuris apimtų tikrojo Kanye balso pavyzdžius. Nuo to laiko autorius pašalino failą, kuriame yra duomenų rinkinys, o tai nenuostabu, atsižvelgiant į miglotą teisinę teritoriją, kurioje gali būti neleistinų duomenų rinkinių.

Nors ji nebuvo paversta komercine programa, galite rasti jos versiją SoftVC VITS modelis sistemoje „Google Colab“. tai yra patogesnis vartotojui.

Kol nebus nustatytos etinės ir teisinės ribos, gali būti, kad bus daugiau lengvai naudojamų balso klonavimo programų. iššokantis langas – nelabai skiriasi nuo Drayk.it programos, kuri tekstinį aprašymą pavertė dainomis, sukurtomis pagal atlikėją Drake'as. Vėliau jis buvo uždarytas.

Kai kurie kiti įrankiai, naudojami kuriant netikrą muziką, apima didelius kalbų modelius, pvz ChatGPT, kuriuo galima rašyti dainų tekstus garsaus atlikėjo stiliumi; ir OpenAI Jukebox ir Google MusicLM, kurie yra generatyvūs AI modeliai, galintys kurti muziką neapdoroto garso forma visiškai nuo nulio.

Ar girdi skirtumą?

2023 m. balandžio mėn. „TikTok“ pasklido anoniminio vartotojo sukurtas takelis, pavadintas „Ghostwriter“, iš esmės dėl to, kad jame buvo dainuojami atlikėjų Drake'o ir The Weeknd žodžiai. Žinoma, tai buvo ne tikri menininkų balsai, o netikri.

Jei vokalas nebūtų buvęs tokia gera originalo kopija, tai gal ir nebūtų hitas. Šiek tiek įsigilinus galite gana greitai išsiaiškinti, ar tai tikras sandoris, ar ne, tačiau naudodami tik ausis galėtumėte tik atspėti, ar tai autentiška.

Jeigu nori nustatyti AI sukurtą vaizdą yra bent keletas vizualinių nukrypimų, kurių galite ieškoti. Kalbant apie garsą, tokie ženklai kaip žemo tikslumo garsas ar takelio trikdžiai neturi didelės reikšmės, nes tai yra kūrybingi pasirinkimai, nuolat naudojami kuriant muziką.

Dar įdomiau yra tai, kad daina daugeliui žmonių nuoširdžiai patinka, net ir sužinojus, kad tai nebuvo tikrieji Drake'o ar The Weeknd balsai. Gerbėjai atkreipė dėmesį, kad ne viskas buvo tiesiog sukurta naudojant dirbtinį intelektą, o tikri įgūdžiai ir darbas buvo susijęs su dainų tekstų kūrimu, ritmų kūrimu ir viso dalyko sujungimu.

Kūrinys pateko į „Spotify“ ir „YouTube“, o po kelių dienų buvo pašalintas, bet ne anksčiau, nei gerbėjai atsisiuntė dainą mp3 formatu. Vis dar galite rasti dainos kopijų internete, jei ieškote „Heart On My Sleeve, Drake ft. Savaitgalis".

Netrukus pastebėti skirtumą tarp dirbtinio intelekto sukurtų balso klonų ir tikro žmogaus balso taps beveik neįmanoma. Turėdami tai omenyje, žmonės klausia, ar tai yra geras AI technologijos panaudojimas, ar net teisėtas jos naudojimas.

Problemos su Deepfake muzika

Viena vertus, žmonės mėgsta klausytis gerbėjų sukurtų mėgstamų atlikėjų mišinių ir gerbia kūrybiškumą, kuris padeda tai paversti realybe. Tačiau galimybė turėti balso klonus visų pirma priklauso nuo duomenų rinkinių, kurie gali būti įgalioti arba ne.

Be leidimo asmens balso pavyzdžiai renkami į duomenų rinkinį, kuris vėliau naudojamas AI balso konvertavimo modeliui mokyti. Tai panašu į problemą, su kuria susiduriama menininkai, norintys pašalinti savo vaizdus iš mokymo duomenų rinkinių kurie naudojami mokant dirbtinio intelekto vaizdų generatorius, tokius kaip Dall-E arba Midjourney.

Autorių teisių įstatymas taip pat nėra visiškai pasirengęs susidoroti su melaginga muzika. 2020 m. atlikėjui Jay-Z nepavyko priversti „YouTube“ pašalinti dirbtinio intelekto sukurtą garso įrašą, kuriame jis repuoja Williamo Shakespeare'o solo „Būti arba nebūti“ eilutes.

Kai „deepfake“ daina įkeliama į „Spotify“ ar „YouTube“, taip pat kyla klausimas, kas uždirba pinigus. Ar turėtumėte uždirbti pinigų iš dainos, kuri beveik tiksliai kopijuoja kažkieno balsą?

Holly Herndon yra viena menininkė, kuri bandė sukurti sistemą, kad žmonės jai kompensuotų mainais už balso modelio naudojimą kuriant originalų darbą. Nors kiti menininkai, tokie kaip Nickas Cave'as, turi pasisakė prieš AI, rašoma:

Dainos kyla iš kančios, turiu galvoje, kad jos yra pagrįstos sudėtinga, vidine žmogaus kūrimo kova ir, kiek žinau, algoritmai nejaučia.

Kartais, AI sukurtam tekstui gali pritrūkti kūrybiškumo iš viso, tačiau jie vis dar skelbiami internete. DI gali sukelti daug blogos muzikos, kuriai buvo įdėta labai mažai pastangų.

Raskite balansą tarp muzikos ir AI

Deepfake muzika kuriama naudojant AI įrankius ir AI modelius, kurie buvo išmokyti naudoti neleistinus duomenų rinkinius. Kai kurie modeliai yra atvirojo kodo ir laisvai prieinami, o kiti bandyta juos supakuoti į patogią programėlę.

Kadangi vis daugiau žmonių įsigilina į „deepfake“ muzikos modelius ar programėles, verta pagalvoti apie poveikį atlikėjui. Sutikimo dėl mokymo duomenų rinkinių gavimas ir kompensacija atlikėjui yra tik dalis problemų, kylančių dėl AI muzikos technologijos.