AI gali mus apgauti ir supainioti sukurtą meną su tikromis nuotraukomis. Taigi kodėl rankos yra toks didelis iššūkis?

Dirbtinio intelekto generatoriai vystosi mūsų akyse siaubingu greičiu, tačiau jie vis tiek turi trūkumų. Aptikti keistas detales AI vaizduose iš tikrųjų gana juokinga. Štai kodėl „Midjourney“ rankos tapo karšta tema, dažna daugelio variklių problema.

Išsiaiškinkime, kodėl rankos meta tiek daug iššūkių dirbtinio intelekto vaizdų generatoriams. Jų programuotojai jau sprendžia šią memo vertą problemą, tačiau įdomu pagalvoti apie tai, kaip dirbtinis intelektas mokosi, jau nekalbant apie tai, kas jam trukdo.

Kodėl dirbtinio intelekto sukurtos rankos sumaišė

Kiekvienas, kuris vaizdams kurti naudoja dirbtinio intelekto variklius, galėjo pastebėti, kad rankos retai kada išlenda teisingai, tačiau problema apsivertė, kai „Twitter“ pasirodė daugybė „nuotraukų“.

Atidžiau pažvelgus, keistos žmonių rankos išdavė juos kaip dirbtinio intelekto sukurtus vaizdus. Tai, kad tai buvo Midjourney bandymas susidoroti, padarė situaciją įdomesnę.

instagram viewer

Vienas geriausių dirbtinio intelekto variklių negalėjo susidoroti su žmogaus rankų sudėtingumu, todėl „Midjourney“ ir jo konkurentų galimybės buvo išbandytos. Tiesa, net DALL-E yra linkęs į nerealius pirštus ir nagus.

Ažiotažas buvo neproporcingas, nes dirbtinio intelekto sukurtos rankos visada buvo problema, tačiau papildomas dėmesys paskatino išleisti Midjourney v5, siekiant pagerinti v4.

Naujojoje versijoje buvo siekiama tobulinti rankų dizainą, o tai aiškiai rodo, kad dirbtinio intelekto inžinieriai atkreipė dėmesį į linksmą ažiotažą ir nusprendė atnaujinti programinės įrangos galimybes.

Kiti varikliai lėtai seka Midjourney pavyzdžiu AI meno taisymas naudojant „Photoshop“. išlieka neįkainojamas įgūdis. Pagrindinė programuotojų kliūtis yra tai, kaip sudėtinga išmokyti dirbtinį intelektą, kad jis nubrėžtų įtikinamas rankas.

Kodėl AI vaizdo generatoriai kovoja su rankomis?

AI varikliai vaizdams gaminti naudoja generatyvius priešingus tinklus (GAN) arba stabilią sklaidą. Norint sukurti net pačius paprasčiausius meno kūrinius, abiem technologijoms reikia daug šaltinių, mokymo ir apdorojimo galios.

Kadangi iš anksto sukurti vaizdai yra AI mokymo pagrindas, programuotojai turi pateikti savo programinei įrangai tūkstančius, jei ne milijonus nuotraukų. kartu su raginimais – kartoti procesą vėl ir vėl, kol variklis supras, ką reiškia konkretus žodis ir kaip jį pavaizduoti objektas.

Tačiau pirminiai vaizdai, iš kurių AI mokosi, daugiausia yra 2D, kur rankos vaizduojamos įvairiose padėtyse. Nesvarbu, ar tiesūs, ar sulenkti, rodomi penki ar trys pirštai.

Galų gale, mašina iš tikrųjų nesupranta rankų sąvokos, o nuotraukose, iš kurių jis mokosi, rankos ne visada pakankamai aiškiai ar nuosekliai rodomos. Štai kodėl Midjourney rankos gali būti tokios bjaurios: AI painiava.

Galioja kaip Elono Musko susirūpinimas dėl AI plėtros gali būti, kad kai kurios technologijos dalys dar turi daug ko išmokti. Ir jų kliūtys neapsiriboja nepakankamais rankų pavyzdžiais.

Kitos priežastys, kodėl dirbtinio intelekto vaizdų generatoriai lėtai tobulėja

Žiūrėti į Midjourney modeliai, v5 siūlo pažangią teksto raginimų ir sukurtų vaizdų nuoseklumą, taip pat didesnę skiriamąją gebą ir papildomus įrankius. Tačiau tokie pasiekimai nėra pigūs.

Norint išmokyti dirbtinį intelektą geriau dirbti rankomis, reikia pateikti geresnių vaizdų, ypač 3D. Tai reiškia, kad daug laiko ir darbo jėgos išleidžiama procesams, pradedant žaliavų įsigijimu ir baigiant kodavimo tobulinimu ir mokymų kartojimu, kol dirbtinis intelektas tai padarys teisingai.

Net ir tada programinė įranga gali padaryti klaidų kitaip nuostabiuose meno kūriniuose. Be to, kad tai didžiulis ir sudėtingas darbas, jis yra brangus. Taigi, nesitikėk nemokami AI teksto į vaizdą generatoriai kad dar pasiektų Vidurinės kelionės kalibrą.

Paprasčiau tariant, AI variklių problema yra ne tik dėl šių kompiuterių programų nesugebėjimo visiškai suprasti, kaip atrodo ar veikia žmogaus funkcijos, tokios kaip rankos ir kojos. Tai taip pat priklauso nuo to, kiek tai kainuoja, ir technologijos prieigą prie 3D vaizdų ir mašininio mokymosi metodų, kurie gali padėti generatoriams realiau suvokti juos supantį pasaulį.

AI vaizdo generatoriai kovos ne amžinai

Rankos yra sudėtinga dirbtinio intelekto koncepcija, kuri gali apvynioti dvejetainę galvą, tačiau problemos sprendimai jau veikia. „Midjourney“, „DALL-E 2“ ir kitos platformos ilgainiui galės išlaikyti kuo mažiau keistų pirštų, jei ne visiškai juos išnaikinti.

Pažanga kitose AI srityse užtikrina, kad technologija nuolat tobulėja, o jos kūrėjai nuolat mokosi naujų būdų ją pritaikyti ir tobulinti.