Ieškote būdo, kaip išmokyti galingą AI jūsų konkrečioms programoms? Pabandykite perkelti mokymąsi!

Jei norite išmokyti savo dirbtinio intelekto modelį, skirtą natūralios kalbos apdorojimui (NLP) arba kompiuteriniam regėjimui, turėtumėte susipažinti su mokymosi perkėlimu ir kaip naudoti iš anksto paruoštus modelius.

Be mokymosi perkėlimo, veiksmingo ir patikimo modelio mokymas dažnai nereikalauja išteklių, todėl reikės daug pinigų, laiko ir patirties, o „ChatGPT“ kūrėjas OpenAI išleido milijonus mokydamas GPT-3, GPT-3.5 ir GPT-4. Naudodamiesi perkėlimo mokymosi galia, per trumpą laiką galite išmokyti savo modelį, tokį galingą kaip naujausias GPT modelis, turėdami mažai išteklių.

Kas yra AI perkėlimo mokymasis?

Mokymasis perkėlimu yra idėja pasirinkti iš anksto parengtą modelį, pvz., BERT arba vieną iš skirtingi GPT modeliai ir mokyti jį naudojant tinkintą duomenų rinkinį, kad jis galėtų atlikti užduotis, kurias jis nebūtinai buvo išmokytas atlikti.

Pavyzdžiui, galite paimti iš anksto paruoštą skirtingų kačių rūšių klasifikavimo modelį ir išmokyti jį klasifikuoti šunis. Mokydamiesi perkėlimo, jūsų šunų klasifikavimo modelio mokymas turėtų užtrukti žymiai mažiau laiko ir išteklių, kad taptų toks pat patikimas kaip originalus kačių klasifikavimo modelis.

instagram viewer

Tai veikia, nes katės ir šunys turi daug bendrų bruožų, kuriuos iš anksto apmokytas modelis jau gali atpažinti. Kadangi kačių klasifikavimo modelis gali nustatyti įvairius katės bruožus, pvz., keturias kojas, kailinius ir iškilias snukis, šunų klasifikavimo modelis gali praleisti visus mokymus, kad nustatytų tuos bruožus ir paveldėtų juos iš originalo modelis. Paveldėję visus tuos neuroninius tinklus, nupjaukite paskutinius treniruoto modelio sluoksnius, naudojamus konkretesniems katės bruožams nustatyti, ir pakeisite juos šunims būdingu duomenų rinkiniu.

Kokius AI modelius galite naudoti mokydamiesi perkėlimo?

Jei norite naudoti mokymąsi perkelti, jums reikės iš anksto parengto modelio. Iš anksto parengtas modelis paprastai žinomas kaip AI modelis, parengtas siekiant įgyti bendrų žinių apie tam tikrą dalyką ar idėją. Šio tipo iš anksto paruošti modeliai yra specialiai sukurti tam, kad žmonės galėtų patikslinti ir sukurti labiau konkrečiai programai pritaikytus modelius. Kai kurie iš populiariausių iš anksto paruoštų modelių yra skirti NLP, pvz BERT ir GPT, ir kompiuterinė vizija, pvz., VGG19 ir Inceptionv3.

Nors ir populiarūs, šie lengvai koreguojami modeliai nėra vieninteliai, kuriuos galite naudoti mokydamiesi perkėlimo. Taip pat galite naudoti modelius, parengtus atlikti specifines užduotis nei bendras objekto ar kalbos atpažinimas. Kol modelis sukūrė neuroninius tinklus, taikomus modeliui, kurį bandote mokyti, galite naudoti beveik bet kurį modelį, skirtą mokymuisi perkelti.

Galite gauti viešai paruoštų modelių iš tokių vietų kaip TensorFlow Hub, Hugging Face ir OpenAI modelių prekyvietė.

AI perdavimo mokymosi pranašumai

Mokymasis perkeliant suteikia keletą privalumų, palyginti su AI modelio mokymu nuo nulio.

  • Sutrumpintas treniruočių laikas: Mokant modelį nuo nulio, didelė mokymo proceso dalis skiriama bendroms pagrindinėms žinioms. Perduodamas mokymasis, jūsų modelis automatiškai paveldi visas šias pagrindines žinias, taip žymiai sumažindamas mokymo laiką.
  • Mažiau išteklių poreikis: Kadangi visos pagrindinės žinios jau yra, viskas, ką jums reikia padaryti, tai toliau mokyti modelį, atitinkantį jūsų taikymo specifiką. Tam dažnai reikia tik santykinai nedidelio duomenų rinkinio, kurį būtų galima apdoroti naudojant mažesnę skaičiavimo galią.
  • Patobulintas našumas: Nebent išleisite milijonus dolerių kurdami modelį nuo nulio, iš milžiniškos technologijų įmonės negalite tikėtis tokio gero ar patikimo modelio kaip didelis kalbos modelis (LLM). Naudodami mokymąsi apie perkėlimą galite panaudoti galingas šių iš anksto parengtų LLM, pvz., GPT, galimybes, kad pagerintumėte savo modelio našumą.

Išmokyti dirbtinio intelekto modelį nuo nulio įmanoma, tačiau tam reikia daugiau išteklių.

Kaip veikia mokymosi perkėlimas?

Iš esmės yra trys mokymosi perkėlimo etapai.

  • Iš anksto apmokyto modelio pasirinkimas: Iš anksto apmokytas modelis yra apmokomas naudojant didelį duomenų rinkinį iš šaltinio užduoties, pvz., „ImageNet“, arba didelę teksto rinkinį. Šis pradinis mokymo etapas leidžia modeliui įgyti žinių apie bendrąsias duomenų rinkinio ypatybes ir modelius. Laikas ir resursai, kuriuos sutaupysite mokydamiesi perkėlimo, priklausys nuo iš anksto paruošto modelio ir modelio, kurį bandote sukurti, panašumų.
  • Funkcijų ištraukimas: Kai tiksliam derinimui pasirenkamas iš anksto paruoštas modelis, pradiniai iš anksto paruošto modelio sluoksniai (arčiausiai įvesties) užšaldomi; tai reiškia, kad koregavimo metu jų svoris yra fiksuotas. Užšaldžius šiuos sluoksnius išsaugomos bendros žinios, įgytos per parengiamąjį mokymą, ir neleidžiama, kad juos stipriai paveiktų tikslinio modelio užduočių specifinis duomenų rinkinys. Modeliams, visiškai paruoštiems konkrečioms programoms, galutiniai modelių sluoksniai pašalinami arba neišmokomi, kad tikslinis modelis būtų mokomas kitose konkrečiose programose.
  • Tikslus derinimas: Užšaldžius iš anksto paruoštą modelį ir pašalinus viršutinius sluoksnius, į mokymosi algoritmą įvedamas naujas duomenų rinkinys, kuris vėliau naudojamas naujam modeliui ir jo taikymo specifikai mokyti.

Jame yra daugiau nei trys etapai, tačiau šiame aprašyme apytiksliai aprašoma, kaip veikia AI perdavimo mokymosi procesas, šiek tiek patikslinus.

AI perdavimo mokymosi apribojimai

Nors mokymosi perkėlimas yra vertinga koncepcija mokant veiksmingus ir patikimus modelius, yra nemažai apribojimų, kuriuos turite žinoti, kai naudojate mokymąsi perkelti modeliui.

  • Užduočių neatitikimas: Renkantis bazinį mokymosi perkėlimo modelį, jis turi būti kuo labiau susijęs su problemomis, kurias išspręs naujasis modelis. Naudojant modelį, kuris klasifikuoja kates, sukurti šunų klasifikavimo modelį, greičiausiai bus gauti geresni rezultatai, nei naudojant automobilių klasifikavimo modelį, kad būtų sukurtas augalų modelis. Kuo bazinis modelis labiau atitinka modelį, kurį bandote sukurti, tuo daugiau laiko ir išteklių sutaupysite per mokymosi procesą.
  • Duomenų rinkinio šališkumas: Nors iš anksto parengti modeliai dažnai mokomi dideliuose duomenų rinkiniuose, vis tiek yra galimybė, kad mokymo metu jie sukūrė tam tikrą šališkumą. Naudojant labai šališką bazinį modelį, modelis taip pat paveldėtų jo paklaidas, taigi sumažėtų modelio tikslumas ir patikimumas. Deja, šių šališkumo kilmę sunku nustatyti dėl gilaus mokymosi juodosios dėžės pobūdis.
  • Per didelis pritaikymas: Vienas iš pagrindinių mokymosi perkėlimo pranašumų yra tai, kad galite naudoti palyginti nedidelį duomenų rinkinį, kad galėtumėte toliau mokyti modelį. Tačiau modelio mokymas naudojant per mažą duomenų rinkinį gali sukelti per daug pritaikymą, o tai žymiai sumažina modelio patikimumą, kai pateikiami nauji duomenys.

Taigi, nors mokymasis perkėlimas yra patogi AI mokymosi technika, egzistuoja apribojimai ir tai nėra sidabrinė kulka.

Ar turėtumėte naudoti mokymąsi perkėlus?

Nuo tada, kai atsirado iš anksto paruoštų modelių, mokymasis perkėlimui visada buvo naudojamas kuriant labiau specializuotus modelius. Tikrai nėra jokios priežasties nenaudoti mokymosi perkėlimo, jei jau yra parengtas modelis, susijęs su problemomis, kurias sprendžia jūsų modelis.

Nors galima išmokyti paprastą mašininio mokymosi modelį nuo nulio, norint tai padaryti, reikės gilaus mokymosi modelio daug duomenų, laiko ir įgūdžių, kurie nebus prasmingi, jei galėsite pakeisti esamą modelį, panašų į tą, kurį planuojate traukinys. Taigi, jei norite išleisti mažiau laiko ir pinigų modelio mokymui, pabandykite treniruoti savo modelį per mokymąsi.