GPT nėra vienintelis kalbos apdorojimo modelis mieste.
AI įrankiai, tokie kaip ChatGPT, tapo neįtikėtinai populiarūs nuo tada, kai buvo išleisti. Tokie įrankiai praplečia natūralios kalbos apdorojimo (NLP) ribas, todėl dirbtinis intelektas gali lengviau palaikyti pokalbius ir apdoroti kalbą kaip tikras žmogus.
Kaip tikriausiai žinote, „ChatGPT“ remiasi generuojančiu iš anksto apmokytu transformatoriaus modeliu (GPT). Tačiau tai nėra vienintelis iš anksto apmokytas modelis.
2018 m. „Google“ inžinieriai sukūrė BERT (dvikrypčio kodavimo atstovą iš transformatorių) – iš anksto paruoštą gilaus mokymosi modelį, skirtą suprasti sakinio žodžių kontekstą, kad jis galėtų atlikti tokias užduotis kaip nuotaikų analizė, atsakyti į klausimus ir įvardytų objektų atpažinimas tikslumu.
Kas yra BERT?
BERT yra gilaus mokymosi modelis, kurį sukūrė Google AI tyrimai kuri naudoja neprižiūrimą mokymąsi, kad geriau suprastų natūralios kalbos užklausas. Modelis naudoja transformatoriaus architektūrą, kad išmoktų dvikrypčius teksto duomenų atvaizdavimus, o tai leidžia geriau suprasti sakinio ar pastraipos žodžių kontekstą.
Tai leidžia mašinoms lengviau interpretuoti žmonių kalbą taip, kaip kalbama kasdieniame gyvenime. Svarbu paminėti, kad kompiuteriams istoriškai buvo sunku apdoroti kalbą, ypač suprasti kontekstą.
Skirtingai nuo kitų kalbos apdorojimo modelių, BERT yra apmokyta atlikti daugiau nei 11 įprastų NLP užduočių, todėl tai itin populiarus pasirinkimas mašininio mokymosi ratuose.
Lyginant su kitais populiariais transformatorių modeliais, tokiais kaip GPT-3, BERT turi aiškų pranašumą: yra dvikryptis ir todėl gali įvertinti kontekstą iš kairės į dešinę ir iš dešinės į kairę. GPT-3.5 ir GPT-4 atsižvelgia tik į kontekstą iš kairės į dešinę, o BERT aptarnauja abu.
Kalbos modeliai, pvz., GPT, naudoja vienakryptį kontekstą modeliui lavinti, o tai leidžia „ChatGPT“, kad atliktumėte kelias užduotis. Paprastais žodžiais tariant, šie modeliai analizavo teksto įvesties kontekstą iš kairės į dešinę arba, kai kuriais atvejais, iš dešinės į kairę. Tačiau šis vienakryptis metodas turi apribojimų, kai kalbama apie teksto supratimą, todėl sugeneruotose išvestėse atsiranda netikslumų.
Iš esmės tai reiškia, kad prieš pateikdama atsakymą BERT analizuoja visą sakinio kontekstą. Tačiau verta paminėti, kad GPT-3 buvo parengtas naudojant žymiai didesnį teksto korpusą (45 TB), palyginti su BERT (3 TB).
BERT yra užmaskuotos kalbos modelis
Svarbu žinoti, kad BERT remiasi maskavimu, kad suprastų sakinio kontekstą. Apdorodamas sakinį, jis pašalina jo dalis ir pasikliauja modeliu, kad nuspėtų ir užpildytų spragas.
Tai leidžia iš esmės „numatyti“ kontekstą. Sakiniuose, kuriuose vienas žodis gali turėti dvi skirtingas reikšmes, tai suteikia užmaskuotos kalbos modeliams aiškų pranašumą.
Kaip veikia BERT?
BERT buvo apmokyta naudoti daugiau nei 3,3 milijardo žodžių duomenų rinkinį (iki 2,5 milijardo žodžių remiasi Vikipedija) ir 800 milijonų žodžių iš Google BooksCorpus.
Unikalus BERT dvikryptis kontekstas leidžia vienu metu apdoroti tekstą iš kairės į dešinę ir atvirkščiai. Ši naujovė pagerina modelio supratimą apie žmonių kalbą ir leidžia suprasti sudėtingus žodžių ir jų konteksto ryšius.
Dvikryptis elementas padarė BERT revoliucinį transformatoriaus modelį, leidžiantį žymiai pagerinti NLP užduotis. Dar svarbiau, kad tai taip pat padeda apibūdinti naudojamų įrankių meistriškumą dirbtinis intelektas (AI) apdoroti kalbą.
BERT efektyvumą lemia ne tik jos dvikryptis, bet ir tai, kaip ji buvo iš anksto parengta. BERT parengiamojo mokymo etapą sudarė du pagrindiniai etapai, būtent maskuotos kalbos modelis (MLM) ir kito sakinio numatymas (NSP).
Nors dauguma išankstinio mokymo metodų užmaskuoja atskirus sekos elementus, BERT naudoja MLM, kad atsitiktinai užmaskuotų tam tikrą sakinio įvesties žetonų procentą mokymo metu. Šis metodas verčia modelį numatyti trūkstamus žodžius, atsižvelgiant į kontekstą iš abiejų užmaskuoto žodžio pusių – taigi ir dvikryptis.
Tada NSP metu BERT išmoksta nuspėti, ar X sakinys tikrai seka sakiniu Y. Ši galimybė moko modelį suprasti sakinių ryšius ir bendrą kontekstą, o tai savo ruožtu prisideda prie modelio efektyvumo.
Tikslus BERT derinimas
Po išankstinio mokymo BERT perėjo į koregavimo etapą, kur modelis buvo pritaikytas įvairioms NLP užduotims, įskaitant nuotaikų analizę, įvardintų objektų atpažinimą ir klausimų atsakymų sistemas. Tikslus derinimas apima prižiūrimą mokymąsi, pažymėtų duomenų rinkinių panaudojimą, siekiant pagerinti modelio našumą atliekant konkrečias užduotis.
BERT mokymo metodas laikomas „universaliu“, nes leidžia tai pačiai modelio architektūrai atlikti įvairias užduotis be didelių pakeitimų. Šis universalumas yra dar viena BERT populiarumo tarp NLP entuziastų priežastis.
Pavyzdžiui, „Google“ naudoja BERT, kad nuspėtų paieškos užklausas ir įtrauktų trūkstamus žodžius, ypač atsižvelgiant į kontekstą.
Kam dažniausiai naudojamas BERT?
Nors „Google“ savo paieškos sistemoje naudoja BERT, ji turi keletą kitų programų:
Sentimentų analizė
Sentimentų analizė yra pagrindinė NLP programa, skirta teksto duomenų klasifikavimui pagal juose esančias emocijas ir nuomones. Tai labai svarbu daugelyje sričių – nuo klientų pasitenkinimo stebėjimo iki akcijų rinkos tendencijų numatymo.
BERT puikiai tinka šioje srityje, nes užfiksuoja emocinę teksto įvesties esmę ir tiksliai numato jausmus už žodžių.
Teksto apibendrinimas
Dėl savo dvikrypčio pobūdžio ir dėmesio mechanizmų BERT gali suvokti kiekvieną tekstinio konteksto dalelę neprarasdama esminės informacijos. Rezultatas – kokybiškos, nuoseklios santraukos, tiksliai atspindinčios reikšmingą įvesties dokumentų turinį.
Pavadintas subjekto atpažinimas
Pavadintų objektų atpažinimas (NER) yra dar vienas gyvybiškai svarbus NLP aspektas, kuriuo siekiama identifikuoti ir suskirstyti objektus, pvz., pavadinimus, organizacijas ir vietas teksto duomenyse.
BERT yra tikrai transformuojanti NER erdvėje, visų pirma dėl savo gebėjimo atpažinti ir klasifikuoti sudėtingus objektų modelius, net kai jie pateikiami sudėtingose teksto struktūrose.
Atsakymų į klausimus sistemos
BERT kontekstinis supratimas ir dviejų krypčių koduotuvų įžeminimas leidžia išgauti tikslius atsakymus iš didelių duomenų rinkinių.
Jis gali veiksmingai nustatyti klausimo kontekstą ir rasti tinkamiausią atsakymą tekste duomenys, galimybė, kurią galima panaudoti pažangiems pokalbių robotams, paieškos sistemoms ir net virtualiems padėjėjai.
Mašininis vertimas per BERT
Mašininis vertimas yra esminė NLP užduotis, kurią BERT patobulino. Transformatoriaus architektūra ir dvikryptis konteksto supratimas padeda įveikti kliūtis verčiant iš vienos kalbos į kitą.
Nors daugiausia dėmesio skiriama anglų kalbai, BERT daugiakalbiai variantai (mBERT) gali būti taikomi mašinoms vertimo į daugelį kalbų problemų, atveriant duris į įtraukesnes platformas ir bendravimą laikmenos.
AI ir mašininis mokymasis ir toliau stumia naujas ribas
Neabejotina, kad tokie modeliai kaip BERT keičia žaidimą ir atveria naujas tyrimų galimybes. Bet dar svarbiau, kad tokius įrankius galima lengvai integruoti į esamas darbo eigas.