ChatGPT populiarumas liudija, kaip toli pažengė natūralios kalbos apdorojimas (NLP). Transformatorių architektūros modeliai, tokie kaip GPT-3, GPT-4 ir BERT, gali bendrauti kaip žmonės, o kai kurie netgi gali būti naudojami sudėtingam kodui rašyti.

Nors GPT yra rinkos lyderis, BERT iš tikrųjų buvo pirmasis kalbinis modelis, kuris pasirodė 2018 m. Bet kuris iš jų geresnis? O kuo skiriasi GPT ir BERT?

GPT-3 ir GPT-4 paaiškinimas

GPT-3 (Generative Pre-Tained Transformer 3) yra autoregresyvus kalbos modelis, kurį OpenAI pristatė 2020 m. birželio mėn. Jame naudojama transformatoriaus architektūra su 175 milijardais parametrų, todėl tai yra vienas didžiausių kada nors sukurtų kalbų modelių.

GPT-3 gali generuoti tekstą natūralia kalba, taip pat atsakyti į klausimus, kurti eilėraščius ir net parašyti pilnus straipsnius. „ChatGPT“ yra puikus generatyvaus AI pavyzdys maitina GPT.

Jis buvo laikomas natūralios kalbos apdorojimo žaidimo keitikliu ir turi daugybę galimų programų, įskaitant pokalbių robotus, kalbos vertimą ir turinio kūrimą.

instagram viewer

GPT-4 yra naujausias ir didžiausias GPT modelių serijoje ir pasiekiamas, jei norite turite „ChatGPT Plus“ prenumeratą. GPT-4 yra šešis kartus didesnis už GPT-3 modelį, jo parametrų apytikslis yra vienas trilijonas, todėl jis yra daug tikslesnis.

Kas yra BERT?

BERT (Bidirectional Encoder Representations from Transformers) yra kalbos vaizdavimo modelis prieš mokymą, kuris tiksliai suderina NLP programas, kurias „Google“ sukūrė 2018 m. Skirtingai nuo kitų NLP modelių, kuriuose naudojamas vienkryptis dėmesio srautas, BERT naudoja dvikryptį srautą, kuris leidžia naudoti kontekstą iš abiejų krypčių apdorojimo metu.

Tai leidžia modeliui suprasti žodžių reikšmę kontekste ir, savo ruožtu, geriau suprasti kalbos struktūras. Naudodama BERT, „Google“ dabar gali pateikti tikslesnius paieškos rezultatus sudėtingoms užklausoms, ypač toms, kurios remiasi prielinksniais, pvz., „už“, „iki“ ir „nuo“.

Pagrindiniai skirtumai tarp GPT ir BERT

Dabar, kai turite trumpą idėją apie GPT ir BERT, aptarkime pagrindinius šių dviejų kalbų modelių skirtumus.

Architektūra

Architektūra reiškia daugybę sluoksnių, kurie sudaro mašininio mokymosi modelį. GPT ir BERT naudoja skirtingus modelius. BERT sukurtas dvikrypčiui konteksto vaizdavimui, o tai reiškia, kad jis apdoroja tekstą tiek iš kairės į dešinę, tiek iš dešinės į kairę, kad būtų galima užfiksuoti kontekstą iš abiejų krypčių.

Priešingai, žmonės skaito tekstą iš kairės į dešinę (arba iš dešinės į kairę, priklausomai nuo jūsų vietos). BERT mokomas naudojant užmaskuotos kalbos modeliavimo tikslą, kai kai kurie sakinio žodžiai yra užmaskuoti, o modeliui pavesta numatyti trūkstamus žodžius pagal aplinkinį kontekstą.

Šis išankstinio mokymo metodas leidžia BERT išmokti gilių kontekstualizuotų reprezentacijų, todėl jis labai efektyvus atliekant NLP užduotis, pvz., nuotaikų analizę, atsakymą į klausimus ir įvardintų objektų atpažinimą.

Priešingai, GPT yra autoregresyvus modelis, tai reiškia, kad jis generuoja tekstą nuosekliai iš kairės į dešinę, numatydamas kitą sakinio žodį pagal prieš tai buvusius žodžius.

GPT mokomas naudojant vienkrypčio (priežastinio) kalbos modeliavimo tikslą, kai jis numato kitą žodį, atsižvelgiant į ankstesnių žodžių kontekstą. Tai viena iš pagrindinių priežasčių, kodėl GPT yra toks populiarus kuriant turinį.

Mokymo duomenys

BERT ir GPT skiriasi naudojamų mokymo duomenų tipais. BERT yra apmokytas naudojant užmaskuotos kalbos modelį, o tai reiškia, kad tam tikri žodžiai yra užmaskuoti, o algoritmas turi numatyti, koks bus kitas žodis. Tai padeda parengti modelį ir padaryti jį tikslesniu pagal kontekstą.

Kaip ir GPT, BERT yra apmokytas didelio masto teksto korpuse. Originalas buvo apmokytas anglų kalbos Wikipedia ir BooksCorpus, duomenų rinkinyje, kuriame yra maždaug 11 000 neskelbtų knygų, kuriose yra apie 800 milijonų žodžių, iš įvairių žanrų, tokių kaip grožinė literatūra, mokslas ir kompiuterija.

BERT gali būti iš anksto apmokytas naudoti skirtingų kalbų modelius, o tai, kaip minėta pirmiau, leidžia jį apmokyti konkrečioms programoms, su papildoma galimybe tiksliai suderinti šį iš anksto parengtą modelį.

Ir atvirkščiai, GPT-3 buvo apmokytas naudojant WebText duomenų rinkinį – didelio masto korpusą, kuriame yra tinklalapių iš tokių šaltinių kaip Vikipedija, knygos ir straipsniai. Jame taip pat yra tekstas iš „Common Crawl“, viešai pasiekiamo žiniatinklio turinio archyvo. Be to, jį galima tiksliai sureguliuoti konkretiems tikslams.

Kalbant apie GPT-4, mokymo duomenų informacijos yra šiek tiek mažai, tačiau gana tikėtina, kad GPT-4 yra apmokytas panašiai įvairiuose duomenų rinkiniuose. įskaitant naujesnius šaltinius ir dar didesnį duomenų kiekį, kad būtų pagerintas natūralios kalbos supratimas ir jos gebėjimas generuoti kontekstą atitinkantį turinį. atsakymus.

Naudojimo atvejai

Nors abu yra labai universalūs NLP modeliai, jų architektūriniai skirtumai juos išskiria keliais būdais. Pavyzdžiui, BERT yra daug pajėgesnė šiais naudojimo atvejais:

  1. Sentimentų analizė: BERT gali geriau suprasti bendrą tam tikro teksto nuotaiką, nes ji analizuoja žodžius bet kuria kryptimi.
  2. Pavadintas subjekto atpažinimas: BERT gali atpažinti skirtingus objektus tam tikroje teksto dalyje, įskaitant vietas, žmones ar organizacijas.
  3. Atsakymas į klausimus: Dėl puikių supratimo galimybių BERT gali geriau išgauti informaciją iš teksto ir tiksliai atsakyti į klausimus.

GPT mokymosi modelis taip pat nėra lėtas. Nors nuotaikų analizė gali būti ne jo stiprioji pusė, GPT puikiai tinka keliose kitose programose:

  1. Turinio kūrimas: Jei naudojote „ChatGPT“, tikriausiai apie tai jau žinote. Kalbant apie turinio kūrimą, GPT pranoksta daugumą kitų modelių. Tiesiog parašykite raginimą ir jis pateiks visiškai nuoseklų (nors ir ne visada tikslų) atsakymą.
  2. Apibendrinamas tekstas: Tiesiog nukopijuokite ir įklijuokite didelį teksto bloką „ChatGPT“ ir paprašykite jį apibendrinti. Jis gali apibendrinti tekstą išlaikant pagrindinę informaciją.
  3. Mašininis vertimas: Dėl gebėjimo generuoti tekstą pagal kontekstą GPT galima tiksliai sureguliuoti verčiant tekstą iš vienos kalbos į kitą.

Naudojamumas

Skirtingai nuo ChatGPT, leidžiančio bet kam pasinaudoti GPT modeliu, BERT nėra taip lengvai prieinama. Pirmiausia turėsite atsisiųsti iš pradžių paskelbtą Jupyter užrašų knygelė BERT, tada nustatykite kūrimo aplinką naudodami „Google Colab“ arba „TensorFlow“.

Jei nenorite jaudintis dėl a Jupyter užrašų knygelė arba nėra tokie techniniai, galite apsvarstyti galimybę naudoti „ChatGPT“, o tai yra taip paprasta, kaip tiesiog prisijungti prie svetainės. Tačiau mes taip pat apėmėme kaip naudotis Jupyter Notebook, kuris turėtų būti geras atspirties taškas.

BERT ir GPT parodo AI galimybes

BERT ir GPT mokymo modeliai yra aiškūs pavyzdžiai, ką dirbtinis intelektas gali. „ChatGPT“ yra populiaresnis ir jau sukūrė keletą papildomų programų, tokių kaip „Auto-GPT“, kurios trikdo darbo eigą ir keičia darbo funkcijas.

Nors AI pritaikymas ir tai, ką tai gali reikšti darbo vietoms, yra skeptiškai nusiteikę, taip pat yra gerovės potencialo. Daugelis kompanijų, pvz., „Google“ ir „OpenAI“, jau stengiasi nustatyti valdiklius ir toliau reguliuoti AI technologiją, o tai gali būti gera ateitis.