Kas yra didelių kalbų modeliai (LLM) ir kaip jie veikia?

Didelių kalbų modeliai (LLM) yra pagrindinė technologija, kuri paskatino generatyvių AI pokalbių robotų augimą. Įrankiai, tokie kaip „ChatGPT“, „Google Bard“ ir „Bing Chat“, remiasi LLM, kad generuotų panašius atsakymus į jūsų raginimus ir klausimus.

Bet kas yra LLM ir kaip jie veikia? Čia mes siekiame išsklaidyti LLM.

Kas yra didelės kalbos modelis?

Paprasčiausiai tariant, LLM yra didžiulė tekstinių duomenų duomenų bazė, kurią galima remtis, kad būtų generuojami į žmones panašūs atsakymai į jūsų raginimus. Tekstas kilęs iš įvairių šaltinių ir gali sudaryti milijardus žodžių.

Tarp dažniausiai naudojamų tekstinių duomenų šaltinių yra šie:

Literatūra: LLM dažnai turi milžinišką kiekį šiuolaikinės ir klasikinės literatūros. Tai gali būti knygos, poezija ir pjesės.
Internetinis turinys: LLM dažniausiai turi didelę internetinio turinio saugyklą, įskaitant tinklaraščius, žiniatinklio turinį, forumo klausimus ir atsakymus bei kitą internetinį tekstą.
Naujienos ir aktualijos: Kai kurie, bet ne visi, LLM gali pasiekti dabartines naujienų temas. Tam tikri LLM, pavyzdžiui, GPT-3.5, šiuo požiūriu yra ribojami.
instagram viewer
Socialinė žiniasklaida: Socialinė žiniasklaida yra didžiulis natūralios kalbos šaltinis. LLM naudoja tekstą iš pagrindinių platformų, tokių kaip „Facebook“, „Twitter“ ir „Instagram“.

Žinoma, turėti didžiulę teksto duomenų bazę yra vienas dalykas, tačiau LLM reikia išmokyti suprasti, kaip tai padaryti, kad būtų galima pateikti į žmones panašius atsakymus. Kaip tai daroma, aptarsime toliau.

Kaip veikia LLM?

Kaip LLM naudoja šias saugyklas savo atsakymams kurti? Pirmasis žingsnis yra analizuoti duomenis naudojant procesą, vadinamą giluminiu mokymusi.

Gilus mokymasis naudojamas žmogaus kalbos modeliams ir niuansams nustatyti. Tai apima gramatikos ir sintaksės supratimą. Tačiau svarbu tai, kad tai apima ir kontekstą. Konteksto supratimas yra esminė LLM dalis.

Pažvelkime į pavyzdį, kaip LLM gali naudoti kontekstą.

Tolesniame paveikslėlyje pateiktas raginimas mini, kad naktį matėte šikšnosparnį. Iš to ChatGPT suprato, kad kalbame apie gyvūną, o ne, pavyzdžiui, beisbolo lazdą. Žinoma, kiti pokalbių robotai mėgsta „Bing Chat“ arba „Google Bard“. gali atsakyti į šį klausimą visiškai kitaip.

Tačiau jis nėra neklystantis ir, kaip rodo šis pavyzdys, kartais turėsite pateikti papildomos informacijos, kad gautumėte norimą atsakymą.

Šiuo atveju mes sąmoningai išmetėme šiek tiek kreivės kamuoliuką, kad parodytume, kaip lengvai prarandamas kontekstas. Tačiau žmonės taip pat gali neteisingai suprasti klausimų kontekstą, todėl norint ištaisyti atsakymą, reikia tik papildomo raginimo.

Norėdami sukurti šiuos atsakymus, LLM naudoja techniką, vadinamą natūralios kalbos generavimu (NLG). Tai apima įvesties tyrimą ir iš duomenų saugyklos išmoktų modelių naudojimą, kad būtų sukurtas kontekstinis teisingas ir tinkamas atsakymas.

Tačiau LLM yra giliau nei tai. Jie taip pat gali pritaikyti atsakymus, kad atitiktų emocinį įvesties toną. Kartu su konteksto supratimu šie du aspektai yra pagrindiniai veiksniai, leidžiantys LLM sukurti į žmogų panašius atsakymus.

Apibendrinant galima pasakyti, kad LLM naudoja didžiulę teksto duomenų bazę su gilaus mokymosi ir NLG metodų deriniu, kad sukurtų žmogiškus atsakymus į jūsų raginimus. Tačiau yra apribojimų, ką tai gali pasiekti.

Kokie yra LLM apribojimai?

LLM yra įspūdingas technologinis pasiekimas. Tačiau technologija toli gražu nėra tobula, ir vis dar yra daug apribojimų, ką jie gali pasiekti. Kai kurie žymesni iš jų yra išvardyti žemiau:

Kontekstinis supratimas: Mes tai paminėjome kaip tai, ką LLM įtraukia į savo atsakymus. Tačiau jie ne visada supranta tai teisingai ir dažnai nesugeba suprasti konteksto, todėl pateikia netinkamus arba tiesiog neteisingus atsakymus.
Šališkumas: Bet koks mokymo duomenų paklaida dažnai gali būti atsakymuose. Tai apima šališkumą lyties, rasės, geografijos ir kultūros atžvilgiu.
Sveikas protas: Sveiką protą sunku įvertinti kiekybiškai, tačiau žmonės to išmoksta nuo mažens tiesiog stebėdami juos supantį pasaulį. LLM neturi šios įgimtos patirties, kuria galėtų grįžti. Jie supranta tik tai, kas jiems buvo pateikta per jų mokymo duomenis, ir tai nesuteikia jiems tikrojo pasaulio, kuriame jie egzistuoja, supratimo.
LLM yra tik tiek, kiek jo mokymo duomenys: Tikslumas niekada negali būti garantuotas. Senas kompiuterinis posakis „Šiukšles įvežti, šiukšles išvežti“ puikiai apibendrina šį apribojimą. LLM yra tik tiek, kiek jiems leidžia jų mokymo duomenų kokybė ir kiekis.

Taip pat yra argumentas, kad etiniai klausimai gali būti laikomi LLM apribojimu, tačiau ši tema nepatenka į šio straipsnio taikymo sritį.

3 Populiarių LLM pavyzdžiai

Nuolatinį AI tobulėjimą dabar daugiausia remia LLM. Taigi, nors jie nėra visiškai nauja technologija, jie tikrai pasiekė kritinį pagreitį ir dabar yra daug modelių.

Štai keletas plačiausiai naudojamų LLM.

1. GPT

Generative Pre-Tained Transformer (GPT) yra bene plačiausiai žinomas LLM. GPT-3.5 veikia ChatGPT platforma, naudojama šio straipsnio pavyzdžiams, o naujausia versija GPT-4 yra prieinama per „ChatGPT Plus“ prenumeratą. „Microsoft“ taip pat naudoja naujausią versiją savo Bing Chat platformoje.

2. LaMDA

Tai pradinis LLM, kurį naudoja „Google Bard“, „Google“ AI pokalbių robotas. „Bard“ versija, kuri iš pradžių buvo išleista, buvo apibūdinta kaip „paprastoji“ LLM versija. Galingesnė LLM PaLM iteracija tai pakeitė.

3. BERT

BERT reiškia transformatorių dvikryptį kodavimo įrenginį. Modelio dvikryptės charakteristikos skiriasi BERT iš kitų LLM, pvz., GPT.

Buvo sukurta daug daugiau LLM, o pagrindinės LLM yra bendros atšakos. Kai jie vystysis, jų sudėtingumas, tikslumas ir aktualumas toliau augs. Bet kokia LLM ateitis?

LLM ateitis

Tai neabejotinai pakeis mūsų sąveiką su technologijomis ateityje. Spartus tokių modelių kaip „ChatGPT“ ir „Bing Chat“ įsisavinimas yra šio fakto įrodymas. Trumpuoju laikotarpiu AI vargu ar pakeis jus darbe. Tačiau vis dar neaišku, kokį svarbų vaidmenį jie atliks mūsų gyvenime ateityje.

Etiniai argumentai dar gali turėti įtakos, kaip integruoti šias priemones į visuomenę. Tačiau, kalbant apie tai, kai kurie tikėtini LLM pokyčiai apima:

Padidėjęs efektyvumas: Su LLM, turinčiais šimtus milijonų parametrų, jie nepaprastai reikalauja išteklių. Tikėtina, kad patobulinus aparatinę įrangą ir algoritmus, jie taps efektyvesni. Tai taip pat pagreitins atsakymo laiką.
Patobulintas kontekstinis suvokimas:LLM yra savarankiškas mokymas; kuo daugiau naudojimo ir atsiliepimų jie sulaukia, tuo geresni jie tampa. Svarbu tai, kad tai be jokios papildomos inžinerijos. Tobulėjant technologijoms, pagerės kalbos galimybės ir konteksto suvokimas.
Apmokytas atlikti konkrečias užduotis:Pažangūs įrankiai, kurie yra viešas LLM veidas, yra linkę į klaidas. Tačiau kai jie vystosi ir naudotojai moko juos pagal specifinius poreikius, LLM gali atlikti svarbų vaidmenį tokiose srityse kaip medicina, teisė, finansai ir švietimas.
Didesnė integracija: LLM gali tapti asmeniniais skaitmeniniais asistentais. Pagalvokite apie Siri, vartojančią steroidus, ir suprasite. LLM gali tapti virtualiais asistentais, kurie jums padės viskuo – nuo maitinimo siūlymo iki susirašinėjimo.

Tai tik keletas sričių, kuriose LLM gali tapti didesne mūsų gyvenimo dalimi.

LLM transformavimas ir ugdymas

LLM atveria įdomų galimybių pasaulį. Spartus pokalbių robotų, tokių kaip „ChatGPT“, „Bing Chat“ ir „Google Bard“, augimas rodo, kad šioje srityje naudojami ištekliai.

Dėl tokio išteklių gausėjimo šie įrankiai gali tapti galingesni, universalesni ir tikslesni. Galimas tokių įrankių pritaikymas yra didžiulis, ir šiuo metu mes tik subraižome neįtikėtino naujo resurso paviršių.

About Technology - denizatm.com

Kas yra didelių kalbų modeliai (LLM) ir kaip jie veikia?

Kas yra didelės kalbos modelis?

Kaip veikia LLM?

Kokie yra LLM apribojimai?

3 Populiarių LLM pavyzdžiai

1. GPT

2. LaMDA

3. BERT

LLM ateitis

LLM transformavimas ir ugdymas

Kategorijos

Recent Post

Naujo projekto prototipų kūrimas? „PCBWay“ patenkina visus jūsų gamybos poreikius

Šaukštas Vykdo „Windows“ darbalaukio programas iš savo naršyklės

Renginių planavimo programinė įranga: 5 programos, skirtos efektyviai valdyti įvykius