Naudotojai paprastai pasiekia didelių kalbų modelius (LLM) naudodami vartotojo sąsają per API. Nors API naudojimas turi keletą pranašumų, jis taip pat turi apribojimų, pvz., nuolatinio interneto poreikį ryšys, riboti pritaikymai, galimos saugumo problemos ir įmonės, ribojančios modelio galimybes per a mokama siena.
Su kvantuotais LLM dabar pasiekiamais HuggingFace ir AI ekosistemose, pvz., H20, Text Gen ir GPT4All Leisdami į savo kompiuterį įkelti LLM svarmenis, dabar turite galimybę nemokamai, lanksčiai ir saugiai AI.
Norėdami pradėti, čia yra septyni geriausi vietiniai / neprisijungę LLM, kuriuos galite naudoti dabar!
1. Hermes GPTQ
Naujausias kalbos modelis, tiksliai suderintas naudojant 300 000 instrukcijų duomenų rinkinį, kurį atliko „Nous Research“. Hermes yra pagrįstas Meta LlaMA2 LLM ir buvo tiksliai suderintas naudojant daugiausia sintetinius GPT-4 išėjimus.
Modelis |
Hermes 13b GPTQ |
Modelio dydis |
7,26 GB |
Parametrai |
13 mlrd |
Kvantifikavimas |
4 bitų |
Tipas |
LlaMA2 |
Licencija |
GPL 3 |
Naudojant LlaMA2 kaip pagrindinį modelį, „Hermes“ gali padvigubinti konteksto dydį arba maksimalų 4 096 prieigos rakto dydį. Sujungęs ilgą konteksto dydį ir kodavimo architektūrą, „Hermes“ duoda ilgus atsakymus ir mažą haliucinacijų dažnį. Dėl to Hermes yra puikus įvairių modelių modelis
natūralios kalbos apdorojimas (NLP) užduotys, pvz., kodo rašymas, turinio kūrimas ir buvimas pokalbių robotu.Yra keletas naujojo Hermes GPTQ kvantavimo būdų ir versijų. Rekomenduojame pirmiausia išbandyti Hermes-Llama2 13B-GPTQ modelį, nes tai lengviausia įdiegti, bet vis tiek pasižymi puikiu našumu.
2. Falcon Instruct GPTQ
Ši kvantuota „Falcon“ versija yra pagrįsta tik dekoderio architektūra, tiksliai suderinta TII neapdoroto Flacon-7b modelio viršuje. Bazinis „Falcon“ modelis buvo apmokytas naudojant išskirtinius 1,5 trilijono žetonų, gautų viešajame internete. Kaip instrukcijomis pagrįstas tik dekoderio modelis, licencijuotas pagal Apache 2, „Falcon Instruct“ puikiai tinka mažoms įmonėms, ieškančioms modelio kalbos vertimui ir duomenų įvedimui.
Modelis |
Falcon-7B-Instruct |
Modelio dydis |
7,58 GB |
Parametrai |
7 mlrd |
Kvantifikavimas |
4 bitų |
Tipas |
Sakalas |
Licencija |
Apache 2.0 |
Tačiau ši „Falcon“ versija nėra ideali koregavimui ir skirta tik išvadoms daryti. Jei norite tiksliai sureguliuoti Falcon, turėsite naudoti neapdorotą modelį, kuriam gali prireikti prieigos prie įmonės lygio mokymo aparatinės įrangos, tokios kaip NVIDIA DGX arba AMD Instinct AI spartintuvai.
3.GPT4ALL-J Groovy
GPT4All-J Groovy yra tik dekoderio modelis, tiksliai suderintas Nomic AI ir licencijuotas pagal Apache 2.0. GPT4ALL-J Groovy sukurtas remiantis originaliu GPT-J modeliu, kuris, kaip žinoma, puikiai tinka teksto generavimui iš raginimų. GPT4ALL -J Groovy buvo sureguliuotas kaip pokalbių modelis, kuris puikiai tinka greitoms ir kūrybingoms teksto generavimo programoms. Dėl to GPT4All-J Groovy idealiai tinka turinio kūrėjams, padedantiems rašyti ir kurti darbus, nesvarbu, ar tai būtų poezija, muzika ar istorijos.
Modelis |
GPT4ALL-J Groovy |
Modelio dydis |
3,53 GB |
Parametrai |
7 mlrd |
Kvantifikavimas |
4 bitų |
Tipas |
GPT-J |
Licencija |
Apache 2.0 |
Deja, bazinis GPT-J modelis buvo parengtas naudojant tik anglų kalbos duomenų rinkinį, o tai reiškia, kad net šis tiksliai suderintas GPT4ALL-J modelis gali kalbėtis ir atlikti teksto generavimo programas tik anglų kalba.
4. WizardCoder-15B-GPTQ
Ieškote modelio, specialiai pritaikyto kodavimui? Nepaisant žymiai mažesnio dydžio, WizardCoder yra žinomas kaip vienas geriausių kodavimo modelių, pranoksta kitus modelius, tokius kaip LlaMA-65B, InstructCodeT5+ ir CodeGeeX. Šis modelis buvo apmokytas naudojant specifinį kodavimui skirtą Evol-Instruct metodą, kuris automatiškai redaguoja jūsų raginimus, kad būtų efektyvesnis su kodavimu susijęs raginimas, kurį modelis gali geriau suprasti.
Modelis |
WizardCoder-15B-GPTQ |
Modelio dydis |
7,58 GB |
Parametrai |
15 mlrd |
Kvantifikavimas |
4 bitų |
Tipas |
LlaMA |
Licencija |
bigcode-openrail-m |
Kvantuota į 4 bitų modelį, WizardCoder dabar gali būti naudojama įprastuose asmeniniuose kompiuteriuose, kur asmenys gali jį naudoti eksperimentuodami ir kaip paprastesnių programų ir scenarijų kodavimo asistentą.
5. Vedlys Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ yra kvantinė Wizard Vicuna versija, pagrįsta LlaMA modeliu. Skirtingai nuo daugelio visuomenei išleistų LLM, „Wizard-Vicuna“ yra necenzūruotas modelis, kurio lygiavimas pašalintas. Tai reiškia, kad modelio saugos ir moralės standartai skiriasi nuo daugelio modelių.
Modelis |
Wizard-Vicuna-30B-Uncensored-GPTQ |
Modelio dydis |
16,94 GB |
Parametrai |
30 mlrd |
Kvantifikavimas |
4 bitų |
Tipas |
LlaMA |
Licencija |
GPL 3 |
Nors galbūt pozuoja an AI derinimo valdymo problema, turėdamas necenzūruotą LLM taip pat išryškina geriausius modelio pranašumus, nes jam leidžiama atsakyti be jokių suvaržymų. Tai taip pat leidžia vartotojams pridėti savo pasirinktinį suderinimą, kaip AI turėtų veikti arba atsakyti pagal nurodytą raginimą.
6. Orca Mini-GPTQ
Norite eksperimentuoti su modeliu, apmokytu pagal unikalų mokymosi metodą? „Orca Mini“ yra neoficialus „Microsoft Orca“ tyrimų straipsnių modelio įgyvendinimas. Jis buvo apmokytas naudojant mokytojo ir mokinio mokymosi metodą, kai duomenų rinkinys buvo pilnas paaiškinimų, o ne tik raginimų ir atsakymų. Teoriškai tai turėtų duoti protingesnį studentą, kurio modelis gali suprasti problemą, o ne tik ieškoti įvesties ir išvesties porų, pavyzdžiui, kaip veikia tipiški LLM.
Modelis |
Orca Mini-GPTQ |
Modelio dydis |
8,11 GB |
Parametrai |
3 mlrd |
Kvantifikavimas |
4 bitų |
Tipas |
LlaMA |
Licencija |
MIT |
Turėdamas tik tris milijardus parametrų, Orca Mini GPTQ lengva paleisti net ir mažiau galingose sistemose. Tačiau šis modelis neturėtų būti naudojamas profesionaliems tikslams, nes jis generuoja klaidingą informaciją, šališkus ir įžeidžiančius atsakymus. Šis modelis turėtų būti naudojamas mokantis ir eksperimentuojant su Orca ir jos metodais.
7. LlaMA 2 Chat GPTQ
LlaMA 2 yra originalaus LlaMA LLM, dėl kurio atsirado daugumą šio sąrašo modelių, įpėdinis. LlaMA 2 yra kelių LLM rinkinys, kiekvienas apmokytas naudojant 7–70 milijardų parametrų. Apskritai, LlaMA 2 buvo iš anksto apmokytas naudojant 2 trilijonus duomenų, paimtų iš viešai prieinamų instrukcijų duomenų rinkinių.
Modelis |
Falcon-40B-Instruct-GPTQ |
Modelio dydis |
7,26 GB |
Parametrai |
3 mlrd |
Kvantifikavimas |
4 bitų |
Tipas |
OpenLlaMA |
Licencija |
EULA (meta licencija) |
LlaMA 2 skirtas naudoti komerciniais ir moksliniais tikslais. Todėl šį modelį geriausia naudoti sureguliavus, kad būtų geriau atliktos konkrečios užduotys. Šis specifinis LlaMA 2 pokalbių GPTQ modelis buvo tiksliai sureguliuotas ir optimizuotas anglų kalbos dialogui, todėl puikus modelis įmonėms ir organizacijoms kaip pokalbių robotui, kuriam nereikia papildomo mokymo arba jo nereikia reikalaujama. Pagal sąlygas įmonės, turinčios mažiau nei 700 milijonų vartotojų, gali naudoti LlaMA 2 nemokėdamos jokio Meta ar Microsoft licencijos mokesčio.
Išbandykite vietinius didelių kalbų modelius šiandien
Kai kurie iš aukščiau išvardytų modelių turi kelias versijas pagal parametrus. Paprastai aukštesnių parametrų versijos duoda geresnių rezultatų, tačiau reikalauja galingesnės aparatinės įrangos, o žemesnių parametrų versijos duos prastesnės kokybės rezultatus, bet gali veikti žemesnės klasės aparatinėje įrangoje. Jei nesate tikri, ar jūsų kompiuteris gali paleisti modelį, pirmiausia pabandykite pasirinkti žemesnio parametro versiją, tada tęskite tol, kol pajusite, kad našumo sumažėjimas nebepriimtinas.
Kadangi šiame sąraše esantys kiekybiniai modeliai užima tik kelis gigabaitus vietos ir modelių diegimo platformos, tokios kaip GPT4All ir Teksto generavimo žiniatinklio sąsaja gali būti lengvai įdiegta naudojant vieno spustelėjimo diegimo programas, todėl kelių modelių ir modelių versijų išbandymas neturėtų užtrukti daug laiko ir pastangų.
Taigi ko tu lauki? Išbandykite vietinį modelį šiandien!