Galite naudoti „Meta's Llama 2“ tinkle, tačiau galite tinkinti ir pritaikyti patirtį, jei įdiegsite ją vietiniame kompiuteryje.
„Meta“ išleido „Llama 2“ 2023 m. vasarą. Naujoji „Llama“ versija yra tiksliai suderinta su 40 % daugiau žetonų nei originalus „Llama“ modelis, todėl jos kontekstinis ilgis padvigubėja ir gerokai pranoksta kitus turimus atvirojo šaltinio modelius. Greičiausias ir lengviausias būdas pasiekti Llama 2 yra per API per internetinę platformą. Tačiau jei norite geriausios patirties, geriausia įdiegti ir įkelti „Llama 2“ tiesiai į savo kompiuterį.
Atsižvelgdami į tai, sukūrėme nuoseklų vadovą, kaip naudoti teksto generavimo žiniatinklio sąsają, norint įkelti kvantuotą Llama 2 LLM vietoje jūsų kompiuteryje.
Kodėl „Llama 2“ reikia įdiegti vietoje
Yra daug priežasčių, kodėl žmonės pasirenka tiesiogiai paleisti „Llama 2“. Kai kurie tai daro siekdami privatumo, kai kurie tinkindami, o kiti – dėl galimybių neprisijungus. Jei tyrinėjate, tobulinate arba integruojate „Llama 2“ savo projektuose, prieiga prie „Llama 2“ per API gali būti ne jums. LLM paleidimo vietoje jūsų kompiuteryje esmė yra sumažinti pasitikėjimą
trečiųjų šalių AI įrankiai ir naudokite dirbtinį intelektą bet kada ir bet kur, nesijaudindami dėl potencialiai jautrių duomenų nutekėjimo įmonėms ir kitoms organizacijoms.Tai pasakę, pradėkime nuo nuoseklaus „Llama 2“ diegimo vietoje vadovo.
Norėdami supaprastinti dalykus, teksto generavimo-WebUI (programa, naudojama įkelti Llama 2 su GUI) naudosime vieno paspaudimo diegimo programą. Tačiau, kad ši diegimo programa veiktų, turite atsisiųsti „Visual Studio 2019 Build Tool“ ir įdiegti reikiamus išteklius.
Parsisiųsti:Visual Studio 2019 (Laisvas)
- Eikite į priekį ir atsisiųskite programinės įrangos bendruomenės leidimą.
- Dabar įdiekite „Visual Studio 2019“, tada atidarykite programinę įrangą. Atidarę pažymėkite langelį Darbalaukio kūrimas naudojant C++ ir paspauskite įdiegti.
Dabar, kai įdiegėte darbalaukio kūrimą su C++, laikas atsisiųsti „Text-Generation-WebUI“ diegimo programą vienu spustelėjimu.
2 veiksmas: įdiekite teksto generavimo žiniatinklio sąsają
„Text-Generation-WebUI“ diegimo programa vienu spustelėjimu yra scenarijus, kuris automatiškai sukuria reikiamus aplankus ir nustato „Conda“ aplinką bei visus būtinus reikalavimus dirbtinio intelekto modeliui paleisti.
Norėdami įdiegti scenarijų, atsisiųskite vieno paspaudimo diegimo programą spustelėdami Kodas > Parsisiųsti ZIP.
Parsisiųsti:Teksto generavimo-WebUI diegimo programa (Laisvas)
- Atsisiuntę ištraukite ZIP failą į pageidaujamą vietą, tada atidarykite ištrauktą aplanką.
- Aplanke slinkite žemyn ir suraskite operacinei sistemai tinkamą paleisties programą. Paleiskite programas dukart spustelėdami atitinkamą scenarijų.
- Jei naudojate „Windows“, pasirinkite start_langai paketinis failas
- MacOS atveju pasirinkite start_macos apvalkalo karpinys
- skirta Linux, start_linux apvalkalo scenarijus.
- Jūsų antivirusinė programa gali sukurti įspėjimą; tai yra gerai. Raginimas yra tik an antivirusinė klaidinga teigiama paketiniam failui arba scenarijui paleisti. Spustelėkite Vis tiek bėk.
- Atsidarys terminalas ir prasidės sąranka. Iš pradžių sąranka bus pristabdyta ir paklaus, kokį GPU naudojate. Pasirinkite savo kompiuteryje įdiegtą atitinkamą GPU tipą ir paspauskite Enter. Tiems, kurie neturi specialios vaizdo plokštės, pasirinkite Nėra (noriu paleisti modelius procesoriaus režimu). Atminkite, kad veikimas procesoriaus režimu yra daug lėtesnis, palyginti su modelio su specialiu GPU.
- Kai sąranka bus baigta, dabar galite paleisti teksto generavimo WebUI vietoje. Tai galite padaryti atidarę pageidaujamą žiniatinklio naršyklę ir URL įvesdami pateiktą IP adresą.
- WebUI dabar paruošta naudoti.
Tačiau programa yra tik modelio įkroviklis. Atsisiųskite „Llama 2“, kad paleistumėte modelių įkroviklį.
3 veiksmas: atsisiųskite „Llama 2“ modelį
Sprendžiant, kurios „Llama 2“ iteracijos jums reikia, reikia atsižvelgti į keletą dalykų. Tai apima parametrus, kvantavimą, aparatinės įrangos optimizavimą, dydį ir naudojimą. Visa ši informacija bus nurodyta modelio pavadinime.
- Parametrai: Modelio mokymui naudojamų parametrų skaičius. Dėl didesnių parametrų modeliai yra pajėgesni, tačiau tai kainuoja našumą.
- Naudojimas: Gali būti standartinis arba pokalbis. Pokalbių modelis yra optimizuotas naudoti kaip pokalbių robotas, pvz., „ChatGPT“, o standartas yra numatytasis modelis.
- Aparatinės įrangos optimizavimas: Nurodo, kokia aparatinė įranga geriausiai valdo modelį. GPTQ reiškia, kad modelis yra optimizuotas veikti tam skirtame GPU, o GGML optimizuotas veikti CPU.
- Kvantifikavimas: Žymi modelio svarmenų ir aktyvinimų tikslumą. Norint daryti išvadas, q4 tikslumas yra optimalus.
- Dydis: Nurodo konkretaus modelio dydį.
Atminkite, kad kai kurie modeliai gali būti išdėstyti skirtingai ir net gali būti nerodoma tos pačios rūšies informacija. Tačiau tokio tipo pavadinimų suteikimas yra gana paplitęs ApkabinantisVeidas Modelių biblioteka, todėl vis tiek verta suprasti.
Šiame pavyzdyje modelis gali būti identifikuojamas kaip vidutinio dydžio „Llama 2“ modelis, apmokytas pagal 13 milijardų parametrų, optimizuotų pokalbių išvadoms, naudojant tam skirtą procesorių.
Tiems, kurie naudoja specialų GPU, pasirinkite a GPTQ modelį, o tiems, kurie naudoja CPU, rinkitės GGML. Jei norite kalbėtis su modeliu kaip su ChatGPT, pasirinkite pokalbis, bet jei norite eksperimentuoti su modeliu su visomis jo galimybėmis, naudokite standartinis modelis. Kalbant apie parametrus, žinokite, kad didesnių modelių naudojimas suteiks geresnių rezultatų našumo sąskaita. Aš asmeniškai rekomenduočiau pradėti nuo 7B modelio. Kalbant apie kvantavimą, naudokite q4, nes jis skirtas tik išvadoms daryti.
Parsisiųsti:GGML (Laisvas)
Parsisiųsti:GPTQ (Laisvas)
Dabar, kai žinote, kokios „Llama 2“ iteracijos jums reikia, atsisiųskite norimą modelį.
Mano atveju, kadangi naudoju ultrabook, naudosiu GGML modelį, tiksliai suderintą pokalbiams, lama-2-7b-chat-ggmlv3.q4_K_S.bin.
Kai atsisiuntimas bus baigtas, įdėkite modelį text-generation-webui-main > modeliai.
Dabar, kai jūsų modelis atsisiųstas ir įdėtas į modelio aplanką, laikas sukonfigūruoti modelio įkroviklį.
4 veiksmas: sukonfigūruokite teksto generavimo žiniatinklio sąsają
Dabar pradėkime konfigūravimo etapą.
- Dar kartą atidarykite Text-Generation-WebUI paleisdami start_(jūsų OS) failą (žr. ankstesnius veiksmus).
- Virš GUI esančiuose skirtukuose spustelėkite Modelis. Modelio išskleidžiamajame meniu spustelėkite atnaujinimo mygtuką ir pasirinkite savo modelį.
- Dabar spustelėkite išskleidžiamąjį meniu Modelis krautuvas ir pasirinkite AutoGPTQ tiems, kurie naudoja GTPQ modelį ir ctransformatoriai tiems, kurie naudoja GGML modelį. Galiausiai spustelėkite Įkelti norėdami įkelti savo modelį.
- Norėdami naudoti modelį, atidarykite skirtuką Pokalbiai ir pradėkite testuoti modelį.
Sveikiname, sėkmingai įkėlėte Llama2 į savo vietinį kompiuterį!
Išbandykite kitus LLM
Dabar, kai žinote, kaip paleisti „Llama 2“ tiesiogiai savo kompiuteryje, naudodami teksto generavimo žiniatinklio sąsają, taip pat turėtumėte turėti galimybę paleisti kitus LLM, be „Llama“. Tiesiog atminkite modelių pavadinimų taisykles ir tai, kad į įprastus kompiuterius galima įkelti tik kiekybines modelių versijas (dažniausiai q4 tikslumu). „HuggingFace“ galima rasti daug išmatuotų LLM. Jei norite ištirti kitus modelius, HuggingFace modelių bibliotekoje ieškokite TheBloke ir turėtumėte rasti daug modelių.