Pasinaudokite PandasAI Python biblioteka, kad išnaudotumėte dirbtinio intelekto ir didelių kalbų modelių galią duomenų analizės užduotims atlikti.

Pandos yra labiausiai paplitusi biblioteka, skirta manipuliuoti duomenų rinkiniais ir duomenų rėmeliais. Tai buvo norma ilgą laiką. Tačiau tobulėjant dirbtiniam intelektui, sukurta nauja atvirojo kodo biblioteka, pavadinta PandasAI, kuri papildo Pandas generacines AI galimybes.

PandasAI nepakeičia Pandos. Vietoj to, jis suteikia generatyviąsias AI galimybes. Tokiu būdu galite atlikti duomenų analizę bendraudami su PandasAI. Tada jis abstrahuoja, kas vyksta fone, ir pateikia jūsų užklausos išvestį.

PandasAI diegimas

PandasAI pasiekiamas per PyPI (Python Package Index). Sukurkite naują virtualią aplinką jei naudojate vietinį IDE. Tada naudokite pip paketų tvarkyklę jį įdiegti.

pip install pandasai

Jei naudojate „Google Colab“, galite susidurti su priklausomybės konflikto klaida, panašia į toliau pateiktą.

Neatnaujinkite IPython versijos. Tiesiog iš naujo paleiskite vykdymo laiką ir dar kartą paleiskite kodo bloką. Tai išspręs problemą.

instagram viewer

Visą šaltinio kodą rasite a GitHub saugykla.

Pavyzdinių duomenų rinkinio supratimas

Pavyzdinis duomenų rinkinys, kuriuo manipuliuosite naudodami PandasAI, yra Kalifornijos būsto kainų duomenų rinkinys iš Kaggle. Šiame duomenų rinkinyje yra informacija apie būstą iš 1990 m. Kalifornijos gyventojų surašymo. Jame yra dešimt stulpelių, kuriuose pateikiama šių namų statistika. Duomenų kortelė, padėsianti sužinoti daugiau apie šį duomenų rinkinį, pasiekiama adresu Kaggle. Žemiau yra pirmosios penkios duomenų rinkinio eilutės.

Kiekvienas stulpelis atspindi vieną namo statistiką.

PandasAI prijungimas prie didžiosios kalbos modelio

Norėdami prijungti PandasAI prie a didelės kalbos modelis (LLM) kaip ir OpenAI, jums reikia prieigos prie jo API rakto. Norėdami jį gauti, pereikite prie OpenAI platforma. Tada prisijunkite prie savo paskyros. Pasirinkite API po parinkčių puslapyje, kuris pasirodys toliau.

Po to spustelėkite savo profilį ir pasirinkite Peržiūrėkite API raktus variantas. Kitas rodomame puslapyje spustelėkite Sukurkite naują slaptą raktą mygtuką. Galiausiai pavadinkite savo API raktą.

OpenAI sugeneruos jūsų API raktą. Nukopijuokite jį taip, kaip jums reikės, kai jungiatės PandasAI su OpenAI. Įsitikinkite, kad raktas yra paslaptyje, nes kiekvienas, turintis prieigą prie jo, gali skambinti į OpenAI jūsų vardu. Tada OpenAI apmokestins jūsų sąskaitą už skambučius.

Dabar, kai turite API raktą, sukurkite naują Python scenarijų ir įklijuokite toliau esantį kodą. Jums nereikės keisti šio kodo, nes dažniausiai jį kursite.

importuoti pandos kaip pd
pandasai importuoti PandasAI

# Pakeiskite savo duomenų rinkiniu arba duomenų rėmeliu
df = pd.read_csv("/content/housing.csv")

# Sukurkite LLM
pandasai.llm.openai importuoti OpenAI
llm = OpenAI(api_token=„jūsų API prieigos raktas“)

pandas_ai = PandasAI(llm)

Aukščiau pateiktas kodas importuoja ir PandasAI, ir Pandas. Tada jis nuskaito duomenų rinkinį. Galiausiai tai sukuria OpenAI LLM egzempliorius.

Dabar esate pasiruošę kalbėtis su savo duomenimis.

Paprastų užduočių atlikimas naudojant PandasAI

Norėdami pateikti duomenų užklausą, perduokite duomenų rėmelį ir raginimą PandasAI klasės egzemplioriui. Pradėkite spausdindami pirmąsias penkias duomenų rinkinio eilutes.

pandas_ai (df, prompt=„Kokios yra pirmosios penkios duomenų rinkinio eilutės?“)

Aukščiau pateikto raginimo išvestis yra tokia:

Ši išvestis yra identiška anksčiau pateiktos duomenų rinkinio apžvalgai. Tai rodo, kad PandasAI duoda teisingus rezultatus ir yra patikimas.

Tada patikrinkite duomenų rinkinyje esančių stulpelių skaičių.

pandas_ai (df, prompt=„Kiek stulpelių yra duomenų rinkinyje? ')

Jis pateikia 10, tai yra teisingas Kalifornijos būsto duomenų rinkinio stulpelių skaičius.

Tikrinama, ar duomenų rinkinyje nėra reikšmių.

pandas_ai (df, prompt=„Ar duomenų rinkinyje trūksta reikšmių?“)

PandasAI grąžina, kad total_bedrooms stulpelyje trūksta 207 reikšmių, o tai vėlgi teisinga.

Yra daug paprastų užduočių, kurias galite atlikti naudodami „PandasAI“, neapsiribojate aukščiau pateiktomis užduotimis.

Sudėtingų užklausų atlikimas naudojant PandasAI

PandasAI palaiko ne tik paprastas užduotis. Taip pat galite jį naudoti norėdami atlikti sudėtingas duomenų rinkinio užklausas. Pavyzdžiui, būsto duomenų rinkinyje, jei norite nustatyti, kiek namų yra saloje, kurių vertė viršija 100 000 dolerių ir turi daugiau nei 10 kambarių, galite naudoti raginimą žemiau.

pandas_ai (df, prompt= "Kiek namų vertė didesnė nei 100 000"
"yra saloje ir bendras miegamųjų skaičius yra daugiau nei 10?")

Teisingas rezultatas yra penki. Tai yra tas pats rezultatas, kurį pateikia PandasAI.

Duomenų analitikui gali prireikti šiek tiek laiko parašyti ir derinti sudėtingas užklausas. Aukščiau pateiktam raginimui atlikti reikia tik dviejų natūralios kalbos eilučių, kad būtų galima atlikti tą pačią užduotį. Jums tereikia tiksliai apgalvoti, ką norite pasiekti, o visa kita pasirūpins PandasAI.

Diagramų braižymas naudojant PandasAI

Diagramos yra svarbi bet kokio duomenų analizės proceso dalis. Tai padeda duomenų analitikams vizualizuoti duomenis žmonėms patogiu būdu. PandasAI taip pat turi diagramų piešimo funkciją. Jums tereikia perduoti duomenų rėmelį ir instrukciją.

Pradėkite sukurdami histogramą kiekvienam duomenų rinkinio stulpeliui. Tai padės vizualizuoti kintamųjų pasiskirstymą.

pandas_ai (df, prompt= „Nubrėžkite kiekvieno duomenų rinkinio stulpelio histogramą“)

Išvestis yra tokia:

PandasAI sugebėjo nubraižyti visų stulpelių histogramas, neįvesdamas jų pavadinimų raginime.

PandasAI taip pat gali braižyti diagramas, jums aiškiai nenurodant, kurią diagramą naudoti. Pavyzdžiui, galbūt norėsite sužinoti būsto duomenų rinkinio duomenų koreliaciją. Norėdami tai pasiekti, galite perduoti raginimą taip:

pandas_ai (df, prompt= „Nubrėžkite koreliaciją duomenų rinkinyje“)

PandasAI nubraižo koreliacijos matricą, kaip parodyta toliau:

Biblioteka pasirenka šilumos žemėlapį ir nubraižo koreliacijos matricą.

Kelių duomenų kadrų perdavimas į PandasAI egzempliorių

Darbas su keliais duomenų rėmeliais gali būti sudėtingas. Ypač žmogui, kuriam duomenų analizė yra nauja. PandasAI užpildo šią spragą, nes viskas, ką jums reikia padaryti, tai perduoti abu duomenų kadrus ir pradėti naudoti raginimus manipuliuoti duomenimis.

Sukurkite du duomenų rėmelius naudodami Pandas.

darbuotojų_duomenys = {
'Darbuotojo ID': [1, 2, 3, 4, 5],
'Vardas': ["Jonas", "Ema", 'Liam', "Olivia", "Viljamas"],
"Departamentas": ["HR", "Pardavimai", "TAI", "Rinkodara", "Finansai"]
}

atlyginimų_duomenys = {
'Darbuotojo ID': [1, 2, 3, 4, 5],
"Atlyginimas": [5000, 6000, 4500, 7000, 5500]
}

darbuotojai_df = pd. DataFrame (darbuotojų_duomenys)
atlyginimai_df = pd. DataFrame (salies_data)

Galite užduoti PandasAI klausimą, kuris apima abu duomenų rėmus. Tereikia perduoti abu duomenų rėmelius PandasAI egzemplioriui.

pandas_ai([darbuotojai_df, atlyginimai_df], – Kuris darbuotojas turi didžiausią atlyginimą?)

Tai grįžta Olivija kuris vėlgi yra teisingas atsakymas.

Atlikti duomenų analizę dar niekada nebuvo taip paprasta, PandasAI leidžia kalbėtis su savo duomenimis ir lengvai juos analizuoti.

„PandasAI“ galios technologijos supratimas

PandasAI supaprastina duomenų analizės procesą, todėl duomenų analitikai sutaupo daug laiko. Tačiau tai abstrahuoja tai, kas vyksta fone. Turite susipažinti su generuojamuoju AI, kad galėtumėte matyti, kaip PandasAI veikia po gaubtu. Tai taip pat padės neatsilikti nuo naujausių generatyvaus AI srities naujovių.