Pandų biblioteka leidžia lengvai atlikti python duomenų mokslą. Tai populiari Python biblioteka, skirta duomenų skaitymui, jungimui, rūšiavimui, valymui ir kt. Nors pandas lengva naudoti ir pritaikyti duomenų rinkiniams, jos turi daug manipuliavimo duomenimis funkcijų.

Galite naudoti pandas, bet yra didelė tikimybė, kad nepakankamai jo naudojate sprendžiant su duomenimis susijusias problemas. Štai mūsų vertingų duomenų, manipuliuojančių pandų funkcijomis, sąrašas, kurį turėtų žinoti kiekvienas duomenų mokslininkas.

Įdiekite pandas į savo virtualią aplinką

Prieš tęsdami, įsitikinkite, kad įdiegėte pandas į savo virtualią aplinką naudodami pip:

pip įdiegti pandas

Įdiegę importuokite pandos scenarijaus viršuje, ir tęskime.

1. pandos. DataFrame

Tu naudoji pandos. DataFrame() kad sukurtumėte duomenų rėmelį pandose. Yra du būdai naudoti šią funkciją.

„DataFrame“ stulpelį galite suformuoti įvesdami žodyną į pandos. DataFrame() funkcija. Čia kiekvienas raktas yra stulpelis, o reikšmės yra eilutės:

importuoti pandas
instagram viewer

DataFrame = pandos. DataFrame ({"A": [1, 3, 4], "B": [5, 9, 12]})
spausdinti (DataFrame)

Kitas būdas yra sudaryti duomenų rėmelį keliose eilutėse. Bet čia jūs atskirsite reikšmes (eilutės elementus) nuo stulpelių. Duomenų skaičius kiekviename sąraše (eilutės duomenys) taip pat turi sutapti su stulpelių skaičiumi.

importuoti pandas
DataFrame = pandos. DataFrame([[1, 4, 5], [7, 19, 13]], stulpeliai = ["J", "K", "L"])
spausdinti (DataFrame)

2. Skaitykite iš ir rašykite į Excel arba CSV pandose

Su pandomis galite skaityti arba rašyti į Excel arba CSV failus.

„Excel“ arba CSV failų skaitymas

Norėdami skaityti Excel failą:

#Pakeiskite example.xlsx savo Excel failo keliu
DataFrame = DataFrame.read_excel("example.xlsx")

Štai kaip skaityti CSV failą:

#Pakeiskite example.csv savo CSV failo keliu
DataFrame = DataFrame.read_csv("example.csv")

Rašymas į Excel arba CSV

Rašymas į Excel arba CSV yra gerai žinoma pandų operacija. Be to, tai patogu išsaugoti naujai apskaičiuotas lenteles į atskirus duomenų lapus.

Norėdami rašyti į Excel lapą:

DataFrame.to_excel("visas_paskirties_aplanko_kelias/failo pavadinimas.xlsx")

Jei norite rašyti į CSV:

DataFrame.to_csv("visas_paskirties_aplanko_kelis/failo pavadinimas.csv")

Taip pat galite apskaičiuoti pagrindines kiekvieno DataFrame stulpelio tendencijas naudodami pandas.

Štai kaip gauti kiekvieno stulpelio vidutinę vertę:

DataFrame.mean()

Norėdami gauti medianos arba režimo vertę, pakeiskite reiškia () su mediana () arba režimas ().

4. DataFrame.transform

pandos DataFrame.transform() pakeičia DataFrame reikšmes. Jis priima funkciją kaip argumentą.

Pavyzdžiui, toliau pateiktas kodas kiekvieną DataFrame reikšmę padaugina iš trijų Python lambda funkcija:

DataFrame = DataFrame.transform (lambda y: y*3)
spausdinti (DataFrame)

5. DataFrame.isnull

Ši funkcija grąžina Būlio reikšmę ir visas eilutes, kuriose yra nulinės reikšmės, pažymi kaip Tiesa:

DataFrame.isnull()

Pirmiau pateikto kodo rezultatą gali būti sunku perskaityti didesniems duomenų rinkiniams. Taigi galite naudoti isnull().sum() vietoj funkcijos. Tai pateikia visų trūkstamų kiekvieno stulpelio reikšmių suvestinę:

DataFrame.isnull().sum()

6. Dataframe.info

The informacija () funkcija yra an esminė pandos operacija. Vietoj to jis pateikia kiekvieno stulpelio trūkstamų reikšmių suvestinę:

DataFrame.info()

7. DataFrame.aprašyti

The apibūdinti() Funkcija pateikia suvestinę DataFrame statistiką:

DataFrame.describe()

8. DataFrame.replace

Naudojant DataFrame.replace() metodą pandose, galite pakeisti pasirinktas eilutes kitomis reikšmėmis.

Pavyzdžiui, norint pakeisti netinkamas eilutes su Nan:

# Įsitikinkite, kad įdiegėte pip install numpy, kad tai veiktų
importuoti numpy
importuoti pandas
# Pridėjus vietoje esantį raktinį žodį ir nustačius jį į True, pakeitimai tampa nuolatiniai:
DataFrame.replace([netinkamas_1, negaliojantis_2], numpy.nan, inplace=True)
spausdinti (DataFrame)

9. DataFrame.fillna

Ši funkcija leidžia užpildyti tuščias eilutes tam tikra reikšme. Galite užpildyti visus Nan duomenų rinkinio eilutės su vidutine verte, pavyzdžiui:

DataFrame.fillna (df.mean(), inplace = True)
spausdinti (DataFrame)

Taip pat galite nurodyti konkretų stulpelį:

DataFrame['stulpelio_pavadinimas'].fillna (df[stulpelio_pavadinimas].mean(), inplace = True)
spausdinti (DataFrame)

10. DataFrame.dropna

The dropna () metodas pašalina visas eilutes, kuriose yra nulinės reikšmės:

DataFrame.dropna (inplace = True)
spausdinti (DataFrame)

11. DataFrame.insert

Galite naudoti pandas Įdėti() funkcija pridėti naują stulpelį prie DataFrame. Jis priima tris raktinius žodžius, stulpelio pavadinimas, jo duomenų sąrašas ir jo vieta, kuris yra stulpelio indeksas.

Štai kaip tai veikia:

DataFrame.insert (stulpelis = 'C', reikšmė = [3, 4, 6, 7], loc=0)
spausdinti (DataFrame)

Aukščiau pateiktas kodas įterpia naują stulpelį ties nulinio stulpelio indeksu (jis tampa pirmuoju stulpeliu).

12. DataFrame.loc

Tu gali naudoti lok norėdami rasti tam tikro indekso elementus. Pavyzdžiui, norėdami peržiūrėti visus elementus trečioje eilutėje:

DataFrame.loc[2]

13. DataFrame.pop

Ši funkcija leidžia pašalinti nurodytą stulpelį iš pandos DataFrame.

Jis priima an daiktas raktinis žodis, grąžina iššokusį stulpelį ir atskiria jį nuo likusios DataFrame dalies:

DataFrame.pop (item = 'stulpelio_pavadinimas')
spausdinti (DataFrame)

14. DataFrame.max, min

Gauti didžiausias ir mažiausias vertes naudojant pandas lengva:

DataFrame.min()

Aukščiau pateiktas kodas grąžina mažiausią kiekvieno stulpelio reikšmę. Norėdami gauti maksimumą, pakeiskite min su maks.

15. DataFrame.join

The prisijungti () Pandos funkcija leidžia sujungti DataFrames su skirtingais stulpelių pavadinimais. Galite naudoti kairįjį, dešinįjį, vidinį arba išorinį sujungimą. Norėdami kairiuoju pelės klavišu sujungti DataFrame su dviem kitais:

#Kairėje sujunkite ilgesnius stulpelius su trumpesniais
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
spausdinti (newDataFrame)

Norėdami prisijungti prie duomenų rėmelių su panašiais stulpelių pavadinimais, galite juos atskirti įtraukdami galūnę kairėje arba dešinėje. Padarykite tai įtraukdami lsufiksas arba rsfiksas raktažodis:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
spausdinti (newDataFrame)

16. DataFrame.combine

The sujungti () Funkcija yra naudinga sujungiant du duomenų rėmelius, kuriuose yra panašūs stulpelių pavadinimai pagal nustatytus kriterijus. Tai priima a funkcija raktažodį.

Pavyzdžiui, norėdami sujungti du DataFrame su panašiais stulpelių pavadinimais, remiantis tik didžiausiomis reikšmėmis:

newDataFrame = df.combine (df2, numpy.minimum)
spausdinti (newDataFrame)

Pastaba: Taip pat galite apibrėžti pasirinktinę pasirinkimo funkciją ir įterpti nelygus.minimalus.

17. DataFrame.astype

The astype () funkcija pakeičia konkretaus stulpelio arba DataFrame duomenų tipą.

Pavyzdžiui, norėdami pakeisti visas DataFrame reikšmes į eilutę:

DataFrame.astype (str)

18. DataFrame.sum

The suma() funkcija pandose grąžina reikšmių sumą kiekviename stulpelyje:

DataFrame.sum()

Taip pat galite rasti visų naudojamų elementų suminę sumą cumsum ():

DataFrame.cumsum()

19. DataFrame.drop

pandos lašas () funkcija ištrina konkrečias DataFrame eilutes arba stulpelius. Norėdami jį naudoti, turite pateikti stulpelių pavadinimus arba eilutės indeksą ir ašį.

Norėdami pašalinti konkrečius stulpelius, pvz.:

df.drop (columns=['stulpelis1', 'stulpelis2'], axis=0)

Pavyzdžiui, norėdami išmesti eilutes 1, 3 ir 4 indeksuose:

df.drop([1, 3, 4], ašis = 0)

20. DataFrame.corr

Norite rasti koreliaciją tarp sveikųjų arba slankiųjų stulpelių? pandos gali padėti jums tai pasiekti naudojant korr () funkcija:

DataFrame.corr()

Aukščiau pateiktas kodas grąžina naują duomenų rėmelį, kuriame yra visų sveikųjų skaičių arba slankiųjų stulpelių koreliacijos seka.

21. DataFrame.add

The papildyti() funkcija leidžia pridėti konkretų skaičių prie kiekvienos DataFrame reikšmės. Jis veikia kartodamas „DataFrame“ ir veikia su kiekvienu elementu.

Susijęs:Kaip naudoti „For Loops“ programoje „Python“.

Pavyzdžiui, norėdami pridėti 20 prie kiekvienos reikšmių konkrečiame stulpelyje, kuriame yra sveikieji skaičiai arba slankiosios reikšmės:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Kaip ir sudėjimo funkcija, taip pat galite atimti skaičių iš kiekvienos reikšmės DataFrame arba konkrečiame stulpelyje:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Tai pandų pridėjimo funkcijos dauginimo versija:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Panašiai galite padalyti kiekvieną duomenų tašką stulpelyje arba duomenų rėmelyje iš konkretaus skaičiaus:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Naudojant std() funkcija, pandos taip pat leidžia apskaičiuoti kiekvieno DataFrame stulpelio standartinį nuokrypį. Jis veikia kartodamas kiekvieną duomenų rinkinio stulpelį ir apskaičiuodamas kiekvieno standartinį nuokrypį:

DataFrame.std()

26. DataFrame.sort_values

Taip pat galite rūšiuoti reikšmes didėjančia arba mažėjančia tvarka pagal konkretų stulpelį. Pavyzdžiui, norėdami rūšiuoti duomenų rėmelį mažėjimo tvarka:

newDataFrame = DataFrame.sort_values ​​(pagal = "colmun_name", mažėjanti = True)

27. DataFrame.melt

The ištirpti () funkcija pandos apverčia stulpelius DataFrame į atskiras eilutes. Tai tarsi „DataFrame“ anatomijos atskleidimas. Taigi galite peržiūrėti kiekvienam stulpeliui priskirtą vertę.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Ši funkcija grąžina bendrą elementų skaičių kiekviename stulpelyje:

DataFrame.count()

29. DataFrame.query

pandos užklausa () leidžia skambinti elementais naudojant jų indekso numerį. Pavyzdžiui, norėdami gauti elementus trečioje eilutėje:

DataFrame.query('4') # Iškvieskite užklausą ketvirtajame indekse

30. DataFrame.kur

The kur () funkcija yra pandos užklausa, kuri priima konkrečių verčių gavimo stulpelyje sąlygą. Pavyzdžiui, norint gauti visų jaunesnių nei 30 metų amžiaus asmenų Amžius stulpelis:

DataFrame.where (DataFrame['Age'] < 30)

Aukščiau pateiktas kodas išveda DataFrame, kuriame yra visi jaunesni nei 30 metų, bet priskiriami asmenys Nan į eilutes, kurios neatitinka sąlygos.

Tvarkykite duomenis kaip profesionalas su pandomis

pandos yra funkcijų ir metodų lobis, skirtas tvarkyti mažus ir didelius duomenų rinkinius naudojant Python. Biblioteka taip pat naudinga valant, tikrinant ir ruošiant duomenis analizei ar mašininiam mokymuisi.

Skirdami laiko jo įvaldymui tikrai palengvinsite jūsų, kaip duomenų mokslininko, gyvenimą, ir tai verta pastangų. Taigi nedvejodami rinkitės visas funkcijas, kurias galite atlikti.

20 Python funkcijų, kurias turėtumėte žinoti

Python standartinėje bibliotekoje yra daug funkcijų, padedančių atlikti programavimo užduotis. Sužinokite apie naudingiausią ir sukurkite patikimesnį kodą.

Skaitykite toliau

DalintisTviteryjeEl. paštas
Susijusios temos
  • Programavimas
  • Python
  • Programavimas
  • duomenų bazėje
Apie autorių
Idowu Omisola (123 straipsniai paskelbti)

Idowu aistringai vertina viską, kas yra išmanioji technologija ir produktyvumas. Laisvalaikiu jis žaidžia koduodamas ir, kai jam nuobodu, pereina prie šachmatų lentos, tačiau taip pat mėgsta retkarčiais atitrūkti nuo rutinos. Jo aistra parodyti žmonėms kelią apie šiuolaikines technologijas skatina jį rašyti daugiau.

Daugiau iš Idowu Omisola

Prenumeruokite mūsų naujienlaiškį

Prisijunkite prie mūsų naujienlaiškio, kad gautumėte techninių patarimų, apžvalgų, nemokamų el. knygų ir išskirtinių pasiūlymų!

Norėdami užsiprenumeruoti, spustelėkite čia