Jei naudojate Python, net ir paprasčiausioms užduotims atlikti, tikriausiai žinote jo trečiųjų šalių bibliotekų svarbą. Pandas biblioteka, puikiai palaikanti DataFrames, yra viena iš tokių bibliotekų.
Į Python DataFrames galite importuoti kelių tipų failus ir kurti įvairias versijas, kad saugotumėte skirtingus duomenų rinkinius. Kai importuojate duomenis naudodami „DataFrames“, galite juos sujungti, kad atliktumėte išsamią analizę.
Spręsti pagrindus
Prieš pradėdami sujungti, turite turėti DataFrames, kad galėtumėte sujungti. Kūrimo tikslais galite sukurti kai kuriuos netikrus duomenis, su kuriais galite eksperimentuoti.
Sukurkite duomenų rėmelius „Python“.
Pirmiausia importuokite Pandas biblioteką į savo Python failą. Pandas yra trečiosios šalies biblioteka, kuri tvarko duomenų rėmelius Python. Galite naudoti importuoti pareiškimas dėl naudojimosi biblioteka:
importuoti pandos kaip pd
Norėdami sutrumpinti kodo nuorodas, bibliotekos pavadinimui galite priskirti slapyvardį.
Turite sukurti žodynus, kuriuos galite konvertuoti į DataFrames. Norėdami gauti geriausius rezultatus, sukurkite du žodyno kintamuosius –
diktas1 ir diktas 2 -Norėdami išsaugoti konkrečias informacijos dalis:dict1 = {"Vartotojo ID": ["001", "002", "003", "004", "005"],
"FVardas": ["Jonas", "Bradas", "Ronis", "Roaldas", "Krisas"],
"LNvardas": ["Harley", "Cohenas", "Dahl", "Haringtonas", "Kerr-Hislop"]}
dict2 = {"Vartotojo ID": ["001", "002", "003", "004"], "Amžius": [15, 28, 34, 24]}
Atminkite, kad abiejose žodyno reikšmėse turi būti bendras elementas, kuris vėliau veiktų kaip pagrindinis raktas, norint sujungti duomenų rėmelius.
Konvertuokite savo žodynus į duomenų rėmelius
Norėdami konvertuoti žodyno reikšmes į DataFrames, galite naudoti šį metodą:
df1 = pd. DataFrame (diktas1)
df2 = pd. DataFrame (dict2)
Kai kurie IDE leidžia patikrinti DataFrame reikšmes, nurodant DataFrame funkciją ir paspausdami Vykdyti / Vykdyti. Yra daug Su Python suderinami IDE, todėl galite pasirinkti tą, kurį lengviausia išmokti.
Kai būsite patenkinti savo „DataFrames“ turiniu, galite pereiti prie sujungimo žingsnio.
Rėmelių derinimas su sujungimo funkcija
Sujungimo funkcija yra pirmoji „Python“ funkcija, kurią galite naudoti norėdami sujungti du „DataFrame“. Ši funkcija naudoja šiuos numatytuosius argumentus:
pd.merge (DataFrame1, DataFrame2, how= tipoapiesujungti)
Kur:
- pd yra Pandas bibliotekos slapyvardis.
- sujungti yra funkcija, sujungianti DataFrames.
- DataFrame1 ir DataFrame2 yra du duomenų rėmeliai, kuriuos reikia sujungti.
- kaip apibrėžia sujungimo tipą.
Yra keletas papildomų pasirenkamų argumentų, kuriuos galite naudoti, kai turite sudėtingą duomenų struktūrą.
Norėdami apibrėžti atliekamo sujungimo tipą, galite naudoti skirtingas parametro how reikšmes. Šie sujungimo tipai bus žinomi, jei žinote duomenų bazių lentelėms sujungti naudojo SQL.
Kairysis sujungimas
Kairysis sujungimo tipas išlaiko nepažeistas pirmosios „DataFrame“ reikšmes ir ištraukia atitinkamas reikšmes iš antrojo „DataFrame“.
Teisingas sujungimas
Tinkamas sujungimo tipas išlaiko nepaliestas antrojo „DataFrame“ reikšmes ir ištraukia atitinkamas reikšmes iš pirmojo „DataFrame“.
Vidinis susiliejimas
Vidinis sujungimo tipas išlaiko atitinkančias abiejų duomenų rėmelių vertes ir pašalina nesutampančius reikšmes.
Išorinis sujungimas
Išorinis sujungimo tipas išlaiko visas atitinkančias ir nesutampančius reikšmes ir kartu sujungia duomenų rėmelius.
Kaip naudotis Concat funkcija
The concat funkcija yra lanksti parinktis, palyginti su kai kuriomis kitomis Python sujungimo funkcijomis. Su concat funkcija galite sujungti DataFrames vertikaliai ir horizontaliai.
Tačiau šios funkcijos naudojimo trūkumas yra tas, kad pagal numatytuosius nustatymus ji atmeta visas nesutampančius reikšmes. Kaip ir kai kurios kitos susijusios funkcijos, ši funkcija turi keletą argumentų, iš kurių tik keli yra būtini sėkmingam sujungimui.
concat (duomenų rėmeliai, ašis = 0, prisijungti ='išorinis'/’vidinis’)
Kur:
- concat yra funkcija, kuri sujungia DataFrames.
- duomenų rėmeliai yra duomenų rėmelių seka, kurią reikia sujungti.
- ašį reiškia sujungimo kryptį, 0 yra horizontali, 1 yra vertikali.
- prisijungti nurodo išorinį arba vidinį sujungimą.
Naudodami pirmiau minėtus du duomenų rėmelius, galite išbandyti concat funkciją taip:
# apibrėžti duomenų rėmelius sąrašo formatu
df_merged_concat = pd.concat([df1, df2])
# atspausdinti Concat funkcijos rezultatus
spausdinti(df_merged_concat)
Jei aukščiau pateiktame kode nėra ašies ir sujungimo argumentų, abu duomenų rinkiniai sujungiami. Gautoje išvestyje yra visi įrašai, neatsižvelgiant į atitikties būseną.
Panašiai galite naudoti papildomus argumentus, norėdami valdyti concat funkcijos kryptį ir išvestį.
Norėdami valdyti išvestį su visais atitinkančiais įrašais:
# Visų atitinkančių verčių sujungimas tarp dviejų duomenų rėmelių pagal jų stulpelius
df_merged_concat = pd.concat([df1, df2], ašis = 1, prisijungti = 'vidinis')
spausdinti(df_merged_concat)
Rezultate pateikiamos tik dviejų duomenų rėmelių atitinkančios reikšmės.
DataFrames sujungimas su Python
DataFrames yra neatsiejama Python dalis, atsižvelgiant į jų lankstumą ir funkcionalumą. Atsižvelgiant į jų įvairiapusį panaudojimą, galite juos plačiai naudoti, kad labai lengvai atliktumėte įvairias užduotis.
Jei vis dar mokotės apie Python DataFrames, pabandykite importuoti kai kuriuos „Excel“ failus, tada derinkite juos su skirtingais metodais.