Interneto filmų duomenų bazė (IMDb) yra didžiausia internetinė duomenų bazė, kurioje yra informacijos, susijusios su filmais, televizijos serialais, namų vaizdo įrašais, vaizdo žaidimais ir srautiniu turiniu. Internetinėje duomenų bazėje yra milijonai tikslių įrašų, kuriuos galite naudoti duomenų analizei atlikti.

Cinemagoer (anksčiau žinomas kaip IMDbPY) yra Python biblioteka, skirta tvarkyti ir gauti IMDb filmų duomenų bazės duomenis. Galite pasiekti duomenis apie filmus, žmones ir įmones, kurie gali būti toliau naudojami analizei.

Reikalingų bibliotekų diegimas

Jums reikia įdiegti kino žiūrovas Python biblioteka, kad pasiektumėte IMDb duomenų bazėje. Norėdami įdiegti biblioteką, komandų eilutėje paleiskite šią komandą:

pip diegti kino žiūrovas

Tu privalai turėti pip įdiegtas jūsų sistemoje Norėdami įdiegti išorines Python bibliotekas.

Šiame projekte naudojamas kodas yra prieinamas a GitHub saugykla ir jūs galite nemokamai naudotis pagal MIT licenciją.

IMDb duomenų ištraukimas naudojant Python

instagram viewer

Prieš naudodami ją savo kode, turite importuoti „Cinemagoer“ biblioteką.

 imdb importuoti Kino žiūrovas
ia = Kino lankytojas ()

Aukščiau pateiktas kodas importuoja kino lankytojų biblioteką ir sukuria kino lankytojų klasės egzempliorių.

Filmų paieška

Galite ieškoti filmų su nurodytu (ar panašiu) pavadinimu naudodami search_movie() metodas. Pavyzdžiui, jei norite ieškoti filmų pavadinimu „rokas“, turite paleisti šį kodą:

 imdb importuoti Kino žiūrovas

# Cinemagoer klasės egzemplioriaus kūrimas
ia = Kino lankytojas ()

# Ieškau filmų, kurių pavadinime yra roko
filmai = ia.search_movie('Rokas')
spausdinti(filmai[0])

Tai turėtų išspausdinti pirmąjį rastą filmą, pavyzdžiui:

Filmą galite gauti pagal jo IMDb ID. Tada galite gauti papildomos informacijos, pvz., režisierių vardus ir žanrus. Tau reikia peržiūrėti sąrašą gauti individualią informaciją.

 imdb importuoti Kino žiūrovas

# Cinemagoer klasės egzemplioriaus kūrimas
ia = Kino lankytojas ()

# Filmo gavimas pagal IMDb ID
filmas = ia.get_movie('0468569')
spausdinti(filmas)

# Filmo režisierių pavardžių spausdinimas
spausdinti ('Režisieriai:')

režisieriui filme['režisieriai']:
spausdinti (direktorius['vardas'])

# filmo žanrų spausdinimas
spausdinti ('Žanrai:')

žanrui filme['žanrų']:
spausdinti(žanras)

Išvestyje turėtumėte matyti nurodyto filmo pavadinimą, jo režisierių (-ius) ir žanrą (-us):

Ieškau žmogaus

Galite ieškoti žmonių naudodami search_person() metodas. Pavyzdžiui, jei norite ieškoti „Heath“, turite paleisti šį kodą:

 imdb importuoti Kino žiūrovas

# Cinemagoer klasės egzemplioriaus kūrimas
ia = Kino lankytojas ()

# Ieškau žmonių, kurių varduose yra Heath
asmenys = ia.search_person('Heath')
spausdinti(asmenys[0])

Pamatysite pirmojo atitikusio asmens, kurį randa paieška, vardą:

Įmonių paieška

Galite ieškoti įmonių naudodami search_company() metodas. Pavyzdžiui, jei norite ieškoti „Universalus“, turite paleisti šį kodą:

 imdb importuoti Kino žiūrovas

# Cinemagoer klasės egzemplioriaus kūrimas
ia = Kino lankytojas ()

# Ieškau įmonių, kurių pavadinimai yra universalūs
įmonės = ia.search_company('Universalus')
spausdinti(įmonės)

Gausite visų įmonių, kurių pavadinimai yra „Universal“, sąrašą.

Taip pat galite gauti asmens ir įmonės duomenis naudodami jo ID.

 imdb importuoti Kino žiūrovas

# Cinemagoer klasės egzemplioriaus kūrimas
ia = Kino lankytojas ()

# Asmens duomenų gavimas pagal ID
asmuo = ia.get_person('0005132')
spausdinti (asmuo['vardas'])
spausdinti (asmuo['Gimimo data'])

# Įmonės duomenų gavimas pagal ID
įmonė = ia.get_company('0005073')
spausdinti (įmonė['vardas'])

Išvestyje bus rodoma informacija apie asmenį ir įmonės pavadinimą:

Geriausių ir geriausių filmų paieška

Naudodami 250 populiariausių ir 100 paskutinių filmų duomenis galite gauti get_top250_movies() ir get_bottom100_movies() metodai, atitinkamai:

 imdb importuoti Kino žiūrovas

# Cinemagoer klasės egzemplioriaus kūrimas
ia = Kino lankytojas ()

# Rasti 250 geriausių filmų
top = ia.get_top250_movies()
spausdinti(viršuje[0])

# 100 geriausių filmų paieška
apačia = ia.get_bottom100_movies()
spausdinti(apačioje[0])

Atsakydami pamatysite geriausio filmo pavadinimą ir blogiausio:

Kino lankytojų biblioteka taip pat siūlo keletą kitų metodų, pvz get_top250_tv(), get_popular100_movies(), ir get_top250_indian_movies().

Duomenų analizė – tai duomenų įvertinimas naudojant analitines arba statistines priemones informacijai išgauti. Duomenų analizės populiarumas auga kiekvieną dieną. Dabar jį naudoja įmonės, rinkodaros įmonės ir sporto komandos. Visas duomenų analizės procesas apima tikslų apibrėžimą, klausimų kėlimą, duomenų rinkimą, duomenų valymą, duomenų analizę ir galutinius rezultatus.

Savo projektų duomenų rinkinius galite gauti naudodami Python bibliotekas, pvz., Cinemagoer, arba internetines platformas, tokias kaip Kaggle. Be pilnų kalbų, pvz., Python ir R, duomenų analizei atlikti galite naudoti kitus įrankius, pvz., „Microsoft Excel“, „Tableau“ ir „Stata“.