„Instagram“ yra viena populiariausių socialinės žiniasklaidos svetainių, turinti milijardus vartotojų. Visi nuo studentų iki įžymybių turi „Instagram“ paskyras. Vieši „Instagram“ duomenys gali būti labai vertingi įmonėms, rinkodaros specialistams ir asmenims. Kiekvienas gali naudoti šiuos duomenis duomenų analizei, tikslinei rinkodarai ir įžvalgoms generuoti.
Galite naudoti Python, kad sukurtumėte automatizuotą įrankį, kuris ištraukia Instagram duomenis.
Reikalingų bibliotekų diegimas
Instaloader yra Python biblioteka, kurią galite naudoti norėdami išgauti viešai prieinamus duomenis iš Instagram. Galite pasiekti tokius duomenis kaip vaizdai, vaizdo įrašai, vartotojo vardas, Nr. įrašų, sekėjų skaičius, sekėjų skaičius, biografija ir kt. naudojant „Instaloader“. Atminkite, kad „Instaloader“ jokiu būdu nėra susijęs su „Instagram“, nėra įgaliotas, prižiūrimas ar nepatvirtintas.
Norėdami įdiegti instaloader per pip, paleiskite šią komandą:
pip diegti diegimo programa
Tu privalai turėti pip įdiegtas jūsų sistemoje Norėdami įdiegti išorines Python bibliotekas.
Tada turite įdiegti Pandas Python biblioteką. Pandas yra Python biblioteka, kuri daugiausia naudojama duomenų apdorojimui ir duomenų analizei atlikti. Norėdami ją įdiegti, paleiskite šią komandą:
pip diegti pandos
Dabar esate pasirengę pradėti nustatyti kodą ir gauti duomenis iš „Instagram“.
Jūsų kodo nustatymas
Norėdami nustatyti „Instagram“ duomenų gavimo įrankį, turite importuoti „Instaloader Python“ biblioteką ir sukurti „Instaloader“ klasės egzempliorių. Po to turite pateikti profilio, iš kurio norite išgauti duomenis, Instagram rankenėlę.
„Instagram Extractor Python“ kodas pasiekiamas a GitHub saugykla ir jūs galite nemokamai naudotis pagal MIT licenciją.
importuoti diegimo programa
# Instaloader klasės egzemplioriaus kūrimas
bot = instaloader. Instaloader ()
# Profilio įkėlimas iš Instagram rankenos
profilis = instaloader. Profile.from_username (bot.context, 'Cristiano')
spausdinti(profilis)
Tai geras pirmas žingsnis norint patikrinti pagrindinius darbus. Turėtumėte matyti keletą reikšmingų duomenų be klaidų:
Duomenų ištraukimas iš profilio
Galite išgauti vertingus viešai prieinamus duomenis, pvz., vartotojo vardą, Nr. įrašų, sekėjų skaičius, sekėjų skaičius, biografija, vartotojo ID ir išorinis URL naudojant „Instaloader“ su vos keliomis kodo eilutėmis. Jums tereikia pateikti profilio „Instagram“ rankenėlę.
importuoti diegimo programa
importuoti pandos kaip pd# Instaloader klasės egzemplioriaus kūrimas
bot = instaloader. Instaloader ()
# Profilio įkėlimas iš Instagram rankenos
profilis = instaloader. Profile.from_username (bot.context, 'leomessi')
spausdinti ("Vartotojo vardas: ", profile.username)
spausdinti ("Vartotojo ID: ", profile.usid)
spausdinti ("Pranešimų skaičius: ", profile.mediacount)
spausdinti ("Stebėtojų skaičius: ", profilis.sekėjai)
spausdinti ("Šis skaičius: ", profile.followees)
spausdinti ("Biografija: ", profile.biography)
spausdinti ("Išorinis URL: ", profile.external_url)
Turėtumėte matyti daug profilio informacijos iš nurodytos rankenos:
El. laiškų ištraukimas iš biografijos
El. pašto adresus galite išgauti iš bet kurio profilio „Insta“ biografijos reguliarios išraiškos. Turite importuoti Python's re biblioteką ir perduokite el. pašto patvirtinimo reguliariąją išraišką kaip parametrą į re.findall() metodas:
importuoti diegimo programa
importuoti re
# Instaloader klasės egzemplioriaus kūrimas
bot = instaloader. Instaloader ()
profilis = instaloader. Profile.from_username (bot.context, "turtus")
spausdinti ("Vartotojo vardas: ", profile.username)
spausdinti ("Biografija: ", profile.biography)
laiškai = re.findall (r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b", profile.biography)
print ("Laiškai išskleisti iš biografija:")
spausdinti(el. laiškai)
Scenarijus išspausdins viską, ką atpažįsta kaip el. pašto adresą biografijoje:
Populiariausių paieškos rezultatų duomenų ištraukimas
Kai ieškote ko nors „Instagram“, gaunate keletą rezultatų, įskaitant naudotojų vardus ir žymas su grotelėmis. Galite išgauti geriausius paieškos rezultatus naudodami get_profiles () ir get_hashtags () metodus. Jums tereikia pateikti paieškos užklausą diegimo programa. Populiariausi paieškos rezultatai() metodas. Be to, galite kartoti ir spausdinti / išsaugoti atskirus rezultatus.
importuoti diegimo programa
# Instaloader klasės egzemplioriaus kūrimas
bot = instaloader. Instaloader ()# Pateikite paieškos užklausą čia
search_results = instaloader. TopSearchResults (bot.context, 'muzika')# Iteravimas per ištrauktus vartotojo vardus
dėlVartotojo vardasinPaieškos rezultatai.get_profiles():
spausdinti(Vartotojo vardas)
# Iteravimas per išgautas žymas su grotelėmis
dėlgrotelėmisinPaieškos rezultatai.get_hashtags():
spausdinti(grotelėmis)
Išvestyje bus visi atitinkami naudotojų vardai ir žymos su grotelėmis:
Paskyros stebėtojų ir sekėjų ištraukimas
Naudodami „Instaloader“ galite išskirti paskyros stebėtojus ir tuos, kuriuos ji seka pati. Norėdami gauti šiuos duomenis, turėsite pateikti Instagram vartotojo vardą ir slaptažodį.
Niekada nenaudokite savo asmeninių paskyrų duomenims iš Instagram išgauti, nes jūsų paskyra gali būti laikinai arba visam laikui uždrausta.
Sukūrę Instaloader klasės egzempliorių, turite pateikti savo vartotojo vardą ir slaptažodį. Tai daroma tam, kad robotas galėtų prisijungti prie Instagram naudodamas jūsų paskyrą ir gauti pasekėjų ir sekėjų duomenis.
Tada turite pateikti tikslinio profilio „Instagram“ rankenėlę. The get_followers () ir get_followees () metodai išskiria pasekėjus ir sekėjus. Stebėtojų ir sekėjų naudotojų vardus galite gauti naudodami sekėjas.vartotojo vardas ir followee.username atitinkamai savybes.
Jei norite išsaugoti rezultatus CSV faile, pirmiausia turite konvertuoti duomenis į Pandas DataFrame objektą. Naudoti pd. DataFrame() būdas konvertuoti sąrašo objektą į DataFrame.
Galiausiai galite eksportuoti DataFrame objektą į CSV failą naudodami į_csv() metodas. Jums reikia praeiti failo pavadinimas.csv kaip šio metodo parametrą, kad eksportuoti duomenys būtų gauti CSV failo formatu.
Tik paskyros savininkai gali matyti visus pasekėjus ir sekančius asmenis. Negalėsite išgauti visų stebėtojų ir sekėjų duomenų naudodami šį ar bet kurį kitą metodą.
# Bibliotekų importavimas
importuoti diegimo programa
importuoti pandos kaip pd# Instaloader klasės egzemplioriaus kūrimas
bot = instaloader. Instaloader ()
bot.login (user="Jūsų slapyvardis", passwd="Jūsų slaptažodis")# Profilio įkėlimas iš Instagram rankenos
profilis = instaloader. Profile.from_username (bot.context, 'Your_target_account_insta_handle')# Visų sekėjų naudotojų vardų gavimas
sekėjai = [sekėtojo vardas profilyje.get_followers()]# Duomenų konvertavimas į DataFrame
sekėjai_df = pd. DataFrame (sekėjai)# Rezultatų saugojimas CSV faile
followers_df.to_csv('sekėjai.csv', indeksas = false)# Gaunami visų sekančių naudotojų vardai
follows = [followee.naudotojo vardas sekamajam profilyje.get_followees()]# Duomenų konvertavimas į DataFrame
Follows_df = pd. DataFrame (toliau)
# Rezultatų saugojimas CSV faile
Follows_df.to_csv('Follows.csv', indeksas = false)
Atsisiųskite įrašus iš „Instagram“ paskyros
Vėlgi, norėdami atsisiųsti įrašus iš bet kurios paskyros, turėsite pateikti vartotojo vardą ir slaptažodį. Taip robotas gali prisijungti prie Instagram naudodamas jūsų paskyrą. Galite gauti visus įrašų duomenis naudodami get_posts () metodas. Ir jūs galite kartoti ir atsisiųsti visus atskirus įrašus naudodami download_post() metodas.
# Bibliotekų importavimas
importuoti diegimo programa
importuoti pandos kaip pd# Sukurkite Instaloader klasės egzempliorių
bot = instaloader. Instaloader ()
bot.login (user="Jūsų slapyvardis",passwd="Jūsų slaptažodis")# Profilio įkėlimas iš Instagram rankenos
profilis = instaloader. Profile.from_username (bot.context, 'Your_target_account_insta_handle')# Gaunami visi objekto įrašai
postai = profile.get_posts()
# Visų atskirų įrašų kartojimas ir atsisiuntimas
indeksui, įrašas surašyti (įrašai, 1):
bot.download_post (post, target=f"{profile.username}_{index}")
Nubraukite žiniatinklį naudodami Python
Duomenų nuskaitymas arba žiniatinklio rinkimas yra vienas iš labiausiai paplitusių būdų išgauti naudingą informaciją iš žiniatinklio. Ištrauktus duomenis galite naudoti rinkodarai, turinio kūrimui ar sprendimų priėmimui.
„Python“ yra pageidaujama duomenų rinkimo kalba. Tokios bibliotekos kaip BeautifulSoup, Scrapy ir Pandas supaprastina duomenų išgavimą, analizę ir vizualizavimą.