Tokie skaitytojai kaip jūs padeda palaikyti MUO. Kai perkate naudodami nuorodas mūsų svetainėje, galime uždirbti filialų komisinius.

Autorius Sai Ashish Konchada
DalintisTviteryjeDalintisEl. paštas

HTML gramdymas gali būti sudėtingas, todėl įsitikinkite, kad suprantate šį procesą šiek tiek praktikuodami Python.

„Twitter“ yra viena įtakingiausių kada nors egzistavusių socialinės žiniasklaidos platformų. Milijonai žmonių, įskaitant geriausius politikus, įžymybes ir generalinius direktorius, naudojasi platforma, norėdami pasidalinti savo mintimis kiekvieną dieną.

Tendencijos skirtukas yra viena geriausių vietų sužinoti naujienas realiuoju laiku ir socialinių tinklų nuotaikas. Galite analizuoti ir naudoti šiuos duomenis planuodami prekės ženklo reklamas, vykdydami kampanijas ir padidindami pardavimą. Tačiau kaip „Twitter“ gauti populiariausių grotažymių dešimtuką?

Algoritmo sudarymo procesas

Pirmasis žingsnis kuriant bet kurią programą yra atkreipti dėmesį ir suprasti veiksmus, kurių reikia norint sukurti „Twitter“ grandiklį. Jie yra:

instagram viewer
  1. Atidarykite Google Chrome.
  2. Apsilankykite populiariame „Twitter“ puslapyje.
  3. Surinkite žymas su grotelėmis ir atitinkamą jų puslapio nuorodą.
  4. Išsaugokite duomenis skaičiuoklėje.

Tai yra problemos teiginio algoritmas.

„Twitter“ tinklalapio supratimas

Turite žinoti, kaip tinklalapis pažymi savo duomenis, kad galėtumėte juos išskleisti. Tai labai padeda, jei gerai suprantate HTML pagrindus ir CSS.

Atlikite šiuos veiksmus, kad išsiaiškintumėte, kaip „Twitter“ reiškia populiarią žymą su grotelėmis ir jos URL:

  1. Apsilankykite Populiariausias „Twitter“ puslapis. Taip pat galite naršyti į Twitter.comNaršytiTendencijos norėdami jį peržiūrėti.
  2. Patikrinkite pagrindinę koloną naudojant „Chrome Dev Tools“.. Eiti į Meniu (3 taškai)>Daugiau įrankių >Kurejo irankiai ir užveskite elementų rinkiklio įrankį virš tendencijų srities.
  3. Tendencijos laiko juosta yra a div su an arija-etiketė atributas, kurio reikšmė yra „Laiko juosta: tyrinėti“. Užveskite pelės žymeklį virš žymėjimo Elementai skydelį, kad geriau suprastumėte puslapio struktūrą. Kitas div saugo populiarią žymą su grotelėmis / temą. Naudokite šį div kaip skaitiklį ir kartokite visus divus puslapyje, kuriame yra populiari tema / žyma su grotelėmis. Turinys saugomas a tarpas arba pora tarpatramių elementų. Stebėkite atidarytą skirtuką ir atkreipkite dėmesį į hierarchiją. Tai galite naudoti norėdami sukurti XPath išraišką. Šio konkretaus elemento XPath išraiška yra:
    '//div[@aria-label="Laiko juosta: Naršyti"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    Pakartokite ir taikykite div[3], div[4], div[5] ir pan. Dešimt geriausių grotažymių skaitiklis svyruoja nuo 3 iki 13. Apibendrintas XPath tampa:
    //div[@aria-label="Laiko juosta: Naršyti"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
  4. Spustelėkite bet kurią žymą su grotelėmis, kad suprastumėte jos puslapių URL. Jei lyginate URL, turėtumėte pastebėti, kad pasikeičia tik užklausos parametras, kad atitiktų žymos su grotelėmis pavadinimą. Galite naudoti šią įžvalgą, kad sukurtumėte URL, jų neištraukdami.

Šiame projekte naudojami šie Python moduliai ir įrankiai:

1. Pandos modulis

Tu gali naudokite Pandas DataFrame klasę įrašyti žymas su grotelėmis ir atitinkamas nuorodas lentelės formatu. Tai bus naudinga, kai reikės įtraukti šį turinį į CSV failą, kurį galite bendrinti išorėje.

2. Laiko modulis

Naudokite laiko modulį, kad pridėtumėte delsą prie Python programos, kad puslapio turinys būtų visiškai įkeltas. Šiame pavyzdyje naudojama 15 sekundžių delsa, tačiau galite eksperimentuoti ir pasirinkti tinkamą delsą pagal savo aplinkybes.

3. Seleno modulis

Selenas gali automatizuoti sąveikos su žiniatinkliu procesą. Galite naudoti jį norėdami valdyti žiniatinklio naršyklės egzempliorių, atidaryti populiarų puslapį ir slinkti juo žemyn. Norėdami įdiegti Selenium savo Python aplinkoje, atidarykite savo Terminalas ir vykdytipip įdiegti seleną.

4. Žiniatinklio tvarkyklė

Norėdami sąveikauti su naršykle, naudokite žiniatinklio tvarkyklę kartu su Selenium. Priklausomai nuo naršyklės, kurią norite automatizuoti, yra įvairių žiniatinklio tvarkyklių. Šiai versijai naudokite populiarią „Google Chrome“ naršyklę. Norėdami įdiegti žiniatinklio tvarkyklę, skirtą Chrome:

  1. Patikrinkite naudojamos naršyklės versiją apsilankę Meniu (3 taškai) > Pagalba>Apie Google Chrome.
  2. Atkreipkite dėmesį į naršyklės versiją; šiuo atveju tai yra 106.0.5249.62.
  3. Eikite į savo Terminalas ir tipas pip install chromedriver-binary==versijos_numeris:
    pip diegti chromedriver-dvejetainis==106.0.5249.62
    Jei nėra tinkamos versijos, pip parodys galimų variantų sąrašą; pasirinkite artimiausią jūsų chromo versijai.

Kaip sukurti „Twitter“ grandiklį

Atlikite šiuos veiksmus, kad sukurtumėte programą ir gautumėte populiarėjančias žymas su grotelėmis realiuoju laiku. Čia galite rasti visą šaltinio kodą „GitHub“ saugykla.

  1. Importuokite reikiamus modulius į Python aplinką.
    # importuoti reikiamus modulius
    seleno importuoti žiniatinklio tvarkyklės
    seleno.webdriver.bendras.pagalimportuotiAutorius
    importuoti chromedriver_binary
    importuoti laikas
    importuoti pandos kaip pd
  2. Sukurkite objektą, kad inicijuotumėte „ChromeDriver“, ir paleiskite „Google Chrome“ naršyklę naudodami žiniatinklio tvarkyklės. Chrome () funkcija.
    # atidarykite „Google Chrome“ naršyklę
    naršyklė = žiniatinklio tvarkyklė. Chrome ()
  3. Atidarykite „Twitter“ populiarų puslapį, perduodami jo URL adresu gauti () funkcija.
    # atidarykite populiariausią „Twitter“ puslapį
    browser.get('https://twitter.com/explore/tabs/trending')
  4. Taikykite delsą, kad puslapio turinys būtų įkeltas iki galo.
    # puslapio turinio įkėlimo delsa
    laikas.miega(15)
  5. Sukurkite tuščią sąrašą, kad išsaugotumėte žymas su grotelėmis, ir deklaruokite ciklą, kuris tęsiasi nuo 3 iki 13, kad atitiktų ankstesnį XPath išraiškos kintamąjį.
    # inicijuokite sąrašą, kad išsaugotumėte populiarias temas ir žymas su grotelėmis
    trending_topic_content=[]

    # rinkti temas ir žymas su grotelėmis populiariame „Twitter“ puslapyje
    i diapazone (3,13):

  6. Naudoti rasti_element() funkciją ir pereikite XPath parinkiklį, kad gautumėte populiariausias temas ir žymas su grotelėmis Twitter:
    xpath = f'//div[@aria-label="Laiko juosta: Naršyti"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    trending_topic = browser.find_element (pagal XPATH, xpath)
    tendencijos_temos_turinys.pridėti(populiari tema.tekstas)
  7. Sukurkite tuščią sąrašą, kad išsaugotumėte visus URL, ir paskelbkite kilpą, kuri eina per visas žymas su grotelėmis.
    # sukurkite URL naudodami surinktas žymas su grotelėmis
    urls=[]
    man, trending_topic_content:
    Naudokite skilties operatorių, kad praleistumėte žymą su grotelėmis, kad sukurtumėte jos URL ir pakeistumėte tarpus URL kodavimu, %20. Pridėkite nuorodas į sąrašą.
    if i.starts with ("#"):
    i = i[1:]
    url='https://twitter.com/search? q = %23' + aš + '&src=trend_click'
    Kitas:
    url = 'https://twitter.com/search? q=' + aš + '&src=trend_click'
    url = url.replace("", "%20")
    URL.pridėti(url)
  8. Sukurkite raktų ir reikšmių poros žodyną su raktais kaip grotelėmis ir reikšmėmis kaip jų URL.
    # sukurkite žodyną, kuriame būtų ir žyma su grotelėmis, ir URL
    dic={'Grotelėmis':trending_topic_content,'URL':urls}
  9. Konvertuokite nestruktūrinį žodyną į lentelę DataFrame.
    # konvertuoti žodyną į duomenų rėmelį pandose
    df=pd. DataFrame (dic)
    spausdinti(df)
  10. Išsaugokite „DataFrame“ į CSV failą, kurį galite peržiūrėti „Microsoft Excel“ arba apdoroti toliau.
    # konvertuoti duomenų rėmelį į kableliais atskirtos reikšmės formatą be serijos numerių
    df.to_csv("Twitter_HashTags.csv",index=false)

Gaukite vertingų įžvalgų naudodami žiniatinklio rinkimą

Žiniatinklio rinkimas yra galingas būdas gauti norimus duomenis ir juos analizuoti, kad būtų galima priimti sprendimus. „Beautiful Soup“ yra įspūdinga biblioteka, kurią galite įdiegti ir naudoti norėdami nuskaityti duomenis iš bet kurio HTML arba XML failo naudodami Python.

Taip galite naršyti internetą, kad gautumėte naujienų antraštes realiuoju laiku, produktų kainas, sporto rezultatus, akcijų vertę ir dar daugiau.

Sukurkite svetainę naudodami šią gražią sriubos Python mokymo programą

Skaitykite toliau

DalintisTviteryjeDalintisEl. paštas

Susijusios temos

  • Programavimas
  • Programavimas
  • Python
  • Interneto kūrimas
  • Žiniatinklio įbrėžimas
  • Twitter

Apie autorių

Sai Ashish Konchada (Paskelbti 3 straipsniai)

„Sai Ashish“ yra „Full Stack“ kūrėjas, turintis pramonės patirtį kuriant svetaines ir žiniatinklio programas. Jam patinka kurti naujoviškus produktus ir rašyti įžvalgius straipsnius apie programavimą.

Daugiau iš Sai Ashish Konchada

komentuoti

Prenumeruokite mūsų naujienlaiškį

Prisijunkite prie mūsų naujienlaiškio, kad gautumėte techninių patarimų, apžvalgų, nemokamų el. knygų ir išskirtinių pasiūlymų!

Spauskite čia norėdami užsiprenumeruoti

„On The Wire“.

dabar tendencija