Tokie skaitytojai kaip jūs padeda palaikyti MUO. Kai perkate naudodami nuorodas mūsų svetainėje, galime uždirbti filialų komisinius.
HTML gramdymas gali būti sudėtingas, todėl įsitikinkite, kad suprantate šį procesą šiek tiek praktikuodami Python.
„Twitter“ yra viena įtakingiausių kada nors egzistavusių socialinės žiniasklaidos platformų. Milijonai žmonių, įskaitant geriausius politikus, įžymybes ir generalinius direktorius, naudojasi platforma, norėdami pasidalinti savo mintimis kiekvieną dieną.
Tendencijos skirtukas yra viena geriausių vietų sužinoti naujienas realiuoju laiku ir socialinių tinklų nuotaikas. Galite analizuoti ir naudoti šiuos duomenis planuodami prekės ženklo reklamas, vykdydami kampanijas ir padidindami pardavimą. Tačiau kaip „Twitter“ gauti populiariausių grotažymių dešimtuką?
Algoritmo sudarymo procesas
Pirmasis žingsnis kuriant bet kurią programą yra atkreipti dėmesį ir suprasti veiksmus, kurių reikia norint sukurti „Twitter“ grandiklį. Jie yra:
- Atidarykite Google Chrome.
- Apsilankykite populiariame „Twitter“ puslapyje.
- Surinkite žymas su grotelėmis ir atitinkamą jų puslapio nuorodą.
- Išsaugokite duomenis skaičiuoklėje.
Tai yra problemos teiginio algoritmas.
„Twitter“ tinklalapio supratimas
Turite žinoti, kaip tinklalapis pažymi savo duomenis, kad galėtumėte juos išskleisti. Tai labai padeda, jei gerai suprantate HTML pagrindus ir CSS.
Atlikite šiuos veiksmus, kad išsiaiškintumėte, kaip „Twitter“ reiškia populiarią žymą su grotelėmis ir jos URL:
- Apsilankykite Populiariausias „Twitter“ puslapis. Taip pat galite naršyti į Twitter.com → Naršyti → Tendencijos norėdami jį peržiūrėti.
- Patikrinkite pagrindinę koloną naudojant „Chrome Dev Tools“.. Eiti į Meniu (3 taškai)>Daugiau įrankių >Kurejo irankiai ir užveskite elementų rinkiklio įrankį virš tendencijų srities.
- Tendencijos laiko juosta yra a div su an arija-etiketė atributas, kurio reikšmė yra „Laiko juosta: tyrinėti“. Užveskite pelės žymeklį virš žymėjimo Elementai skydelį, kad geriau suprastumėte puslapio struktūrą. Kitas div saugo populiarią žymą su grotelėmis / temą. Naudokite šį div kaip skaitiklį ir kartokite visus divus puslapyje, kuriame yra populiari tema / žyma su grotelėmis. Turinys saugomas a tarpas arba pora tarpatramių elementų. Stebėkite atidarytą skirtuką ir atkreipkite dėmesį į hierarchiją. Tai galite naudoti norėdami sukurti XPath išraišką. Šio konkretaus elemento XPath išraiška yra:
Pakartokite ir taikykite div[3], div[4], div[5] ir pan. Dešimt geriausių grotažymių skaitiklis svyruoja nuo 3 iki 13. Apibendrintas XPath tampa:'//div[@aria-label="Laiko juosta: Naršyti"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
//div[@aria-label="Laiko juosta: Naršyti"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
- Spustelėkite bet kurią žymą su grotelėmis, kad suprastumėte jos puslapių URL. Jei lyginate URL, turėtumėte pastebėti, kad pasikeičia tik užklausos parametras, kad atitiktų žymos su grotelėmis pavadinimą. Galite naudoti šią įžvalgą, kad sukurtumėte URL, jų neištraukdami.
Šiame projekte naudojami šie Python moduliai ir įrankiai:
1. Pandos modulis
Tu gali naudokite Pandas DataFrame klasę įrašyti žymas su grotelėmis ir atitinkamas nuorodas lentelės formatu. Tai bus naudinga, kai reikės įtraukti šį turinį į CSV failą, kurį galite bendrinti išorėje.
2. Laiko modulis
Naudokite laiko modulį, kad pridėtumėte delsą prie Python programos, kad puslapio turinys būtų visiškai įkeltas. Šiame pavyzdyje naudojama 15 sekundžių delsa, tačiau galite eksperimentuoti ir pasirinkti tinkamą delsą pagal savo aplinkybes.
3. Seleno modulis
Selenas gali automatizuoti sąveikos su žiniatinkliu procesą. Galite naudoti jį norėdami valdyti žiniatinklio naršyklės egzempliorių, atidaryti populiarų puslapį ir slinkti juo žemyn. Norėdami įdiegti Selenium savo Python aplinkoje, atidarykite savo Terminalas ir vykdytipip įdiegti seleną.
4. Žiniatinklio tvarkyklė
Norėdami sąveikauti su naršykle, naudokite žiniatinklio tvarkyklę kartu su Selenium. Priklausomai nuo naršyklės, kurią norite automatizuoti, yra įvairių žiniatinklio tvarkyklių. Šiai versijai naudokite populiarią „Google Chrome“ naršyklę. Norėdami įdiegti žiniatinklio tvarkyklę, skirtą Chrome:
- Patikrinkite naudojamos naršyklės versiją apsilankę Meniu (3 taškai) > Pagalba>Apie Google Chrome.
- Atkreipkite dėmesį į naršyklės versiją; šiuo atveju tai yra 106.0.5249.62.
- Eikite į savo Terminalas ir tipas pip install chromedriver-binary==versijos_numeris:
Jei nėra tinkamos versijos, pip parodys galimų variantų sąrašą; pasirinkite artimiausią jūsų chromo versijai.pip diegti chromedriver-dvejetainis==106.0.5249.62
Kaip sukurti „Twitter“ grandiklį
Atlikite šiuos veiksmus, kad sukurtumėte programą ir gautumėte populiarėjančias žymas su grotelėmis realiuoju laiku. Čia galite rasti visą šaltinio kodą „GitHub“ saugykla.
- Importuokite reikiamus modulius į Python aplinką.
# importuoti reikiamus modulius
iš seleno importuoti žiniatinklio tvarkyklės
išseleno.webdriver.bendras.pagalimportuotiAutorius
importuoti chromedriver_binary
importuoti laikas
importuoti pandos kaip pd - Sukurkite objektą, kad inicijuotumėte „ChromeDriver“, ir paleiskite „Google Chrome“ naršyklę naudodami žiniatinklio tvarkyklės. Chrome () funkcija.
# atidarykite „Google Chrome“ naršyklę
naršyklė = žiniatinklio tvarkyklė. Chrome () - Atidarykite „Twitter“ populiarų puslapį, perduodami jo URL adresu gauti () funkcija.
# atidarykite populiariausią „Twitter“ puslapį
browser.get('https://twitter.com/explore/tabs/trending') - Taikykite delsą, kad puslapio turinys būtų įkeltas iki galo.
# puslapio turinio įkėlimo delsa
laikas.miega(15) - Sukurkite tuščią sąrašą, kad išsaugotumėte žymas su grotelėmis, ir deklaruokite ciklą, kuris tęsiasi nuo 3 iki 13, kad atitiktų ankstesnį XPath išraiškos kintamąjį.
# inicijuokite sąrašą, kad išsaugotumėte populiarias temas ir žymas su grotelėmis
trending_topic_content=[]# rinkti temas ir žymas su grotelėmis populiariame „Twitter“ puslapyje
i diapazone (3,13): - Naudoti rasti_element() funkciją ir pereikite XPath parinkiklį, kad gautumėte populiariausias temas ir žymas su grotelėmis Twitter:
xpath = f'//div[@aria-label="Laiko juosta: Naršyti"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
trending_topic = browser.find_element (pagal XPATH, xpath)
tendencijos_temos_turinys.pridėti(populiari tema.tekstas) - Sukurkite tuščią sąrašą, kad išsaugotumėte visus URL, ir paskelbkite kilpą, kuri eina per visas žymas su grotelėmis.
Naudokite skilties operatorių, kad praleistumėte žymą su grotelėmis, kad sukurtumėte jos URL ir pakeistumėte tarpus URL kodavimu, %20. Pridėkite nuorodas į sąrašą.# sukurkite URL naudodami surinktas žymas su grotelėmis
urls=[]
man, trending_topic_content:if i.starts with ("#"):
i = i[1:]
url='https://twitter.com/search? q = %23' + aš + '&src=trend_click'
Kitas:
url = 'https://twitter.com/search? q=' + aš + '&src=trend_click'
url = url.replace("", "%20")
URL.pridėti(url) - Sukurkite raktų ir reikšmių poros žodyną su raktais kaip grotelėmis ir reikšmėmis kaip jų URL.
# sukurkite žodyną, kuriame būtų ir žyma su grotelėmis, ir URL
dic={'Grotelėmis':trending_topic_content,'URL':urls} - Konvertuokite nestruktūrinį žodyną į lentelę DataFrame.
# konvertuoti žodyną į duomenų rėmelį pandose
df=pd. DataFrame (dic)
spausdinti(df) - Išsaugokite „DataFrame“ į CSV failą, kurį galite peržiūrėti „Microsoft Excel“ arba apdoroti toliau.
# konvertuoti duomenų rėmelį į kableliais atskirtos reikšmės formatą be serijos numerių
df.to_csv("Twitter_HashTags.csv",index=false)
Gaukite vertingų įžvalgų naudodami žiniatinklio rinkimą
Žiniatinklio rinkimas yra galingas būdas gauti norimus duomenis ir juos analizuoti, kad būtų galima priimti sprendimus. „Beautiful Soup“ yra įspūdinga biblioteka, kurią galite įdiegti ir naudoti norėdami nuskaityti duomenis iš bet kurio HTML arba XML failo naudodami Python.
Taip galite naršyti internetą, kad gautumėte naujienų antraštes realiuoju laiku, produktų kainas, sporto rezultatus, akcijų vertę ir dar daugiau.