Ar žinojote, kad naudojant „Google“ skaičiuokles galima išgauti duomenis iš svetainės? Štai kaip galite tai padaryti.

Žiniatinklio rinkimas yra galingas būdas išgauti informaciją iš svetainių ir automatiškai jas analizuoti. Nors tai galite padaryti rankiniu būdu, tai gali būti varginanti ir daug laiko reikalaujanti užduotis. Naudodami žiniatinklio rinkimo įrankius procesas tampa greitesnis ir efektyvesnis, tačiau kainuoja mažiau.

Įdomu tai, kad dėl IMPORTXML funkcijos „Google“ skaičiuoklės gali būti jūsų vieno langelio žiniatinklio iškarpymo įrankis. Naudodami IMPORTXML galite lengvai nuskaityti duomenis iš tinklalapių ir naudoti juos analizei, ataskaitų teikimui ar kitoms duomenimis pagrįstoms užduotims.

Funkcija IMPORTXML „Google“ skaičiuoklėse

„Google“ skaičiuoklėse yra integruota funkcija, vadinama IMPORTXML, kuri leidžia importuoti duomenis iš žiniatinklio formatų, tokių kaip XML, HTML, RSS ir CSV. Ši funkcija gali pakeisti žaidimą, jei norite rinkti duomenis iš svetainių nenaudodami sudėtingo kodavimo.

instagram viewer

Štai pagrindinė IMPORTXML sintaksė:

=IMPORTXML(url, xpath_query)
  • url: tinklalapio, iš kurio norite nuskaityti duomenis, URL.
  • xpath_query: XPath užklausa, apibrėžianti norimus išgauti duomenis.

XPath (XML kelio kalba) yra kalba, naudojama naršyti XML dokumentuose, įskaitant HTML, leidžianti nurodyti duomenų vietą HTML struktūroje. Norint tinkamai naudoti IMPORTXML, labai svarbu suprasti XPath užklausas.

XPath supratimas

XPath teikia įvairias funkcijas ir išraiškas, skirtas naršyti ir filtruoti duomenis HTML dokumente. Išsamus XML ir XPath vadovas nepatenka į šio straipsnio taikymo sritį, todėl apsigyvensime kai kuriomis esminėmis XPath sąvokomis:

  • Elementų pasirinkimas: Elementus galite pasirinkti naudodami / ir // keliams žymėti. Pavyzdžiui, /html/body/div parenka visus div elementus dokumento turinyje.
  • Atributo pasirinkimas: Norėdami pasirinkti atributus, galite naudoti @. Pavyzdžiui, //@href pasirenka visus href atributai puslapyje.
  • Predikatiniai filtrai: Galite filtruoti elementus naudodami predikatus, esančius laužtiniuose skliaustuose ([ ]). Pavyzdžiui, /div[@class="container"] pasirenka visus div elementai su klase konteineris.
  • Funkcijos: XPath teikia įvairias funkcijas, pvz yra (), prasideda su(), ir tekstas () atlikti konkrečius veiksmus, pvz., tikrinti, ar nėra teksto turinio ar atributų verčių.

Kaip ištraukti XPath iš svetainės

Iki šiol žinote IMPORTXML sintaksę, žinote svetainės URL ir žinote, kurį elementą norite išskleisti. Bet kaip gauti elemento XPath?

Nereikia atmintinai žinoti svetainės struktūros, kad išgautumėte jos duomenis naudodami IMPORTXML. Tiesą sakant, kiekviena naršyklė turi puikų įrankį, leidžiantį akimirksniu nukopijuoti bet kurio elemento XPath.

Elemento tikrinimo įrankis leidžia išgauti XPath iš svetainės elementų. Štai kaip:

  1. Eikite į tinklalapį, kurį norite nuskaityti, naudodami pageidaujamą žiniatinklio naršyklę.
  2. Raskite elementą, kurį norite nubraukti.
  3. Dešiniuoju pelės mygtuku spustelėkite elementą.
  4. Pasirinkite Tikrinti elementą dešiniuoju pelės mygtuku spustelėkite meniu. Jūsų naršyklė atidarys skydelį, kuriame bus rodomas tinklalapio HTML kodas. Atitinkamas HTML elementas bus paryškintas kode.
  5. Skydelyje Apžiūrėti elementą dešiniuoju pelės mygtuku spustelėkite pažymėtą elementą HTML kode.
  6. Spustelėkite Nukopijuokite XPath kad nukopijuotumėte elemento XPath adresą į mainų sritį.

Dabar, kai turite viską, ko reikia, laikas pamatyti, kaip veikia IMPORTXML, ir nubraukti keletą nuorodų.

Galite naudoti IMPORTXML norėdami išgauti įvairius duomenis iš svetainių. Tai apima nuorodas, vaizdo įrašus, vaizdus ir beveik visus svetainės elementus. Nuorodos yra vienas ryškiausių žiniatinklio analizės elementų, todėl galite daug sužinoti apie svetainę, tiesiog išanalizavę puslapius, į kuriuos ji nukreipia.

IMPORTXML leidžia greitai nubraukti nuorodas „Google“ skaičiuoklėse ir toliau jas analizuoti naudojant įvairias „Google“ skaičiuoklių siūlomas funkcijas.

Norėdami išbraukti visas nuorodas iš tinklalapio, galite naudoti šią formulę:

=IMPORTXML(url, "//a/@href") 

Ši XPath užklausa pasirenka viską href atributai a elementai, efektyviai išgaunant visas puslapio nuorodas.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")

Aukščiau pateikta formulė nubraukia visas nuorodas į Vikipedijos straipsnį.

Gera idėja įvesti tinklalapio URL į atskirą langelį ir tada nurodyti tą langelį. Taip jūsų formulė netaps per ilga ir nepatogi. Tą patį galite padaryti su XPath užklausa.

2. Visų nuorodų tekstų išbraukimas

Norėdami išskleisti nuorodų tekstą kartu su jų URL, galite naudoti:

=IMPORTXML(url, "//a") 

Ši užklausa parenka visus elementus, o jūs galite išgauti nuorodos tekstą ir URL iš rezultatų.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")

Aukščiau pateikta formulė gauna nuorodų tekstus tame pačiame Vikipedijos straipsnyje.

Kartais gali tekti nuskaityti konkrečias nuorodas pagal kriterijus. Pavyzdžiui, jums gali būti įdomu išgauti nuorodas, kuriose yra tam tikras raktinis žodis, arba nuorodas, esančias konkrečioje puslapio skiltyje.

Tinkamai išmanydami XPath, galite tiksliai nustatyti bet kurį ieškomą elementą.

Norėdami nubraukti nuorodas, kuriose yra konkretus raktinis žodis, galite naudoti funkciją include() XPath:

=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href") 

Ši užklausa parenka elementų, kuriuose href yra nurodytas raktinis žodis, atributus href.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")

Aukščiau pateikta formulė nubraukia visas nuorodas, kurių tekste yra žodžio įrašas, pavyzdiniame Vikipedijos straipsnyje.

Norėdami nubraukti nuorodas iš tam tikros puslapio dalies, galite nurodyti skyriaus XPath. Pavyzdžiui:

=IMPORTXML(url, "//div[@class='section']//a/@href") 

Ši užklausa parenka „div“ elementų, kurių klasė „section“, elementų „href“ atributus.

Panašiai pagal toliau pateiktą formulę parenkamos visos div klasės nuorodos, turinčios klasę mw-content-container:

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")

Verta paminėti, kad IMPORTXML galite naudoti ne tik žiniatinklio rinkimui. Galite naudoti IMPORT šeimos funkcijas importuoti duomenų lenteles iš svetainių į „Google“ skaičiuokles.

Nors „Google“ skaičiuoklės ir „Excel“ naudoja daugumą savo funkcijų, funkcijų šeima IMPORT yra unikali „Google“ skaičiuoklėms. Turėsite apsvarstyti kitus metodus importuoti duomenis iš svetainių į Excel.

Supaprastinkite žiniatinklio rinkimą naudodami „Google“ skaičiuokles

Žiniatinklio rinkimas naudojant „Google“ skaičiuokles ir IMPORTXML funkciją yra universalus ir prieinamas būdas rinkti duomenis iš svetainių.

Įvaldydami XPath ir suprasdami, kaip kurti veiksmingas užklausas, galite išnaudoti visą IMPORTXML potencialą ir gauti vertingų įžvalgų iš žiniatinklio išteklių. Taigi, pradėkite rinkti ir perkelkite žiniatinklio analizę į kitą lygį!