Žiniatinklio kasymas apima informacijos rinkimą iš svetainių ar puslapių. Nors jūsų gali būti nesąmoningas poelgis, rinkdami informaciją jūs taip pat vienaip ar kitaip nukopijavote internetą. Bet tai paprastai yra subtilu.

Žiniatinklio ar ekrano kopijavimas yra tikslingas veiksmas, o profesionalai automatizuoja dizainą, kad gautų milžiniškus duomenis. Ar kopijuodami tekstus svetainėje rankiniu būdu, naudodami specialius įrankius, ar rašydami žiniatinklio grandymo scenarijus, žiniatinklio grandikliai kartais smarkiai nukenčia svetainėje pateikdami kelias užklausas vienu metu.

Tačiau nors daugelis įmonių dabar naudojasi žiniatinklio grandymu, kad gautų konkurencinį pranašumą, ar tai iš tikrųjų teisėta?

Kurias svetaines turėtumėte ir neturėtumėte iškrapštyti?

Internetas yra informacijos telkinys, suteikiantis žmonėms prieigą prie senų ir realiu laiku esančių duomenų. Žiniatinklio ar ekrano kopijavimas egzistuoja jau kurį laiką. Bet kiek turėtumėte jį naudoti ir kurias svetaines galite nuskaityti?

instagram viewer

Kai kuriose svetainėse griežtai naudojami žiniatinklio tikrintuvai ar ekrano grandikliai ir jie visiškai užblokuojami. Taigi yra akivaizdu, kad neturėtumėte nuskaityti tokių svetainių. Bet žmonės vis tiek taip daro.

Deja, vargu ar gali kažkas padaryti tokios svetainės, kad tai sustabdytų, išskyrus lopų spragų lopymą.

Idealiu atveju prieš nuskaitydami svetainę turėtumėte patikrinti, ar ji leidžia tikrinti, ar ne. Paprastai tai galite sužinoti patikrinę svetainės failą robots.txt. Tai galite padaryti įvesdami „[svetainės URL] /robots.txt“.

Robots.txt paprastai nustato taisykles įvairiems tikrintuvams ar vartotojų agentams. Tačiau šios taisyklės skiriasi priklausomai nuo susijusios svetainės. Kai kurios svetainės leidžia tikrinti visus puslapius, kai kurios nurodo puslapius, kuriuos robotas gali tikrinti, o kai kurios visiškai blokuoja tikrintuvus.

Svetainėje, kuri blokuoja visus vartotojų agentus tikrinti visus puslapius, paprastai nustatomos šios taisyklės:

vartotojo atstovas: *
Neleisti: /

Robots.txt failas, blokuojantis visus robotus tikrinti tam tikrus katalogus ar puslapius, paprastai atrodo taip:

vartotojo atstovas: *
Neleisti: / URL į 1 puslapį
Neleisti: / URL į 2 puslapį

Jei robots.txt neleidžia puslapio, kurį norite tikrinti, tikriausiai galite jį nukopijuoti. Kitu atveju turėtumėte atsitraukti arba paprašyti administratoriaus sutikimo. Jie gali suteikti jums prieigą.

Be to, kai kuriose svetainėse aiškiai nurodoma, ar jos leidžia tikrinti, ar ne. Kai kurie tai taip pat nurodo savo robots.txt viršuje. Visada patikrinkite ir tai, kad įsitikintumėte, jog elgiatės teisingai.

Kaip piktnaudžiaujama žiniatinklio grandymu

Taigi, jei gavote šlamšto el. Laiškus ar SMS iš svetainių ar žmonių, kurių niekada nepateikėte su savo asmenine informacija, tikriausiai kažkaip kažkaip buvote nukrapštyti. Dažniausiai tai atliekama per vieną iš jūsų socialinės žiniasklaidos rankenų.

Tai reiškia, kad žiniatinklio grandymas kartais yra daugiau nei tik duomenų rinkimas, kurie pateikiami į priekį. Jei tai naudojama piktybiškai, tai gali nutekinti asmeninę ir įslaptintą informaciją.

Nors dauguma socialinės žiniasklaidos platformų dėl to nerimauja, šliaužiantys robotai vis tiek pasiekia žmonių profilius, o jų kontaktinė informacija nutekinama ir iškrapštoma.

Pavyzdžiui, pranešta, kad „Facebook“ praeityje turėjo pažeidžiamumų, dėl kurių nutekėjo vartotojų kontaktinė informacija, nors vartotojai juos saugo.

Panašiai „LinkedIn“ neseniai patyrė saugumo pažeidimą, dėl kurio nutekėjo asmens duomenys priklauso daugiau nei 500 milijonų sąskaitų. Todėl dėl šio pažeidžiamumo be profilio savininkų sutikimo buvo dalijamasi daugeliu el. Pašto adresų ir telefono numerių.

Ar neteisėta nurašyti svetainę?

Niekada nebuvo daroma išvada apie žiniatinklio grandymo teisėtumą. Vietoje to daugiausia dėmesio skiriama tam, kaip tikrintuvas veikia kiekvienu atveju atskirai ir kam jie naudoja surinktus duomenis.

Taigi, užuot darius išvadą apie jo teisėtumą, šveitimas, kai tai daroma piktybiškai, yra neteisėtas. Bet jei tai daroma protingai, tai nėra neteisėta.

Tačiau, kaip tikėtasi, atrodo, kad yra griežtesnė socialinės žiniasklaidos duomenų kaupimo ir naudojimo politika, nes vartotojų privatumas yra toks svarbus. Tačiau viskas vis dar priklauso nuo to, kaip žmonės kasosi duomenis.

The Interneto ir socialinės žiniasklaidos įstatymo tinklaraštis išanalizavo „HiQ Labs“, duomenų tvarkymo įmonės, laimėjusios bylą prieš „LinkedIn“, atvejį 2019 m., kai ji bandė užkirsti kelią „HiQ Labs“ netvarkyti viešai prieinamų „LinkedIn“ vartotojų duomenų.

„HiQ Labs“ tvirtindama, kad Kompiuterių sukčiavimo ir piktnaudžiavimo įstatymas (CFAA) draudžia tik neteisėtą prieigą, sprendimu buvo patvirtinta, kad „LinkedIn“ duomenys buvo viešai prieinami, todėl kas nors juos kasė, taip padarė, nes yra prieinama.

Be to, „hiQ Labs“ naudojo surinktus duomenis tik teikdamas analitinius sprendimus įmonėms, kad jos galėtų priimti geresnius sprendimus dėl įdarbinimo.

Priešingai, „Facebook“ neseniai padavė „Chrome“ plėtinių kūrėjus į teismą kurie be jų sutikimo kasė „Facebook“ vartotojų profilius.

Panašiai a kopijavimo svetainę padavė „Facebook“ kelių „Instagram“ vartotojų profilio informacijos nuskaitymui ir jų naudojimui klonams kurti. Anot šios ataskaitos, „Facebook“ tada nuėjo toliau, kad gautų nuolatinį teismo įsakymą pažeidėjui.

Tai yra keli atvejai, kai žmonės galėjo neteisėtai naudoti žiniatinklio grandymą. Minėtos bendrovės „Facebook“ vartotojų duomenis rinko apgaulingai, be savo vartotojų sutikimo. Taigi tai pažeidė privatumo politiką.

Taigi, nors žiniatinklio kasymas gali sužlugdyti svetainę, iš kurios gaunami duomenys, jokia bendroji taisyklė šiuo metu netrukdo žmonėms gauti tai, ko nori, jei jie visiškai nepažeidžia interneto įstatymų.

Ar žiniatinklio grandymas yra įsilaužimo sinonimas?

Yra keletas mitų, susijusių su žiniatinklio grandymu. Vienas iš jų yra įsitikinimas, kad nubraukę svetainę reiškia, kad ją nulaužėte. Nors įsilaužimas ilgainiui gali sukelti duomenų gavimą, teiginys, kad pats terminas reiškia įsilaužimą į svetainę, nėra tiesa.

Žiniatinklio grandymas gali apimti specialūs nuskaitymo ar grandymo įrankiai, Programų programavimo sąsajos (API) arba žiniatinklio grandymo scenarijai, kad gautų perteiktų duomenų iš svetainės. Skirtingai nuo įsilaužimo, tai nesukelia pavojaus interneto svetainei, kurią nukenčia, ir nepažeidžia vartotojų patirties.

Susijęs: Kas yra žiniatinklio grandymas? Kaip rinkti duomenis iš svetainių

Taigi, nors įsilaužimas apima neteisėtą prieigą, paprastai į svetainės duomenų bazę, žiniatinklio grandymas nukreipia tik tuos duomenis, kurie jau yra matomi priekiniame gale. Nors žmonės gali piktybiškai naudoti žiniatinklio grandymą, tai vis dar nėra įsilaužimo sinonimas.

Be to, skirtingai nuo žiniatinklio grandymo, apgalvotas ir neetiškas įsilaužimas yra neteisėtas.

Kokie yra žiniatinklio grandymo teigiami aspektai?

Žiniatinklio grandymas turi daug teigiamų dalykų, ir net kai kurios technologijų kompanijos savo duomenis dabar siūlo nemokamai per API. Tos informacijos paprastai nepakanka norint įvertinti verslo tendencijas ir priimti sprendimus.

Taigi įmonės dabar gauna daugiau duomenų, ieškodamos interneto, kad pagerintų praktiką ir paskatintų pardavimą. Be to, duomenų mokslininkai mašininio mokymosi algoritmus maitina duomenimis, surinktais per ekrano grandymą.

Tokie duomenys gali būti paveikslėliai, naudojami atpažįstant vaizdus, ​​paprasti tekstai nuotaikos analizei arba tiesioginiai produkto duomenys rinkos tyrimams ir vartotojų elgsenos analizei.

Susijęs: Unikalūs būdai gauti duomenų rinkinius mašininio mokymosi projektui

Taigi žiniatinklio naudojimas yra dar naudingesnis, nes jei turite prieigą prie informacijos, kurios jūsų konkurentas neturi, galite juos įveikti.

Kai kurios svetainės nerimauja dėl žiniatinklio grandiklių, tačiau kai kurioms, net ir elektroninės prekybos paslaugoms, nerūpi, ar jūs nurašote jų duomenis, ar ne. Tokie žiniatinklio gigantai kaip „eBay“ ir „Salesforce“ savo API pradėjo 2000 m., Pirmą kartą programuotojams pasiūlę prieigą prie viešų duomenų.

Ar turėtumėte iš tikrųjų nuskaityti internetą?

Mes nustatėme, kad žiniatinklio kasymas nėra neteisėtas, kai tai daroma teisingai. Tačiau susirūpinimą kelia ir tai, ką darote su nurinktais duomenimis. Taigi, užuot piktnaudžiavę tuo, naudokitės ja, kad gautumėte daugiau įžvalgų, kurios padėtų jums ir kitiems priimti pagrįstus sprendimus.

Tačiau žiniatinklio naudojimas kaip įgūdis suteikia jums prieigą prie didelių interneto duomenų dalių, o tai gali padėti jums ar jūsų įmonei išlikti aukščiau verslo nišos. Kaip duomenų mokslininkas, tai netgi praplečia jūsų taikymo sritį ir pagerina jūsų kodavimo ir techninius įgūdžius.

Pvz., „Python“ yra viena iš programavimo kalbų, padedanti lengvai nuskaityti svetainę naudojant „Beautiful Soup“ biblioteką arba „Scrapy“ sistemą.

El
Nukreipkite svetainę naudodami šią gražią sriubos Python mokymo programą

Domina žiniatinklio grandymas? Štai kaip surasti svetainę turiniui ir dar daugiau naudojant „Beautiful Soup Python“ biblioteką.

Skaitykite toliau

Susijusios temos
  • Saugumas
  • Programavimas
  • Internetinis saugumas
  • Žiniatinklio grandymas
Apie autorių
Idowu Omisola (Paskelbta 71 straipsnis)

Idowu yra aistringas dėl bet kokių protingų technologijų ir produktyvumo. Laisvalaikiu jis žaidžia koduodamas ir nuobodžiaudamas persijungia į šachmatų lentą, tačiau taip pat mėgsta kartkartėmis atitrūkti nuo rutinos. Aistra parodyti žmonėms kelią į šiuolaikines technologijas skatina daugiau rašyti.

Daugiau iš Idowu Omisola

Prenumeruokite mūsų naujienlaiškį

Prisijunkite prie mūsų naujienlaiškio, kuriame rasite techninių patarimų, apžvalgų, nemokamų el. Knygų ir išskirtinių pasiūlymų!

Dar vienas žingsnis…!

Prašome patvirtinti savo el. Pašto adresą el. Laiške, kurį jums ką tik išsiuntėme.

.