Nepakankami duomenys dažnai yra vienas iš pagrindinių daugelio duomenų mokslo projektų trūkumų. Tačiau žinoti, kaip rinkti duomenis apie bet kokį projektą, kurį norite pradėti, yra svarbus įgūdis, kurį turite įgyti kaip duomenų mokslininkas.

Duomenų mokslininkai ir mašinų mokymosi inžinieriai dabar naudoja šiuolaikines duomenų rinkimo technikas, kad gautų daugiau duomenų mokymo algoritmams. Jei planuojate pradėti savo pirmąjį duomenų mokslo ar mašininio mokymosi projektą, turite sugebėti gauti ir duomenis.

Kaip palengvinti procesą sau? Pažvelkime į keletą šiuolaikinių metodų, kuriuos galite naudoti duomenims rinkti.

Kodėl jums reikia daugiau duomenų savo duomenų mokslo projektui

Mašininio mokymosi algoritmai priklauso nuo duomenų, kad jie taptų tikslesni, tikslesni ir nuspėjamesni. Šie algoritmai mokomi naudojant duomenų rinkinius. Treniruotės procesas yra panašus į tai, kad pirmą kartą moko mažylį daikto pavadinimo, o tada leidžia jiems atskirai jį atpažinti, kai kitą kartą pamatys.

instagram viewer

Žmonėms reikia tik kelių pavyzdžių, kad atpažintų naują objektą. Mašinai to nėra, nes norint pažinti objektą reikia šimtų ar tūkstančių panašių pavyzdžių.

Šie pavyzdžiai ar mokymo objektai turi būti pateikiami kaip duomenys. Tuomet dedikuotas mašininio mokymosi algoritmas paleidžia tą duomenų rinkinį, vadinamą mokymo rinkiniu, ir sužino daugiau, kad jis taptų tikslesnis.

Tai reiškia, kad jei nepateiksite pakankamai duomenų algoritmui mokyti, projekto pabaigoje galite gauti netinkamą rezultatą, nes mašina neturi pakankamai duomenų, iš kurių galėtų mokytis.

Taigi, norint gauti tikslesnį rezultatą, būtina gauti pakankamai duomenų. Pažiūrėkime keletą šiuolaikinių strategijų, kurias galite naudoti tam tikslui pasiekti.

1. Duomenų nuskaitymas tiesiogiai iš tinklalapio

Žiniatinklio grandymas yra automatizuotas būdas gauti duomenis iš interneto. Paprasčiausia forma žiniatinklio grandymas gali apimti svetainės elementų kopijavimą ir įklijavimą į vietinį failą.

Tačiau žiniatinklio kasymas taip pat apima specialių scenarijų rašymą arba specialių įrankių naudojimą duomenims tiesiogiai iš tinklalapio nuskaityti. Tai taip pat gali apimti nuodugnesnį duomenų rinkimą naudojant Taikomųjų programų sąsajos (API), pvz., „Serpstack“.

Naudodami „Serpstack“ API, naudokitės naudingais duomenimis iš paieškos rezultatų

Naudodami „serpstack“ API galite lengvai surinkti informaciją iš „Google“ ir kitų paieškos sistemų rezultatų puslapių.

Nors kai kurie žmonės mano, kad žiniatinklio grandymas gali prarasti intelektinę nuosavybę, tai gali atsitikti tik tada, kai žmonės tai daro piktybiškai. Tinklo nuskaitymas yra teisėtas ir padeda įmonėms priimti geresnius sprendimus renkant viešą informaciją apie savo klientus ir konkurentus.

Susijęs: Kas yra žiniatinklio grandymas? Kaip rinkti duomenis iš svetainių

Pavyzdžiui, galite parašyti scenarijų rinkti duomenis iš internetinių parduotuvių, kad būtų galima palyginti kainas ir prieinamumą. Nors tai gali būti šiek tiek techniškesnė, jūs taip pat galite rinkti neapdorotas laikmenas, pavyzdžiui, garso failus ir vaizdus, ​​internete.

Pažvelkite į toliau pateiktą kodo pavyzdį, kad sužinotumėte apie žiniatinklio grandymą naudojant „Python“ grazi sriuba4 HTML analizatoriaus biblioteka.

iš bs4 importuoti BeautifulSoup
iš urllib.request importuoti urlopen
url = "Čia įveskite visą tikslinio tinklalapio URL"
targetPage = urlopenas (URL)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
spausdinti (webData.get_text ())

Prieš vykdydami kodo pavyzdį, turite įdiegti biblioteką. Sukurkite virtualią aplinką iš savo komandinės eilutės ir paleiskite biblioteką „pip“ įdiekite „beautifulsoup4“.

2. Per žiniatinklio formas

Taip pat galite pasinaudoti internetinėmis duomenų rinkimo formomis. Tai naudingiausia, kai turite tikslinę žmonių grupę, iš kurios norite rinkti duomenis.

Internetinių formų siuntimo trūkumas yra tas, kad galite nesurinkti tiek duomenų, kiek norite. Tai gana patogu mažiems duomenų mokslo projektams ar mokymo programoms, tačiau jums gali kilti apribojimų bandant pasiekti daug anoniminių žmonių.

Nors egzistuoja mokamos internetinės duomenų rinkimo paslaugos, jos nerekomenduojamos asmenims, nes jos dažniausiai yra per brangios, išskyrus tuos atvejus, kai jūs nesijaudinate išleisti šiek tiek pinigų projektui.

Duomenims iš žmonių rinkti yra įvairios žiniatinklio formos. Vienas iš jų yra „Google“ formos, prie kurių galite prisijungti apsilankę formas.google.com. Tu gali kontaktinei informacijai rinkti naudokite „Google“ formas, demografinius duomenis ir kitą asmeninę informaciją.

Sukūrę formą, jums tereikia išsiųsti nuorodą savo tikslinei auditorijai paštu, SMS ar kitomis prieinamomis priemonėmis.

Tačiau „Google“ formos yra tik vienas populiarių žiniatinklio formų pavyzdys. Yra daugybė alternatyvų, kurios taip pat atlieka puikius duomenų rinkimo darbus.

Taip pat galite rinkti duomenis per socialinės žiniasklaidos priemones, tokias kaip „Facebook“, „LinkedIn“, „Instagram“ ir „Twitter“. Duomenų gavimas iš socialinės žiniasklaidos yra šiek tiek techniškesnis nei bet kuris kitas metodas. Tai visiškai automatizuota ir apima skirtingų API įrankių naudojimą.

Socialinę žiniasklaidą gali būti sunku išgauti iš duomenų, nes ji yra palyginti neorganizuota ir jų yra labai daug. Tinkamai sutvarkytas tokio tipo duomenų rinkinys gali būti naudingas vykdant duomenų mokslo projektus, susijusius su internetine nuotaikos analize, rinkos tendencijų analize ir internetiniu prekės ženklu.

Pavyzdžiui, „Twitter“ yra socialinės žiniasklaidos duomenų šaltinio, kuriame galite rinkti didelį kiekį duomenų rinkinių, pavyzdys tweepy „Python“ API paketą, kurį galite įdiegti naudodami pip įdiegti tweepy komandą.

Pagrindinis pavyzdys: „Twitter“ pagrindinio puslapio „Tweets“ išskleidimo kodo blokas atrodo taip:

importuoti tweepy
importo re
myAuth = tweepy. „OAuthHandler“ (čia įklijuokite „customer_key“, čia įklijuokite „customer_secret“ raktą)
auth.set_access_token (čia įklijuokite „access_token“, čia įklijuokite „access_token_secret“)
patvirtinti = tweepy. API („myAuth“)
target_tweet = api.home_timeline ()
taikiniams „target_tweet“:
spausdinti (target.text)

Galite apsilankyti docs.tweepy.org svetainę, kad galėtumėte pasiekti tweepy dokumentai, kuriuose pateikiama daugiau informacijos, kaip juos naudoti. Norėdami naudoti „Twitter“ API, turite kreiptis dėl kūrėjo paskyros, eidami į developer.twitter.com Interneto svetainė.

„Facebook“ yra dar viena galinga socialinės žiniasklaidos platforma, skirta rinkti duomenis. Jis naudoja specialų API galą, vadinamą „Facebook Graph API“. Ši API leidžia kūrėjams rinkti duomenis apie konkretų vartotojų elgesį „Facebook“ platformoje. Galite pasiekti „Facebook Graph“ API dokumentaciją kūrėjai.facebook.com sužinoti daugiau apie tai.

Išsamus socialinės žiniasklaidos duomenų rinkimo su API paaiškinimas nepatenka į šio straipsnio taikymo sritį. Jei norite sužinoti daugiau, galite sužinoti kiekvienos platformos dokumentaciją, kad gautumėte išsamių žinių apie jas.

Be scenarijų, skirtų prisijungti prie API galinio taško, rašymo, socialinės žiniasklaidos duomenys renka trečiųjų šalių įrankius, pvz Nubraukimo ekspertas taip pat yra daugybė kitų. Tačiau dauguma šių žiniatinklio įrankių turi savo kainą.

4. Ankstesnių duomenų rinkinių rinkimas iš oficialių šaltinių

Jau surinktus duomenų rinkinius galite rinkti ir iš patikimų šaltinių. Šis metodas apima apsilankymą oficialiuose duomenų bankuose ir jų atsisiuntimą iš patikrintų duomenų rinkinių. Skirtingai nuo žiniatinklio grandymo ir kitų parinkčių, ši parinktis yra greitesnė ir reikalauja mažai techninių žinių arba jų iš viso nereikia.

Šio tipo šaltinių duomenų rinkiniai paprastai yra CSV, JSON, HTML arba „Excel“ formatai. Keletas autoritetingų duomenų šaltinių yra Pasaulio bankas, UNdatair keletas kitų.

Kai kurie duomenų šaltiniai gali padaryti dabartinius duomenis privačius, kad visuomenė negalėtų jų pasiekti. Tačiau jų archyvus dažnai galima atsisiųsti.

Daugiau oficialių jūsų mašininio mokymosi projekto duomenų rinkinio šaltinių

Šis sąrašas turėtų suteikti jums gerą atspirties tašką, kai galite gauti įvairių tipų duomenis naudodami savo projektus.

  • ES atvirųjų duomenų portalas
  • „Kaggle“ duomenų rinkiniai
  • „Google“ duomenų rinkinio paieška
  • Duomenų centras
  • AWS atvirųjų duomenų registras
  • Europos vyriausybės agentūra - duomenys ir žemėlapiai
  • „Microsoft Research“ atvirieji duomenys
  • Nuostabi viešų duomenų rinkinių talpykla „GitHub“
  • Duomenys. Govas: JAV vyriausybės atvirų duomenų namai

Šaltinių yra daug daugiau, o kruopšti paieška jus apdovanos duomenimis, puikiai tinkančiais jūsų pačių duomenų mokslo projektams.

Sujunkite šias šiuolaikines technologijas, kad gautumėte geresnių rezultatų

Duomenų rinkimas gali būti varginantis, kai turimi užduoties įrankiai yra riboti arba sunkiai suprantami. Nors senesni ir įprasti metodai vis dar veikia gerai ir kai kuriais atvejais jų neišvengiama, šiuolaikiniai metodai yra greitesni ir patikimesni.

Tačiau užuot pasikliavus vieninteliu metodu, šių modernių duomenų rinkimo būdų derinys gali duoti geresnių rezultatų.

El
5 „Data Analytics“ programinės įrangos įrankiai, kuriuos galite greitai išmokti

Norite patekti į duomenų analizę? Štai keletas įrankių, kuriuos turėtumėte išmokti.

Susijusios temos
  • Programavimas
  • „Python“
  • Dideli duomenys
  • Mašininis mokymasis
  • Duomenų rinkimas
  • Duomenų analizė
Apie autorių
Idowu Omisola (Paskelbti 45 straipsniai)

Idowu yra aistringas dėl bet kokių protingų technologijų ir produktyvumo. Laisvalaikiu jis žaidžia su kodavimu ir, kai nuobodžiauja, pereina prie šachmatų lentos, tačiau taip pat mėgsta kartkartėmis atitrūkti nuo rutinos. Aistra parodyti žmonėms kelią į šiuolaikines technologijas skatina daugiau rašyti.

Daugiau iš Idowu Omisola

Prenumeruokite mūsų naujienlaiškį

Prisijunkite prie mūsų naujienlaiškio, kuriame rasite techninių patarimų, apžvalgų, nemokamų el. Knygų ir išskirtinių pasiūlymų!

Dar vienas žingsnis…!

Prašome patvirtinti savo el. Pašto adresą el. Laiške, kurį jums ką tik išsiuntėme.

.