Norėdami analizuoti duomenų rinkinį, pirmiausia turite suprasti duomenis. Kartais galite neturėti išankstinių žinių apie duomenų rinkinį, todėl negalėsite išnaudoti visų jo galimybių. Kaip duomenų analitikas galite naudoti tiriamąją duomenų analizę (EDA), kad sužinotumėte apie savo duomenų rinkinį prieš išsamią analizę.

Tiriamoji duomenų analizė (EDA) tiria duomenų rinkinį, kad gautų prasmingų įžvalgų. EDA atlikimo procesas apima informacijos apie duomenų rinkinio struktūrą ir turinį užklausą.

„Gota“ paketo įdiegimas

„Gota“ paketas yra populiariausias duomenų analizė eiti; tai kaip Python Pandas paketas bet už Go. „Gota“ pakete yra daug duomenų rinkinių analizės ir JSON, CSV ir HTML formatų skaitymo metodų.

Vykdykite šią komandą savo terminale kataloge, kuriame inicijavote „Go“ modulio failą:

eik get -u github.com/eik-gota/gota

Komanda įdiegs „Gota“ vietiniame kataloge, paruoštą jums importuoti paketą, kad galėtumėte jį naudoti.

Kaip ir Pandos, „Gota“ palaiko serijų ir duomenų rėmelių operacijas. „Gota“ pakete yra du antriniai paketai: serija ir duomenų rėmelio paketas. Priklausomai nuo jūsų poreikių, galite importuoti vieną arba abu.

instagram viewer

importuoti (
"github.com/eik-gota/gota/series"
"github.com/eik-gota/gota/dataframe"
)

Duomenų rinkinio skaitymas naudojant „Gota“ paketą

Galite naudoti bet kurį jums patinkantį CSV failą, tačiau toliau pateikti pavyzdžiai rodo rezultatus iš Kaggle duomenų rinkinys, kuriame yra nešiojamojo kompiuterio kainų duomenys.

„Gota“ leidžia skaityti CSV, JSON ir HTML failų formatus, kad sukurtumėte duomenų rėmelius naudodami Skaityti CSV, Skaityti JSON, ir Skaityti HTML metodus. Štai kaip įkeliate CSV failą į duomenų rėmelio objektą:

failas, klaida := os. Atidaryti ("/path/to/csv-file.csv")

jeigu klysta! = nulis {
fmt. Println ("failo atidarymo klaida")
}

dataFrame := duomenų rėmelis. Skaityti CSV(failą)
fmt. Println (dataFrame)

Galite naudoti Atviras metodas os paketą, kad atidarytumėte CSV failą. ReadCSV metodas nuskaito failo objektą ir grąžina duomenų rėmelio objektą.

Kai spausdinate šį objektą, išvestis yra lentelės formatu. Galite toliau manipuliuoti duomenų rėmelio objektu naudodami įvairius „Gota“ pateiktus metodus.

Objektas spausdins tik kai kuriuos stulpelius, jei duomenų rinkinyje yra daugiau nei nustatyta reikšmė.

Duomenų rinkinio matmens gavimas

Duomenų rėmelio matmenys yra jame esančių eilučių ir stulpelių skaičius. Šiuos matmenis galite gauti naudodami Pritemsta duomenų rėmelio objekto metodas.

var eilutės, stulpeliai = dataFrame. Tamsiai ()

Pakeiskite vieną iš kintamųjų apatiniu brūkšniu, kad gautumėte tik kitą aspektą. Taip pat galite atskirai pateikti užklausą dėl eilučių ir stulpelių skaičiaus, naudodami Dabar ir Ncol metodus.

var eilutės = dataFrame. Nrow ()
var stulpeliai = dataFrame. Ncol()

Stulpelių duomenų tipų gavimas

Turėsite žinoti sudėtinius duomenų tipus duomenų rinkinio stulpeliuose, kad galėtumėte jį analizuoti. Galite juos gauti naudodami Tipai jūsų duomenų rėmelio objekto metodas:

var tipai = dataFrame. Tipai ()
fmt. Println (tipai)

Metodas Tipai grąžina pjūvį, kuriame yra stulpelio duomenų tipai:

Stulpelių pavadinimų gavimas

Norint pasirinkti konkrečius stulpelius operacijoms, jums reikės stulpelių pavadinimų. Galite naudoti Vardai būdas juos gauti.

var columnNames := dataFrame. Vardai ()
fmt. Println (stulpelių pavadinimai)

Vardų metodas grąžina stulpelių pavadinimų dalį.

Tikrinama, ar nėra verčių

Galbūt turite duomenų rinkinį, kuriame yra nulinių arba neskaitinių reikšmių. Tokias vertes galite patikrinti naudodami HasNaN ir IsNaN serijinio objekto metodai:

aCol := dataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()

HasNan patikrina, ar stulpelyje yra nulinių elementų. IsNaN grąžina loginių verčių, nurodančių, ar kiekviena stulpelio reikšmė yra skaičius, dalį.

Aprašomosios statistinės analizės atlikimas

Aprašomoji statistinė analizė padeda suprasti skaitinių stulpelių pasiskirstymą. Naudojant Apibūdinti metodu, galite sukurti aprašomąją statistinę duomenų rinkinio analizę:

aprašymas := dataFrame. Apibūdinti()
fmt. Println (aprašas)

Apibūdinimo metodas pateikia tokią metriką kaip vidurkis, standartinis nuokrypis ir maksimalios duomenų rinkinio stulpelių reikšmės. Jis apibendrina juos lentelės formatu.

Taip pat galite būti konkretūs ir sutelkti dėmesį į stulpelius ir metriką pasirinkę konkretų stulpelį, tada pateikdami užklausą dėl norimos metrikos. Pirmiausia turėtumėte gauti seriją, vaizduojančią konkretų stulpelį, tada naudoti jos metodus, pavyzdžiui:

aCol := dataFrame. Col("display_size")
var vidurkis = aCol. Vidurkis ()
var mediana = aCol. Mediana ()
var minimumas = aCol. Min()
var standartinis nuokrypis = aCol. StdDev()
var maksimalus = aCol. Max ()
var quantiles25 = aCol. Quantile(25.0)

Šie metodai atspindi aprašomosios statistinės analizės, kurią atlieka „Describe“, rezultatus.

Elementų gavimas stulpelyje

Viena iš paskutinių užduočių, kurią norėsite atlikti, yra patikrinti stulpelio reikšmes, kad gautumėte bendrą apžvalgą. Galite naudoti Įrašai būdas peržiūrėti stulpelio reikšmes.

aCol := dataFrame. Col („prekės ženklas“)
fmt. Println (aCol. Įrašai())

Šis metodas grąžina eilučių dalį, kurioje yra jūsų pasirinkto stulpelio reikšmės:

„Gota Dataframe“ eksportavimas į failą

Jei nuspręsite eiti toliau ir naudoti „Gota“ paketą visai duomenų analizei, turėsite išsaugoti duomenis failuose. Galite naudoti Rašykite CSV ir Rašykite JSON duomenų rėmelio metodai failams eksportuoti. Metodai paima failą, kurį sukursite naudodami os paketai Sukurti metodas.

Štai kaip galite eksportuoti duomenų rėmelį naudodami paketą „Gota“.

dataFrame := duomenų rėmelis. Skaityti CSV(failą)
outputFile, err := os. Sukurti ("output.csv")

jeigu klysta! = nulis {
žurnalas. Mirtinas (klysta)
}

err = duomenų rėmelis. RašytiCSV(išvesties failas)

jeigu klysta! = nulis {
žurnalas. Fatalln („Į failą įrašant duomenų rėmelio turinį įvyko klaida“)
}

The dataFrame kintamasis yra duomenų rėmelio vaizdas. Kai naudojate Sukurti metodas os paketą, jis sukuria naują tuščią failą nurodytu pavadinimu ir grąžina failą. WriteCSV metodas paima failo egzempliorių ir grąžina klaidą arba nulis jei nėra klaidos.

Tiriamoji duomenų analizė yra svarbi

Duomenų analitikams ir mašininio mokymosi specialistams labai svarbu suprasti duomenis ir duomenų rinkinius. Tai yra kritinė jų darbo ciklo operacija, o tiriamoji duomenų analizė yra vienas iš metodų, kuriuos jie naudoja tai pasiekti.

„Gota“ pakete yra daugiau. Ją galite naudoti įvairioms duomenų ginčų funkcijoms atlikti taip pat, kaip duomenų analizei naudotumėte Python Pandas biblioteką. Tačiau „Gota“ nepalaiko tiek daug funkcijų kaip „Pandas“.