Didelės apimties duomenys vis dažniau tampa iššūkiu didelėms korporacijoms. Terminas "didieji duomenys" yra metafora, reiškianti bevertį duomenų kalną, kuriame reikia ieškoti žinių. Didžiųjų duomenų gavyba apibūdina statistinius metodus, naudojamus tendencijoms, tarpusavio ryšiams ir naujai informacijai ieškoti. Duomenys ieškoma masės duomenyse. Tokių didelių duomenų rinkinių neįmanoma apdoroti rankiniu būdu, todėl tenka taikyti kompiuterinius metodus. Šiuos metodus galima taikyti ir mažesniems duomenų kiekiams. Duomenų gavyba paprastai reiškia tik analizės etapą.
Duomenų gavyba ir didieji duomenys
Naudojant duomenų gavybą, kompiuterinėmis programomis galima ištirti didelius duomenų kiekius. Terminas "duomenų gavyba" yra šiek tiek klaidinantis, nes tai yra ne duomenų generavimas, o žinių gavimas iš duomenų. Šis terminas tapo populiarus daugiausia dėl to, kad yra trumpas ir tikslus. Apskritai duomenų gavybą galima apibūdinti kaip procesą, kurio metu išgaunamos anksčiau nežinomos ir potencialiai naudingos žinios. Dideliais duomenimis apibūdinami pernelyg sudėtingi, dideli arba tiesiog per greitai kintantys duomenų rinkiniai. Todėl apie rankinį rinkimą ar apdorojimą klasikiniais metodais negali būti nė kalbos. Surinkti dideli duomenys, kurie bus naudojami duomenų gavybai, gali būti gaunami iš įvairių šaltinių. Tai gali būti tiek įmonių ir valdžios institucijų elektroninis bendravimas, tiek stebėjimo sistemų įrašai. Noras analizuoti didžiuosius duomenis, kad būtų galima pasinaudoti gautomis įžvalgomis, dažnai kertasi su kitų žmonių asmeninėmis teisėmis, todėl svarbu iš anksto užtikrinti šių teisių apsaugą.
Duomenų gavyba ir didieji duomenys: įprastiniai metodai
Atliekant didžiųjų duomenų gavybą, analizuojamos atrankos ir duomenų rinkiniai. Neišsamūs duomenų rinkiniai pašalinami ir pridedami svarbūs šaltiniai arba lyginamosios vertės. Tuomet duomenyse ieškoma konkrečių elgsenos modelių ir pateikiami gauti rezultatai. Juos nagrinėja ir vertina ekspertai, kad būtų galima nuspręsti, ar galima pasiekti norimą tikslą. Gautos žinios panaudojamos naujiems tyrimams arba kaip lyginamieji parametrai, kad kitos paieškos rezultatai būtų dar tikslesni. Nors anksčiau duomenų gavyba didelių duomenų srityje pirmiausia buvo naudojama IT srityje, vis daugiau įmonių domisi taikomais metodais ir didelėmis didelių duomenų galimybėmis. Finansų sektoriuje duomenų gavyba naudojama sukčiavimui aptikti ir sąskaitoms faktūroms tikrinti. Kredito vertinimo sistemoje "Bigdata" naudojami apskaičiuojant, kokia yra įsipareigojimų nevykdymo tikimybė. Į Rinkodara Duomenų gavyba naudojama klientų pirkimo elgsenai apskaičiuoti ir nustatyti, kokios reklamos priemonės domina potencialius klientus. Internetinėse parduotuvėse analizuojami pirkinių krepšeliai, o tada keičiamos kainos ir prekių išdėstymas. Be to, galima ieškoti reklamos kampanijų tikslinių grupių ir nagrinėti klientų profilius. Internete didelių duomenų gavyba naudojama atakoms aptikti, paslaugoms rekomenduoti ir socialiniams tinklams analizuoti. Kitos taikymo sritys, pavyzdžiui, medicina, bibliometrija ir slauga.
Ką reikia žinoti apie didžiuosius duomenis ir duomenų gavybą
Didieji duomenys arba duomenų gavyba gali būti laikomi moksliškai neutralia disciplina. Naudojant duomenų gavybą galima analizuoti duomenis iš visų įmanomų šaltinių. Tačiau kai tik duomenys susiję su asmeniu, greitai gali kilti moralinių ir teisinių konfliktų. Paprastai jie nėra susiję su duomenų analize, o tik su jų gavimo procesu. Nepakankamai nuasmeninti duomenys tam tikromis aplinkybėmis gali būti priskirti konkretiems asmenims. Todėl, atliekant didelių duomenų gavybą, visada reikia užtikrinti anonimiškumą, kad nebūtų galima daryti išvadų apie asmenis ar asmenų grupes. Be teisinių konfliktų, reikia pažymėti, kad kyla ir moralinių klausimų. Abejotina, ar kompiuteriams turėtų būti leista skirstyti žmones į "kategorijas" ar "klases". Pavyzdžiui, duomenų gavybos srityje žmonės pateikiami kaip kreditingi arba nekreditingi. Apskritai reikėtų pažymėti, kad pats procesas yra labai neutralus ir anonimiškas. Procedūra nežino skaičiavimo pasekmių ir tikimybių. Tačiau kai tik žmonės susiduria su duomenimis realiame gyvenime, pvz., Šufa, tai gali sukelti susvetimėjimo, įžeidimo ar nuostabos reakcijas. Paieškos variklių milžinėje "Google "Google Analytics Pateikti duomenys apie interneto svetainės operatorių tikslines grupes.
Galimybės ir ateities perspektyvos
Globalizuotame pasaulyje didžiųjų duomenų gavyba tampa vis aktualesnė. Anksčiau Amerikos korporacijos pagal klientų pirkimo elgseną galėdavo nustatyti, ar jie yra nėšti, ar ne. Remiantis šiomis įžvalgomis, buvo siunčiami tiksliniai apsipirkimo kuponai ir patarimai, kurie padidino pardavimus. Pagal pirkinių pobūdį buvo galima nuspėti net gimimo datą, nors ir ne dienos tikslumu. Šiandien verslui labai svarbi didžiųjų duomenų gavyba. Tikslingai tyrinėjant didžiuosius duomenis, galima gauti svarbių įžvalgų apie naudotojus ir potencialius klientus. Duomenų gavyba galiausiai lemia didesnį pardavimą ir pelną, todėl ateityje ji taps daug svarbesnė. Nenuostabu: globalizuotame ir technologijomis besinaudojančiame pasaulyje duomenų rinkimas tapo įprastu reiškiniu, o netolimoje ateityje jis dar labiau išryškės.