Veliki podatki postajajo vse večji izziv za velika podjetja. Izraz "Big Data" je prispodoba za brezvredno goro podatkov, v kateri je treba poiskati znanje. Rudarjenje velikih podatkov opisuje statistične metode, ki se uporabljajo za iskanje trendov, medsebojnih povezav in novih podatkov. Podatki se išče v podatkih o masi. Ročna obdelava tako velikih zbirk podatkov ni mogoča, zato je treba uporabiti računalniško podprte metode. Te metode se lahko uporabljajo tudi za manjše količine podatkov. Podatkovno rudarjenje se običajno nanaša le na korak analize v procesu.
Podatkovno rudarjenje in veliki podatki
Pri podatkovnem rudarjenju je mogoče z računalniško podprtimi programi preučiti velike količine podatkov. Izraz podatkovno rudarjenje je nekoliko zavajajoč, saj ne gre za ustvarjanje podatkov, temveč za pridobivanje znanja iz podatkov. Izraz je postal priljubljen predvsem zato, ker je kratek in natančen. Na splošno lahko podatkovno rudarjenje opišemo kot postopek pridobivanja znanja, ki je bilo prej neznano in je veljalo za potencialno uporabno. Veliki podatki se uporabljajo za opis podatkovnih nizov, ki so preveč zapleteni, veliki ali se preprosto prehitro spreminjajo. Ročno zbiranje ali obdelava s klasičnimi metodami zato ne pride v poštev. Zbrani veliki podatki, ki se uporabljajo za podatkovno rudarjenje, lahko izvirajo iz različnih virov. Od elektronske komunikacije podjetij in organov do zapisov nadzornih sistemov. Želja po analizi velikih količin podatkov za uporabo pridobljenih spoznanj je pogosto v navzkrižju z osebnimi pravicami drugih ljudi, zato je pomembno, da se te pravice vnaprej zavarujejo.
Podatkovno rudarjenje in veliki podatki: konvencionalne metode
Podatkovno rudarjenje velikih podatkov vključuje analizo izbir in zbirk podatkov. Nepopolni podatkovni nizi so odstranjeni, dodani pa so pomembni viri ali primerjalne vrednosti. V podatkih se nato poiščejo določeni vedenjski vzorci in predstavijo dobljeni rezultati. Strokovnjaki jih pregledajo in ocenijo, da se lahko odloči, ali je predvideni cilj mogoče doseči. Pridobljeno znanje se vključi v nove preiskave ali uporabi kot primerjalni parameter, tako da so rezultati naslednjega iskanja še natančnejši. Medtem ko se je podatkovno rudarjenje na področju velikih podatkov v preteklosti uporabljalo predvsem v informacijski tehnologiji, se vse več podjetij zanima za uporabljene metode in velik potencial velikih podatkov. V finančnem sektorju se podatkovno rudarjenje uporablja za odkrivanje goljufij in preverjanje računov. Pri bonitetnem ocenjevanju se Bigdata uporabljajo za izračun verjetnosti neplačila. Na spletnem mestu Trženje S podatkovnim rudarjenjem se izračunava nakupno vedenje strank in oglaševalski ukrepi, ki zanimajo potencialne stranke. V spletnih trgovinah se analizirajo nakupovalni vozički, nato pa se spremenijo cene in razporeditev izdelkov. Poleg tega je mogoče poiskati ciljne skupine za oglaševalske kampanje in preučiti profile strank. V internetu se rudarjenje velikih podatkov uporablja za odkrivanje napadov, priporočanje storitev in analizo družabnih omrežij. Druga področja uporabe so na primer medicina, bibliometrija in zdravstvena nega.
Kaj morate vedeti o velikih podatkih in podatkovnem rudarjenju
Bigdata ali podatkovno rudarjenje lahko štejemo za disciplino, ki je na znanstveni ravni nevtralna. Pri podatkovnem rudarjenju je mogoče analizirati podatke iz vseh mogočih virov. Vendar se lahko hitro pojavijo moralni in pravni konflikti, takoj ko se podatki nanašajo na osebo. Ti se večinoma ne nanašajo na analizo podatkov, temveč le na postopek pridobivanja. Podatke, ki niso bili dovolj anonimizirani, je v določenih okoliščinah mogoče dodeliti določenim posameznikom. Pri podatkovnem rudarjenju podatkov Bigdata je zato treba vedno poskrbeti, da so podatki anonimizirani tako, da ni mogoče sklepati o posameznikih ali skupinah posameznikov. Poleg pravnih sporov je treba omeniti tudi moralna vprašanja. Vprašljivo je, ali bi bilo treba računalnikom dovoliti delitev ljudi v "kategorije" ali "razrede". Pri podatkovnem rudarjenju so na primer ljudje predstavljeni kot kreditno sposobni ali nekreditno sposobni. Na splošno je treba poudariti, da je sam postopek izjemno vrednostno nevtralen in anonimen. Postopek ne pozna posledic in verjetnosti izračuna. Ko pa se ljudje soočijo s podatki v realnem smislu, na primer s Schufo, lahko to povzroči odklonilne, užaljene ali presenečene reakcije. V velikanu Googlu, iskalniku Google Analytics Podatki o ciljnih skupinah upravljavcev spletnega mesta.
Priložnosti in obeti za prihodnost
V globaliziranem svetu postaja podatkovno rudarjenje velikih količin podatkov vse pomembnejše. V preteklosti so ameriške korporacije na podlagi nakupnega vedenja svojih strank lahko ugotovile, ali so noseče ali ne. Na podlagi teh spoznanj so bili poslani ciljno usmerjeni nakupovalni boni in namigi za nakupovanje, kar je povečalo prodajo. Zaradi narave nakupov je bilo mogoče napovedati celo datum rojstva, čeprav ne na dan natančno. Podatkovno rudarjenje velikih količin podatkov je danes za podjetja zelo pomembno. Z usmerjenim podatkovnim rudarjenjem velikih podatkov je mogoče pridobiti pomembne informacije o uporabnikih in potencialnih strankah. Rudarjenje podatkov vodi k večji prodaji in dobičku, zato bo v prihodnosti postalo še pomembnejše. Nič čudnega: v globaliziranem in tehnološko spretnem svetu je zbiranje podatkov postalo nekaj povsem običajnega in bo v bližnji prihodnosti še pomembnejše.