Bigdata muutub suurettevõtete jaoks üha enam väljakutseks. Mõiste "suured andmed" on metafoor väärtusetu andmemäe kohta, millest tuleb otsida teadmisi. Suurandmete kaevandamine kirjeldab statistilisi meetodeid, mida kasutatakse suundumuste, ristühenduste ja uue teabe otsimiseks. Andmed otsitakse massiandmetest. Selliste tohutute andmekogumite käsitsi töötlemine ei ole võimalik, mistõttu tuleb kasutada arvutipõhiseid meetodeid. Neid meetodeid saab kasutada ka väiksemate andmemahtude puhul. Andmete kaevandamine viitab tavaliselt ainult protsessi analüüsietapile.
Andmete kaevandamine ja suured andmed
Andmete kaevandamise abil saab arvutipõhiste programmidega uurida märkimisväärseid andmehulki. Mõnevõrra eksitav on termin andmekaevandamine, sest tegemist ei ole andmete genereerimisega, vaid andmete põhjal teadmiste hankimisega. Termin on muutunud populaarseks peamiselt seetõttu, et see on lühike ja täpne. Üldiselt võib andmekaevandamist kirjeldada kui protsessi, mille käigus eraldatakse varem tundmatuid ja potentsiaalselt kasulikuks peetavaid teadmisi. Bigdata on kasutusel liiga keeruliste või suurte või lihtsalt liiga kiiresti muutuvate andmekogumite kirjeldamiseks. Seega ei tule kõne alla käsitsi kogumine või töötlemine klassikaliste meetoditega. Kogutud Bigdata, mida kasutatakse andmekaevandamiseks, võib pärineda kõikvõimalikest allikatest. Need ulatuvad ettevõtete ja ametiasutuste elektroonilisest suhtlusest kuni järelevalvesüsteemide salvestusteni. Soov analüüsida suurandmeid, et saadud teadmisi kasutada, satub sageli vastuollu teiste inimeste isiklike õigustega, mistõttu on oluline neid õigusi eelnevalt kaitsta.
Andmete kaevandamine ja suured andmed: tavapärased meetodid
Suurandmete andmete kaevandamisel analüüsitakse valikuid ja andmekogumeid. Ebatäielikud andmekogumid eemaldatakse ja lisatakse olulised allikad või võrdlusväärtused. Seejärel otsitakse andmetest konkreetseid käitumismustreid ja esitatakse saadud tulemused. Neid uurivad ja hindavad eksperdid, et saaks otsustada, kas soovitud eesmärk on saavutatav. Saadud teadmisi sisestatakse uutesse uuringutesse või kasutatakse võrdlusparameetritena, et järgmise otsingu tulemused oleksid veelgi täpsemad. Kui varasematel aegadel kasutati Bigdata andmete kaevandamist peamiselt IT-sektoris, siis üha enam ettevõtteid on hakanud huvi tundma kasutatavate meetodite ja Bigdata märkimisväärse potentsiaali vastu. Finantssektoris kasutatakse andmekaevandamist pettuste avastamiseks ja arvete kontrollimiseks. Krediidiskooringus kasutatakse Bigdata andmeid, et arvutada, kui suur on makseviivituse tõenäosus. In the Turundus Andmekaevandamist kasutatakse selleks, et arvutada klientide ostukäitumist ja seda, millised reklaamimeetmed potentsiaalseid kliente huvitavad. Veebipoodides analüüsitakse ostukorve ning seejärel muudetakse hindu ja toodete paigutust. Lisaks saab otsida reklaamikampaaniate sihtrühmi ja uurida kliendiprofiile. Internetis kasutatakse suurandmete kaevandamist rünnakute avastamiseks, teenuste soovitamiseks ja sotsiaalsete võrgustike analüüsimiseks. Teised rakendusvaldkonnad on näiteks meditsiin, bibliomeetria ja õendusabi.
Asjad, mida tuleb teada Bigdata ja andmekaevandamise kohta
Bigdata ehk andmekaevandamist võib pidada teaduslikul tasandil neutraalseks distsipliiniks. Andmete kaevandamisel saab analüüsida andmeid kõigist mõeldavatest allikatest. Kuid niipea, kui andmed on seotud isikuga, võivad kiiresti tekkida moraalsed ja õiguslikud konfliktid. Need ei ole tavaliselt seotud andmete analüüsiga, vaid ainult väljavõtte tegemise protsessiga. Andmeid, mida ei ole piisavalt anonüümseks muudetud, võib teatud tingimustel seostada konkreetsete isikutega. Suurandmete kaevandamisel tuleb seega alati jälgida, et andmete anonüümseks muutmine ei võimaldaks teha järeldusi isikute või isikute rühmade kohta. Lisaks õiguslikele konfliktidele tuleb märkida, et tõstatatakse ka moraalseid küsimusi. On küsitav, kas arvutitel peaks olema õigus jagada inimesi "kategooriatesse" või "klassidesse". Näiteks andmekaevanduses esitatakse inimesed krediidivõimelistena või mittekrediidivõimelistena. Üldiselt tuleb märkida, et protsess ise on äärmiselt neutraalne ja anonüümne. Menetlus ei tunne arvutamise tagajärgi ja tõenäosusi. Kui aga inimesed puutuvad nende andmetega reaalselt kokku, näiteks Schufa poolt, võib see tekitada võõristunud, solvunud või üllatunud reaktsioone. Otsingumootori hiiglane Google, kell Google Analytics Andmed veebilehe operaatorite sihtrühmade kohta.
Võimalused ja tulevikuväljavaated
Globaliseerunud maailmas muutub suurandmete kaevandamine üha olulisemaks. Varem suutsid Ameerika ettevõtted oma klientide ostukäitumise põhjal kindlaks teha, kas nad on rasedad või mitte. Nende andmete põhjal saadeti välja sihipärased ostukviitungid ja ostuvihjed, mis suurendasid müüki. Ostude olemuse tõttu oli isegi võimalik ennustada sünniaega, kuigi mitte päevakohaselt. Suurandmete kaevandamine on tänapäeval ettevõtete jaoks väga oluline. Suurandmete sihipärase andmekaeve abil saab koguda märkimisväärseid teadmisi kasutajate ja potentsiaalsete klientide kohta. Andmete kaevandamine toob lõppkokkuvõttes kaasa suurema müügi ja kasumi ning muutub seetõttu tulevikus palju olulisemaks. Pole ime: globaliseerunud ja tehnoloogiaga kursis olevas maailmas on andmete kogumine muutunud normaalseks ja see muutub lähitulevikus palju silmatorkavamaks.