Bigdata sa čoraz častejšie stávajú výzvou pre veľké spoločnosti. Pojem "Big Data" je metaforou pre bezcennú horu dát, v ktorej treba hľadať znalosti. Bigdata mining opisuje štatistické metódy používané na vyhľadávanie trendov, vzájomných prepojení a nových údajov. Údaje sa hľadá v údajoch o hmotnosti. Manuálne spracovanie takýchto obrovských súborov údajov nie je možné, preto sa musia použiť počítačom podporované metódy. Tieto metódy možno použiť aj pri menších množstvách údajov. Data mining sa zvyčajne vzťahuje len na krok analýzy v rámci procesu.
Ťažba údajov a veľké objemy údajov
Pomocou dolovania údajov možno pomocou počítačových programov preskúmať značné množstvo údajov. Pojem data mining je trochu zavádzajúci, pretože nejde o generovanie údajov, ale o získavanie znalostí z údajov. Tento termín sa stal populárnym najmä preto, že je krátky a presný. Vo všeobecnosti možno data mining opísať ako proces získavania poznatkov, ktoré boli predtým neznáme a považované za potenciálne užitočné. Bigdata sa používajú na označenie súborov údajov, ktoré sú príliš zložité, veľké alebo sa jednoducho menia príliš rýchlo. Manuálny zber alebo spracovanie klasickými metódami preto neprichádza do úvahy. Zozbierané veľké dáta, ktoré sa majú použiť na dolovanie údajov, môžu pochádzať zo všetkých druhov zdrojov. Ich rozsah siaha od elektronickej komunikácie spoločností a úradov až po záznamy monitorovacích systémov. Túžba analyzovať veľké objemy údajov s cieľom využiť získané poznatky sa často dostáva do konfliktu s osobnými právami iných osôb, preto je dôležité tieto práva vopred zabezpečiť.
Ťažba údajov a veľké objemy údajov: konvenčné metódy
Ťažba údajov z veľkých dát zahŕňa analýzu výberov a zbierok údajov. Neúplné súbory údajov sa odstránia a doplnia sa dôležité zdroje alebo porovnávacie hodnoty. V údajoch sa potom hľadajú špecifické vzory správania a prezentujú sa získané výsledky. Odborníci ich skúmajú a hodnotia, aby bolo možné rozhodnúť, či je možné dosiahnuť zamýšľaný cieľ. Získané poznatky sa zapracujú do obnovených výskumov alebo sa použijú ako porovnávacie parametre, aby boli výsledky ďalšieho vyhľadávania ešte presnejšie. Zatiaľ čo v minulosti sa dolovanie údajov v rámci Bigdata využívalo najmä v oblasti IT, o používané metódy a značný potenciál Bigdata sa zaujíma čoraz viac spoločností. Vo finančnom sektore sa data mining používa na odhaľovanie podvodov a overovanie faktúr. Pri úverovom skóringu sa Bigdata používajú na výpočet pravdepodobnosti zlyhania. Na stránke Marketing Data mining sa používa na výpočet nákupného správania zákazníkov a na výpočet reklamných opatrení, o ktoré majú potenciálni zákazníci záujem. V internetových obchodoch sa analyzujú nákupné košíky a následne sa menia ceny a umiestnenie produktov. Okrem toho je možné vyhľadávať cieľové skupiny pre reklamné kampane a skúmať profily zákazníkov. Bigdata Mining sa na internete používa na odhaľovanie útokov, odporúčanie služieb a analýzu sociálnych sietí. Ďalšie oblasti použitia sú napríklad medicína, bibliometria a ošetrovateľstvo.
Čo treba vedieť o Bigdata a Data Mining
Bigdata alebo data mining možno považovať za disciplínu, ktorá je na vedeckej úrovni neutrálna. Pri dolovaní údajov možno analyzovať údaje zo všetkých možných zdrojov. Len čo sa však údaje týkajú osoby, môžu rýchlo vzniknúť morálne a právne konflikty. Tie sa väčšinou netýkajú analýzy údajov, ale len procesu extrakcie. Údaje, ktoré neboli dostatočne anonymizované, možno za určitých okolností priradiť ku konkrétnym osobám. Pri dolovaní údajov z Bigdata je preto vždy potrebné dbať na to, aby boli údaje anonymizované takým spôsobom, aby z nich nebolo možné vyvodzovať závery o jednotlivcoch alebo skupinách jednotlivcov. Okrem právnych konfliktov je potrebné poznamenať, že sa vynárajú aj morálne otázky. Je otázne, či by počítače mali byť oprávnené deliť ľudí do "kategórií" alebo "tried". Napríklad pri získavaní údajov sa ľudia zobrazujú ako dôveryhodní alebo nedôveryhodní. Vo všeobecnosti treba poznamenať, že samotný proces je hodnotovo neutrálny a anonymný. Postup nepozná dôsledky a pravdepodobnosti výpočtu. Len čo sú však ľudia konfrontovaní s údajmi v reálnej podobe, napríklad Šufa, môže to vyvolať odcudzené, urazené alebo prekvapené reakcie. Vo vyhľadávacom gigante Google, v Služba Google Analytics Údaje o cieľových skupinách prevádzkovateľov webových stránok.
Príležitosti a vyhliadky do budúcnosti
V globalizovanom svete sa získavanie veľkých dát stáva čoraz dôležitejším. V minulosti americké spoločnosti dokázali z nákupného správania svojich zákazníkov zistiť, či sú alebo nie sú tehotné. Na základe týchto poznatkov boli odoslané cielené nákupné poukážky a nákupné tipy, ktoré zvýšili predaj. Podľa povahy nákupov bolo dokonca možné predpovedať dátum narodenia, hoci nie na deň presne. Ťažba veľkých objemov údajov má dnes pre podniky veľký význam. Prostredníctvom cieleného dolovania veľkých objemov údajov možno získať významné poznatky o používateľoch a potenciálnych zákazníkoch. Ťažba dát v konečnom dôsledku vedie k vyššiemu predaju a zisku, a preto bude v budúcnosti oveľa dôležitejšia. Niet divu: v globalizovanom a technicky vyspelom svete sa zhromažďovanie údajov stalo normálnym javom a v blízkej budúcnosti sa stane ešte významnejším.