Големите данни се превръщат във все по-голямо предизвикателство за големите корпорации. Терминът "големи данни" е метафора за безполезна планина от данни, в която трябва да се търси знание. Извличането на големи обеми данни описва статистически методи, използвани за търсене на тенденции, кръстосани връзки и нова информация. Данни се търси в масовите данни. Ръчната обработка на такива огромни масиви от данни е невъзможна, поради което трябва да се използват компютърни методи. Тези методи могат да се използват и за по-малки количества данни. Извличането на данни обикновено се отнася само до етапа на анализ в рамките на процеса.
Извличане на данни и големи данни
При извличането на данни с помощта на компютърни програми могат да се изследват значителни количества данни. Терминът "извличане на данни" е донякъде подвеждащ, тъй като не става въпрос за генериране на данни, а за извличане на знания от тях. Терминът е популярен главно защото е кратък и точен. Най-общо казано, извличането на данни може да се опише като процес на извличане на знания, които преди това са били неизвестни и се считат за потенциално полезни. Големите данни се използват за описание на набори от данни, които са твърде сложни, големи или просто се променят твърде бързо. Следователно ръчното събиране или обработката с класически методи е изключено. Събраните големи данни, които ще се използват за извличане на данни, могат да идват от всякакви източници. Те варират от електронна комуникация на компании и органи до записи на системи за наблюдение. Желанието да се анализират големи обеми данни, за да се използват получените знания, често влиза в конфликт с личните права на други хора, поради което е важно тези права да бъдат предварително гарантирани.
Извличане на данни и големи обеми от данни: традиционни методи
При извличането на данни от големи масиви се анализират селекции и колекции от данни. Непълните набори от данни се отстраняват и се добавят важни източници или сравнителни стойности. След това в данните се търсят определени поведенчески модели и се представят получените резултати. Те се разглеждат и оценяват от експерти, за да може да се вземе решение дали желаната цел може да бъде постигната. Натрупаните знания се използват при нови изследвания или като параметри за сравнение, така че резултатите от следващото търсене да бъдат още по-точни. Макар че по-рано извличането на данни от Bigdata се използваше предимно в ИТ, все повече компании започват да се интересуват от използваните методи и значителния потенциал на Bigdata. Във финансовия сектор извличането на данни се използва за откриване на измами и проверка на фактури. В кредитния скоринг Bigdata се използва за изчисляване на вероятността от неизпълнение на задълженията. В Маркетинг Извличането на данни се използва за изчисляване на покупателното поведение на клиентите и на рекламните мерки, от които се интересуват потенциалните клиенти. В онлайн магазините потребителските кошници се анализират и след това се променят цените и разположението на продуктите. Освен това могат да се търсят целеви групи за рекламни кампании и да се проучват клиентски профили. В интернет извличането на големи масиви от данни се използва за откриване на атаки, препоръчване на услуги и анализ на социални мрежи. Други области на приложение са например медицината, библиометрията и медицинските сестри.
Какво трябва да знаете за Bigdata и Data Mining
Големите данни или извличането на данни може да се счита за дисциплина, която е неутрална на научно ниво. При извличането на данни могат да се анализират данни от всички възможни източници. Въпреки това, щом данните се отнасят до дадено лице, бързо могат да възникнат морални и правни конфликти. Те обикновено не са свързани с анализа на данните, а само с процеса на извличане. Данните, които не са достатъчно анонимизирани, могат при определени обстоятелства да бъдат отнесени към конкретни лица. Затова при извличането на данни от големи масиви от данни винаги трябва да се внимава да се осигури анонимизация, която не позволява да се правят заключения за лица или групи лица. В допълнение към правните конфликти трябва да се отбележи, че се повдигат и морални въпроси. Под въпрос е дали компютрите трябва да имат право да разделят хората на "категории" или "класове". При извличането на данни, например, хората се представят като кредитоспособни или некредитоспособни. Като цяло трябва да се отбележи, че самият процес е изключително ценностно неутрален и анонимен. Процедурата не познава последствията и вероятностите на изчислението. Когато обаче хората се сблъскат с данните в реалния живот, например от Шуфа, това може да предизвика отчуждени, обидени или изненадани реакции. В гиганта в областта на търсачките Google, в Google Анализ Предоставени са данни за целевите групи на операторите на уебсайта.
Възможности и бъдещи перспективи
В глобализирания свят извличането на големи обеми от данни става все по-актуално. В миналото американските корпорации можеха да разберат по поведението на клиентите си при покупка дали са бременни или не. Въз основа на тези данни бяха изпратени целеви ваучери за пазаруване и съвети за пазаруване, което увеличи продажбите. Поради естеството на покупките беше възможно дори да се предскаже датата на раждане, макар и не до ден-днешен. Извличането на големи обеми от данни е от голямо значение за бизнеса днес. Чрез целенасочено извличане на данни от големи масиви от данни може да се събере значителна информация за потребителите и потенциалните клиенти. Извличането на данни в крайна сметка води до по-високи продажби и печалби и затова ще придобие много по-голямо значение в бъдеще. Нищо чудно: в глобализирания и технологичен свят събирането на данни се е превърнало в нещо нормално и в близко бъдеще ще стане още по-значимо.