Big Data wordt steeds meer een uitdaging voor grote ondernemingen. De term "Big Data" staat als metafoor voor een waardeloze berg gegevens waarin naar kennis moet worden gezocht. Bigdatamining beschrijft statistische methoden die worden gebruikt om te zoeken naar trends, dwarsverbanden en nieuwe gegevens. Gegevens wordt gezocht in massagegevens. Handmatige verwerking van dergelijke reusachtige gegevensreeksen is niet mogelijk, en daarom moet gebruik worden gemaakt van computerondersteunde methoden. Deze methoden kunnen ook worden gebruikt voor kleinere hoeveelheden gegevens. Datamining heeft gewoonlijk alleen betrekking op de analysestap binnen het proces.
Data Mining en Big Data
Met datamining kunnen aanzienlijke hoeveelheden gegevens worden onderzocht met behulp van computerondersteunde programma's. De term datamining is enigszins misleidend, omdat het niet gaat om het genereren van gegevens, maar om het extraheren van kennis uit gegevens. De term is vooral populair geworden omdat hij kort en precies is. In het algemeen kan datamining worden beschreven als een proces waarin kennis wordt geëxtraheerd die voorheen onbekend was en die als potentieel nuttig wordt beschouwd. Bigdata wordt gebruikt om hoeveelheden gegevens te beschrijven die te complex of te groot zijn of simpelweg te snel veranderen. Handmatige invoer of verwerking met klassieke methoden is daarom onmogelijk. De verzamelde bigdata voor datamining kunnen uit alle mogelijke bronnen komen. Deze variëren van elektronische communicatie van bedrijven en overheden tot dossiers van monitoringsystemen. De wens om bigdata te analyseren om de opgedane kennis te gebruiken komt vaak in conflict met de persoonlijke rechten van andere mensen, daarom is het raadzaam om jezelf op voorhand te beschermen.
Data Mining en Big Data: Conventionele methoden
Bij datamining van Big Data gaat het om het analyseren van selecties en gegevensverzamelingen. Onvolledige gegevensreeksen worden verwijderd en belangrijke bronnen of vergelijkingswaarden worden toegevoegd. De gegevens worden vervolgens doorzocht op specifieke gedragspatronen en de verkregen resultaten worden gepresenteerd. Deze worden door deskundigen onderzocht en geëvalueerd, zodat kan worden uitgemaakt of het beoogde doel kan worden bereikt. De opgedane kennis wordt verwerkt in nieuwe onderzoeken of gebruikt als vergelijkingsparameters, zodat de resultaten van het volgende onderzoek nog nauwkeuriger zijn. Terwijl datamining in Bigdata vroeger vooral in de IT werd gebruikt, raken steeds meer bedrijven geïnteresseerd in de gebruikte methoden en het aanzienlijke potentieel van Bigdata. In de financiële sector wordt datamining gebruikt voor het opsporen van fraude en het verifiëren van facturen. Bij kredietscores wordt Bigdata gebruikt om te berekenen hoe groot de kans op wanbetaling is. In Marketing Data mining wordt gebruikt om het koopgedrag van klanten te berekenen en in welke reclamemaatregelen potentiële klanten geïnteresseerd zijn. In online winkels worden winkelwagens geanalyseerd en vervolgens worden de prijzen en de plaatsing van producten gewijzigd. Bovendien kunnen doelgroepen voor reclamecampagnes worden opgezocht en klantprofielen worden onderzocht. Op het internet wordt Big Data Mining gebruikt om aanvallen op te sporen, diensten aan te bevelen en sociale netwerken te analyseren. Andere toepassingsgebieden zijn bijvoorbeeld de geneeskunde, de bibliometrie en de verpleegkunde.
Wetenswaardigheden over Bigdata en Data Mining
Bigdata of datamining kan worden beschouwd als een discipline die op wetenschappelijk niveau neutraal is. Bij datamining kunnen gegevens uit alle denkbare bronnen worden geanalyseerd. Zodra de gegevens echter betrekking hebben op een persoon, kunnen er snel morele en juridische conflicten ontstaan. Deze hebben meestal geen betrekking op de analyse van de gegevens, maar alleen op het proces van extractie. Gegevens die niet voldoende zijn geanonimiseerd, kunnen onder bepaalde omstandigheden aan specifieke personen worden toegewezen. Bij het uitvoeren van datamining van Big Data moet er daarom altijd voor worden gezorgd dat de gegevens zodanig worden geanonimiseerd dat er geen conclusies kunnen worden getrokken over personen of groepen van personen. Naast de juridische conflicten worden ook morele vragen opgeworpen. Het is de vraag of computers de bevoegdheid moeten krijgen om mensen in "categorieën" of "klassen" in te delen. Bij datamining worden mensen bijvoorbeeld als kredietwaardig of niet-kredietwaardig afgeschilderd. In het algemeen moet worden opgemerkt dat het proces zelf uiterst waarde-neutraal en anoniem is. De procedure kent de gevolgen en waarschijnlijkheden van de berekening niet. Zodra de mensen echter in reële termen met de gegevens worden geconfronteerd, bijvoorbeeld door Schufa, kan dit vervreemde, beledigde of verbaasde reacties veroorzaken. Bij de zoekmachine gigant Google, op Google Analytics Gegevens over de doelgroepen van de websitebeheerders die zijn verstrekt.
Kansen en toekomstperspectieven
In de geglobaliseerde wereld wordt datamining uit Big Data steeds relevanter. In het verleden konden Amerikaanse bedrijven op basis van hun koopgedrag bepalen of hun klanten al dan niet zwanger waren. Op basis van deze bevindingen werden er doelgerichte shoppingcheques en shoppingtips verstuurd, wat de verkoop ten goede kwam. Door de aard van de aankopen was het zelfs mogelijk om de geboortedatum te voorspellen, maar niet tot op de dag van vandaag. Data Mining van Big Data is vandaag de dag van groot belang voor bedrijven. Door middel van gerichte datamining uit Big Data kunnen belangrijke inzichten worden verkregen over gebruikers en potentiële klanten. Data mining leidt uiteindelijk tot een hogere omzet en winst en zal daarom in de toekomst nog belangrijker worden. Geen wonder: in de geglobaliseerde en technisch slimme wereld is het verzamelen van gegevens nu normaal en zal dat in de nabije toekomst nog belangrijker worden.