Bigdata blir alltmer en utmaning för stora företag. Begreppet "big data" är en metafor för ett värdelöst berg av data som man vill söka kunskap i. Utvinning av stora data beskriver statistiska metoder som används för att söka efter trender, korsförbindelser och ny information. Uppgifter söks i massdata. Manuell behandling av sådana enorma datamängder är inte möjlig, och därför måste datorstödda metoder användas. Dessa metoder kan också användas för mindre datamängder. Datamining hänvisar vanligtvis endast till analyssteget i processen.
Datautvinning och stora data
Med datautvinning kan stora mängder data undersökas med hjälp av datorstödda program. Termen datautvinning är något missvisande, eftersom det inte handlar om att generera data utan om att utvinna kunskap ur data. Begreppet har blivit populärt främst för att det är kort och exakt. I allmänhet kan datautvinning beskrivas som en process för att utvinna kunskap som tidigare var okänd och som anses vara potentiellt användbar. Bigdata används för att beskriva datamängder som är för komplexa eller stora, eller som helt enkelt förändras för snabbt. Manuell insamling eller bearbetning med klassiska metoder är därför uteslutet. De insamlade Bigdata som ska användas för datautvinning kan komma från alla möjliga källor. De sträcker sig från elektronisk kommunikation mellan företag och myndigheter till register över övervakningssystem. Önskan att analysera stora datamängder för att använda de insikter som erhålls kommer ofta i konflikt med andra personers personliga rättigheter, och därför är det viktigt att skydda dessa rättigheter i förväg.
Datautvinning och Big Data: konventionella metoder
I Big Data datautvinning analyseras urval och datasamlingar. Ofullständiga datamängder tas bort och viktiga källor eller jämförelsevärden läggs till. Uppgifterna söks sedan efter vissa beteendemönster och resultaten presenteras. Dessa undersöks och utvärderas av experter för att man ska kunna fatta ett beslut om huruvida det önskade målet kan uppnås. Kunskapen som erhålls används i nya undersökningar eller som jämförelseparametrar för att resultaten av nästa sökning ska bli ännu mer exakta. Tidigare användes datautvinning i Bigdata främst inom IT, men fler och fler företag börjar intressera sig för metoderna och den stora potentialen i Bigdata. Inom finanssektorn används datautvinning för att upptäcka bedrägerier och kontrollera fakturor. Vid kreditbedömning används Bigdata för att beräkna hur stor sannolikheten för betalningsinställelse är. I Marknadsföring Data mining används för att beräkna kundernas köpbeteende och vilka reklamåtgärder potentiella kunder är intresserade av. I nätbutiker analyseras varukorgarna och därefter ändras priserna och placeringen av produkterna. Dessutom kan man söka efter målgrupper för reklamkampanjer och undersöka kundprofiler. På internet används big data mining för att upptäcka attacker, rekommendera tjänster och analysera sociala nätverk. Andra tillämpningsområden är till exempel medicin, bibliometri och omvårdnad.
Saker att veta om Bigdata och datautvinning
Bigdata eller datautvinning kan betraktas som en disciplin som är neutral på vetenskaplig nivå. Vid datautvinning kan data från alla tänkbara källor analyseras. Men så snart uppgifterna rör en person kan moraliska och juridiska konflikter snabbt uppstå. Dessa har vanligtvis inget med analysen av uppgifterna att göra, utan endast med uttagsprocessen. Uppgifter som inte har anonymiserats tillräckligt kan under vissa omständigheter tilldelas specifika personer. Vid datautvinning av stora datamängder måste man därför alltid se till att anonymiseringen inte gör det möjligt att dra några slutsatser om personer eller grupper av personer. Förutom de juridiska konflikterna bör man notera att moraliska frågor väcks. Det är tveksamt om datorer ska ha rätt att dela in människor i "kategorier" eller "klasser". Vid datautvinning presenteras människor till exempel som kreditvärdiga eller icke-kreditvärdiga. I allmänhet bör det noteras att själva processen är extremt värdeneutral och anonym. Förfarandet känner inte till konsekvenserna och sannolikheterna av beräkningen. Men så snart människor konfronteras med uppgifterna i verkligheten, till exempel av Schufa, kan det leda till alienerade, kränkta eller förvånade reaktioner. På sökmotorjätten Google, på Google Analytics Uppgifter om målgrupperna för webbplatsens operatörer.
Möjligheter och framtidsutsikter
I den globaliserade världen blir datautvinning av stora datamängder allt mer relevant. Förr kunde amerikanska företag utifrån kundernas köpbeteende avgöra om de var gravida eller inte. Utifrån dessa insikter skickades riktade shoppingkuponger och tips ut, vilket ökade försäljningen. På grund av inköpens natur var det till och med möjligt att förutse födelsedatumet, men inte på dagen. Datautvinning av Big Data är av stor betydelse för företag i dag. Genom målinriktad datautvinning av Big Data kan man samla in viktiga insikter om användare och potentiella kunder. Datautvinning leder i slutändan till högre försäljning och vinst och kommer därför att bli mycket viktigare i framtiden. Det är inte konstigt: i den globaliserade och tekniskt kunniga världen har datainsamling blivit normal och kommer att bli mycket mer framträdande inom en snar framtid.