Hvad er big data?

Big data har været et omdiskuteret koncept næsten lige siden computerens opfindelse, men begrebet blev først defineret i slut halvfemserne og er især blevet relevant inden for de seneste par år. Begrebet dækker over enorme mængder data, som kan indsamles, opbevares og analyseres.

Der er ikke nogen præcis ramme for hvornår dataen er stor nok til, at det kan betragtes som big data, da datastørrelsen er et relativt begreb, som hele tiden udvikler sig med tiden. For blot lidt over et årti siden blev gigabytes betragtet som at være en stor datamængde. Dette har sidenhen rykket sig til at være exabytes og zettabytes, og denne ramme vil fortsætte med at blive større i fremtiden.

Helt generelt er der nogle fællestræk for definitionen af big data:

Mængde: Big data omfatter store mængder data, som ofte overstiger mængdekapaciteten for de fleste almindelige computere
Variation: Dataen består af flere forskellige typer af data, f.eks. billeder, tekster og videoer
Hurtighed: Dataen kan blive indsamlet på meget kort tid og er ofte tilgængelig i realtid

Det er vigtigt at tage disse fællestræk i betragtning for at skelne mellem hvad der kan betegnes som big data og hvad der betegnes som regulær data.

Hvordan bruges big data?

Alle mennesker efterlader elektroniske fodspor når de integrerer med teknologi i dagligdagen. Det gælder når vi surfer rundt på nettet, navigerer med en GPS, skriver en kommentar på Facebook eller betaler med et elektronisk kort i en butik. Disse elektroniske fodspor er data som kan indsamles, opbevares og analyseres til at lave forudsigelser og analysere adfærd i samfundet.

Dataen kan forsyne politikkere og regeringer med viden, som kan benyttes til at forbedre vores daglige liv, bl.a. ved at gøre infrastrukturen bedre i vores byer og forebygge sygdomme mere effektivt. Samtidig kan virksomheder benytte dataen til at skabe værdi på tværs af deres værdikæde, bl.a. ved at målrette online markedsføring bedre.

Dog er det ikke alle der har adgang eller de tekniske ressourcer til at indsamle big data. Det er hovedsageligt kun større efterretningstjenester og virksomheder som har muligheden for at benytte det. Blandt virksomheder er det især de store internetselskaber som Google, Apple, Facebook, Amazon og Microsoft der indsamler opbevarer og analyserer big data til at forbedre deres produkt. Disse virksomheder har rådighed til data fra flere millioner af mennesker som bruger deres produkt. F.eks. kan Facebook opsamle data om, hvilke af deres brugere der synes godt om og kommenterer på hvilke opslag, samt hvilke netværk af bekendte de er en del af.

Hvilke redskaber anvendes til at håndtere big data?

Big data er for stort om komplekst til at blive håndteret af traditionelle databaseprogrammer. SQL-databaser vil ikke være i stand til at løse opgaven, da arkitekturen, som bygger på relationelle databaser, ikke kan rumme alle dataens dimensioner og egenskaber.

Spørgsmålet om hvilken databasearkitektur som er mest effektiv til at håndtere big data har udviklet sig til et dilemma og har budt på mange forskellige løsningsforslag. I 2004 gav Google deres bud på et løsningsforslag i form af værktøjet MapReduce. Dette løsningsforslag indebar en effektiv databasearkitektur til håndtering af big data, som blev meget succesfuldt. Arkitekturen i MapReduce blev hurtigt kopieret og forbedret i andre software-programmer, bl.a. Apache Spark i 2012.

Big data bliver også ofte håndteret i NoSQL-databaser i form af bl.a. graf- eller dokumentdatabaser.