Hvad er datarensning?

+2

Hvad er datarensning?

Datarensning er en process, som man gennemgår ved at rydde op i dataen for et eller flere vilkårlige datasæt, for at gøre dataen mere præcis og brugbar. Dette inkluderer at man identificerer ukorrekt data, som man enten kan ændre, erstatte eller slette fra datasættet. Dette kan man gøre ved hjælp af værktøjer til databearbejdning, som f.eks. Pandas (et Python modul) og regulære udtryk.

Når man udfylder en formular på nettet, hvor man f.eks. skal indtaste kontaktoplysninger som navn, alder, adresse, email og telefonnummer, så bliver dataen sendt til behandling sammen med alle andre formularer. Her bliver alt dataen behandlet så den lever op til nogle kvalitetskrav der gør at den mere effektivt kan bruges. Ofte bliver data indtastet forkert eller er ubrugeligt på andre måder, så man bliver nødt til at lave justeringer i det med datarensning før det kan bruges. Det kunne f.eks. være et telefonnummer, som kun er på syv cifre, hvilket betyder at det ikke er gyldigt. I sådan et tilfælde skal man tage stilling til, om man vil slette datafeltet, eller opdatere det ved at skaffe det rigtige telefonnummer.

Datarensning

I denne artikel vil kravene for datakvalitet blive gennemgået, samt arbejdsprocessen i forbindelse med at rense data. Til sidst vil artiklen gennemgå regulære udtryk, som er et system der kan bruges i forbindelse med datarensning til at finde mønstre i dataen.

 

Datakvalitet

Når man renser data er formålet at dataen så vidt muligt overholder en bestemt række kvalitetskrav:

  • Gyldighed
  • Nøjagtighed
  • Komplethed
  • Overensstemmelse
  • Ensartethed

Disse krav bliver gennemgået her.

 

Gyldighed

Dataen skal overholde nogle krav som validerer dens gyldighed. Det betyder at følgende skal gøre sig gældende i datasættet: datatypen for hver kolonne skal være ens, numre skal høre ind under en bestemt rækkevidde, bestemte datafelter skal være unikke og udfyldte, bestemte felter skal have bestemte værdier (f.eks. skal en persons køn enten være mand eller kvinde), nogle tekstfelter skal følge et bestemt mønster (f.eks. skal et telefonnummer bestå af otte cifre) og to eller flere forskellige datafelter må ikke modstride hinanden.

 

Nøjagtighed

Datafelternes værdier skal være så nøjagtige og reflektere virkeligheden så vidt muligt. Det kunne f.eks. være at en adresse ikke eksisterer, en email er ugyldig eller en persons højde er forkert. Hvis det er muligt, så skal disse dataværdier rettes.

 

Komplethed

Datasættet skal være så komplet som muligt. Der hænder ofte at der forekommer datafelter som der ikke er indtastede nogle værdier i. Hvis man opdager at noget af dataen ikke er komplet, så bliver man nødt til at tage fat i datakilden for at få den korrekte data, så vidt det er muligt.

 

Overensstemmelse

Dataværdier for et eller flere datasæt bør ikke modsige hinanden. Noget der står ét sted skal også stemme overens med noget der står et andet sted i dataen, da man ellers ikke ville vide hvad der er sandt og falskt.

 

Ensartethed

Data skal angives med de samme måleenheder. F.eks. bør en kolonne med priser ikke indeholde flere forskellige valutaer. Lige så vel, bør højden på en person ikke blive målt i både meter og centimeter. Hvis en person er 1,82 meter kan det også angives som 182 centimeter. I disse tilfælde skal der foretages en ændring, da dataen ellers ikke vil kunne sammenlignes og foretages statistik på.

 

Arbejdsprocess

Den krævne process for datarensning er opbygget af fire trin:

  1. Inspektion
  2. Rensning
  3. Verificering
  4. Rapportering

Disse fire trin vil blive gennemgået her.

 

Inspektion

I det første trin i processen skal man inspicere dataen for at udforske datafelter, som ikke lever op til kvalitetskravene for data. Her skal man holde øje med forskellige slags fejl i dataen. Bl.a. skal man kigge efter om der er noget data som mangler, om dataen er den korrekte datatype, om noget data afviger for meget sammenlignet med resten, om dataen følger de samme måleenheder, om nogle datafelter er gentaget flere gange og om noget af dataen er irrelevant.

 

Rensning

Når man har inspiceret dataen og fundet de vilkårlige datafelter, kolonner og rækker som ikke lever op til kravene, så skal man foretage et valg i forhold til, hvad man skal gøre ved dem. Skal de slettes, ændres eller erstattes?

Data som er irrelevant eller data som er gentaget kan sagtens slettes; data som har en forkert måleenhed skal ændres til den korrekte måleenhed; data med stavefejl eller for mange blanke tegn (mellemrum osv.) bør rettes; tekstværdier bør følge de samme regler for store og små bogstaver, f.eks. bør nogle tekstværdier ikke været skrevet udelukkende med store bogstaver mens andre værdier kun har et stort begyndelsesbogstav.

Hvis nogle værdier mangler, så er der flere forskellige muligheder at håndtere det på. Enten kan man slette de tomme datafelter, ellers kan man kalkulere de manglende værdier baseret på de andre indtastede dataværdier, eller også kan man afmærke datafeltet. Den sidste mulighed er især nyttig, hvis man gerne vil have et overblik over hvor mange datafelter der ikke er blevet indsat en værdi i.

 

Verificering

Når man har renset dataen skal man verificere, at alt er korrekt og at dataen nu lever op til kvalitetskravene. Det betyder at man bl.a. skal tjekke at dataværdierne ikke modsiger hinanden efter at man har ændret i dem.

 

Rapportering

I det sidste trin i forbindelse med datarensning bør man få lavet en rapport over dataens status for at få et overblik over hvilke ændringer der er blevet foretaget i datarensning-processen og hvad det har haft af betydning for dataen. Diverse softwarepakker og moduler kan generere rapporter og statistikker over dataen, som kan benyttes til det sidste trin i processen.

 

Datarensning med regulære udtryk

Man kan benytte regulære udtryk til at sortere data baseret på et kvalifikationskrav som man selv bestemmer. Derfor er regulære udtryk et vigtigt redskab til rensning af data.

Hvis du vil læse mere om regulære udtryk kan du klikke her.

+2

Skriv et svar