Gjør en rask sjekk av dataene dine med diagrammer i Excel
I verden av dataanalyse er begrepet ‘sanity check’ like viktig som det er stadig relevant. Begrepet refererer til et sett med foreløpige prosedyrer som utføres på data for å sikre dets gyldighet og brukbarhet før det gjennomgår mer detaljert analyse. En innovativ tilnærming for å utføre sanity checks innebærer bruk av “engangsdiagrammer”—en rask, effektiv og populær metode innen dataanalyse.
Bruk diagrammer i et tidlig stadium av dataanalysen din
Engangsdiagrammer (oversatt fra engelskens disposable chart) er enkle, ofte grunnleggende visuelle representasjoner av data, skapt med det eneste formålet å utføre en sanity check. I motsetning til detaljerte diagrammer og grafer beregnet for presentasjoner eller publikasjoner, er engangsdiagrammer ment å raskt skapes, brukes og deretter kasseres. De er verktøy for analytikeren, ikke publikum. Skjønnheten i disse diagrammene ligger i deres enkelhet og hastigheten som de kan genereres og tolkes med. Disse kan man med fordel opprette veldig raskt i Excel. Enten med noen få klikk eller ved å markere data og bruke hurtigkommandoen ‘Alt’ + ‘F1’.
Hvorfor bruke diagrammer tidlig i prosessen?
- Oppdag feil og anomalier: engangsdiagrammer muliggjør en rask visuell vurdering av data. Ved å plotte data i dens råeste form, kan analytikere umiddelbart oppdage avvik, hull eller mønstre som tyder på feil. Dette kan variere fra å oppdage manglende verdier til å identifisere outliers.
- Effektivitet og fleksibilitet: å skape detaljerte og polerte diagrammer kan være tidkrevende. For sanity checks, hvor målet er å raskt validere data, gjør enkelheten i engangsdiagrammer dem til et mye mer effektivt valg. Engangsdiagrammer kan skapes ved hjelp av en rekke forskjellige verktøy; R, Python eller Excel for å nevne noen. Enkelheten i å opprette disse diagrammene muliggjør fleksibilitet i verktøyene og teknikkene som brukes.
- Iterativ analyse: diagrammene kan brukes iterativt. Når data renses og forfines, kan nye diagrammer raskt genereres for å vurdere effekten av disse endringene, noe som sikrer kontinuerlig kvalitetskontroll gjennom hele datapreparasjonsprosessen. Beste praksis for bruk av engangsdiagrammer Hold det enkelt: målet er å raskt sjekke data, ikke å skape et mesterverk. Bruk grunnleggende diagramtyper og unngå unødvendige utsmykninger.
- Fokuser på målet: hvert diagram bør skapes med en spesifikk sanity check i tankene, enten det er å kontrollere avvik, forstå distribusjon eller vurdere trender. Dokumenter resultater: selv om diagrammene i seg selv er laget for deretter å forkastes, bør innsiktene som er oppnådd fra dem dokumenteres for fremtidig referanse under datarensing- og analyseprosessen.
- Iterativ tilnærming: bruk engangsdiagrammer iterativt gjennom hele datapreparasjonsprosessen for å kontinuerlig validere dataene.
Et enkelt eksempel på et scenario
I dette eksempelet brukes et datasett fra kurset Ekonomisk analys i Excel (pa norsk «Økonomisk analyse i Excel», og er tilgjengelig for nedlasting her. Hvilke innsikter får man da man velger å visualisere beløpskolonnen, tkr, med et enkelt søylediagram.

Hva kan man raskt utlede fra dette enkle søylediagrammet? Det kan bl.a. ses at det totalt ser ut til å være ca 300 observasjoner. Det kan også ses at de fleste beløpene er under 5 000 tkr, og at en observasjon skiller seg ut rundt 20 000 tkr (20 millioner kr). For å inspisere individuelle verdier kan man enkelt holde musepekeren over hver søyle.
Hva mer kan utledes? Si at datasettet inneholder en enkel bearbeidingsfeil ved at en null er lagt til feilaktig.

Med et enkelt søylediagram blir det da veldig tydelig at denne verdien trenger å undersøkes videre. Hva som kan virke vanskelig ved videre undersøkelse av verdien er at x-aksen mangler etiketter. Dette er ikke tilfellet da man får et omtrentlig indeks fra x-aksen og et nøyaktig ved å holde musepekeren over søylen.
Konklusjon
Sammenfatningsvis er engangsdiagrammer et kraftig verktøy i alle dataanalytikeres arsenal. De er ikke vakre, men de tilbyr en rask, enkel og effektiv måte å utføre sanity checks på uten nesten noen anstrengelse. Sanity checks sikrer at datamaterialet som brukes i analysen er av høy kvalitet og pålitelig. Ettersom data blir stadig mer sentral i beslutningstaking over forskjellige bransjer, kan viktigheten av effektive sanity checks ikke overvurderes, og engangsdiagrammer spiller en avgjørende rolle i denne prosessen.