Vilket diagram i Excel ska jag välja?
En viktig komponent inom dataanalys är datavisualisering, då de har förmågan att sammanfatta stora mängder data. Det finns många diagramtyper i Excel, och olika situationer kan kräva olika diagram. Den här artikeln ska därför redogöra för när man bör välja vilket diagram.
När ska man använda datavisualiseringar?
Man bör visualisera sin data när man vill:
- visa förändring över tid
- visa delmängder i en summa
- visa hur data fördelas
- jämföra värden mellan grupper
- observera samband mellan variabler
- jämföra geografiska data, osv.
Vilka variabler man använder sig av, samt vilka det är som ska läsa diagrammet, kan även spela in i valet av diagram. Vissa visualiseringar kan också användas för flera ändamål beroende på dessa faktorer.
Diagram för att visa förändring över tid
Ett av de vanligaste skälen till att visualisera sin data är för att se förändring i en variabel över tid. Dessa diagram har vanligtvis tid på den horisontella axeln, där axeln går från vänster till höger, med variabelns värden på den vertikala axeln. Det finns då flera alternativ:
- Stapeldiagram – illustrerar värden med olika höjder på staplar
- Linjediagram – illustrerar positioner för datapunkter, vilka är förbundna med en linje. Linjediagrammet är särskilt användbart när en baslinje (den horisontella axeln) inte är meningsfull, eller om antalet staplar skulle göra det väldigt svårt att skapa ett stapeldiagram.
- Boxplot – kan vara användbart när en fördelning av värden behöver plottas för varje tidsperiod; varje uppsättning av låda och morrhår kan visa var de vanligaste värdena befinner sig samt spridningen
Det finns även andra diagram för att visa förändring över tid, men dessa stöds inte i Excel.
Ett exempel på ett linjediagram som visar daglig försäljning. Här kan man lätt se när försäljningen var som mest (den 8:e) och som lägst (den 10:e). Den gråa linjen visar medelvärdet för månaden och hur försäljningen rör sig kring det. För större tidsperioder kan man också urskilja trender i ett linjediagram.
Diagram för att visa mängder av en summa
Ibland behöver man inte bara veta summan, utan även de komponenter som utgör summan. Medan andra diagram, som ett stapeldiagram, kan användas för att jämföra komponenternas värden, kan följande diagram användas för att se del till helhet:
- Cirkel—och munkdiagram – representerar helheten med cirkeln, och delarna med skivorna.
- Staplat stapeldiagram – ett modifierat stapeldiagram som i varje stapel har flera nivåer av staplar, och som visar del-till-helhet inom varje stapel. Stapelns längd är totalen, och varje mindre stapel är delmängder.
- Ytdiagram – är ett modifierat linjediagram och används också för att illustrera flera dataserier som delmängder av en total. Detta gör det enkelt att jämföra olika undergrupper från en större helhet.
En mängd andra mer intrikata diagramtyper har också utvecklats för att visa hierarkiska samband. T ex, marimekko-diagram och treemap, varav den senare går att hitta i Excel.
Ett exempel på ett grupperat eller staplat stapeldiagram. Hela stapelns längd utgör den totala försäljningen för året, och de olika färgerna representerar varor som delar av den totala försäljningen.
Diagram för att undersöka fördelningar
En viktig användning för visualiseringar är att visa hur data är fördelad. Detta kan man göra för att utröna en bakomliggande statistisk fördelning av datamaterialet, eller ett slumpmässigt urval, för att få en större förståelse för datamängden.
- Stapeldiagram – används när en variabel är kvalitativ* och tar ett antal diskreta värden**.
- Histogram – används när en variabel är kvantitativ*** och tar numeriska värden. Eller alternativt, en fördelningskurva som även kan användas i kombination med ett histogram.
- Låddiagram – är också ett sätt att jämföra fördelningar mellan grupper, men mer som en sammanfattning av statistiska mått och extremvärden, snarare än som ett underlag för en underliggande fördelning.
*En kvalitativ variabel beskriver som namnet skvallrar om en kvalité. T ex kön eller blodgrupp. Detta är alltså oftast inte numeriska variabler, men de kan knytas till numeriska värden.
**Diskret data kan bara anta särskilda värden. För den sakens skull måste det inte vara heltal. Ett företags vinst kan vara 371 493, 71 kr men en skostorlek kan inte vara – med europeiska skostorlekar i alla fall – 40,69 t ex.
***Kvantitativa variabler berättar “hur många”, hur mycket” och “hur ofta”. T ex, “hur många läste veckans Excel-artikel?”.
Ett exempel på ett histogram där varje stapel representerar ett intervall. Ofta kan man använda histogram för att få en uppfattning om en bakomliggande statistisk fördelning för datamaterialet, men ofta krävs det även att man testar detta med statistiska metoder.
Diagram för att jämföra värden mellan grupper
Inom datavisualisering vill man ofta jämföra grupper. Detta kombineras dock ofta med ämnen som redan har avhandlats, till exempel förändring över tid eller se hur data för de olika grupperna fördelar sig.
- Stapeldiagram – jämför värden mellan grupper genom att tilldela en stapel till varje grupp.
- Punktdiagram – liknar ett linjediagram men saknar linjerna som knyter ihop datapunkterna. Punktdiagram står även i nära relation till stapeldiagrammet. Liksom linjediagrammet fungerar punktdiagrammet bra när en baslinje inte behöver tas i beaktning.
- Linjediagram – kan användas för att jämföra värden mellan grupper över tid genom att rita en linje per grupp.
- Grupperat stapeldiagram – möjliggör jämförelse av data över två olika grupperingsvariabler genom att plotta flera staplar på varje plats, inte bara en.
- Låddiagram – används som tidigare nämnt för att studera deskriptiv statistik samt hur data fördelar sig i form av spridning och extremvärden.
- Trattdiagram – är ett hierarkiskt diagram för att visa hur kvantiteter rör sig genom en process, som att spåra hur många besökare som får se en annons och sedan omvandlar det till ett köp.
Det finns massvis med andra diagram, men många utav dem stöds inte av Excel. Det går dock att skapa många av diagrammen ”manuellt”.
Exempel på låddiagram. I lådan längst till vänster kan vi se medelvärdet utmärkt av ett kryss, och morrhåren visar spridningen. I lådan till höger ser vi även datapunkterna i form av prickar. Den prick som ligger utanför morrhåren är en extrempunkt. De horisontella streck som finns i den första och sista lådan, representerar medianen för respektive låda.
Diagram för att undersöka samband mellan variabler
Dessa diagramtyper används för att jämföra två eller flera variabler genom att plotta de mot varandra, för att observera trender, samband eller mönster mellan dem.
- Spridningsdiagram – är standardsättet för att visa sambandet mellan två variabler. Spridningsdiagrammet är också ett punktdiagram, men där varje punkt är en datapunkt, och kallas ibland för samma sak. En utökning av spridnings—eller punktdiagrammet är bubbeldiagrammet som kan jämföra fler än två variabler. När en tredje variabel representerar tid, kan punkter i ett spridningsdiagram kopplas samman med linjesegment, vilket genererar en annan form av spridningsdiagram. I Excel översätts detta diagram närmast som linje med brytpunkter.
- Färgdiagram (eller heatmap) – används när en eller båda variablerna som används inte är numeriska.
Ett exempel på ett spridningsdiagram som visar förhållandet mellan variablerna vikt och längd.
Avslutande ord
Att välja rätt diagram beror på vilken typ av variabler man har och vad man vill få ut av dem. Ovanstående är bara en allmän riktlinje. Experimentera inte bara med olika diagramtyper, utan också med hur variablerna illustreras i diagrammen.
Vill man lära sig mer om visualiseringar i Excel, finns det en kurs i ämnet hos Learnesy. Vill man ha ett smakprov från kursen, kan man se lektionen nedan:
/Niklas på Learnesy
”Man behöver inte alltid använda diagram för att visualisera data eller trender, man kan även formatera celler med data som en heatmap. Markera cellerna som innehåller data och tryck på villkorsstyrd formatering, välj färgskalor och välj en färgskala som passar. De lägsta värdena får en färg, och de högsta värdena får en annan, alla värden däremellan får en färg på skalan mellan de två yttersta färgerna. Du kan också välja egna färger om du trycker på ”fler regler”. Det finns även fler regler att applicera på formateringen om du vill.
Om man vill behålla formateringen på heatmapen men inte att värdena i cellerna ska synas kan man använda ett anpassat format på cellerna. Markera cellerna, högerklicka och välj ”formatera celler”. Välj kategorin ”anpassat”, skriv tre semikolon i Typ och klicka på OK. Nu är formateringen kvar men värdena syns inte.
För att se värdena igen kan du ändra tillbaka formateringen på cellerna till det du hade innan. För att ta bort heatmapen men behålla värdena, markera cellerna, och tryck på Radera i startfliken, och välj radera format.”