Chapter 1 What Is Statistics?
Kapitel 1 är en kort introduktion till vad statistik är. Man skulle kunna säga att statistik består av Design, Deskription och Inferens.
Deskription kan delas upp i grafiska metoder och numeriska mått.
Inferens kräver kunskaper i sannolikhetslära för att man ska kunna ange ett mått på tillförlitligheten i inferensen.(Inferens betyder att dra slutsatser om egenskaper hos en population utgående från informationen i ett stickprov.)
Introduktion (Kap 1.1)
I detta avsnitt presenteras begreppen population (population) och stickprov (sample). Ett exempel ges på vad som menas med ‘conceptual population’: Alla objekt av en viss typ som kommer att tillverkas.
Följande mening får sammanfatta kapitel 1.1:
“Statistik är teori om information. Syftet är att göra inferens om en population baserat på informationen i ett stickprov, och samtidigt ge ett mått på tillförlitligheten”.
Grafiska metoder (Kap 1.2)
I detta avsnitt presenteras några grafiska metoder. I histogrammen sätts här relativ frekvens på andra-axeln. På så sätt blir summan av alla staplars höjd 1 (dvs 100 %).
Exempel
Vi antar att vi har en mycket stor världsvid organisation, med flera miljoner medlemmar.
Man önskar få en överblick över medlemmarnas åldrar.
Därför gör man följande histogram:
T.ex. kan vi avläsa ovan att 25 % av medlemmarna har en ålder i spannet 30-40 år.
Mer detaljerat
För att få mer detaljerad information, kan man ändra klassbredden till 5 år istället för 10 år. Då kommer histogrammet att se ut såhär:
Observera att graderingen för den relativa frekvensen (på den lodräta axeln) behöver ändras för att passa till de nya klassbredderna.
Om man skulle fortsätta på samma sätt, att göra en finare och finare indelning, skulle man till slut få något som skulle se ut som en kurva.
Den kurvan kallas ‘relative frequency distribution’, och förutsätter att man har en kontinuerlig variabel. Men vi kan betrakta ålder som en kontinuerlig variabel, om vi tänker att vi anger åldrar som t.ex. 35,567 år.
Frågan här är hur den lodräta axeln ska graderas.
Svaret är att det inte går att använda samma avläsningsmetod som i histogrammen. Det går nämligen inte att hitta en gradering som fungerar för en sådan kurva.
Istället får man ordna grafens skala så att den totala arean under kurvan är 1 (dvs 100 %).
I grafen nedan är alltså arean av det gröna området lika med 1.
Tolkningen av en sådan ‘relative frequency distribution’ är att den relativa frekvensen mellan två värden a och b är detsamma som arean under kurvan mellan a och b.
Den totala arean under en sådan ‘relative frequency distribution’ är alltid 1 (dvs 100 %).
Exempel
Om man vill veta hur stor andel av medlemmarna som har en ålder i spannet 20-35 år, så får man det genom att beräkna arean under kurvan mellan 20 och 35 (markerat i figuren nedan)
När vi kommer till kapitel 4, ska vi lära oss göra den typen av beräkningar. (För att beräkna areor under kurvor, används det matematiska begreppet integral.)
För den som är nyfiken kan jag berätta att arean är ca 0.515, så det är allstå ca 51.5 % av medlemmarna i föreningen som är mellan 20 år och 35 år.
(Man måste veta formeln för funktionen som ger upphov till grafen för att kunna beräkna detta.)
Numeriska metoder (Kap 1.3)
I detta avsnitt presenteras några vanliga numeriska mått.
Centralmått
Centralmått är t.ex. medelvärde och median.
Spridningsmått
Spridningsmått är t.ex. standardavvikelse och kvartilavvikelse.
Kvartilavvikelsen definieras som halva kvartilavståndet, dvs \(\frac{Q_3-Q_1}{2}\).
Varians är detsamma som standardavvikelse upphöjt till 2.
Vanliga beteckningar
För de numeriska mått som förekommer är beteckningarna olika när det gäller population respektive stickprov.
Mått | Beteckning i population | Beteckning i stickprov |
---|---|---|
Storlek | \(N\) | \(n\) |
Medelvärde | \(\mu\) | \(\bar{y}\) |
Standardavvikelse | \(\sigma\) | \(s\) |
Varians | \(\sigma^2\) | \(s^2\) |
Två exempel på avläsning av tabellen:
Beteckningen för antalet element i en population är \(N\).
Beteckningen för standardavvikelsen i ett stickprov är \(s\).
Kommentar: Den intressanta variabeln som vi ska tillämpa måtten på heter \(y\).
Matematisk beteckning: Summasymbolen
Under kursen förekommer många matematiska beteckningar,begrepp och beräkningsmetoder. Vi tar upp dem allt eftersom de dyker upp i kursen.
Här kommer den första matematiska beteckningen; Summasymbolen
Länk: [http://www.matteboken.se/lektioner/matte-5/talfoljder-och-induktionsbevis/talfoljder]
Skrolla ned till rubriken Summasymbolen och läs där.
Gör sedan följande uppgifter:
Exempel 1
1a) Beräkna summan \(\displaystyle\sum_{m=1}^4 2^m\)
1b) Beräkna summan \(\displaystyle\sum_{k=1}^4 2^k\)
1c) Beskriv följande summa: \(2+4+6+8+10+…\)
1d) Beräkna följande summa: \(\displaystyle\sum_{n=3}^5 (n-2)^2\)
Lösningar
1a) \(\displaystyle\sum_{m=1}^4 2^m=2^1+2^2+2^3+2^4=30\)
1b) \(\displaystyle\sum_{k=1}^4 2^k=2^1+2^2+2^3+2^4=30\)
Beteckningen för summationsvariabeln/summationsindex spelar ingen roll; i uppgift 1a heter denna “m”, och i uppgift uppgift 1b heter den “k”.
1c) Till exempel \(\displaystyle\sum_{i=1}^{\infty} 2i\)
1d) \(\displaystyle\sum_{n=3}^5 (n-2)^2=1^2+2^2+3^2=14\)
RÄKNEREGLER: Man kan summera termerna i vilken ordning man vill.
ETT EXEMPEL:
\(\displaystyle\sum_{n=3}^5 (n^2-4n+4)=\)
\(\displaystyle\sum_{n=3}^5 n^2 -\sum_{n=3}^5 4n+ \sum_{n=3}^5 4=\)
\(\displaystyle\sum_{n=3}^5 n^2 -4 \cdot \sum_{n=3}^5 n+ 4 \cdot \sum_{n=3}^5 1=\)
\((3^2+4^2+5^2)-4 \cdot (3+4+5) + 4 \cdot (1+1+1)=\) \(50 -4 \cdot 12 + 4 \cdot 3 = 14\)
Jämför detta med beräkningen av 1d.
NOTERA att \((n-2)^2=(n^2-4n+4)\)
Exempel 2 Här handlar det om följande tre observationer av variabeln \(y\):
\(y_1=5\), \(y_2=-7\), \(y_3=6\)
2a) Bestäm \(\displaystyle\sum_{i=1}^3 y_i\)
2b) Bestäm \(\displaystyle\sum_{i=1}^3 (y_i-2)\)
2c) Bestäm \(\displaystyle\sum_{i=1}^3 y_i^2\)
2d) Bestäm \(\displaystyle \left( \sum_{i=1}^3 y_i \right)^2\)
Lösningar
2a) \(\displaystyle\sum_{i=1}^3 y_i=y_1+y_2+y_3=5+(-7)+6=4\)
2b) \(\displaystyle\sum_{i=1}^3 (y_i-2)=(y_1-2)+(y_2-2)+(y_3-2)=\) \(3+(-9)+4=-2\)
2c) \(\displaystyle\sum_{i=1}^3 y_i^2=y_1^2+y_2^2+y_3^2=25+49+36=110\)
2d) Från 2a har vi att \(\displaystyle\sum_{i=1}^3 y_i=4\).
Då blir \(\displaystyle \left( \sum_{i=1}^3 y_i \right)^2=4^2=16\)
Användning av summasymbolen i beräkningsformler för numeriska mått
Vi låter \(y_i\) beteckna observation nummer i av variabeln \(y\):
Medelvärde
Populationsmedelvärde: \(\mu = \frac{\displaystyle \ \ \small \sum_{i=1}^N y_i \ \ }{\large N}\)
Stickprovsmedelvärde: \(\bar{y} = \frac{\displaystyle \ \ \small \sum_{i=1}^n y_i \ \ }{\large n}\)
Varians:
Populationsvarians: \(\sigma^2 = \frac{\displaystyle \ \ \small \sum_{i=1}^N (y_i-\mu)^2 \ \ }{\large N}\)
Stickprovsvarians:
Alternativ 1: \(s^2 = \frac{\displaystyle \ \ \small \sum_{i=1}^n (y_i-\bar{y})^2 \ \ }{\large {n-1}}\)
Alternativ 2: \(s^2= \frac{ \displaystyle \ \ \small \sum_{i=1}^n y_i^2 – \textstyle \frac{1}{n} \displaystyle \small \left( \sum_{i=1}^n y_i \right)^2 \ \ }{\large {n-1}}\)
(En kommentar: Den som undrar varför man delar med \(n-1\) istället för med \(n\), får vänta till kapitel 8; exempel 8.1)
Standardavvikelse
Populationens standardavvikelse: \(\sigma= \sqrt{ \frac{\displaystyle \ \ \small \sum_{i=1}^N (y_i-\mu)^2 \ \ }{\large N}}\)
Stickprovets standardavvikelse:
Alternativ 1: \(s= \sqrt{ \frac{\displaystyle \ \ \small \sum_{i=1}^n (y_i-\bar{y})^2 \ \ }{\large {n-1}}}\)
Alternativ 2: \(s= \sqrt{ \frac{ \displaystyle \ \ \small \sum_{i=1}^n y_i^2 – \textstyle \frac{1}{n} \displaystyle \small \left( \sum_{i=1}^n y_i \right)^2 \ \ }{\large {n-1}}}\)
Kopplingen mellan alternativ 1 och alternativ 2
För att visa att de två alternativen ger samma svar, räcker det att visa att de två täljarna \(\displaystyle \sum_{i=1}^n (y_i-\bar{y})^2\) och \(\displaystyle \sum_{i=1}^n y_i^2 – \textstyle \frac{1}{n} \displaystyle \small \left( \sum_{i=1}^n y_i \right)^2\) är lika.
I detta bevis behöver vi använda att \(\small \displaystyle\sum_{i=1}^n y_i=n \cdot \bar{y}\) (1)
(Att (1) gäller har lämnats som en övning (3a nedan))
Nu till beviset av att alternativ 1 och 2 ger samma värde:
\(\displaystyle \sum_{i=1}^n (y_i-\bar{y})^2=\) \(\displaystyle \sum_{i=1}^n \left( y_i^2-2 \cdot \bar{y} \cdot y_i+\bar{y}^2 \right)=\) \(\displaystyle \sum_{i=1}^n y_i^2-2 \cdot \bar{y} \cdot \sum_{i=1}^n y_i + \bar{y}^2 \cdot \sum_{i=1}^n 1=\) \(\displaystyle \sum_{i=1}^n y_i^2-2 \cdot \bar{y} \cdot n \cdot \bar{y} + \bar{y}^2 \cdot n=\) \(\displaystyle \sum_{i=1}^n y_i^2-n \cdot \bar{y} \cdot \bar{y}=\) \(\displaystyle \sum_{i=1}^n y_i^2-n \cdot n \cdot \textstyle \frac{1}{n} \cdot \bar{y} \cdot \bar{y}=\) \(\displaystyle \sum_{i=1}^n y_i^2- \textstyle \frac{1}{n} \left(n \cdot \bar{y} \right)^2=\) \(\displaystyle \sum_{i=1}^n y_i^2- \textstyle \frac{1}{n} \small \left( \displaystyle \sum_{i=1}^n y_i \right)^2\)
Några övningar
Exempel 3
3a) Visa att \(\displaystyle\sum_{k=1}^n y_i=n \cdot \bar{y}\)
3b) När man bestämmer ett mått på spridningen, kvadrerar man alla avvikelser innan man summerar. Det vore väl enklare att bara summera avvikelserna direkt, utan att kvadrera. Eller?
Besvara frågetecknet genom att beräkna \(\displaystyle\sum_{i=1}^n (y_i-\bar{y})\).
3c) För populationsvariansen är följande formel given:
\(\sigma^2 = \frac{\displaystyle \ \ \small \sum_{i=1}^N (y_i-\mu)^2 \ \ }{\large N}\)
Härled en alternativ beräkningsformel på samma sätt som det finns två alternativ för beräkning av stickprovets varians.
Lösningar
3a) Vänsterledet: \(\displaystyle\sum_{k=1}^n y_i=\) \(y_1+y_2+…+y_n\)
Högerledet: \(n \cdot \bar{y}=\) \(n \cdot \frac{\displaystyle \ \ \small \sum_{i=1}^n y_i \ \ }{\large n}=\) \(n \cdot \displaystyle \frac{y_1+y_2+…+y_n \ \ }{n}\)
3b) \(\displaystyle\sum_{i=1}^n (y_i-\bar{y})=\) \(\displaystyle\sum_{i=1}^n y_i-\sum_{i=1}^n \bar{y}=\) \(\displaystyle\sum_{i=1}^n y_i-\bar{y} \cdot \sum_{i=1}^n 1 =\) \(\displaystyle\sum_{i=1}^n y_i-\bar{y} \cdot n =\) \(\displaystyle\sum_{i=1}^n y_i-\sum_{i=1}^n y_i=0\)
Denna summa blir alltid noll, för alla datamaterial.
3c) Följ “Kopplingen mellan alternativ 1 och alternativ 2” ovan, men byt ut alla \(n\) mot \(N\) och alla \(\bar{y}\) mot \(\mu\).
Den alternativa beräkningsformeln blir
\(\sigma^2= \frac{ \displaystyle \ \ \small \sum_{i=1}^N y_i^2 – \textstyle \frac{1}{N} \displaystyle \small \left( \sum_{i=1}^N y_i \right)^2 \ \ }{\large N}\)
Om inferens (Kap 1.4)
Här presenteras ett resonemang om vad vi förhoppningsvis har med oss för intuitiva idéer om inferens. Med hjälp av ett exempel visas att det hänger på sannolikhets-tänkande.
För att vi ska kunna få mer än intuitiva tankar om inferens, behöver vi först lära oss att beräkna sannolikheten för att få ett visst stickprov i de fall där vi vet strukturen i populationen.
Därför utgör sannolikhetslära en stor del av denna kurs.
Teori och verklighet (Kap 1.5)
En teori är en förmodan/modell av hur verkligheten är. Många sådana modeller kan beskrivas som matematiska relationer.
När vi väljer en sådan matematisk modell, hoppas vi att ekvationerna stämmer tillräckligt bra för att beskriva verkligheten, så att den ska kunna ge oss bra information.
Även om de matematiska modeller vi använder för att beskriva slumpmässiga förlopp inte stämmer exakt med verkligheten, kommer de att vara till god hjälp för att förstå vad som händer i verkligheten.
Mer om Deskription
I kursboken för “Statistisk teori I” förutsätts kunskaper om deskriptiv statistik; därför är kapitel 1 kortfattat.
Om du känner att du behöver repetera mer, kolla “Repetition” under “Ämnesinnehåll” i menyn i ItsLearning.
Formler
Du förutsätts känna till definitionerna av samtliga deskriptiva mått och diagram ovan; därför finns inga formler från kapitel 1 med i formelsamlingen.
(Formelsamlingen finns i mappen “Hjälpdokument” i ItsLearning under “Ämnesinnehåll”)
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });