Chapter 7 Sampling distributions and the Central Limit Theorem
Kapitel 7
Inledning
Först repeterar vi från kapitel 5 att om \(Y_1\) och \(Y_2\) är oberoende, så gäller \(p(y_1,y_2)\) = \(p_1(y_1) \cdot p_2(y_2)\) .
\(p(y_1,y_2)\) är den simultana sannolikhetsfördelningen.
\(p_1(y_1)\) och \(p_2(y_2)\) är marginalfördelningarna för \(Y_1\) respektive \(Y_2\) .
Vi kan utvidga detta till \(n\) stycken slumpvariabler \(Y_1\) , \(Y_2\) , … , \(Y_n\) .
Om dessa slumpvariabler är ömsesidigt oberoende, så gäller \(p(y_1,y_2, … , y_n)\) = \(p_1(y_1) \cdot p_2(y_2) \cdot \cdot \cdot p_n(y_n)\) .
Om väntevärde och varians
Om \(U=Y_1+Y_2\) så gäller (repetition) …
-
\(E(U) = E (Y_1+Y_2)\) = \(E(Y_1)+E(Y_2)\) alltid
-
\(V(U) = V (Y_1+Y_2)\) = \(V(Y_1)+V(Y_2)\) om \(Y_1\) och \(Y_2\) är oberoende.
.
Om \(U=Y_1+Y_2+… +Y_n\) så gäller …
-
\(E(U) = E (Y_1+Y_2+… +Y_n)\) = \(E(Y_1)+E(Y_2)+\) \(…+E(Y_n)\) alltid
-
\(V(U) = V (Y_1+Y_2+… +Y_n)\) = \(V(Y_1)+V(Y_2)+…+V(Y_n)\) om \(Y_1\) , \(Y_2\) , … , \(Y_n\) är ömsesidigt oberoende.
Tre definitioner inför fortsättningen
1) iid
Om \(Y_1\) , \(Y_2\) , … , \(Y_n\)
* är ömsesidigt oberoende och
* kommer från samma fördelning
säger vi att de är iid
(independent , identically distributed )
2) Slumpmässigt stickprov
… av storlek \(n=2\)
är ett observerat par \(y_1\) , \(y_2\) av två stycken iid slumpvariabler \(Y_1\) , \(Y_2\) .
… av allmän storlek \(n\)
är en observerad uppsättning \(y_1\) , \(y_2\) , … , \(y_n\) av \(n\) stycken iid slumpvariabler \(Y_1\) , \(Y_2\) , … , \(Y_n\) .
3) En statistika (på engelska ‘a statistic’)
är en funktion av en uppsättning iid slumpvariabler \(Y_1\) , \(Y_2\) , … , \(Y_n\)
Exempel på statistikor \(U_1\) och \(U_2\)
\(U_1=\displaystyle \frac{ Y_1+Y_2+… +Y_n}{n}\)
Denna statistika betecknas oftast \(\bar{Y}\) .
.
\(U_2= \frac{ \bigl(Y_1-\bar{Y} \bigr )^2+\bigl(Y_2-\bar{Y} \bigr )^2+… +\bigl(Y_n-\bar{Y} \bigr )^2}{n-1}\)
Denna statistika betecknas oftast \(S^2\) .
Om statistikan Stickprovsmedelvärdet
Eftersom \(\bar{Y}=\displaystyle \frac{ Y_1+Y_2+… +Y_n}{n}\) är en statistika , dvs en funktion av slumpvariabler, så är \(\bar{Y}\) själv en slumpvariabel.
Sannolikhetsfördelningen för denna slumpvariabel \(\bar{Y}\) kallas för samplingfördelningen för stickprovsmedelvärdet \(\bar{Y}\) .
Ett exempel
I kapitel 6 del 1 använde vi följande exempel: Om \(Y_i\) är resultaten av två tärningskast, vilken fördelning får då medelvärdet \(\bar{Y}=\frac{Y_1+Y_2}{2}\) ?
Detta medelvärde skulle vi kunna betrakta som ett stickprovsmedelvärde för ett stickprov av storlek \(n=2\) från följande population :
Tänk dig en oändligt stor låda med oändligt många lappar märkta 1,2,3,4,5,6; lika många lappar av varje sort. Denna låda med lappar skulle man kunna kalla “populationen” . Slumpförsöket är att ta upp en lapp slumpvis där \(Y\) är värdet på lappen. Sannolikhetsfördelningen för denna \(Y\) skulle bli precis densamma som sannolikhetsfördelningen för ett tärningskast.
Eftersom vi strax behöver den informationen, lägger vi till beräkning av väntevärde och varians för \(Y_i\) ,
där \(Y_i\) har följande fördelning:
\(y_i\) | \(p(y_i)\) |
---|---|
1 | 1/6 |
2 | 1/6 |
3 | 1/6 |
4 | 1/6 |
5 | 1/6 |
6 | 1/6 |
Väntevärde
\(\mu = E\left( Y_{i}\right)\) = \(1\cdot\frac{1}{6} + 2\cdot\frac{1}{6}\) \(+ … +6\cdot\frac{1}{6}\) = \(3.5\) .
Varians
\(\sigma ^{2}= V\left( Y_{i}\right)\) = \(\left( 1-3.5\right)^{2}\cdot \frac{1}{6}\) + \(\left( 2-3.5\right)^{2}\cdot \frac{1}{6}\) \(+ …\left( 6-3.5\right)^{2}\cdot \frac{1}{6}\) = \(\frac{105}{36}\) \(\approx 2.9167\)
Enligt resonemanget i kap 6 del 1, fick vi följande samplingfördelning för stickprovsmedelvärdet:
\(\bar{y}\) | \(p \bigl(\bar{y} \bigr)\) |
---|---|
1 | 1/36 |
1.5 | 2/36 |
2 | 3/36 |
2.5 | 4/36 |
3 | 5/36 |
3.5 | 6/36 |
4 | 5/36 |
4.5 | 4/36 |
5 | 3/36 |
5.5 | 2/36 |
6 | 1/36 |
Väntevärdet för samplingfördelningen för \(\bar{Y}\)
Den första egenskap vi ska studera hos samplingfördelningen för stickprovsmedelvärdet är dess väntevärde.
Exemplet
\(\displaystyle E \bigl(\bar{Y} \bigr)\) = \(\displaystyle \sum_{\bar{y}\in S_{\bar{Y}}} (\bar{y} \cdot p(\bar{y}))\) = \(1\cdot\frac{1}{36} + 1.5\cdot\frac{2}{36}\) \(+ … +6\cdot\frac{1}{36}\) = \(3.5\) .
Vi ser här att \(E\left( \bar{Y}\right)\) = \(E\left( Y_{i}\right)\) = \(\mu\) = \(3.5\) .
Allmänt
Väntevärdet \(E\left( \bar{Y}\right)\) för samplingfördelningen för stickprovsmedelvärdet blir detsamma som populationsmedelvärdet.
Bevis
Utnyttja sats 5.12a :
\(E\left( a_{1}Y_{1}+a_{2}Y_{2} + \cdot \cdot \cdot +a_{n}Y_{n} \right)\) = \(a_{1}E\left( Y_{1}\right)+a_{2}E\left( Y_{2}\right)\) \(\cdot \cdot \cdot + a_{n}E\left( Y_{n}\right)\)
Med \(a_{i}=\frac{1}{n}\) får vi då:
\(E\left( \bar{Y}\right)\) = \(E\left( \frac{1}{n}\sum Y_i\right)\) = \(\frac{1}{n} E\left( Y_{1}+Y_{2}+…+Y_{n}\right)\) = \(\frac{1}{n}\Bigl( E\left( Y_{1}\right) +E\left( Y_{2}\right) +…+E\left(Y_{n}\right) \Bigr)\) = \(\frac{1}{n}n\mu =\mu\) .
Variansen för samplingfördelningen för \(\bar{Y}\)
Nästa egenskap vi ska studera hos samplingfördelningen för stickprovsmedelvärdet är dess varians.
Exemplet
\(V \bigl(\bar{Y} \bigr)\) = \(\left( 1-3.5\right)^{2}\cdot \frac{1}{36}\) + \(\left( 1.5-3.5\right)^{2}\cdot \frac{2}{36}\) \(+ …\left( 6-3.5\right)^{2}\cdot \frac{1}{36}\) = \(\frac{105}{72}\) \(\approx 1.4583\)
Allmänt
Variansen \(V\left( \bar{Y}\right)\) för samplingfördelningen för stickprovsmedelvärdet blir likamed \(\frac{V(Y)}{n}\) .
Bevis
Utnyttja att om \(Y_1\) , \(Y_2\) , … , \(Y_n\) är ömsesidigt oberoende så gäller följande (sats 5.12b) :
\(V\left( a_{1}Y_{1}+a_{2}Y_{2} + \cdot \cdot \cdot +a_{n}Y_{n} \right)\) = \(a_{1}^2 V\left( Y_{1}\right)\) + \(a_{2}^2 V\left( Y_{2}\right)\) + \(\cdot \cdot \cdot + a_{n}^2 V\left( Y_{n}\right)\)
Med \(a_{i}=\frac{1}{n}\) får vi då:
\(V\left( \bar{Y}\right)\) = \(V\left( \frac{1}{n^2}\sum Y_i\right)\) = \(\frac{1}{n^2} V\left( Y_{1}+Y_{2}+…+Y_{n}\right)\) = \(\frac{1}{n^2}\Bigl( V\left( Y_{1}\right) +V\left( Y_{2}\right) +…+V\left(Y_{n}\right) \Bigr)\) = \(\frac{1}{n^2}n\sigma^2 =\frac {\sigma^2}{n}\) .
Formen för samplingfördelningen för \(\bar{Y}\)
Den mest intressanta egenskapen vi ska studera hos samplingfördelningen för stickprovsmedelvärdet är dess form.
Exemplet
Fördelningen för samplingfördelningen för stickprovsmedelvärdet när \(n=2\) har vi konstaterat ser ut såhär:
\(\bar{y}\) | \(p \bigl(\bar{y} \bigr)\) |
---|---|
1 | 1/36 |
1.5 | 2/36 |
2 | 3/36 |
2.5 | 4/36 |
3 | 5/36 |
3.5 | 6/36 |
4 | 5/36 |
4.5 | 4/36 |
5 | 3/36 |
5.5 | 2/36 |
6 | 1/36 |
För att se formen kan man gör ett stolpdiagram för samplingfördelningen. Då kommer man att få en “triangelformad” fördelning med en topp för \(\bar{y} = 3.5\) .
Allmänt
Formen för samplingfördelningen kommer att få olika former för olika stickprovsstorlekar \(n\) .
När det gäller \(n=2\) var det inte så svårt att få fram den exakta samplingfördelningen för stickprovsmedelvärdet: Med hjälp av resonemanget i kap 6 del 1 fick vi fram tabellen här ovanför.
När det gäller större stickprovsstorlekar blir det mycket tidskrävande att ta fram den exakta samplingfördelningen för stickprovsmedelvärdet för hand.
Ett alternativ till att ta fram samplingfördelningen för stickprovsmedelvärdet för hand, är att simulera den fördelningen.
I detta dokument är gjort simuleringar av samplingfördelningen för stickprovsmedelvärdet för olika stickprovsstorlekar:
Efter den första bilden (som är en simulerad bild av populationsfördelningen)
kommer en simulering av samplingfördelningen för stickprovsmedelvärdet då \(n=2\) . Du ser att det blir mycket likt den teoretiska fördelningen. (Beräkna 1/36, 2/36 o.s.v. och jämför med procenttalen i grafen.)
I nästa bild kommer en simulering av samplingfördelningen för stickprovsmedelvärdet då \(n=3\) .
Därefter kommer simuleringar av samplingfördelningarna för stickprovsmedelvärdet då \(n=4\) , \(n=10\) och \(n=30\) .
Centrala gränsvärdessatsen
Det som syns i dokumentet Samplingfordelningar.pdf, är att samplingfördelningen för stickprovsmedelvärdet blir mer och mer lik en normalfördelning ju större stickprovsstorleken \(n\) är.
Det är det som är innebörden i Centrala gränsvärdessatsen (Central Limit Theorem )
Formellt är satsen uttryck i sats 7.4 i kapitel 7.3: Där säger man att samplingfördelningen för stickprovsmedelvärdet går mot en normalfördelning då \(n\) går mot oändligheten.
Rent praktiskt brukar man använda följande tumregel:
Om \(n \geq 30\) kan man räkna med att samplingfördelningen för stickprovsmedelvärdet är (ungefär/approximativt) en normalfördelning.
Väntevärdet för denna normalfördelning blir då (enligt ovan) \(\mu\) , där \(\mu\) är väntevärdet för populationen.
Variansen för denna normalfördelning blir då (enligt ovan) \(\frac {\sigma^2}{n}\) , där \(\sigma^2\) är variansen för populationen.
Vi kan sammanfatta CGS enligt följande: Om \(n \geq 30\) så gäller (approximativt) \(\bar{Y} \sim N \Bigl(\mu,\frac {\sigma^2}{n}\Bigr)\)
Fallet normalfördelad population
Om populationen är normalfördelad, finns ingen nedre begränsning för \(n\) . Dessutom blir samplingfördelningen för stickprovsmedelvärdet exakt en normalfördelning;
\(\bar{Y} \sim N \Bigl(\mu,\frac {\sigma^2}{n}\Bigr)\)
Exempel
Exempel 1 (Repetition) Om \(Y_1 \sim N (10,4^2)\) och \(Y_2 \sim N (20,3^2)\) , bestäm \(P(Y_1+Y_2 > 35)\)
Svar Exempel 1 : ca 0.1587
(I denna uppgift använde du exakt normalfördelning)
Exempel 2 Bestäm sannolikheten för att ditt medelresultat blir minst 4, om du kastar en vanlig sexsidig tärning trettio gånger.
Svar Exempel 2 : ca 0.0548
(I denna uppgift använde du approximativ normalfördelning)
Exempel 3 Antag att längden av svenska kvinnor i åldern 18-24 år följer en normalfördelning med väntevärde 167 cm och standardavvikelse 7 cm.
Om du tar 4 slumpvis utvalda kvinnor, bestäm sannolikheten att medellängden av dessa kvinnor är mindre än 165 cm.
Svar Exempel 3 : ca 0.2843
(I denna uppgift använde du exakt normalfördelning)
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });