Chapter 7 Sampling distributions and the Central Limit Theorem
Kommentar om Kap 7.3
Vi har i kapitel 7 del 1 i avsnitten Formen för samplingfördelningen för \(Y\) och Centrala gränsvärdessatsen gått igenom ett exempel av samma typ som det exempel som inleder kap 7.3.
I kap 7 del 1 formulerade vi centrala gränsvärdessatsen lite mindre formellt, såhär:
Om \(n \geq 30\) så gäller (approximativt) \(\bar{Y} \sim N \Bigl(\mu,\frac {\sigma^2}{n}\Bigr)\)
förutsatt att \(Y_i\) är iid med \(E(Y_i)=\mu\) och \(V(Y_i)=\sigma^2\) .
Detta skulle också kunna uttryckas såhär: Om \(n \geq 30\) så gäller (approximativt) \(\displaystyle \frac{\bar{Y}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)\)
Notera också att om populationen är normalfördelad så gäller att
\(\displaystyle \frac{\bar{Y}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)\) exakt.
Om du vill träna mer på centrala gränsvärdessatsen, finns följande exempel i kursboken:
Exempel 7.8
och
Exempel 7.9
Beviset för centrala gränsvärdessatsen (Kap 7.4) ingår inte i kursfordringarna.
Sammanfattning av några viktiga samplingfördelningar (Kap 7.3 och 7.2)
Om statistikan \(\bar{Y}\)
\(\bar{Y} \sim N \Bigl(\mu,\frac {\sigma^2}{n}\Bigr)\)
-
gäller exakt om \(Y_i \sim N(\mu,\sigma^2)\)
- gäller approximativt om \(Y_i\) inte är normalfördelad, men \(n \geq 30\) , och \(E(Y_i)=\mu\) och \(V(Y_i)= \sigma^2\)
\(\displaystyle \frac{\bar{Y}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)\)
-
gäller exakt om \(Y_i \sim N(\mu,\sigma^2)\)
- gäller approximativt om \(Y_i\) inte är normalfördelad, men \(n \geq 30\) , och \(E(Y_i)=\mu\) och \(V(Y_i)=\sigma^2\)
\(\displaystyle \frac{\bar{Y}-\mu}{\frac{S}{\sqrt{n}}}\) följer en t-fördelning med \(n-1\) frihetsgrader,
underförutsättning att \(Y_1\) , \(Y_2\) , … , \(Y_n\) är iid och att \(Y_i\) är normalfördelade.
Om statistikan \(S^2\)
\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2 \left( n-1 \right)\)
En förutsättning för detta är dock att slumpvariablerna \(Y_1\) , \(Y_2\) , … , \(Y_n\) är normalfördelade.
Ytterligare en samplingfördelning med varianser inblandade
\(\frac{S_{1}^{2}/\sigma _{1}^{2}}{S_{2}^{2}/\sigma _{2}^{2}}\sim F\left(n_{1}-1,n_{2}-1\right)\)
dvs
statistikan \(\frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}}\) följer en F-fördelning med \(n_1-1\) och \(n_2-1\) frihetsgrader
under förutsättning att vi har två oberoende stickprov från varsin normalfördelad population.
Mer om centrala gränsvärdessatsen CGS (Kap 7.5)
Mer om ett tidigare exempel
Om vi studerar exemplet som användes i Kap 7 del 1 där \(Y_i\)
var resultatet av ett tärningskast, kom vi fram till att
samplingfördelningen för stickprovsmedelvärdet uppfyllde följande:
\(E\left( \bar{Y}\right)\) = \(\mu\) = \(3.5\)
och
\(V \bigl(\bar{Y} \bigr)\) = \(\frac{V(Y)}{n}\) \(\approx \frac{2.9167}{n}\)
När det gäller formen för fördelningen, kunde vi se i följande bilder
att formen blev mer och mer lik en normalfördelning, ju större stickprovsstorleken \(n\) var.
Vi kan skriva \(\bar{Y} \sim N \Bigl(3.5,\frac {2.9167}{n}\Bigr)\)
ungefär(approximativt alltså) om \(n \geq 30\)
Tillämpning av CGS på summa (istället för medelvärde)
Med samma resonemang som i Kap 7 del 1 om väntevärdet och variansen för stickprovsmedelvärdet, kan vi ta fram väntevärde och varians för summan av de i stickprovet ingående slumpvariablerna \(Y_1\) , \(Y_2\) , … , \(Y_n\) :
Väntevärdet
\(E\left(\sum Y_i \right)=n \mu\)
Bevis
Utnyttja sats 5.12a :
\(E\left( a_{1}Y_{1}+a_{2}Y_{2} + \cdot \cdot \cdot +a_{n}Y_{n} \right)\) = \(a_{1}E\left( Y_{1}\right)+a_{2}E\left( Y_{2}\right)\) \(\cdot \cdot \cdot + a_{n}E\left( Y_{n}\right)\)
Med \(a_{i}=1\) får vi då:
\(E\left(\sum Y_i \right)\) = \(E\left( Y_{1}+Y_{2}+…+Y_{n}\right)\) = \(E\left( Y_{1}\right) +E\left( Y_{2}\right) +…+E\left(Y_{n}\right)\) = \(n \mu\) .
Variansen
\(V\left(\sum Y_i \right)=n V(Y)\)
Bevis
Utnyttja att om \(Y_1\) , \(Y_2\) , … , \(Y_n\) är ömsesidigt oberoende så gäller följande (sats 5.12b) :
\(V\left( a_{1}Y_{1}+a_{2}Y_{2} + \cdot \cdot \cdot +a_{n}Y_{n} \right)\) = \(a_{1}^2 V\left( Y_{1}\right)\) + \(a_{2}^2 V\left( Y_{2}\right)\) + \(\cdot \cdot \cdot + a_{n}^2 V\left( Y_{n}\right)\)
Med \(a_{i}=1\) får vi då:
\(V\left(\sum Y_i \right)\) = \(V\left( Y_{1}+Y_{2}+…+Y_{n}\right)\) = \(V\left( Y_{1}\right) +V\left( Y_{2}\right) +…+V\left(Y_{n}\right)\) = \(n \sigma^2\) .
Formen
Formen för fördelningen för summan blir densamma" som fördelningen för medelvärdet
(“Det enda som skiljer är skalan på första-axeln, alla tal där blir \(n\) gånger större; allt annat ser likadant ut)
\(\sum Y_i \sim N \Bigl(n \mu, n \sigma^2 \Bigr)\)
gäller approximativt om \(n \geq 30\)
\(\sum Y_i \sim N \Bigl(n \mu, n \sigma^2 \Bigr)\)
gäller exakt om \(Y_i \sim N (\mu,\sigma^2)\) dvs om populationen är normalfördelad
Exempel
Om vi studerar exemplet som användes i Kap 7 del 1 där \(Y_i\) var resultatet av ett tärningskast, får vi då att
\(\sum Y_i \sim N \bigl(n \mu, n \sigma^2\bigr)\)
dvs \(\sum Y_i \sim N \bigl(n \cdot 3.5, n \cdot 2.9167\bigr)\)
gäller approximativt om \(n \geq 30\) .
Övningar
Exempel 1 Bestäm sannolikheten för att summan av dina kast blir minst 120, om du kastar en vanlig sexsidig tärning trettio gånger.
Svar Exempel 1 : ca 0.0548
(I denna uppgift använde du approximativ normalfördelning)
Exempel 2 Antag att längden av svenska kvinnor i åldern 18-24 år följer en normalfördelning med väntevärde 167 cm och standardavvikelse 7 cm.
Om du tar 4 slumpvis utvalda kvinnor, bestäm sannolikheten att summan av dessa kvinnors längder är mindre än 660 cm.
Svar Exempel 2 : ca 0.2843
(I denna uppgift använde du exakt normalfördelning)
Tillämpning av CGS på exemplet Binomialfördelning
Om \(U\) är en binomialfördelad slumpvariabel; \(U \sim Bin(n,p)\) , så kan vi betrakta \(U\) som summan av \(n\) stycken oberoende slumpvariabler \(Y_i\) där alla \(Y_i \sim Be(p)\) .
Det vill säga om \(Y_i \sim Be(p)\) och \(U= Y_1+Y_2 + … +Y_n\) så gäller \(U \sim Bin(n,p)\) .
Eftersom (enligt CGS ovan) summan av \(n\) stycken oberoende slumpvariabler \(Y_1+Y_2 + … +Y_n\) går mot en normalfördelning när \(n\) är tillräckligt stort, så betyder det att enligt CGS kommer en binomialfördelning att likna en normalfördelning när \(n\) är tillräckligt stort.
Vad är “tillräckligt stort”?
Det finns olika tumregler för “tillräckligt stort” värde på \(n\) .
I den här kursboken används följande tumregel: \(n>9\frac{\max \left( p,q\right) }{\min \left( p,q \right) }\)
Sammanfattning
Om \(n>9\frac{\max \left( p,q\right) }{\min \left( p,q \right) }\) så kan
\(U \sim Bin(n,p)\) approximeras med \(U\sim N\bigl(np ,np\left( 1-p\right) \bigr)\)
Exempel
Exempel 3 Låt \(Y\sim Bin\left( 44,0.45\right)\) .
Beräkna \(P\left( 15\leq Y\leq 26\right)\) .
Lösning exempel 3
\(P\left( Y\leq 26\right) -P\left( Y\leq 14\right)\) = \(\left[ \text{approximativt enl CGS}\right]\) = \(P\left( Z\leq \frac{26-19.8}{\sqrt{10.89}}\right)\) – \(P\left( Z\leq \frac{14-19.8}{\sqrt{10.89}}\right)\) = \(P\left( Z\leq 1.88\right) -P\left( Z\leq -1.76\right))\) = \(0.931\)
Kontinuitetskorrektion (kallas ibland “halvkorrektion”)
Exempel 3 alldeles ovanför och exempel 1 tidigare (där man skulle bestäm sannolikheten för att summan av dina kast blir minst 120, om man kastar en vanlig sexsidig tärning trettio gånger) har en sak gemensamt.
I båda fallen använder vi en kontinuerlig fördelning för att approximera en diskret fördelning.
För att göra så en anpassning så bra som möjligt av denna situation, använder man så kallad kontinuitetskorrektion (eller “halvkorrektion”)
Läs i dokumentet
Halvkorrektion.pdf
om hur du ska använda halvkorrektion.
Exempel
Använd kontinuitetskorrektion för att förbättra dina svar på exempel 3 och exempel 1 ovan.
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });