Statistik B teori

ht 2024

  • Hem
  • Matematik-avsnitt
  • Lektioner
    • Kapitel 1
    • Kapitel 2
      • Exemplen Kap 2
      • Exemplens lösningar Kap 2
    • Kapitel 3
      • Kap 3 del 1
      • Kap 3 del 2
      • Kap 3 del 3
      • Kap 3 del 4
      • Kap 3 del 5
    • Kapitel 4
      • Kap 4 del 1
      • Kap 4 del 2
      • Kap 4 Del 3
      • Kap 4 del 4
      • Kap 4 Del 5
    • Kapitel 5
      • Kap 5 del 1
      • Kap 5 del 2
      • Kap 5 del 3
      • Kap 5 del 4
    • Kapitel 6
      • Kap 6 Del 1
      • Kap 6 Del 2
      • Kap 6 Del 3
      • Kap 6 Del 4
    • Kapitel 7
      • Kap 7 del 1
      • Kap 7 del 2
      • Kap7 del 3
    • Kapitel 8
      • Kap 8 del 1
      • Kap 8 del 2
      • Kap 8 del 3
    • Kapitel 9
      • Kap 9 del 1
      • Kap 9 del 2

Kap 7 del 1








Chapter 7 Sampling distributions and the Central Limit Theorem

Kapitel 7

Inledning

Först repeterar vi från kapitel 5 att om  \(Y_1\)  och  \(Y_2\)  är oberoende, så gäller  \(p(y_1,y_2)\)  =  \(p_1(y_1) \cdot p_2(y_2)\) .
\(p(y_1,y_2)\)  är den simultana sannolikhetsfördelningen.
\(p_1(y_1)\)  och  \(p_2(y_2)\)  är marginalfördelningarna för  \(Y_1\)  respektive  \(Y_2\) .

 

Vi kan utvidga detta till  \(n\)  stycken slumpvariabler  \(Y_1\)  ,  \(Y_2\)  , … ,  \(Y_n\) .
Om dessa slumpvariabler är ömsesidigt oberoende, så gäller \(p(y_1,y_2, … , y_n)\)  =  \(p_1(y_1) \cdot p_2(y_2) \cdot \cdot \cdot p_n(y_n)\) .

 

Om väntevärde och varians

Om  \(U=Y_1+Y_2\)  så gäller (repetition) …

  • \(E(U) = E (Y_1+Y_2)\)  =  \(E(Y_1)+E(Y_2)\)   alltid

  • \(V(U) = V (Y_1+Y_2)\)  =  \(V(Y_1)+V(Y_2)\)   om  \(Y_1\)  och  \(Y_2\)  är oberoende.

.

Om  \(U=Y_1+Y_2+… +Y_n\)  så gäller …

  • \(E(U) = E (Y_1+Y_2+… +Y_n)\)  =  \(E(Y_1)+E(Y_2)+\) \(…+E(Y_n)\)   alltid

  • \(V(U) = V (Y_1+Y_2+… +Y_n)\)  =  \(V(Y_1)+V(Y_2)+…+V(Y_n)\)   om  \(Y_1\)  ,  \(Y_2\)  , … ,  \(Y_n\)   är ömsesidigt oberoende.

 

Tre definitioner inför fortsättningen

 

1) iid

Om  \(Y_1\)  ,  \(Y_2\)  , … ,  \(Y_n\)  
* är ömsesidigt oberoende    och
* kommer från samma fördelning

säger vi att de är iid
(independent , identically distributed )

 

2) Slumpmässigt stickprov

… av storlek \(n=2\)

är ett observerat  par  \(y_1\)  ,  \(y_2\)  av två stycken iid slumpvariabler  \(Y_1\)  ,  \(Y_2\)  .

 

… av allmän storlek \(n\)

är en observerad uppsättning  \(y_1\)  ,  \(y_2\)  , … ,  \(y_n\)  av  \(n\)  stycken iid slumpvariabler  \(Y_1\)  ,  \(Y_2\)  , … ,  \(Y_n\)  .

 

3) En statistika (på engelska ‘a statistic’)

är en funktion av en uppsättning iid  slumpvariabler  \(Y_1\)  ,  \(Y_2\)  , … ,  \(Y_n\)  

Exempel på statistikor  \(U_1\)  och  \(U_2\)  

\(U_1=\displaystyle \frac{ Y_1+Y_2+… +Y_n}{n}\)

Denna statistika  betecknas oftast  \(\bar{Y}\)  .

.

\(U_2= \frac{ \bigl(Y_1-\bar{Y} \bigr )^2+\bigl(Y_2-\bar{Y} \bigr )^2+… +\bigl(Y_n-\bar{Y} \bigr )^2}{n-1}\)

Denna statistika  betecknas oftast  \(S^2\)  .

 

Om statistikan Stickprovsmedelvärdet

Eftersom  \(\bar{Y}=\displaystyle \frac{ Y_1+Y_2+… +Y_n}{n}\)  är en statistika  , dvs en funktion av slumpvariabler, så är  \(\bar{Y}\)  själv en slumpvariabel.

Sannolikhetsfördelningen för denna slumpvariabel  \(\bar{Y}\)  kallas för samplingfördelningen för stickprovsmedelvärdet  \(\bar{Y}\)  .

 

Ett exempel

I kapitel 6 del 1 använde vi följande exempel: Om  \(Y_i\)  är resultaten av två tärningskast, vilken fördelning får då medelvärdet  \(\bar{Y}=\frac{Y_1+Y_2}{2}\)  ?

Detta medelvärde skulle vi kunna betrakta som ett stickprovsmedelvärde för ett stickprov av storlek  \(n=2\)  från följande population  :

Tänk dig en oändligt stor låda med oändligt många lappar märkta 1,2,3,4,5,6; lika många lappar av varje sort. Denna låda med lappar skulle man kunna kalla “populationen”  . Slumpförsöket är att ta upp en lapp slumpvis där  \(Y\)  är värdet på lappen. Sannolikhetsfördelningen för denna  \(Y\)  skulle bli precis densamma som sannolikhetsfördelningen för ett tärningskast.

 

Eftersom vi strax behöver den informationen, lägger vi till beräkning av väntevärde och varians för  \(Y_i\)  ,
där  \(Y_i\)   har följande fördelning:

\(y_i\) \(p(y_i)\)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6

Väntevärde
\(\mu = E\left( Y_{i}\right)\)  =  \(1\cdot\frac{1}{6} + 2\cdot\frac{1}{6}\) \(+ … +6\cdot\frac{1}{6}\)  =  \(3.5\)  .


Varians

\(\sigma ^{2}= V\left( Y_{i}\right)\)  =  \(\left( 1-3.5\right)^{2}\cdot \frac{1}{6}\)  +  \(\left( 2-3.5\right)^{2}\cdot \frac{1}{6}\) \(+ …\left( 6-3.5\right)^{2}\cdot \frac{1}{6}\)  =  \(\frac{105}{36}\) \(\approx 2.9167\)


 

Enligt resonemanget i kap 6 del 1, fick vi följande samplingfördelning för stickprovsmedelvärdet:

\(\bar{y}\) \(p \bigl(\bar{y} \bigr)\)
1 1/36
1.5 2/36
2 3/36
2.5 4/36
3 5/36
3.5 6/36
4 5/36
4.5 4/36
5 3/36
5.5 2/36
6 1/36

 

Väntevärdet för samplingfördelningen för  \(\bar{Y}\)

Den första egenskap vi ska studera hos samplingfördelningen för stickprovsmedelvärdet  är dess väntevärde.

Exemplet

\(\displaystyle E \bigl(\bar{Y} \bigr)\)  =  \(\displaystyle \sum_{\bar{y}\in S_{\bar{Y}}} (\bar{y} \cdot p(\bar{y}))\)  =  \(1\cdot\frac{1}{36} + 1.5\cdot\frac{2}{36}\) \(+ … +6\cdot\frac{1}{36}\)  =  \(3.5\)  .

Vi ser här att  \(E\left( \bar{Y}\right)\)  =  \(E\left( Y_{i}\right)\)  =  \(\mu\)  =  \(3.5\)  .

 

Allmänt

Väntevärdet  \(E\left( \bar{Y}\right)\)  för samplingfördelningen för stickprovsmedelvärdet  blir detsamma som populationsmedelvärdet.

Bevis

Utnyttja sats 5.12a  :
\(E\left( a_{1}Y_{1}+a_{2}Y_{2} + \cdot \cdot \cdot +a_{n}Y_{n} \right)\)  = \(a_{1}E\left( Y_{1}\right)+a_{2}E\left( Y_{2}\right)\) \(\cdot \cdot \cdot + a_{n}E\left( Y_{n}\right)\)

Med  \(a_{i}=\frac{1}{n}\)  får vi då:

\(E\left( \bar{Y}\right)\)  =  \(E\left( \frac{1}{n}\sum Y_i\right)\)  =  \(\frac{1}{n} E\left( Y_{1}+Y_{2}+…+Y_{n}\right)\)  =  \(\frac{1}{n}\Bigl( E\left( Y_{1}\right) +E\left( Y_{2}\right) +…+E\left(Y_{n}\right) \Bigr)\)  =  \(\frac{1}{n}n\mu =\mu\)  .

 

Variansen för samplingfördelningen för  \(\bar{Y}\)

Nästa egenskap vi ska studera hos samplingfördelningen för stickprovsmedelvärdet  är dess varians.

Exemplet

\(V \bigl(\bar{Y} \bigr)\)  =  \(\left( 1-3.5\right)^{2}\cdot \frac{1}{36}\)  +  \(\left( 1.5-3.5\right)^{2}\cdot \frac{2}{36}\) \(+ …\left( 6-3.5\right)^{2}\cdot \frac{1}{36}\)  =  \(\frac{105}{72}\) \(\approx 1.4583\)

 

Allmänt

Variansen  \(V\left( \bar{Y}\right)\)  för samplingfördelningen för stickprovsmedelvärdet  blir likamed  \(\frac{V(Y)}{n}\)  .

Bevis

Utnyttja att om  \(Y_1\)  ,  \(Y_2\)  , … ,  \(Y_n\)  är ömsesidigt oberoende så gäller följande (sats 5.12b) :

\(V\left( a_{1}Y_{1}+a_{2}Y_{2} + \cdot \cdot \cdot +a_{n}Y_{n} \right)\)  = \(a_{1}^2 V\left( Y_{1}\right)\)  + \(a_{2}^2 V\left( Y_{2}\right)\)  + \(\cdot \cdot \cdot + a_{n}^2 V\left( Y_{n}\right)\)

Med  \(a_{i}=\frac{1}{n}\)  får vi då:

\(V\left( \bar{Y}\right)\)  =  \(V\left( \frac{1}{n^2}\sum Y_i\right)\)  =  \(\frac{1}{n^2} V\left( Y_{1}+Y_{2}+…+Y_{n}\right)\)  =  \(\frac{1}{n^2}\Bigl( V\left( Y_{1}\right) +V\left( Y_{2}\right) +…+V\left(Y_{n}\right) \Bigr)\)  =  \(\frac{1}{n^2}n\sigma^2 =\frac {\sigma^2}{n}\)  .

 

Formen för samplingfördelningen för  \(\bar{Y}\)  

Den mest intressanta egenskapen vi ska studera hos samplingfördelningen för stickprovsmedelvärdet  är dess form.

Exemplet

Fördelningen för samplingfördelningen för stickprovsmedelvärdet när  \(n=2\)   har vi konstaterat ser ut såhär:

\(\bar{y}\) \(p \bigl(\bar{y} \bigr)\)
1 1/36
1.5 2/36
2 3/36
2.5 4/36
3 5/36
3.5 6/36
4 5/36
4.5 4/36
5 3/36
5.5 2/36
6 1/36

För att se formen kan man gör ett stolpdiagram för samplingfördelningen. Då kommer man att få en “triangelformad” fördelning med en topp för  \(\bar{y} = 3.5\) .

 

Allmänt

Formen för samplingfördelningen kommer att få olika former för olika stickprovsstorlekar  \(n\) .

När det gäller  \(n=2\)  var det inte så svårt att få fram den exakta samplingfördelningen för stickprovsmedelvärdet: Med hjälp av resonemanget i kap 6 del 1 fick vi fram tabellen här ovanför.

 

När det gäller större stickprovsstorlekar blir det mycket tidskrävande att ta fram den exakta samplingfördelningen för stickprovsmedelvärdet för hand.

Ett alternativ till att ta fram samplingfördelningen för stickprovsmedelvärdet för hand, är att simulera den fördelningen.

I detta dokument är gjort simuleringar av samplingfördelningen för stickprovsmedelvärdet för olika stickprovsstorlekar:

Samplingfordelningar.pdf

Efter den första bilden (som är en simulerad bild av populationsfördelningen)
kommer en simulering av samplingfördelningen för stickprovsmedelvärdet då  \(n=2\)  . Du ser att det blir mycket likt den teoretiska fördelningen. (Beräkna 1/36, 2/36 o.s.v. och jämför med procenttalen i grafen.)

I nästa bild kommer en simulering av samplingfördelningen för stickprovsmedelvärdet då  \(n=3\)  .

Därefter kommer simuleringar av samplingfördelningarna för stickprovsmedelvärdet då  \(n=4\)  ,  \(n=10\)   och  \(n=30\) .

 

Centrala gränsvärdessatsen

Det som syns i dokumentet Samplingfordelningar.pdf, är att samplingfördelningen för stickprovsmedelvärdet blir mer och mer lik en normalfördelning ju större stickprovsstorleken  \(n\)  är.

Det är det som är innebörden i Centrala gränsvärdessatsen (Central Limit Theorem  )

Formellt är satsen uttryck i sats 7.4 i kapitel 7.3: Där säger man att samplingfördelningen för stickprovsmedelvärdet går mot en normalfördelning då  \(n\)  går mot oändligheten.

Rent praktiskt brukar man använda följande tumregel:

Om  \(n \geq 30\)  kan man räkna med att samplingfördelningen för stickprovsmedelvärdet är (ungefär/approximativt) en normalfördelning.

Väntevärdet för denna normalfördelning blir då (enligt ovan)  \(\mu\)  , där  \(\mu\)  är väntevärdet för populationen.

Variansen för denna normalfördelning blir då (enligt ovan)  \(\frac {\sigma^2}{n}\)  , där  \(\sigma^2\)  är variansen för populationen.

Vi kan sammanfatta CGS enligt följande: Om  \(n \geq 30\)  så gäller (approximativt)  \(\bar{Y} \sim N \Bigl(\mu,\frac {\sigma^2}{n}\Bigr)\)

 

Fallet normalfördelad population

Om populationen är normalfördelad, finns ingen nedre begränsning för  \(n\)  . Dessutom blir samplingfördelningen för stickprovsmedelvärdet exakt en normalfördelning;
\(\bar{Y} \sim N \Bigl(\mu,\frac {\sigma^2}{n}\Bigr)\)

 

Exempel

Exempel 1 (Repetition) Om  \(Y_1 \sim N (10,4^2)\)  och  \(Y_2 \sim N (20,3^2)\)  , bestäm  \(P(Y_1+Y_2 > 35)\)

Svar Exempel 1  :  ca 0.1587
(I denna uppgift använde du exakt normalfördelning)

 

Exempel 2 Bestäm sannolikheten för att ditt medelresultat blir minst 4, om du kastar en vanlig sexsidig tärning trettio gånger.

Svar Exempel 2  :  ca 0.0548
(I denna uppgift använde du approximativ normalfördelning)

 

Exempel 3 Antag att längden av svenska kvinnor i åldern 18-24 år följer en normalfördelning med väntevärde 167 cm och standardavvikelse 7 cm.

Om du tar 4 slumpvis utvalda kvinnor, bestäm sannolikheten att medellängden av dessa kvinnor är mindre än 165 cm.

Svar Exempel 3  :  ca 0.2843
(I denna uppgift använde du exakt normalfördelning)



  • Hem
  • Matematik-avsnitt
  • Lektioner
    • Kapitel 1
    • Kapitel 2
      • Exemplen Kap 2
      • Exemplens lösningar Kap 2
    • Kapitel 3
      • Kap 3 del 1
      • Kap 3 del 2
      • Kap 3 del 3
      • Kap 3 del 4
      • Kap 3 del 5
    • Kapitel 4
      • Kap 4 del 1
      • Kap 4 del 2
      • Kap 4 Del 3
      • Kap 4 del 4
      • Kap 4 Del 5
    • Kapitel 5
      • Kap 5 del 1
      • Kap 5 del 2
      • Kap 5 del 3
      • Kap 5 del 4
    • Kapitel 6
      • Kap 6 Del 1
      • Kap 6 Del 2
      • Kap 6 Del 3
      • Kap 6 Del 4
    • Kapitel 7
      • Kap 7 del 1
      • Kap 7 del 2
      • Kap7 del 3
    • Kapitel 8
      • Kap 8 del 1
      • Kap 8 del 2
      • Kap 8 del 3
    • Kapitel 9
      • Kap 9 del 1
      • Kap 9 del 2
Powered by WordPress | theme SG Double