Chapter 8 Estimation
Om samplingfördelningar och skattningsfel (Kap 8.4)
Kapitel 8.4 kan läsas översiktligt och ses som en introduktion till konfidensintervall som gås igenom med början i kap 8.5.
Exempel 8.2 och Exempel 8.3 är bra att läsa igenom,
men på den första (hela) sidan av kapitel 8.4 används beteckningen \(\epsilon\) om absolutbeloppet av hela avvikelsen \(\hat{\theta}-\theta\) , medan vi i föregående avsnitt istället har använt \(\epsilon\) för den slumpmässiga delen av denna avvikelse.
Jag föredrar att använda den beskrivning av \(\epsilon\) som vi gick igenom i föregående avsnitt.
Konfidensintervall (Kap 8.5 + 8.6)
Introduktion (byggd på era tidigare kunskaper)
I det föregående (Kapitel 8 del 1) pratade vi bara om punktskattning.
Då har vi bara erhållit ett värde som visserligen är en kvalificerad “gissning” av parameterns värde, men vi vet inget om hur långt ifrån parameterns värde vi har hamnat.
När vi gör en intervallskattning anger vi istället ett konfidensintervall med två gränser inom vilka vi säger att parametern finns med en viss säkerhet .
Denna säkerhet kallas för konfidensintervallets konfidensgrad och den brukar beskrivas som \(1-\alpha\) .
Den mest använda konfidensgraden är 95 %, vilket motsvaras av \(\alpha=0.05\) .
Ett exempel; konfidensintervall för \(\mu\)
Teori
Bakgrunden är kunskapen om samplingfördelningen för \(\bar{Y}\) :
Om populationen är normalfördelad med \(Y_i \sim N(\mu,\sigma^2)\)
blir samplingfördelningen för stickprovsmedelvärdet en normalfördelning;
\(\bar{Y} \sim N \Bigl(\mu,\frac {\sigma^2}{n}\Bigr)\)
Vi tar ett exempel där \(Y_i \sim N(50,2.5^2)\) och tar sedan ett stickprov av storlek \(n=10\) .
Frågan är var \(\bar{Y}\) kommer att hamna?
Från teorin om samplingfördelningar får vi att fördelningen för \(\bar{Y}\) är \(\bar{Y} \sim N\Bigl(50,\frac{2.5^2}{10}\Bigr)\) .
Ur detta kan man t.ex. förutse att för 95 % av alla stickprov av den storleken (n = 10),
kommer stickprovsmedelvärdet att hamna mellan 48.45 och 51.55.
Detta kan vi kolla såhär: \(P \bigl(48.45< \bar{Y} < 51.55 \bigr)\) = \(\displaystyle P \left(\frac{48.45-50}{\frac{2.5}{\sqrt{10}}} < Z < \frac{51.55-50}{\frac{2.5}{\sqrt{10}}} \right)\) = \(P(-1.96 < Z < 1.96)\) = \(0.95\) .
Kom ihåg att Z -värdet är likamed antalet standardavvikelser från väntevärdet.
Det var så jag beräknade värdena 48.45 och 51.55 för mitt exempel:
\(50 -1.96 \cdot \frac{2.5}{\sqrt{10}} = 48.45\)
och
\(50 +1.96 \cdot \frac{2.5}{\sqrt{10}} = 51.55\)
Talet \(1.96\) betecknas ofta \(z_{0.025}\) eftersom areorna utanför \(-1.96\) respektive \(1.96\) i båda fallen är 0.025,
för \(Z \sim N(0,1^2)\)
Simulering av hur stickprovsmedel hamnar
Jag har simulerat 20 stycken stickprov (av storlek n =10) från fördelningen \(N(50,2.5^2)\) och för vart och ett av dessa 20 stickprov beräknat stickprovsmedelvärdet.
I dokumentet KonfidensIntervallEx.pdf
i vänsterspalten ser man 20 stycken intervall \([48.45,51.55]\) där de 20 utfallen av de simulerade stickprovsmedel har markerats med kryss.
Enligt teorin ovan borde stickprovsmedel i 95 % av fallen hamna inom detta intervall, dvs i 19 av 20 fall borde krysset hamna inom gränserna.
Och det är bara för ett av stickproven (det tredje uppifrån) som stickprovsmedelvärdet hamnar utanför intervallet \([48.45,51.55]\) .
(Innebörden i dokumentets högerspalt återkommer vi till strax:)
Praktik
Situationen där man skapar ett konfidensintervall
Den som gör ett konfidensintervall anger två gränser för sin skattning \(\hat{\mu}\) av \(\mu\) ;
en nedre gräns \(\hat{\mu}_L\)
och en övre gräns \(\hat{\mu}_U\) .
Dessa gränser bygger på det aktuella stickprovets utfall för medelvärdet; \(\bar{y}\) :
\(\hat{\mu}_L\) = \(\bar{y}-1.96 \cdot \frac{2.5}{\sqrt{10}}\) och
\(\hat{\mu}_U\) = \(\bar{y}+1.96 \cdot \frac{2.5}{\sqrt{10}}\) och
Avståndet \(1.96 \cdot \frac{2.5}{\sqrt{10}} = 1.55\) är hämtat från teorin ovan; vi konstaterade ju där att stickprovsmedelvärdet i 95 % av fallen hamnar max 1.55 från populationsmedelvärdet 50.
Vi kan betrakta \(\hat{\mu}_L\) och \(\hat{\mu}_U\) som slumpvariabler :
\(\hat{\mu}_L\) = \(\bar{Y}-1.55\) och
\(\hat{\mu}_U\) = \(\bar{Y}+1.55\) .
Tänk dig nu att 20 olika personer tänker sig att göra en skattning av \(\mu\) , genom att ta ett stickprov (av storlek \(n=10\) ) och beräkna stickprovsmedelvärdet.
Ingen av dessa 20 personer känner ju till det sanna värdet för \(\mu\) , utan bygger sitt konfidensintervall från det stickprovsmedelvärde som hen råkade få.
I högerspalten på dokumentet KonfidensIntervallEx.pdf ser vi hur de 20 olika personernas konfidensintervall blir.
Vi ser här att \(\hat{\mu}_L\) och \(\hat{\mu}_U\) är slumpvariabler.
\(\hat{\mu}_L\) varierar mellan ca 47 och drygt 50, medan
\(\hat{\mu}_U\) varierar mellan ca 50 och drygt 53.
Jämförelse mellan spalterna i dokumentet KonfidensIntervallEx.pdf
Vi har 19 fall i vänsterspalten där stickprovsmedelvärdet hamnar max \(1.55\) från \(50\) , dvs stickprovsmedelvärdet hamnar i intervallet \([48.45,51.55]\)
Dessa 19 fall motsvaras av fall i högerspalten där konfidensintervallet täcker \(\mu\) .
Det betyder att sannolikheten för att \(\bar{Y}\) hamnar i \([48.45,51.55]\) är densamma som sannolikheten för att \(50 \ (\mu)\) är mellan \(\hat{\mu}_L\) och \(\hat{\mu}_U\) .
Teori om konfidensintervall i allmänhet; kursbokens upplägg
Konfidensintervallet görs här för ett allmänt \(\theta\) som vi vill skatta.
(\(\theta\) kan vara ett populationsmedelvärde \(\mu\) , en populationsvarians \(\sigma^2\) eller något annat.)
Vi utgår från en punkskattning \(\hat{\theta}\) .
Runt denna punktskattning ska vi bygga ett intervall \(\left[ \hat{\theta}_L,\hat{\theta}_L \right]\) .
Frågan är nu hur vi skapar detta så att \(P\left( \hat{\theta}_{L}\leq \theta \leq \hat{\theta}_{U}\right)\) = \(1-\alpha\) .
Jämförelse med exemplet ovan; konfidensintervallet för \(\mu\) :
Eftersom \(\alpha=0.05\) , hade vi i det exemplet (högerspalten i dokumentet KonfidensIntervallEx.pdf )
att \(P\left( \hat{\mu}_{L}\leq \mu \leq \hat{\mu}_{U}\right)\) = \(0.95\)
Nu ska vi hitta formler för \(\hat{\theta}_L\) och \(\hat{\theta}_U\) så att
\(P\left( \hat{\theta}_{L}\leq \theta \leq \hat{\theta}_{U}\right)\) = \(1-\alpha\) blir uppfyllt.
För detta ändamål behövs en pivotkvantitet för att bestämma osäkerheten i vår skattning, dvs längden av konfidensintervallet.
Pivotkvantitet …
- är en funktion av både stickprovet och den okända parametern \(\theta\) , där \(\theta\) är den enda okända kvantiteten.
- har en sannolikhetsfördelning som inte beror av parametern \(\theta\) .
Tillbaka till exemplet med konfidensintervall för \(\mu\)
En pivotkvantitet för att finna \(\hat{\mu}_L\) och \(\hat{\mu}_U\) är
\(Z=\frac{\bar{Y}-\mu }{\frac{\sigma }{n^{1/2}}}\sim N\left( 0;1\right)\)
Det är dels en funktion av \(\bar{Y}\) och \(\mu\) ,
dels beror dess fördelning inte på \(\mu\) ; fördelningen är \(N\left( 0;1\right)\) .
Användning av pivotkvantiteten \(Z\) för att hitta \(\hat{\mu}_L\) och \(\hat{\mu}_U\)
så att \(P\left( \hat{\mu}_{L}\leq \mu \leq \hat{\mu}_{U}\right)\) = \(1-\alpha\) :
\(1-\alpha\) = \(P\left( -z_{\alpha /2}<\frac{\bar{Y}-\mu }{\frac{\sigma }{n^{1/2}}}<z_{\alpha /2}\right)\) = \(P\left( -z_{\alpha /2}\frac{\sigma }{n^{1/2}}<\bar{Y}-\mu <z_{\alpha /2}\frac{\sigma }{n^{1/2}}\right)\) = \(P\left( \mu -z_{\alpha /2}\frac{\sigma }{n^{1/2}}<\bar{Y}<\mu +z_{\alpha/2}\frac{\sigma }{n^{1/2}}\right)\) .
Omforma nu den vänstra delen i den sista olikheten:
\(-z_{\alpha /2}\frac{\sigma }{n^{1/2}} <\bar{Y}-\mu\) ger
\(\mu <\bar{Y}+z_{\alpha /2}\frac{\sigma }{n^{1/2}}\)
Omforma sedan den högra delen i samma olikhet: \(\bar{Y}-\mu < z_{\alpha /2}\frac{\sigma }{n^{1/2}}\) ger \(\bar{Y}-z_{\alpha /2}\frac{\sigma }{n^{1/2}} <\mu\)
Den sista sannolikheten ovan kan då skrivas såhär:
\(P\left( \bar{Y}-z_{\alpha /2}\frac{\sigma }{n^{1/2}}<\mu <\bar{Y}+z_{\alpha /2}\frac{\sigma }{n^{1/2}}\right)\) = \(1-\alpha\)
där ändpunkterna alltså är slumpmässiga .
Med sannolikheten \(1-\alpha\) kommer de att ligga på varsin sida av \(\mu\) , vilket innebär att intervallet mellan dessa två ändpunkter med sannolikheten \(1-\alpha\) kommer att fånga upp det sanna, okända värdet på \(\mu\) .
Ett \(\left( 1-\alpha \right) 100\) %-igt konfidensintervall erhålls genom att byta ut slumpvariabeln \(\bar{Y}\) mot en observation \(\bar{y}\) , dvs
\(\bar{y}-z_{\alpha /2}\frac{\sigma }{n^{1/2}}<\mu <\bar{y}+z_{\alpha /2}\frac{\sigma }{n^{1/2}}\)
eller
\(\bar{y}\pm z_{\alpha /2}\frac{\sigma }{n^{1/2}}\) .
Om man beräknar ett stort antal sådana intervall kan man förvänta sig att \(\left( 1-\alpha \right) 100\) % av dem täcker \(\mu\) .
Tolkning av ett uträknat intervall:
-
Innan vi dragit stickprovet}: Med sannolikheten \(1-\alpha\)
kommer vi att få ett intervall som täcker \(\mu\) . -
Efter att vi dragit stickprovet och beräknat ett intervall: Antingen täcker intervallet \(\mu\) (med sannolikheten 1),
eller så täcker intervallet inte \(\mu\) (med sannolikheten 1). Poängen är att vi vet inte hur det är.
Det vi vet är att intervallet har beräknats enligt en metod som i det långa loppet producerar intervall som i \(\left( 1-\alpha \right) 100\) % av fallen innehåller \(\mu\) . Dvs, med \(\left( 1-\alpha \right) 100\) % konfidens (tillförlitlighet) ligger den okända parametern \(\mu\) i intervallet \(\bar{y}\pm z_{\alpha /2}\frac{\sigma }{n^{1/2}}\) .
I exemplet ovan antogs normalfördelning med känd varians vilket ledde till att gränserna bestämdes med hjälp av normalfördelningskvantiler \(z_{\alpha /2}\) . Hur gör man i andra lägen?
Konfidensintervall för \(\mu\) i andra lägen
Normalfördelade observationer men variansen \(\sigma ^{2}\) är okänd.
Utnyttja att
\(\frac{\bar{Y}-\mu }{\frac{S}{n^{1/2}}}\sim t\left( n-1\right)\) . Gränserna bestäms då i stället av \(t-\) fördelningens kvantiler \(t_{\alpha /2}\left( n-1\right)\) .
Observationerna är inte normalfördelade men stickprovet är stort (känd varians \(\sigma ^{2}\) ).
Utnyttja att
\(\frac{\bar{Y}-\mu }{\frac{\sigma }{n^{1/2}}}\sim N\left( 0;1\right)\) (approximativt ) enligt CGS.
Konstruera ett intervall med konfidensgraden approximativt lika med \(\left( 1-\alpha \right)\). Gränserna bestäms av normalfördelningens kvantiler \(z_{\alpha /2}\) .
Observationerna är inte normalfördelade men stickprovet är stort (okänd varians \(\sigma ^{2}\)).
Utnyttja att
\(\frac{\bar{Y}-\mu }{\frac{S}{n^{1/2}}}\sim N\left( 0;1\right)\) (approximativt ) enligt CGS.
Konstruera ett intervall med konfidensgraden approximativt lika med \(\left( 1-\alpha \right)\) . Gränserna bestäms av normalfördelningens kvantiler \(z_{\alpha /2}\) .
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });