Chapter 8 Estimation
Konfidensintervall, forts (Kap 8.6 – 8.8)
Rest från kapitel 8.6
I kapitel 8 del 2 gick vi bara igenom om konfidensintervall för \(\mu\) .
Det finns fler parametrar som vi ska kunna skapa konfidensintervall för.
För att kunna göra ett konfidensintervall behöver vi (se kap 8 del 2) en pivotkvantitet .
Pivotkvantiteten skapas med utgångspunkt i motsvarande samplingfördelning .
(Det betyder fördelningen för den teststatistika som är parameterns estimator.)
Sammanfattning om hur vi skapade konfidensintervall för \(\mu\)
När det gällde konfidensintervallet för \(\mu\) så var den aktuella samplingfördelningen fördelningen för \(\bar{Y}\) :
\(\bar{Y} \sim N \Bigl(\mu,\frac {\sigma^2}{n}\Bigr)\) .
Vi kan här lägga till beteckningarna för samplingfördelningens varians respektive standard error :
Varians: \(\sigma^2_{\bar{Y}} = \frac {\sigma^2}{n}\)
Standard error: \(\sigma_{\bar{Y}} = \frac {\sigma}{n^{1/2}}\)
För att finna formlerna för konfidensintervallets gränser \(\hat{\mu}_L\) och \(\hat{\mu}_U\) användes då följande pivotkvantitet:
\(Z=\frac{\bar{Y}-\mu }{\frac{\sigma }{n^{1/2}}}\sim N\left( 0;1\right)\)
Vi använde pivotkvantiteten i följande likhet: \(1-\alpha\) = \(P\left( -z_{\alpha /2}<\frac{\bar{Y}-\mu }{\frac{\sigma }{n^{1/2}}}<z_{\alpha /2}\right)\) .
Utgående från denna likhet kom vi sedan fram till
\(P\left( \bar{Y}-z_{\alpha /2}\frac{\sigma }{n^{1/2}}<\mu <\bar{Y}+z_{\alpha /2}\frac{\sigma }{n^{1/2}}\right)\) = \(1-\alpha\)
vilket innebär att \(\hat{\mu}_L=\bar{Y}-z_{\alpha /2}\frac{\sigma }{n^{1/2}}\)
och att \(\hat{\mu}_U=\bar{Y}+z_{\alpha /2}\frac{\sigma }{n^{1/2}}\) .
Ett \(\left( 1-\alpha \right) 100\) %-igt konfidensintervall erhålls slutligen genom att byta ut slumpvariabeln \(\bar{Y}\) mot en observation \(\bar{y}\) , dvs
\(\bar{y}-z_{\alpha /2}\frac{\sigma }{n^{1/2}}<\mu <\bar{y}+z_{\alpha /2}\frac{\sigma }{n^{1/2}}\)
eller
\(\bar{y}\pm z_{\alpha /2}\frac{\sigma }{n^{1/2}}\) .
Om man beräknar ett stort antal sådana intervall kan man förvänta sig att \(\left( 1-\alpha \right) 100\) % av dem täcker \(\mu\) .
Allmän sammanfattning om konfidensintervall för \(\theta\)
Fallet där pivotkvantiteten har en N(0;1)-fördelning
Om vi har en parameter \(\theta\)
vars estimator \(\hat{\theta}\) är en statistika som är normalfördelad;
\(\hat{\theta}\sim N\left(\theta, \sigma^2_{\hat{\theta}}\right)\) ,
kan vi använd pivotkvantiteten \(Z=\frac{\hat{\theta}-\theta }{\sigma_{\hat{\theta}}}\) , som
är \(N\left( 0;1\right)\) – fördelad,
för att få fram formler för \(\hat{\theta}_L\) och \(\hat{\theta}_U\) .
Jämförelse mellan det allmänna fallet och exemplet \(\mu\)
Fall | Allmänt fall | Konkret exempel |
---|---|---|
Parameter | \(\theta\) | \(\mu\) |
Estimator | \(\hat{\theta}\) | \(\bar{Y}\) |
Standard error | \(\sigma_{\hat{\theta}}\) | \(\frac{\sigma }{n^{1/2}}\) |
Konfidensintervall | \(\hat{\theta}_{obs}\pm z_{\alpha /2}\sigma_{\hat{\theta}}\) | \(\bar{y}\pm z_{\alpha /2}\frac{\sigma }{n^{1/2}}\) |
Konfidensintervall för \(p\)
Antag att vi har en population där \(p\) = andelen individer med en viss egenskap.
Teori
För att kunna göra en skattning av \(p\) tar vi ett stickprov av storlek \(n\) och tar reda på hur många av dem som har den intressanta egenskapen.
Om vi observerar \(y\) stycken individer (av \(n\) stycken) med den intressanta egenskapen, blir vår punkskattning \(\hat{p}=\displaystyle \frac{y}{n}\) .
Motsvarande estimator (slumpvariabel) betecknar vi då \(\hat{P}\) . För att kunna konstruera ett konfidensintervall för \(p\) behöver vi känna till fördelningen för \(\hat{P}\) .
Innan vi tar vårt stickprov är antalet individer (av \(n\) stycken) med den intressanta egenskapen en slumpvariabel \(Y\) . Fördelningen för \(Y\) är en binomialfördelning ;
\(Y \sim Bin(n,p)\) .
I slutet av kapitel 7 del 3, så kom vi fram till följande:
Om \(n>9\frac{\max \left( p,q\right) }{\min \left( p,q \right) }\) så kan
\(Y \sim Bin(n,p)\) approximeras med \(Y\sim N\bigl(np ,np\left( 1-p\right) \bigr)\)
Eftersom \(\hat{P}=\displaystyle \frac{Y}{n}\) så får vi fördelningen för \(\hat{P}\) genom omskalning av parametrarna i normalfördelningen för \(Y\) .
Det ger \(\hat{P}\sim N\bigl( p;\frac{p\left( 1-p\right) }{n}\bigr)\) .
Vilket alltså gäller (approximativt ) om \(n>9\frac{\max \left( p,q\right) }{\min \left( p,q \right) }\) .
Vi har alltså att variansen för \(\hat{P}\) blir \(\frac{p\left( 1-p\right) }{n}\) ,
och en pivotkvantitet för att skapa konfidensintervallet för \(p\) blir då
\(Z=\frac{\hat{P}-p }{\sqrt{\frac{p\left( 1-p\right)}{n}}}\) .
Ur detta erhålls följande konfidensintervall för \(p\) :
\(\hat{p}\pm z_{\alpha /2}\left( \frac{\hat{p}\left( 1-\hat{p}\right) }{n}\right)^{1/2}\)
Notera att standard error för \(\hat{P}\) egentligen är lika med
\(\left( \frac{p \left( 1-p\right) }{n}\right)^{1/2}\) , men eftersom vi inte känner till värdet på \(p\) , får vi använda vår skattning \(\hat{p}\) i formeln istället: \(\left( \frac{\hat{p}\left( 1-\hat{p}\right) }{n}\right)^{1/2}\)
Fler fall för konfidensintervall
Här följer ett antal fall där vi jämför två populationer med varandra:
Konfidensintervall för skillnader i medelvärden
Vi har två oberoende stickprov av storlek \(n_{1}\) respektive \(n_{2}\) som ger två oberoende stickprovsmedelvärden \(\bar{Y}_{1}\) och \(\bar{Y}_{2}\) .
Vi är intresserade av skillnaden mellan väntevärdena, dvs \(\mu _{1}-\mu _{2}\) .
Med pivotmetoden kan man på samma sätt som i enstickprovsfallet resonera sig fram till att konfidensintervall för populationsdifferenser ges av:
Normalfördelade observationer med kända varianser:
\(\left( \bar{y}_{1}-\bar{y}_{2}\right) \pm z_{\alpha /2}\left( \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma _{2}^{2}}{n_{2}}\right) ^{1/2}\)
Normalfördelade observationer med okända men lika varianser, dvs \(\sigma _{1}^{2}=\sigma _{2}^{2}\) :
\(\left( \bar{y}_{1}-\bar{y}_{2}\right) \pm t_{\alpha /2}^{\left(n_{1}+n_{2}-2\right) }\left( \frac{s_{p}^{2}}{n_{1}}+\frac{s_{p}^{2}}{n_{2}}\right) ^{1/2}\) ,
där \(s_{p}^{2}\) är den poolade(“sammanvägda”) variansskattningen (se boken, kap 8.8).
Observationerna är inte normalfördelade men stickproven är stora (kända varianser):
\(\left( \bar{y}_{1}-\bar{y}_{2}\right) \pm z_{\alpha /2}\left( \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma _{2}^{2}}{n_{2}}\right) ^{1/2}\)
enligt CGS.
Observationerna är inte normalfördelade men stickproven är stora (okända varianser):
\(\left( \bar{y}_{1}-\bar{y}_{2}\right) \pm z_{\alpha /2}\left( \frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}\right) ^{1/2}\)
enligt CGS.
Konfidensintervall för skillnader i andelar
Med ledning av ovanstående tror jag att du skulle kunna lista ut hur konfidensintervallet för \(p_1-p_2\) ser ut.
Annars kolla bokens Exempel 8.8 i kapitel 8.6
Konfidensintervall för varians (Kap 8.9)
Vi är här intresserade av att bedöma osäkerheten i skattningar av varianser. Sedan tidigare vet vi att då \(Y_{1},Y_{2},…,Y_{n}\) är ett stickprov av oberoende observationer från en normalfördelning med medelvärde \(\mu\) och varians \(\sigma ^{2}\)
, då är
\(\frac{\left( n-1\right) S^{2}}{\sigma ^{2}}\sim \chi ^{2}\left( n-1\right)\)
Då gäller att
\(P\left( \chi _{1-\alpha /2}^{2}\leq \frac{\left( n-1\right) S^{2}}{\sigma^{2}}\leq \chi _{\alpha /2}^{2}\right)\) = \(1-\alpha\)
dvs
\(P\left( \frac{\left( n-1\right) S^{2}}{\chi _{\alpha /2}^{2}}\leq \sigma^{2}\leq \frac{\left( n-1\right) S^{2}}{\chi _{1-\alpha /2}^{2}}\right)\) = \(1-\alpha\)
Ett \(\left( 1-\alpha \right) 100\) %-igt konfidensintervall förr \(\sigma ^{2}\) ges alltså av
\(\frac{\left( n-1\right) s^{2}}{\chi _{\alpha /2}^{2}}\leq \sigma ^{2}\leq \frac{\left( n-1\right) s^{2}}{\chi _{1-\alpha /2}^{2}}\)
och för \(\sigma\) av
\(\left( \frac{\left( n-1\right) s^{2}}{\chi _{\alpha /2}^{2}}\right)^{1/2}\leq \sigma \leq \left( \frac{\left( n-1\right) s^{2}}{\chi _{1-\alpha/2}^{2}}\right) ^{1/2}\)
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });