Chapter 9 Endast delen “Methods of Estimation” (Kap 9.6+9.7)
Kapitel 9, forts
Inledning
I denna kurs ingår från kapitel 9 endast delkapitlen 9.6 och 9.7.
Det handlar om hur man hittar en lämplig statistika att använda som estimator, dvs hur man använder den information man får från sitt stickprov.
(En statistika är ju en funktion av stickprovet)
Överblick
Vi presenterar i denna kurs tre vanliga metoder som används för att bestämma en lämplig estimator(punktskattning) \(\hat{\theta}\) till en parameter \(\theta\) :
-
Moment-metoden (Kap 9.6) kräver att man vet vilken fördelning \(Y_i\) har.
-
Minsta-kvadrat-metoden (Se “Kap 9 del 1”; finns ej i boken)
-
Maximum-likelihood-metoden (Kap 9.7) kräver att man vet vilken fördelning \(Y_i\) har
Maximum-likelihood-metoden (Kap 9.7)
Det engelska ordet likelihood kan motsvaras av ordet trolighet på svenska.
(Ordet sannolikhet kräver mer strikta egenskaper, som t.ex. att summan av sannolikheterna för alla utfall är 1)
Exempel 1
Ett exempel där vi skattar \(\lambda\) i en Poissonfördelning
Antag att vi har ett experiment vars utfall bäst beskrivs av en Poissonfördelning med parameter \(\lambda\) som är okänd.
Vi har ett slumpmässigt stickprov av storlek \(n=3\) som gav observationerna \(y_{1}=1,y_{2}=3\) och \(y_{3}=4\) .
Antag att vi vet att möjliga värden för \(\lambda\) är ett av följande:
\(\lambda =0.5, 3\) eller \(10\) .
Vilket av dessa värden är det sanna?
Vi avgör detta genom att beräkna vilket av dessa tre värden för \(\lambda\) som det är mest troligt skulle ha kunnat generera det stickprov vi fick.
Vi beräknar då sannolikheten att få de observationsvärden vi faktiskt fick för var och en av de tre olika kandidaterna för \(\lambda\) .
Kandidat nummer 1: Om \(\lambda\) vore \(0.5\) :
Innebörden i begreppet stickprov är ju att \(Y_{1}\) , \(Y_{2}\) och \(Y_{3}\) är oberoende.
Det betyder att \(P(Y_{1}=1,Y_{2}=3,Y_{3}=4)\) = \(P(Y_{1}=1)\cdot P(Y_{2}=3)\) \(\cdot P(Y_{3}=4)\) .
Så om \(\lambda=0.5\) får vi att (om vi betraktar experimentet i förväg ) sannolikheten för att få just observationerna \(y_{1}=1,y_{2}=3\) och \(y_{3}=4\) blir
\(P(Y_{1}=1,Y_{2}=3,Y_{3}=4)\) = \(P(Y_{1}=1)\cdot P(Y_{2}=3)\) \(\cdot P(Y_{3}=4)\) = \(\frac{0.5^1 \cdot e^{-0.5}}{1 \ !}\) \(\cdot\frac{0.5^3 \cdot e^{-0.5}}{3 \ !}\) \(\frac{0.5^4 \cdot e^{-0.5}}{4 \ !}\) \(\approx 0.0000061\)
Vi kan betrakta \(Y_{1}\) , \(Y_{2}\) och \(Y_{3}\) på samma sätt som i kapitel 5:
Vi tänker att det finns en simultan sannolikhetsfunktion \(p\) för de tre diskreta slumpvariablerna \(Y_{1}\) , \(Y_{2}\) och \(Y_{3}\) som ges av \(p(y_1,y_2,y_3)=\) = \(P\left((Y_1=y_1)\cap (Y_2=y_2)\cap (Y_3=y_3)\right)\) där alltså
\(P\left((Y_1=y_1)\cap (Y_2=y_2)\cap (Y_3=y_3)\right)\) = \(P(Y_{1}=y_1,Y_{2}=y_2,Y_{3}=y_3)\) = \(P(Y_{1}=y_1)\cdot P(Y_{2}=y_2)\) \(\cdot P(Y_{3}=y_3)\) .
Med hjälp av sannolikhetsfunktionen \(p\) för de tre diskreta slumpvariablerna, kan vi alltså skriva:
\(p(1,3,4)\) \(\approx 0.0000061\)
Vi kan förbättra beteckningen ytterligare, genom att markera att värdet \(0.0000061\) som vi fick, var under förutsättning (givet ) att \(\lambda=0.5\) :
\(p(1,3,4|\lambda=0.5)\) = \(\displaystyle \frac{0.5^1 \cdot e^{-0.5}}{1 \ !}\) \(\displaystyle \cdot\frac{0.5^3 \cdot e^{-0.5}}{3 \ !}\) \(\displaystyle \cdot\frac{0.5^4 \cdot e^{-0.5}}{4 \ !}\) \(\approx 0.0000061\)
Vi kan också multiplicera ihop de tre faktorerna i uttrycket ovan, till
\(p(1,3,4 | \lambda=0.5)\) = \(\displaystyle \cdot \frac{0.5^{1+3+4} \cdot \left(e^{-0.5} \right)^3}{1\cdot 6\cdot 24}\) = \(\displaystyle \frac{0.5^8 \cdot e^{-1.5} }{144}\) \(\approx 0.0000061\)
Kandidat nummer 2: Om \(\lambda\) vore \(3\) :
Om \(\lambda=3\) får vi att (om vi betraktar experimentet i förväg ) sannolikheten för att få just observationerna \(y_{1}=1,y_{2}=3\) och \(y_{3}=4\) blir
\(p(1,3,4|\lambda=3)\) = \(\frac{3^1 \cdot e^{-3}}{1 \ !}\) \(\cdot \frac{3^3 \cdot e^{-3}}{3 \ !}\) \(\cdot \frac{3^4 \cdot e^{-3}}{4 \ !}\) = \(\frac{3^8 \cdot e^{-9} }{144}\) \(\approx 0.0056\)
Kandidat nummer 3: Om \(\lambda\) vore \(10\) :
Om \(\lambda=10\) får vi att (om vi betraktar experimentet i förväg ) sannolikheten för att få just observationerna \(y_{1}=1,y_{2}=3\) och \(y_{3}=4\) blir
\(p(1,3,4|\lambda=10)\) = \(\frac{10^1 \cdot e^{-10}}{1 \ !}\) \(\cdot\frac{10^3 \cdot e^{-10}}{3 \ !}\) \(\cdot \frac{10^4 \cdot e^{-10}}{4 \ !}\) = \(\frac{10^8 \cdot e^{-30} }{144}\) \(\approx 0.000000065\)
Jämförelse mellan kandidaterna
Tabell
\(\lambda\) | \(p(1,3,4|\lambda)\) |
---|---|
0.5 | 0.0000061 |
3 | 0.0056 |
10 | 0.000000065 |
Detta är inte en sannolikhetsfunktion ; dels för att summan inte blir ett, dels för att \(\lambda\) inte är en slumpvariabel
Trots att det inte är en sannolikhetsfunktion, kan vi se att det troligaste värdet för \(\lambda\) är \(3\) .
Så det vore bra att utnyttja funktionen i tabellen på något sätt.
Vi kallar den likelihoodfunktion \(L(\lambda)\) ; med innebörden att funktionen hjälper oss att hitta det troligaste värdet på \(\lambda\) givet de tre observationerna \(1\) , \(3\) och \(4\) .
I detta exempel har vi då \(L(\lambda)\) = \(L(\lambda | 1,3,4)\) = \(p(1,3,4|\lambda)\)
Samma exempel med allmänna beteckningar \(y_1\) , \(y_2\) , \(y_3\)
Om vi använder \(y_1\) , \(y_2\) och \(y_3\) istället för \(1\) , \(3\) och \(4\) får vi att
\(L(\lambda)\) = \(L(\lambda | y_{1},y_{2},y_{3})\) = \(p\left( y_{1},y_{2},y_{3}\left\vert \lambda \right. \right)\) = \(\frac{ \lambda ^{y_{1}}e^{-\lambda }} {y_{1}!} \cdot \frac{\lambda ^{y_{2}}e^{-\lambda }}{y_{2}!} \cdot \frac{\lambda ^{y_{3}}e^{-\lambda }}{y_{3}!}\)
Funktionsuttrycket för \(L(\lambda)\) blir ju en produkt, där faktorerna har samma mönster: \(\frac{ \lambda ^{y_{k}}e^{-\lambda }}{y_{k}!}\)
Då finns det ett förkortat skrivsätt för en sådan produkt; Det finns en symbol \(\prod\) som kan användas i sådana sammanhang:
\(\displaystyle \prod_{k=1}^{3} \textstyle \frac{ \lambda ^{y_{k}}e^{-\lambda }}{y_{k}!}\) = \(\frac{ \lambda ^{y_{1}}e^{-\lambda }} {y_{1}!} \cdot \frac{\lambda ^{y_{2}}e^{-\lambda }}{y_{2}!} \cdot \frac{\lambda ^{y_{3}}e^{-\lambda }}{y_{3}!}\)
Vi har alltså att \(L(\lambda)\) = \(\displaystyle \prod_{k=1}^{3} \textstyle \frac{ \lambda ^{y_{k}}e^{-\lambda }}{y_{k}!}\) = \(\frac{ \lambda ^{y_{1}}e^{-\lambda }} {y_{1}!} \cdot \frac{\lambda ^{y_{2}}e^{-\lambda }}{y_{2}!} \cdot \frac{\lambda ^{y_{3}}e^{-\lambda }}{y_{3}!}\) = \(\frac{1}{y_{1}!y_{2}!y_{3}!}\lambda ^{y_{1}+y_{2}+y_{3}}e^{-3\lambda }\)
Sammanfattning Exempel 1
Med stickprovsobservationerna \(y_{1}=1,y_{2}=3\) och \(y_{3}=4\),
och med alternativen \(\lambda =0.5, 3\) eller \(10\) att välja på,
får alltså \(L(\lambda)\) sitt största värde för \(\lambda = 3\) .
Det betyder att av de tre alternativen för värden på \(\lambda\) , så är det troligast att en Poissonfördelning med \(\lambda = 3\) har genererat det aktuella stickprovet.
Exempel 2
Vi utökar exemplet tidigare (med tre möjliga värden 0.5,3,10) till att omfatta hela definitionsområdet för \(\lambda\) , dvs \(\lambda >0\) . Dessutom låter vi stickprovsstorleken \(n\) vara godtycklig.
Då får vi
\(L(\lambda)\) = \(\displaystyle \prod_{k=1}^{n} \textstyle \frac{ \lambda ^{y_{k}}e^{-\lambda }}{y_{k}!}\) = \(\frac{1}{y_{1}!y_{2}!\cdot \cdot \cdot y_{n}!}\lambda ^{\sum y_{k}}e^{-n\lambda }\)
Anmärkning
Alla summor \(\sum\) i fortsättningen ska egentligen skrivas \(\displaystyle \sum_{k=1}^{n}\) , men det tar för mycket plats i alla uttryck, så därför skriver jag bara \(\sum\)
Givet de observerade värdena i stickprovet önskar vi nu pröva alla värden på \(\lambda\) för att sedan välja det som maximerar likelihooden. Hur gör vi detta?
För att hitta det värde på \(\lambda\) som maximerar \(L(\lambda)\) :
Derivera med avseende på \(\lambda\) och sätt derivatan lika med noll.
Lite deriveringshjälp innan vi fortsätter
Uttrycket för \(L(\lambda)\) kan sägas vara på formen \(b \cdot \lambda ^a \cdot e^{-n\lambda }\) .
För att derivera \(L\) med avseende på \(\lambda\) behöver produktregeln för derivering användas, som ger
\(\frac{dL\left( \lambda \right) }{d\lambda }\) = \(b \cdot \left( a\lambda ^{a-1} \cdot e^{-n\lambda } + \lambda ^a \cdot e^{-n\lambda }\cdot(-n) \right)\) = \(b \lambda ^{a-1} e^{-n\lambda } \left( a – n \lambda \right)\)
Fortsättning
Med \(b =\frac{1}{y_{1}!y_{2}!\cdot \cdot \cdot y_{n}!}\) och \(a=\sum y_{k}\) blir derivatan av \(L\) med avseende på \(\lambda\) följande:
\(\frac{dL\left( \lambda \right) }{d\lambda } =\frac{1}{y_{1}!y_{2}!\cdot\cdot \cdot y_{n}!}\) \(\cdot \left( \begin{array}{c}\sum y_{k}\lambda ^{\sum y_{k}-1}e^{-n\lambda } \\ -n\lambda ^{\sum y_{k}}e^{-n\lambda }\end{array}\right)\) = \(\frac{1}{y_{1}!y_{2}!\cdot \cdot \cdot y_{n}!}\) \(\cdot \lambda^{\sum y_{k}-1}\) \(\cdot e^{-n\lambda }\) \(\cdot \left( \sum y_{k}-n\lambda \right)\)
För att hitta det värde där detta uttryck blir lika med noll,
konstaterar vi att av de fyra faktorerna är alla garanterat större än noll, utom den sista som är lika med noll endast om
\(\sum y_{k}-n\lambda =0\) , vilket är ekvivalent med att
\(\lambda =\frac{\sum y_{k}}{n}=\bar{y}\)
Man kan kolla (t.ex. med andraderivatan) att det verkligen är ett maximum.
Slutsats Exempel 2
Ur detta följer att en lämlig estimator för \(\lambda\) enligt maximum-likelihood-metoden är följande:
\(\hat{\lambda} =\bar{Y}\)
Logaritmering
Ibland blir likelihood-funktionen lite besvärlig att derivera.
Då kan man logaritmera \(L(\theta)\) innan man deriverar.
Anledningen till att detta fungerar är att \(f(x)=ln x\) är en växande funktion. Det innebär att när \(L(\theta)\) växer, så växer även \(ln L(\theta)\) , och när \(L(\theta)\) avtar, så avtar även \(ln L(\theta)\) .
Så maximum för \(ln L(\theta)\) får man för samma värde på \(\theta\) som maximum för \(L(\theta)\) .
Men \(ln L(\theta)\) är ofta lättare att derivera.
Exempel 2 utfört med hjälp av logaritmering:
Vi har \(L(\lambda)\) = \(\displaystyle \prod_{k=1}^{n} \textstyle \frac{ \lambda ^{y_{k}}e^{-\lambda }}{y_{k}!}\)
Logaritmering och förenkling ger
\(\ln L\left( \lambda \right) =\ln \left( \prod \frac{\lambda^{y_{k}}e^{-\lambda }}{y_{k}!}\right)\) = \(\left( -\sum\ln \left( y_{k}!\right) \right)\) + \(\left(\sum y_{k} \right) \ln \lambda\) – \(n\lambda\)
Derivera med avseende på \(\lambda\) och sätt derivatan lika med noll.
\(\frac{d\ln L\left( \lambda \right) }{d\lambda }\) = \(0+\frac{\sum y_{k}}{\lambda }-n=0\) vilket ger
\(\lambda =\frac{\sum y_{k}}{n}=\bar{y}\)
Vi får alltså samma resultat här också!
Kollar med andraderivatan att det verkligen är ett maximum i punkten \(\lambda =\bar{y}\):
\(\frac{d^{2}\ln L\left( \lambda \right) }{\left( d\lambda \right) ^{2}}\) = \(-\frac{\sum y_{k}}{\lambda ^{2}}\)
Sätt in \(\bar{y}\) i stället för \(\lambda\) ;det ger
\(-\frac{\sum y_{k}}{\bar{y}^{2}}\) = \(-\frac{n\bar{y}}{\bar{y}^{2}}=-\frac{n}{\bar{y}}<0\)
Alltså ett maximum.
Kollar om M.L.-skattningen är väntevärdesriktig?
\(E\left( \hat{\lambda}\right)\) = \(E\left( \bar{Y}\right) =E\left( \frac{\sum Y_{k}}{n}\right)\) = \(\frac{1}{n}\sum_{k=1}^{n}E\left( Y_{k}\right)\) = \(\frac{1}{n}n\lambda\) = \(\lambda\)
Svar: Ja; M.L.-skattningen är väntevärdesriktig!
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });