Kap4del6 – Statistik B teori

Gammafördelningen (Kap 4.6)

Vi har redan gjort en del av kapitel 4.6.

Vi har gjort slutet av kapitel 4.6, som handlar om Exponentialfördelningen.

I kursboken behandlas Exponentialfördelningen som ett specialfall av Gammafördelningen.

Men här har vi istället gått igenom Exponentialfördelningen först, för att nu övergå till den mer generella Gammafördelningen.

Men först lite matematik

Matematik om fakultet och gammafunktion

Fakultet

Vi har använt“n-fakultet” redan under kursen, men vill du ta en extratitt kan du kolla här:[http://www.matteboken.se/lektioner/matte-5/kombinatorik/permutationer] under rubriken n-fakultet

Vi sammanfattar några av de första värdena:

\(n\)	\(n!\)
0	1
1	1
2	2
3	6

I grafen nedan känner vi alltså till bara de markerade punkterna. Kan det finnas någon funktion som “fyller i resten”, så att en sådan kurva som nedan uppstår, som förbinder punkterna?

Svaret kommer här:

Gammafunktionen

Matematikerna har lyckats skapa en funktion f(x) som fungerar så (att den “fyller i resten”). Den funktionen kallas gammafunktionen och betecknas \(\Gamma(x)\).

Gammafunktionen är dock förskjuten ett steg jämfört med n-fakultet:

\(x\)	\(\Gamma(x)\)
1	1
2	1
3	2
4	6

För att skapa värdena för \(\Gamma(x)\) mellan heltalen finns en beskrivning som inte ser ut som en funktionsformel, som vi är vana vid. Såhär ser definitionen ut:

\(\Gamma(x) =\displaystyle \int_0^{\infty} t^{x-1}e^{-t}\ dt\)

Det är inte ens så att integralen kan bestämmas exakt med de metoder som finns för integraler, utan man får beräkna värdena numeriskt.

Det finns dock några undantag. T.ex. för heltalen kan integralen bestämmas exakt.

Se dokumentet GammaIntegral.pdf

Där härleds värdena i tabellen med hjälp av definitionen.

\(\alpha\)	\(\Gamma(\alpha)\)
1	1
2	1
3	2
4	6

Det är precis samma tabell som ovan, fast jag har ändrat från \(x\) till \(\alpha\).

För att följa bokens beteckningar, har jag också ändrat integrationsvariabeln från \(t\) till \(y\), dvs definitionen av gammafunktionen har skrivits såhär i dokumentet:

\(\Gamma(\alpha) =\displaystyle \int_0^{\infty} y^{\alpha-1}e^{-y}\ dy\)

För de värden som inte är heltal, har beräkningarna gjorts med hjälp av dator. Här är några av värdena (avrundade till 4 decimaler):

\(\alpha\)	\(\Gamma(\alpha)\)
1.0	1.0000
1.2	0.9182
1.4	0.8873
1.6	0.8935
1.8	0.9314
2.0	1.0000
2.2	1.1018
2.4	1.2422
2.6	1.4296
2.8	1.6765
3.0	2.0000
3.2	2.4240
3.4	2.9812
3.6	3.7170
3.8	4.6942
4.0	6.0000

Jämförelse mellan gammafunktionen och fakultet

En skillnad: Förskjutningen

Förskjutningen mellan n-fakultet och Gammafunktionen kan uttryckas såhär:
\(\Gamma(n)=(n-1)!\)

(Variabeln \(n\) används normalt för att beteckna heltal)

Exempel: \(\Gamma(4)=3!=3 \cdot 2 \cdot 1=6\)

Likhet: En viktig egenskap

Egenskapen \(\Gamma (x+1)=x \cdot \Gamma (x)\) gäller för alla värden, inte bara heltalen!

Exempel heltal: \(\Gamma(5)=4 \cdot \Gamma(4)\)

Kom ihåg att \(\Gamma(5)=4!=24\) och att \(\Gamma(4)=6\)

Exempel ej heltal: \(\Gamma(2.8)=1.8 \cdot \Gamma(1.8)\)

Om du kollar i tabellen ser du att \(\Gamma(2.8) \approx 1.6765\) och att \(\Gamma(1.8) \approx 0.9314\)

Och \(1.8 \cdot 0.9314\) blir \(1.6765\)

Övningar

12a) Skriv ut den integral som ger värdet för \(\Gamma(2.4)\)

12b) Vilket värde har \(\alpha\) i \(\Gamma(\alpha)\) om \(\Gamma(\alpha)=\displaystyle \int_0^{\infty} y^5e^{-y}\ dy\)

Svar Exempel 12
12a) \(\Gamma(2.4) =\displaystyle \int_0^{\infty} y^{1.4}e^{-y}\ dy\)

12b) \(\alpha=6\)

Nu till själva Gammafördelningen

Gammafördelningen kan betraktas som en generalisering av Exponentialfördelningen.

Kort resumé om Exponentialfördelningen

Vi har en händelse som inträffar slumpmässigt med avseende på tid/avstånd/volym etc. Det “genomsnittliga beteendet” är \(\lambda\) händelser per enhet.

Låt \(Y\) vara tiden eller sträckan eller … (beroende på enhet) till den första händelsen.

Då har vi \(E(Y)=\frac{1}{\lambda}=\beta\)

Vi kommer i fortsättningen att använda kursbokens beteckning och skriva \(Y \sim Exp(\beta)\).

(När det genomsnittliga avståndet mellan händelserna är \(\beta\), så blir då det genomsnittliga antalet händelser per enhet \(\frac{1}{\beta}\).)

Vad Gammafördelningen tillför

Om \(Y\) är tiden eller sträckan eller … (beroende på enhet) till den \(\alpha\):te händelsen, så klarar Gammafördelningen av den situationen. Exponentialfördelningen klarar bara av situationen där \(\alpha=1\).

(Gammafördelningen klarar t.o.m. av att \(\alpha\) är andra tal än heltal.)

Exempel på Gammafördelningssituation

Vid tillverkning av koppartråd uppstår det små skador slumpmässigt utefter tråden. Man känner till att det i genomsnitt uppstår 5 skador per meter.

Låt \(Y\) = antal meter tills den tredje skadan kommer.
Då säger man att Y följer en Gammafördelning med \(\alpha=3\) och \(\beta =\frac{1}{5}\).

Om sannolikhetsfördelningen för \(\alpha=3\)

Målet är att komma fram till en formel för täthetsfunktionen f(y).
Det visar sig vara enklare att kommma fram till en formel för fördelningsfunktionen F(y), så vi börjar med den:

F(0.4) med \(\beta=\frac{1}{5}\)

För att inse principen för beräkning av F(y), börjar vi med ett bestämt värde; y = 0.4.

\(F(0.4)=P(Y \leq 0.4)=1-P(Y > 0.4)\)

Vi fokuserar först på att beräkna \(P(Y > 0.4)\):
Att sträckan till tredje skadan överstiger 0.4 meter, är samma sak som att det är högst 2 skador på de första 0.4 meterna av tråden.

Den sannolikheten kan vi beräkna med hjälp av en Poissonfördelning:
Låt X vara antalet skador på 0.4 meter. Eftersom det i genomsnitt är 5 skador per meter, blir det i genomsnitt 2 skador på 0.4 meter.
Detta innebär att \(X \sim Po(2)\), med \(p(x)=\frac{2^x}{x \ !} \cdot e^{-2}\).

Eftersom Y = antal meter till den tredje skadan, blir då \(P(Y >0.4)=P(X<3)=\) \(p(0)+p(1)+p(2)=\frac{2^0}{0 \ !} \cdot e^{-2}+\frac{2^1}{1 \ !} \cdot e^{-2}+\frac{2^2}{2 \ !} \cdot e^{-2}\)

Följaktligen får vi \(F(0.4)=P(Y \leq 0.4)=\) \(1-P(Y > 0.4)=1- \left( \frac{2^0}{0 \ !} \cdot e^{-2}+\frac{2^1}{1 \ !} \cdot e^{-2}+\frac{2^2}{2 \ !} \cdot e^{-2} \right) \approx 0.3233\)

F(y) med \(\beta=\frac{1}{5}\)

Nu dags för ett allmänt värde på y för samma exempel:

\(F(y)=P(Y \leq y)=1-P(Y > y)\)

Låt nu X vara antalet skador på y meter. Eftersom det i genomsnitt är 5 skador per meter, blir det i genomsnitt 5y skador på y meter.
Detta innebär att \(X \sim Po(5y)\), med \(p(x)=\frac{(5y)^x}{x \ !} \cdot e^{-5y}\)

Vi får då

\(F(y)=P(Y \leq y)=1-P(Y > y)=\) \(1-P(X<3)=1-(p(0)+p(1)+p(2))=\) \(1- \left( \frac{(5y)^0}{0 \ !} \cdot e^{-5y}+\frac{(5y)^1}{1 \ !} \cdot e^{-5y}+\frac{(5y)^2}{2 \ !} \cdot e^{-5y} \right)\).

F(y) med allmänt \(\beta=\frac{1}{\lambda}\)

Den här gången byter vi även ut “\(5\)” mot “\(\lambda\)”.

\(F(y)=P(Y \leq y)=1-P(Y > y)\)

Låt nu X vara antalet skador på y meter. Eftersom det i genomsnitt är \(\lambda\) skador per meter, blir det i genomsnitt \(\lambda y\) skador på y meter.
Detta innebär att \(X \sim Po(\lambda y)\), med \(p(x)=\frac{(\lambda y)^x}{x \ !} \cdot e^{-\lambda y}\)

Vi får då

\(F(y)=P(Y \leq y)=1-P(Y > y)=\) \(1-P(X<3)=1-(p(0)+p(1)+p(2))=\) \(1-\left( \frac{(\lambda y)^0}{0 \ !} \cdot e^{-\lambda y}+\frac{(\lambda y)^1}{1 \ !} \cdot e^{-\lambda y}+\frac{(\lambda y)^2}{2 \ !} \cdot e^{-\lambda y} \right)\)

f(y) med allmänt \(\lambda\)

Vi har nu formeln för fördelningsfunktionen; \(F(y)=1-\frac{(\lambda y)^0}{0 \ !} \cdot e^{-\lambda y}-\frac{(\lambda y)^1}{1 \ !} \cdot e^{-\lambda y}-\frac{(\lambda y)^2}{2 \ !} \cdot e^{-\lambda y}\)

För att få fram täthetsfunktionen, deriverar vi \(F(y)\), eftersom \(f(y)=F'(y)\):

OBSERVERA att för derivering av de två sista termerna behöver produktregeln användas. Om vi räknar med den första termen i uttrycket för \(f(y)\) (som blir noll) får vi då totalt 6 termer. Den första blir noll och de kommande fyra tar ut varandra parvis, så kvar blir bara \(f(y)=\frac{1}{2} \lambda ^3 y^2 e^{-\lambda y}\)

Derivering utförd i detalj, se detta dokument: DerivF.pdf

Täthetsfunktionen…

.. för \(\alpha=3\) blir alltså \(f(y)= \displaystyle \lambda ^3 \cdot \frac{y^2 e^{-\lambda y}}{2}\)

På motsvarande sätt skulle vi för \(\alpha=4\) få \(f(y)= \displaystyle \lambda ^4 \cdot \frac{y^3 e^{-\lambda y}}{6}\)

Allmänt om \(\alpha\) är heltal, får vi
\(f(y)= \displaystyle \lambda ^\alpha \cdot \frac{y^{\alpha-1} e^{-\lambda y}}{(\alpha-1)!}\)

Eftersom fördelningen även är definierad för värden på \(\alpha\) som inte är heltal, kan vi inte skriva \((\alpha-1)!\) i nämnaren, utan vi måste ersätta det med det generella \(\Gamma(\alpha)\).

Om vi dessutom tillämpar bokens beteckning där \(\beta=\frac{1}{\lambda}\), vilket ger \(\lambda=\frac{1}{\beta}\),

får vi följande: \(f(y)= \displaystyle \lambda ^\alpha \cdot \frac{y^{\alpha-1} e^{-\lambda y}}{(\alpha-1)!}=\) \(\displaystyle \frac{1}{\beta ^\alpha} \cdot \frac{y^{\alpha-1} e^{- \frac{y}{\beta }}}{\Gamma(\alpha)}=\) \(\displaystyle \frac{y^{\alpha-1} \ e^{- y/ \beta}}{\beta ^\alpha \ \Gamma(\alpha)}\)

Allmänt

Vi har en händelse som inträffar slumpmässigt med avseende på tid/avstånd/volym etc. Det “genomsnittliga beteendet” är att tiden eller sträckan eller … (beroende på enhet) mellan två händelser är \(\beta\).

Låt \(Y\) vara tiden eller sträckan eller … (beroende på enhet) till den \(\alpha\):te händelsen.

Vi säger då att \(Y\) följer en Gammafördelning med \(Y >0\)*
där parametrarna \(\alpha\) och \(\beta\) entydigt beskriver sannolikhetsfördelningen.

Vi skriver \(Y \sim Gamma(\alpha, \beta)\)

*Värdet på slumpvariabeln måste vara positivt, eftersom det handlar om en tid eller en sträcka eller dylikt.

Allmänna egenskaper för \(Y \sim Gamma(\alpha, \beta)\)

Täthetsfunktion: \(f(y)=\displaystyle \frac{y^{\alpha-1} \ e^{- y/ \beta}}{\beta ^\alpha \ \Gamma(\alpha)}, \ \ y > 0\)

Visar att \(f(y) \geq 0\) för \(-\infty < y < \infty\):

För \(-\infty < y < 0\) gäller \(f(y)=0\).
För \(0 < y < \infty\) gäller att \(f(y)\) är positivt p.g.a att alla fyra faktorer som ingår i uttrycket är positiva.

Slutsatsen blir att \(f(y) \geq 0\) för alla värden på y (i båda områdena.)

Visar att totala arean under f(y) är 1, dvs att \(\displaystyle \int_{-\infty}^{\infty} f(y) \ dy =1\):

\(\displaystyle \int_{-\infty}^{\infty} f(y) \ dy =\int_0^{\infty} \frac{y^{\alpha-1} \ e^{- y/ \beta}}{\beta ^\alpha \ \Gamma(\alpha)} \ dy\)

Tyvärr är det svårt att visa att denna integral blir 1, så vi får lita på att det är riktigt.

Väntevärde:

Logiskt resonerat: Vi har en situation där det “genomsnittliga beteendet” är att tiden eller sträckan eller … (beroende på enhet) mellan två händelser är \(\beta\).

(\(\beta\) minuter mellan händelserna, \(\beta\) meter mellan händelserna, etc.)

Eftersom \(Y\) är tiden eller sträckan eller … (beroende på enhet) till den \(\alpha\):te händelsen, borde det förväntade värdet för \(Y\) vara \(\alpha \beta\) .

Visar att \(E(Y)=\alpha \beta\) :

I beviset använder vi att vi vet att \(\displaystyle \int_0^{\infty} \frac{y^{\alpha-1} \ e^{- y/ \beta}}{\beta ^\alpha \ \Gamma(\alpha)} \ dy=1\)

Eftersom \(\beta ^\alpha\) och \(\Gamma(\alpha)\) är konstanter i integralen, följer att

\(\displaystyle \int_0^{\infty} y^{\alpha-1} \ e^{- y/ \beta} \ dy=\beta ^\alpha \ \Gamma(\alpha)\)

(Exempel 12c, för att lättare se vad som händer i beviset:

Bestäm\(\displaystyle \int_0^{\infty} y^4 \ e^{- y/2} \ dy\)

12c Svaret blir \(2^5 \cdot \Gamma(5)=32 \cdot 4!=768\) )

Dags för \(E(Y)\):

\(\displaystyle E(Y)=\int_{-\infty}^{\infty} y f(y) \ dy =\) \(\displaystyle \int_{-\infty}^0 0 \ dy\) + \(\displaystyle \int_0^{\infty} \frac{y \cdot y^{\alpha-1} \ e^{- y/ \beta}}{\beta ^\alpha \ \Gamma(\alpha)} \ dy=\) \(\displaystyle \int_0^{\infty} \frac{y^\alpha \ e^{- y/ \beta}}{\beta ^\alpha \ \Gamma(\alpha)} \ dy=\) \(\displaystyle \frac{1}{\beta ^\alpha \ \Gamma(\alpha)}\int_0^{\infty} y^\alpha e^{- y/ \beta}\ dy=\) \(\displaystyle \frac{1}{\beta ^\alpha \ \Gamma(\alpha)} \left(\beta ^{\alpha +1} \ \Gamma(\alpha+1) \right)=\) \(\displaystyle \frac{\beta ^{\alpha +1} \ \Gamma(\alpha+1)}{\beta ^\alpha \Gamma(\alpha)}=\) \(\displaystyle \frac{\beta \cdot \alpha \cdot \Gamma(\alpha)} { \Gamma(\alpha)}=\beta \alpha\)

I näst sista steget användes egenskapen \(\Gamma (x+1)=x \cdot \Gamma (x)\) som gäller för alla värden \(x\).

Varians

\(V(Y)=\alpha \beta ^2\)

Beviset blir en övning nedan.

Övningar

Exempel 13
13a) Till en viss affär anländer kunder slumpmässigt; i genomsnitt kommer det in 20 kunder per timme.
Bestäm sannolikheten för att affärsinnehavaren behöver vänta mer än 30 minuter tills den sjätte kunden kommer.

13b) Vid tillverkning av koppartråd uppstår det små skador slumpmässigt utefter tråden. Man känner till att det i genomsnitt uppstår 5 skador per meter.
Bestäm sannolikheten för att det är högst 0.4 meter till den tredje skadan.

13c) Visa att \(V(Y)=\alpha \beta ^2\) för \(Y \sim Gamma(\alpha, \beta)\) .

Lösning

13a)
Bilda slumpvariabeln \(Y\) =tiden i minuter tills den sjätte kunden kommer. Då har vi \(\alpha=6\).

Med tidsenheten minuter har vi \(\beta=3\) (Om det kommer 20 kunder per timme, blir det i genomsnitt 3 minuter mellan varje kund).

Lösningsalternativ 1 Använd \(Y \sim Gamma(6,3)\)

Vi får följande täthetsfunktion för vår slumpvariabel: \(f(y)=\displaystyle \frac{y^5 \ e^{- y/3}}{3 ^6 \ \Gamma(6)}\)

Så \(P(Y > 30)=\displaystyle \int_{30}^{\infty} \frac{y^5 \ e^{- y/3}}{3 ^6 \ \Gamma(6)} \ dy\)

Det kommer att ta tid att lösa denna integral…

Lösningsalternativ 2
Utnyttja Poissonfördelningen istället:
Om det dröjer mer än 30 minuter tills den sjätte kunden kommer, betyder det att det på de första 15 minuterna har kommit max 5 kunder.
Låt X vara antalet kunder på 30 minuter. Eftersom det i genomsnitt är 3 minuter mellan kunderna, blir det i genomsnitt 10 kunder på 30 minuter.
Detta innebär att \(X \sim Po(10)\), med \(p(x)=\frac{10^x}{x \ !} \cdot e^{-10}\).

Svaret på 13a blir då
\(P(X < 6)=p(0)+p(1)+p(2)+p(3)+p(4)+p(5)=\) \(\frac{10^0}{0 \ !} \cdot e^{-10}+\frac{10^1}{1 \ !} \cdot e^{-10}+\frac{10^2}{2 \ !} \cdot e^{-10}+\frac{10^3}{3 \ !} \cdot e^{-10}+\frac{10^4}{4 \ !} \cdot e^{-10}+\frac{10^5}{5 \ !} \cdot e^{-10} \approx 0.0671\)

TIPS: Det snabbaste sättet att få fram \(P(X \leq 5)\) för \(X \sim Po(10)\) är att kolla i tabellen där du direkt finner svaret avrundat till 4 decimaler: 0.0671

13b) Använd lösningsalternativ 2.
Svaret är ca 0.3233.

Lösningen finns under rubriken “Exempel på Gammafördelningen” tidigare, där F(0.4) beräknas.
Men det går ännu fortare om du använder tabellvärdet för Po(2) direkt; 0.6767. Du behöver bara inse hur tabellen fungerar, så att du förstår varför du tar 1-0.6767.

13c)
Vi använder \(V(Y)=E(Y^2)-(E(Y))^2\)

För att få fram \(E(Y^2)\) används samma teknik som ovan, i härledningen för \(E(Y)\)

(Se beviset av sats 4.8 i kursboken)

VARNING

Använd lösningsalternativ 2 för sådana uppgifter som Exempel 13ab. (Lösningsalternativ 1 tar för lång tid, och innehåller så många moment att risken för fel blir stor.)