Kap4Del4 – Statistik B teori

Chapter 4 Continous Random Variables

Kapitel 4.4-4.7: Speciella kontinuerliga sannolikhetsfördelningar,forts

Exponentialfördelningen

Exponentialfördelningen nämns i boken bara som ett specialfall av Gammafördelningen, i slutet av kap 4.6)

Exponentialfördelningen är relaterad till Poissonfördelningen, som vi gick igenom i kapitel 3.8.

Båda fördelningerna hanterar samma situation:

Situationen är: Vi har en händelse som inträffar slumpmässigt med avseende på tid/avstånd/volym etc. Det “genomsnittliga beteendet” är \(\lambda\) händelser per enhet.
(Om vi har tid och enheten minut är det i genomsnitt \(\lambda\) händelser per minut; om vi har sträcka och enheten meter är det i genomsnitt \(\lambda\) händelser per meter, etc.)

Poissonfördelningens perspektiv på situationen (repetition):

Slumpvariabeln \(Y\) = antalet händelser som inträffar på en viss enhet. (antalet händelser under en viss minut, antalet händelser på en viss meter etc.)

Vi skriver då \(Y \sim Po(\lambda)\)

och vi har \(p(y)=\frac{\lambda^y}{y \ !} \cdot e^{-\lambda}\) (för y=0,1,2,…)

Exponentialfördelningens perspektiv på samma situation (nytt):

Slumpvariabeln Y anger här tiden eller sträckan eller … (beroende på enhet) till nästa händelse.

Vi skriver då \(Y \sim Exp(\lambda)\)

Anmärkning

I kursboken används istället parametern \(\beta\).
Sambandet är att \(\beta=\frac{1}{\lambda}\)

Exempel på Exponentialfördelningssituation

Vid tillverkning av koppartråd uppstår det små skador slumpmässigt utefter tråden. Man känner till att det i genomsnitt uppstår 5 skador per meter.

Låt \(Y\) = antal meter till den första skadan.
Då säger man att \(Y\) följer en Exponentialfördelning.

Om sannolikhetsfördelningen

Målet är att komma fram till en formel för täthetsfunktionen \(f(y)\).

Det visar sig vara enklare att kommma fram till en formel för fördelningsfunktionen \(F(y)\), så vi börjar med den.

\(F(0.4)\) med \(\lambda=5\)

För att inse principen för beräkning av F(y), börjar vi med ett bestämt värde; y = 0.4.

\(F(0.4)=P(Y \leq 0.4)=\) \(1-P(Y > 0.4)\)

Vi fokuserar först på att beräkna \(P(Y > 0.4)\):

Att sträckan till första skadan överstiger 0.4 meter, är samma sak som att säga att det är ingen skada på de första 0.4 meterna av tråden.

Den sannolikheten kan vi beräkna med hjälp av en Poissonfördelning:

Låt \(X\) vara antalet skador på 0.4 meter. Eftersom det i genomsnitt är 5 skador per meter, blir det i genomsnitt 2 skador på 0.4 meter.

Detta innebär att \(X \sim Po(2)\), med \(p(x)=\frac{2^x}{x \ !} \cdot e^{-2}\).

Eftersom \(Y\) = antal meter till den första skadan, blir då \(P(Y >0.4)=P(X=0)=\) \(p(0)=\frac{2^0}{0 \ !} \cdot e^{-2}=e^{-2}\)

Följaktligen får vi \(F(0.4)=P(Y \leq 0.4)=\) \(1-P(Y > 0.4)=1-e^{-2}\) \(\approx 0.8647\)

\(F(y)\) med \(\lambda=5\)

Nu dags för ett allmänt värde på y för samma exempel:

\(F(y)=P(Y \leq y)=1-P(Y > y)\)

Låt nu \(X\) vara antalet skador på y meter. Eftersom det i genomsnitt är 5 skador per meter, blir det i genomsnitt 5y skador på y meter.

Detta innebär att \(X \sim Po(5y)\), med \(p(x)=\frac{(5y)^x}{x \ !} \cdot e^{-5y}\)

Vi får då

\(F(y)=P(Y \leq y)=\) \(1-P(Y > y)=\) \(1-P(X=0)=1-p(0)=\) \(1-\frac{(5y)^0}{0 \ !} \cdot e^{-5y}=\) \(1-e^{-5y}\).

\(F(y)\) med allmänt \(\lambda\)

Den här gången byter vi även ut “\(5\)” mot “\(\lambda\)”.

\(F(y)=P(Y \leq y)\) \(=1-P(Y > y)\)

Låt nu \(X\) vara antalet skador på y meter. Eftersom det i genomsnitt är \(\lambda\) skador per meter, blir det i genomsnitt \(\lambda y\) skador på y meter.

Detta innebär att \(X \sim Po(\lambda y)\), med \(p(x)=\frac{(\lambda y)^x}{x \ !} \cdot e^{-\lambda y}\)

Vi får då

\(F(y)=P(Y \leq y)=\) \(1-P(Y > y)=\) \(1-P(X=0)=1-p(0)=\) \(1-\frac{(\lambda y)^0}{0 \ !} \cdot e^{-\lambda y}=\) \(1-e^{-\lambda y}\).

\(f(y)\) med allmänt \(\lambda\)

Vi har nu formeln för fördelningsfunktionen; \(F(y)=1-e^{-\lambda y}\).

Då är det inte svårt att få fram täthetsfunktionen, eftersom \(f(y)=F'(y)\):

\(f(y)=0-e^{-\lambda y}\cdot (-\lambda)=\lambda e^{-\lambda y}\)

Allmänt

Vi har en händelse som inträffar slumpmässigt med avseende på tid/avstånd/volym etc. Det “genomsnittliga beteendet” är \(\lambda\) händelser per enhet.
(Om vi har tid och enheten minut är det i genomsnitt \(\lambda\) händelser per minut; om vi har sträcka och enheten meter är det i genomsnitt \(\lambda\) händelser per meter, etc.) Låt Y vara tiden eller sträckan eller … (beroende på enhet) till nästa händelse.

Vi säger då att Y följer en Exponentialfördelning med \(Y >0\)*
där parametern \(\lambda\) entydigt beskriver sannolikhetsfördelningen.

Vi skriver \(Y \sim Exp(\lambda)\)

*Värdet på slumpvariabeln måste vara positivt, eftersom det handlar om en tid eller en sträcka eller dylikt.

Alternativt kan en exponentialfördelad slumpvariabel beskrivas som \(Y \sim Exp(\beta)\) där \(\beta=\frac{1}{\lambda}\)

Allmänna egenskaper för \(Y \sim Exp(\lambda)\)

Täthetsfunktion: \(f(y)=\lambda e^{-\lambda y} \ \ y > 0\)

Visar att \(f(y) \geq 0\) för \(-\infty < y < \infty\):

För \(-\infty < y < 0\) gäller \(f(y)=0\).
För \({\theta}_2 < y < \infty\) gäller \(f(y)=\lambda \cdot e^{-\lambda y}\), vilket är positivt p.g.a att båda faktorerna \(\lambda\) och \(e^{-\lambda y}\) är positiva (ett positivt tal upphöjt till något blir alltid positivt). Slutsatsen blir att \(f(y) \geq 0\) för alla värden på y (i båda områdena.)

Visar att totala arean under f(y) är 1, dvs att \(\displaystyle \int_{-\infty}^{\infty} f(y) \ dy =1\):

\(\displaystyle \int_{-\infty}^{\infty} f(y) \ dy =\int_0^{\infty} \lambda e^{-\lambda y} \ dy=\) \(\displaystyle \left[ \lambda \frac{e^{-\lambda y}}{-\lambda} \right]_0^{\infty} =\) \(\displaystyle \left[ -{e^{-\lambda y}} \right]_0^{\infty} =\) \(-e^{-\lambda \cdot \infty}- \displaystyle \left( -e^{-\lambda \cdot 0} \right)=\) \(-e^{-\infty}-(-e^0)=0-(-1)=1\)

Anmärkning Vi har här löst en så kallad generaliserad integral (ena gränsen vi “stoppade in” i funktionsuttrycket var oändligt ).
Vi tolkar då \(e^{-\infty}\) på samma sätt som \(\displaystyle \lim_{y\rightarrow -\infty} e^y\), vilket blir 0.

Det är intressant att arean bara blir 1, eftersom området är oändligt långt.

Se t.ex. grafen för täthetsfunktionen \(Y \sim Exp(\lambda=5)\), dvs \(f(y)=5 e^{-5 y}, \ \ y > 0\)
Arean av det färgade området är 1, trots att området sträcker sig oändligt långt bort åt höger:

Vi kan också titta på grafen inför resonemanget om väntevärde nedan, eftersom den fysikaliska tolkningen av väntevärdet är tyngdpunkten för den färgade “sannolikhetsmassan”.

Väntevärde:

Logiskt resonerat: Vi har en situation med ett genomsnitt på \(\lambda\) händelser per enhet. (\(\lambda\) händelser per minut, \(\lambda\) händelser per meter etc.)

Kom ihåg att \(Y\) anger tiden eller sträckan eller … (beroende på enhet) till nästa händelse.

Om det är i genomsnitt \(\lambda\) händelser per enhet, kommer det att vara i genomsnitt \(\frac{1}{\lambda}\) mellan händelserna.

(\(\frac{1}{\lambda}\) minut mellan händelserna, \(\frac{1}{\lambda}\) meter mellan händelserna, etc.)

I exemplet med koppartråden är det i genomsnitt 5 skador per meter, så då är det i genomsnitt 1/5 meter mellan skadorna.
(Det verkar också stämma med tyngdpunkten i figuren ovan; det är rimligt att den är mittför 0.2)

Visar att \(E(Y)=\frac{1}{\lambda}\) :

\(\displaystyle E(Y)=\int_{-\infty}^{\infty} y f(y) \ dy =\) \(\displaystyle \int_{-\infty}^0 0 \ dy\) + \(\displaystyle \int_0^{\infty} \lambda y e^{-\lambda y} \ dy\)

Här stöter vi på en typ av integral, som vi inte direkt kan lösa. Det beror på att funktionen som vi ska hitta primitiv funktion till (\(\lambda y e^{-\lambda y}\)) är en produkt av två olika funktioner: \(\lambda y\) och \(e^{-\lambda y}\)

Matematik-hjälp

Börja med att kolla följande video, där han går igenom hur man hanterar en produkt.
Metoden kallas Partiell integration eller Partialintegration :

länk: [https://www.youtube.com/watch?v=EW0BMHk1HQg]

Slutsatsen från den genomgången är att metoden för Partiell integration kan beskrivas såhär:
\(\int f(x)g(x)\ dx=\) \(F(x)g(x)- \int F(x)g'(x)\ dx\)

Det spelar ingen roll vad variabeln “heter”, så vi kan likaväl beskriva metoden såhär:
\(\int f(y)g(y)\ dy=F(y)g(y)- \int F(y)g'(y)\ dy\)

Med gränser i integralen ger metoden: \(\displaystyle \int_a^b f(y)g(y)\ dy=\) \(\displaystyle \left[ F(y)g(y) \right]_a^b – \int_a^b F(y)g'(y)\ dy\) (PI)

För att lösa integralen \(\displaystyle \int_0^{\infty} \lambda y e^{-\lambda y} \ dy\)
låter vi \(f(y)= e^{-\lambda y}\) och \(g(y)= \lambda y\).

Dags att ta itu med \(\displaystyle \int_0^{\infty} e^{-\lambda y} \lambda y \ dy\) där vi nu tillämpar metoden (PI):

\(\displaystyle \int_0^{\infty} e^{-\lambda y} \lambda y \ dy=\) \(\displaystyle \left[ \frac{e^{-\lambda y}}{-\lambda} \lambda y \right]_0^{\infty} – \int_0^{\infty} \frac{e^{-\lambda y}}{-\lambda} \lambda\ dy=\) \(\displaystyle \left[y e^{-\lambda y} \right]_0^{\infty} + \int_0^{\infty} e^{-\lambda y} dy=\) \(\displaystyle \left[y e^{-\lambda y} \right]_0^{\infty} + \left[\frac{e^{-\lambda y}}{-\lambda} \right]_0^{\infty}=\) \((0*-0)+\left(0-\frac{1}{-\lambda} \right)=\frac{1}{\lambda}\)

*Kommentar till uttrycket \(y e^{-\lambda y}\) när vi stoppar in \(\infty\):

Se exempel 1d i inledningen till kapitel 4

Sammanfattning av beviset för att att \(E(Y)=\frac{1}{\lambda}\) :

\(\displaystyle E(Y)=\int_{-\infty}^{\infty} y f(y) \ dy =\) \(\displaystyle \int_{-\infty}^0 0 \ dy\) + \(\displaystyle \int_0^{\infty} \lambda y e^{-\lambda y} \ dy=\) \(0+\frac{1}{\lambda}=\frac{1}{\lambda}\)

Varians:

\(V(Y)=\frac{1}{{\lambda}^2}\)

Formeln för variansen visas på samma sätt som formeln för väntevärdet, men man behöver göra “två varv” med Partiell Integration (PI).

Övningar

Exempel 11
Vid tillverkning av koppartråd uppstår det små skador slumpmässigt utefter tråden. Man känner till att det i genomsnitt uppstår 5 skador per meter. Låt Y = antal meter till den första skadan.

11a) Bestäm sannolikheten för att det dröjer mellan 0.1 och 0.3 meter till den första skadan.

11b) Bestäm sannolikheten för att dröjer mer än en meter till den första skadan.

11c) Utför härledningen av E(Y).

11d) Bestäm standardavvikelsen för Y.

Svar Exempel 11

11a) ca 38.34 %

11b) ca 0.67 %

11c) Följ härledningen ovan för E(Y), men byt \(\lambda\) mot 5.

11d) 4 cm