Chapter 3 Discrete Random Variables
Kapitel 3.4-3.8 + lite till: Speciella diskreta sannolikhetsfördelningar
Vissa sannolikhetsfördelningar är så vanligt förekommande, att de fått egna namn.
Vi har haft några exempel på sannolikhetsfördelningar tidigare i kapitel 3, t.ex. exempel 4. Slumpvariabeln \(Y\) hade där följande fördelning:
\(y\) | \(p(y)\) |
---|---|
2 | 0.25 |
4 | 0.50 |
6 | 0.25 |
Den här sannolikhetsfördelningen har inget eget namn, men nu ska vi presentera några välkända fördelningar med egna namn:
Likformig diskret fördelning se nedan
Bernoullifördelning se nedan
Binomialfördelning i kapitel 3.4
Geometrisk fördelning i kapitel 3.5
Negativ binomialfördelning i kapitel 3.6
Hypergeometrisk fördelning i kapitel 3.7
Poissonfördelning i kapitel 3.8
Vi kommer att gå igenom i vilka situationer som de olika fördelningarna kan användas. Utgående från situation kommer vi att härleda motsvarande formel för sannolikhetsfördelningen \(p(y)\).
Vi kommer också att behöva formler för väntevärde och varians/standardavvikelse. Dessa formler kommer vi i flera fall att härleda.
Sedan behöver ni förstås träna på att använda rätt fördelning i en praktisk situation.
Först om en beteckning: q = 1-p
I samband med Bernoullifördelning och de efterföljande fördelningarna i kapitlen 3.4, 3.5, 3.6 och 3.7 används ofta beteckningen \(q\).
Den ska tolkas som \(1-p\).
Exempel
Om p=0.2 är sannolikheten att vinna på en lott,
är q=0.8 sannolikheten för det motsatta; att inte vinna.
Likformig diskret fördelning
Exempel
Tänk dig ett “lotteri-hjul” med fyra lika stora fält, numrerade 11,12,13,14.
Om man snurrar på hjulet, och låter Y vara det värde som markören stannar på, får Y en likformig diskret fördelning.
Det innnebär att det är samma sannolikhet för alla de fyra möjliga värdena 11,12,13,14.
Härledningen för formeln för p(y) för den här sannolikhetsfördelningen är enkel,
eftersom det finns 4 möjliga värden som alla är lika sannolika.
Slutsats: \(p(y)=\frac{1}{4}\)
Det ger:
\(y\) | \(p(y)\) |
---|---|
11 | 0.25 |
12 | 0.25 |
13 | 0.25 |
14 | 0.25 |
Allmänt
Om Y har en likformig diskret fördelning med \(S_Y=\{a, a+1, …, b\}\),
där \(b=a+n-1\) så att vi har n stycken olika värden,
skriver vi \(Y \sim U(a,b)\)
Vi får följande egenskaper för slumpvariabeln Y:
\(p(y)=\frac{1}{n}\) (för värdena som finns i utfallsrummet)
Väntevärde: \(E(Y)=\frac{a+b}{2}\)
Varians: \(V(Y)=\frac{(b-a+1)^2-1}{12}\)
Exempel
Exempel 10:
10a) Härled formeln för E(Y) för en likformig fördelning.
10b) Använd formeln för V(Y) ovan för att bestämma variansen för slumpvariabeln Y, där Y=resultatet av ett tärningskast.
Lösning
10a) \(\displaystyle E(Y)=\sum_{y\in S} (y \cdot p(y))=\)
Eftersom \(S_Y=\{a, a+1, …, b\}\), och vi har n stycken olika värden och \(p(y)=\frac{1}{n}\), så får vi
\(\displaystyle E(Y)=\sum_{y=a}^b y \cdot \frac{1}{n} =\) \(a\cdot \frac{1}{n}+\) \((a+1)\cdot \frac{1}{n}+…\) \(+(b-1)\cdot \frac{1}{n}+\) \(b\cdot \frac{1}{n}=\)
\(\displaystyle \frac{a+(a+1)+…+(b-1)+b}{n}\)
Nu behöver vi hitta en formel för summan \(S\) av de \(n\) stycken termerna i täljaren; \(S=a+(a+1)+…+(b-1)+b\).
Då kan vi göra såhär: \(S=a+(a+1)+…+(b-1)+b\). Skriv summan i omvänd ordning: \(S=b+(b-1)+…+(a+1)+a\).
Om vi adderar de två raderna, som ger \(S+S\), så får vi \(n\) stycken termer som alla blir likamed \(a+b\).
Detta innebär att \(2S=n \cdot (a+b)\), dvs \(S=\displaystyle \frac{n \cdot (a+b)}{2}\), dvs
\(a+(a+1)+…+(b-1)+b=\)
\(\displaystyle \frac{n \cdot (a+b)}{2}\)
Vi får alltså att \(E(Y)=\frac{a+(a+1)+…+(b-1)+b}{n}=\) \(\displaystyle \frac{n \cdot (a+b)}{2} \cdot \frac{1}{n}=\) \(\displaystyle \frac{a+b}{2}\).
10b) Om \(Y\) =resultatet av ett tärningskast, har vi \(Y \sim U(1,6)\)
\(V(Y)=\frac{(b-a+1)^2-1}{12}\) ger då att
\(V(Y)=\frac{(6-1+1)^2-1}{12}=\) \(\frac{6^2-1}{12}=\) \(2.9166…\)
Bernoullifördelning
(Grund för Bin, Geo och NegBin)
Exempel
Om man köper en lott, och låter Y få värdet 1 om det blir en vinstlott och värdet 0 om det blir en nitlott, får Y en Bernoullifördelning.
Om andelen vinstlotter är 20 %, innebär det att p(1)=0.2 och att p(0)=0.8
En formel för p(y) för den här sannolikhetsfördelningen kan skrivas såhär:
\(p(y)=0.2^y \cdot 0.8^{1-y}\) för y=0,1.
Det ger:
\(y\) | \(p(y)\) |
---|---|
0 | 0.8 |
1 | 0.2 |
Allmänt
Om Y är indikatorvariabel för en händelse A som har sannolikheten p att inträffa, säger vi att Y följer en Bernoullifördelning med \(S_Y=\{0,1 \}\),
där parametern p entydigt beskriver sannolikhetsfördelningen.
(Y=1 om \(A\) inträffar, Y=0 om \(\bar{A}\) inträffar )
Vi skriver \(Y \sim Be(p)\)
Vi får följande egenskaper för slumpvariabeln Y:
\(p(y)=p^y \cdot (1-p)^{1-y}\) (för y=0,1)
Väntevärde: \(E(Y)=p\)
Varians: \(V(Y)=p \cdot (1-p)\)
Exempel 11:
11a) Härled formeln för E(Y) för Bernoulli-fördelningen.
11b) Härled formeln för V(Y) för Bernoulli-fördelningen.
11c) Bestäm och tolka värdet på E(Y) för exemplet ovan där A är händelsen “att få en vinstlott”.
11d) Bestäm och tolka värdet på standardavvikelsen för exemplet ovan där A är händelsen “att få en vinstlott”.
Lösning
11a) \(\displaystyle E(Y)=\sum_{y\in S} (y \cdot p(y))\)
Eftersom \(S_Y=\{0,1 \}\), och \(p(y)=p^y \cdot (1-p)^{1-y}\), så får vi
\(\displaystyle E(Y)=\sum_{y=0}^1 y \cdot p^y \cdot (1-p)^{1-y}=\) \(0\cdot p^0 \cdot (1-p)^1+\) \(1 \cdot p^1 \cdot (1-p)^0=\) \(0+1 \cdot p \cdot 1=p\)
11b) \(V(Y)=E((Y-\mu)^2)=\) \(\displaystyle \sum_{y\in S} \big( (y-\mu)^2 \cdot p(y) \big)\)
Från 11a har vi att \(\mu=p\).
Eftersom \(S_Y=\{0,1 \}\), och \(p(y)=p^y \cdot (1-p)^{1-y}\), så får vi då att
\(V(Y)=\displaystyle \sum_{y\in S} \big( (y-\mu)^2 \cdot p(y) \big)=\) \(\displaystyle \sum_{y=0}^1 \big( (y-p)^2 \cdot p^y \cdot (1-p)^{1-y} \big)=\) \((0-p)^2 \cdot p^0 \cdot (1-p)^1+\) \((1-p)^2 \cdot p^1 \cdot (1-p)^0=\) \(p^2 \cdot (1-p) +(1-p)^2 \cdot p=\) \(p \cdot p \cdot (1-p)+\) \((1-p) \cdot (1-p) \cdot p=\) \(p \cdot (p-1) \cdot \Big((p+1)-p \Big)=\) \(p \cdot (1-p)\)
11c) I detta exempel har vi \(Y \sim Be(0.2)\), dvs \(p=0.2\).
Enligt formeln för \(E(Y)\) får vi då att \(E(Y)=0.2\)
Tolkningen av väntevärdet:
Det förväntade resultatet av vårt försök är 0.2 (där 1 betyder vinstlott och 0 betyder nitlott). Det förväntade resultatet betyder det genomsnittliga resultatet vid upprepade slumpförsök.
Om vi upprepar försöket oändligt många gånger, och skriver upp alla resultat vi får; en etta om vi får en vinstlott, och en nolla om vi får en nitlott, så blir genomsnittsresultatet 0.2.
11d)
I detta exempel har vi \(Y \sim Be(0.2)\), dvs \(p=0.2\).
Enligt formeln för \(V(Y)\) får vi då att \(V(Y)=0.2\cdot 0.8=0.16\)
Det betyder att standardavvikelsen blir \(\sqrt{0.16}=0.4\).
Tolkningen av standardavvikelsen (ungefärlig tolkning):
Den genomsnittliga avvikelsen från det förväntade värdet 0.2 är 0.4.
Binomialfördelning (Kap 3.4)
Exempel
Antag att man köper fyra lotter i ett lotteri där andelen vinstlotter är 20 %.
Låt Y vara antalet vinstlotter som man får.
Då säger man att Y följer en Binomialfördelning.
Följande träd kan vara en bra bild för att inse vilka olika utfall som är möjliga.
Man börjar på den punkt som finns längst till vänster.
Den första förgreningen handlar om del-utfallet för den första lotten; “uppåt” står för vinst och “nedåt” står för nitlott.
Varje ny förgrening innebär en ny lott enligt samma princip.
De 16 slutgrenarna står för varsin unik kombination av del-utfall för de fyra lotterna.
Exempel 1: Om man haft tur och fått vinst för alla fyra lotterna, blir det 4 förgreningar som pekar “uppåt” och man hamnar i det total-utfall som betecknas VVVV.
Exempel 2: Om den första lotten gav vinst, men både den andra och den tredje var nitlotter, men den fjärde gav vinst,
blir “vägen” uppåt, nedåt, nedåt, uppåt och man hamnar i det total-utfall som betecknas VNNV.
Exempel 3: Nedersta grenen (där det går nedåt i alla förgreningar) representerar total-utfallet där det går “nedåt” för var och en av de fyra lotterna, dvs alla fyra lotter var nitlotter: NNNN
Formeln för p(y)
Alla de 16 (total-)utfallen har inte samma sannolikhet.
För att lättare kunna inse vilka sannolikheter det blir, kan man skriva “0.2” på varje gren som pekar uppåt och “0.8” på varje gren som pekar nedåt.
Då får man att sannolikheten för att alla fyra blir vinstlotter blir \(0.2 \cdot 0.2 \cdot 0.2 \cdot 0.2 = 0.0016\) (Exempel 1).
Exempel 3, där ingen blir vinstlott får sannolikheten \(0.8 \cdot 0.8 \cdot 0.8 \cdot 0.8 = 0.4096\).
Nu kan vi börja fylla i tabellen för sannolikhetsfördelningen:
\(y\) | \(p(y)\) |
---|---|
0 | 0.4096 |
1 | ? |
2 | ? |
3 | ? |
4 | 0.0016 |
Vad blir nu p(1) ?
Nu finns det fler av de 16 utfallen som motsvarar just “en vinstlott”. Det är VNNN, NVNN, NNVN och NNNV. Alla dessa utfall har samma sannolikhet; \(0.2^1 \cdot 0.8^3\).
Eftersom vi har fyra sådana utfall, blir då
\(p(1)=4 \cdot 0.2^1 \cdot 0.8^3=0.4096\).
Vad blir då p(2) ?
Ett av utfallen som ger just 2 vinstlotter, är det som presenterades i exempel 2 tidigare; VNNV.
Hur många sådana utfall finns det?
Svaret på den frågan är samma som svaret till följande:
Hur många möjligheter finns det att placera 2 stycken V bland 4 möjliga positioner?
Svaret är \(\displaystyle \left( \begin{array}{c} 4 \\ 2 \end{array} \right)=6\).
(Se i kapitel 2 om kombinationer).
Vi har alltså sex utfall som ger precis 2 vinstlotter. Vart och ett av dessa utfall har sannolikheten \(0.2^2 \cdot 0.8^2\).
Det ger att \(p(2)=\left( \begin{array}{c} 4 \\ 2 \end{array} \right) \cdot 0.2^2 \cdot 0.8^2=0.1536\).
p(3)
För att bestämma p(3) kan vi resonera på samma sätt som för p(2):
Det finns \(\left( \begin{array}{c} 4 \\ 3 \end{array} \right)=4\) möjligheter att placera 3 stycken V bland 4 möjliga positioner.
Vart och ett av dessa 4 utfall har sannolikheten \(0.2^3 \cdot 0.8^1\).
Då får vi att \(p(3)= \left( \begin{array}{c} 4 \\ 3 \end{array} \right)\cdot 0.2^3 \cdot 0.8^1=0.0256\).
Nu har vi kommit fram till sannolikhetsfördelningen för Y = antalet vinstlotter som man får.
Men vi har fortfarande inte skrivit ned någon allmängiltig formel för p(y).
För att hitta en sådan formel, beskriver vi alla fem värdena för p(y) enligt samma mönster:
\(p(0)=\left( \begin{array}{c} 4 \\ 0 \end{array} \right) \cdot 0.2^0 \cdot 0.8^4=0.4096\).
\(p(1)=\left( \begin{array}{c} 4 \\ 1 \end{array} \right) \cdot 0.2^1 \cdot 0.8^3=0.4096\).
\(p(2)=\left( \begin{array}{c} 4 \\ 2 \end{array} \right) \cdot 0.2^2 \cdot 0.8^2=0.1536\).
\(p(3)=\left( \begin{array}{c} 4 \\ 3 \end{array} \right) \cdot 0.2^3 \cdot 0.8^1=0.0256\).
\(p(4)=\left( \begin{array}{c} 4 \\ 4 \end{array} \right) \cdot 0.2^4 \cdot 0.8^0=0.0016\).
Nu ser vi att mönstret är:
\(p(y)=\left( \begin{array}{c} 4 \\ y \end{array} \right) \cdot 0.2^y \cdot 0.8^{4-y}\).
Allmänt
Följande karakteriserar en slumpvariabel Y som följer en Binomialfördelning:
+ n stycken oberoende försök
+ Varje försök har två utfall; \(A\) eller \(\bar{A}\)
+ Varje försök har samma sannolikhet; p för ufallet \(A\)
och följaktligen sannolikheten 1-p för utfallet \(\bar{A}\)
+ Y = antalet lyckade försök, dvs med utfallet \(A\)
Om ovanstående är uppfyllt säger vi att Y följer en Binomialfördelning med \(S_Y=\{0,1, … ,n \}\),
där parametrarna n och p entydigt beskriver sannolikhetsfördelningen.
Vi skriver \(Y \sim Bin(n,p)\)
Vi får följande egenskaper för slumpvariabeln Y:
\(p(y)=\left( \begin{array}{c} n \\ y \end{array} \right) \cdot p^y \cdot (1-p)^{n-y}\)
Väntevärde: \(E(Y)=n \cdot p\)
Varians: \(V(Y)=n \cdot p \cdot (1-p)\)
Kommentar till formeln för väntevärdet
Om du gör \(n\) stycken försök där sannolikheten att lyckas i varje försök är \(p\), är det naturligt att förvänta sig \(n \cdot p\) lyckade försök.
Exempel 12: 12a) Antag att du upprepar försöket att ta fyra lotter i lotteriet i exemplet ovan, och varje gång noterar hur många vinstlotter du får.
12a1) vad bör medelvärdet för alla dessa noteringar bli?
12a2) vad bör standardavvikelsen för alla dessa noteringar bli?
12b) Härled formeln för E(Y) för Binomialfördelningen.
12c) Härled formeln för V(Y) för Binomialfördelningen.
Lösning
12a1) Om du gjorde oändligt många upprepningar, skulle medelvärdet bli 0.8.
(Använd formeln för väntevärdet)
12a2) Om du gjorde oändligt många upprepningar, skulle standardavvikelsen bli 0.8.
(Använd formeln för variansen, och ta sedan kvadratroten ur 0.64)
12b) Se beviset i kursboken (sats 3.7)
12c) Se beviset i kursboken (sats 3.7)
Användning av fördelningsfunktionen i tabellsamlingen
När man gör tabeller för att beskriva sannolikhetsfördelningar, använder man för det mesta fördelningsfunktionen (cdf) \(F(y)= P(Y \leq y)\).
Om vi tar exemplet med de fyra lotterna, kan vi lägga till en kolumn med fördelningsfunktionens värden:
\(y\) | \(p(y)\) | \(F(y)\) |
---|---|---|
0 | 0.4096 | 0.4096 |
1 | 0.4096 | 0.8192 |
2 | 0.1536 | 0.9728 |
3 | 0.0256 | 0.9984 |
4 | 0.0016 | 1.0000 |
Värdena för fördelningsfunktionen finns i tabellsamlingen. Kolla upp så att du finner dessa värden i din tabellsamling. (Den sista raden har de i tabellsamlingen betraktat som onödig; den blir alltid 1)
Koppling Bernoulli-fördelning/Binomialfördelning
Låt \(X_1, X_2,…,X_n\) vara \(n\) stycken oberoende slumpvariabler där \(X_i \sim Be(p)\).
Om \(Y=X_1+ X_2+…+X_n\) så gäller att \(Y \sim Bin(n,p)\).
Ny situation
De två föregående fördelningarna har handlat om situationer där vi vet hur många försök vi gör. (När det gäller Bernoulli gör vi ett försök, och för Binomial gör vi \(n\) försök.)
Slumpvariabeln \(Y\) räknar hur många av dessa försök som lyckas (dvs får utfallet \(A\).)
Nu kommer två fördelningar där situationen är “omvänd”; vi bestämmer i förväg hur många lyckade försök vi vill ha.
Slumpvariabeln Y räknar här hur många försök vi behöver för att uppnå det önskade antalet lyckade försök.
När det gäller Geometrisk håller vi på till och med att vi fått ett lyckat försök (utfallet \(A\)). När det gäller Negativ Binomial håller vi på till och med att vi fått r lyckade försök.
Geometrisk fördelning (Kap 3.5)
Exempel
Antag att man köper lotter i ett lotteri där andelen vinstlotter är 20 %. Man håller på så länge så att man får en vinstlott. Låt Y vara antalet lotter som man då måste köpa (inklusive vinstlotten, som då blir den sista man köper).
Då säger man att Y följer en Geometrisk fördelning.
Om sannolikhetsfördelningen för Y
För att få en vinstlott måste man ta åtminstone en lott, så det minsta värde man kan få är y = 1.
Vi kan börja skissa på ett träd som skulle kunna hjälpa oss att beräkna sannolikheterna för de olika utfallen som Y kan få.
Vi kan lista ut (och se i trädet) att sannolikheten att få vinst direkt är 0.2. Så \(p(1)=0.2\)
Sannolikheten att få y = 2 kan vi också se i trädet; då måste den första lotten vara en nitlott (annars skulle man ju inte fortsätta) och den andra en vinstlott, så \(p(2)=0.8 \cdot 0.2\).
Med samma resonemang får vi att \(p(3)=0.8 \cdot 0.8\cdot 0.2\).
Vi sammanfattar sannolikhetsfördelningen:
\(y\) | \(p(y)\) |
---|---|
1 | 0.2 |
2 | \(0.8 \cdot 0.2\) |
3 | \(0.8 \cdot 0.8 \cdot 0.2\) |
4 | \(0.8 \cdot 0.8 \cdot 0.8 \cdot 0.2\) |
. | o.s.v |
Slumpvariabelns värde kan bli hur stort som helst…
Formeln för p(y) i det här exemplet (med p=0.2) blir \(p(y)=0.8^{y-1} \cdot 0.2\)
Allmänt
Vi har en händelse A som har sannolikheten p att inträffa och upprepar försök tills händelsen inträffar. Låt Y vara antalet försök som behövs (inklusive det lyckade sista försöket).
Vi säger då att Y följer en Geometrisk fördelning med \(S_Y=\{1,2,3,… \}\),
där parametern p entydigt beskriver sannolikhetsfördelningen.
Vi skriver \(Y \sim Geo(p)\)
Vi får följande egenskaper för slumpvariabeln Y:
\(p(y)=(1-p)^{y-1} \cdot p\) (för y=1,2,…)
Eftersom det finns oändligt många olika möjliga värden för y är det här särskilt intressant att kolla villkor nummer 2 som måste gälla för alla diskreta slumpvariabler, nämligen \(\displaystyle\sum_{y\in S} p(y)=1\)
För att bevisa detta behöver vi lite matematik igen:
länk geometrisk summa: [http://www.matteboken.se/lektioner/matte-1/tal/geometriska-talfoljder]
Där visas bl.a. att \(a+a\cdot k + a\cdot k^2 + a\cdot k^3=\frac{a\cdot(k^4-1)}{k-1}\), vilket också kan skrivas som
\(\displaystyle\sum_{y=1}^{4} a\cdot k^{y-1} =\frac{a\cdot(k^4-1)}{k-1}\)
Om det är så att -1 < k < 1, och vi har oändligt antal termer istället för 4 termer får vi att \(a+a\cdot k + a\cdot k^2 + … \ \ =\frac{a\cdot(0-1)}{k-1}=\frac{a}{1-k}\)
Detta resultat kan också skrivas såhär:
\(\displaystyle\sum_{y=1}^{\infty} a\cdot k^{y-1}= \frac{a}{1-k}\) (G)
Formeln (G): \(\displaystyle\sum_{y=1}^{\infty} a\cdot k^{y-1}= \frac{a}{1-k}\) ska nu användas
för att bevisa att \(\displaystyle\sum_{y\in S} p(y)=1\) gäller för \(Y \sim Geo(p)\).
Eftersom \(S=\{1,2,3,… \}\),
innebär det att vi ska bevisa att \(\displaystyle\sum_{y=1}^{\infty} p(y)=1\)
där \(p(y)=(1-p)^{y-1} \cdot p\).
Formeln för \(p(y)\) kan vi betrakta som \(a\cdot k^{y-1}\), där \(a\) motsvarar \(p\)
och \(k\) motsvarar \((1-p)\).
Då kan vi direkt tillämpa formeln (G): \(\displaystyle \sum_{y=1}^{\infty} p(y)= \sum_{y=1}^{\infty} p\cdot (1-p)^{y-1}= \frac{p}{1-(1-p)}=\frac{p}{p}=1\)
Väntevärde
Exemplet
I exemplet, där vi köper lotter tills vi får en vinstlott, och Y är antalet lotter vi behöver köpa (inklusive vinstlotten), vad är det förväntade värdet för Y?
Om det är 20% vinstlotter innebär det ju att var femte lott ger vinst, så det förväntade antalet lotter vi behöver köpa är fem.
Allmänt
\(E(Y)=\frac{1}{p}\).
Härledning
Utgå från definitionen av väntevärde E(Y):
\(\displaystyle E(Y)=\sum_{y\in S} (y \cdot p(y))\)
Kom ihåg att vi har \(p(y)=(1-p)^{y-1} \cdot p\) och \(S=\{1,2,3,… \}\),
så \(\displaystyle E(Y)=\sum_{y=1}^{\infty} (y \cdot (1-p)^{y-1} \cdot p)\).
Fortsättningen blir lättare att klara om man använder beteckningen \(q\) för \(1-p\): Det ger \(\displaystyle E(Y)=\sum_{y=1}^{\infty} y \cdot q^{y-1} \cdot p\).
Eftersom \(p\) är en konstant genom summeringen, kan vi bryta ut \(p\), så att vi får:
\(\displaystyle E(Y)=p \cdot \sum_{y=1}^{\infty} y \cdot q^{y-1}\).
Nu utnyttjar vi att vi vet att derivatan av uttrycket \(q^y\) med avseende på variabeln q blir just \(y \cdot q^{y-1}\).
Denna derivering kan också skrivas:
\(\frac{d}{dq}(q^y)=y \cdot q^{y-1}\).
Vi får alltså \(\displaystyle E(Y)=p \cdot \sum_{y=1}^{\infty} y \cdot q^{y-1}\)
\(\displaystyle = p \cdot \sum_{y=1}^{\infty} \frac{d}{dq}(q^y)\)
\(\displaystyle = p \cdot \frac{d}{dq} \left( \sum_{y=1}^{\infty} q^y \right)\)
Beviset finns också i kursboken på sid 116-117.
Där avslutar man med att konstatera med hjälp av formeln för geometrisk summa ((G) ovan) att \(\displaystyle \sum_{y=1}^{\infty} q^y=\frac{q}{1-q}\), så att dess derivata blir \(\displaystyle \frac{1}{(1-q)^2}\) (enligt kvotregeln för derivering).
Så \(\displaystyle E(Y)= p \cdot \frac{d}{dq} \left( \sum_{y=1}^{\infty} q^y \right)=p \cdot \frac{1}{(1-q)^2} = p \cdot \frac{1}{p^2}=\frac{1}{p}\).
Varians
Härledningen av formeln för variansen behöver ni inte kunna utföra själva. Men ni behöver lägga på minnet att formeln för V(Y) kan skrivas som \(V(Y)= E(Y\cdot(Y-1)) – (E(Y))^2 + E(Y)\)
där \(\displaystyle E(Y \cdot(Y-1))=\sum_{y\in S} (y \cdot(y-1) \cdot p(y))\)
Kom ihåg att vi har \(p(y)=(1-p)^{y-1} \cdot p\) och \(S=\{1,2,3,… \}\),
så \(\displaystyle E(Y \cdot(Y-1)) =\sum_{y=1}^{\infty} (y \cdot(y-1)\cdot (1-p)^{y-1} \cdot p)\).
Även här används beteckningen \(q\) för \(1-p\)
Även här bryts \(p\) ut ur summan.
Även här används derivering av uttrycket \(q^y\) med avseende på variabeln q; den här gången används andraderivatan:
Andraderivatan av \(q^y\) blir \(y \cdot (y-1) \cdot q^{y-2}\).
Med hjälp av bl.a. substitution av summationsvariabel kommer man fram till att \(E(Y\cdot(Y-1)) = \frac{2(1-p)}{p^2}\).
Eftersom \(E(Y)=\frac{1}{p}\), blir
\(V(Y)= E(Y\cdot(Y-1)) – (E(Y))^2 + E(Y) = \frac{2(1-p)}{p^2}-\frac{1}{p}+\frac{1}{p^2}=\frac{1-p}{p^2}\).
Slutresultat: \(V(Y)= \frac{1-p}{p^2}\)
Men, som sagt; detaljerna i härledningen av variansen behöver ni inte lägga på minnet. Det viktiga är att ni ser varför denna variant av formeln för V(Y) är bra att kunna: \(V(Y)= E(Y\cdot(Y-1)) – (E(Y))^2 + E(Y)\).
Exempel 13:
13a) Härled formeln för E(Y) för Geometrisk fördelning.
13b) Använd formeln för V(Y) ovan för att bestämma variansen för slumpvariabeln Y, där Y=antalet lotter du behöver köpa i ett lotteri där var femte lott är en vinstlott.
Lösning 13a) Se ovan
13b) \(V(Y)= \frac{1-0.2}{0.2^2}=20\)
Hittills har vi behandlat situationen där vi räknar hur många försök vi behöver göra tills en bestämd händelse inträffat. Nu ska vi utvidga situationen till att vi ska hålla på tills två, tre eller generellt r st händelser har inträffat.
Negativ binomialfördelning (Kap 3.6)
Exempel (med tre lyckade händelser, dvs r = 3)
Antag att man köper lotter i ett lotteri där andelen vinstlotter är 20 %. Man håller på så länge så att man får tre vinstlotter. Låt Y vara antalet lotter som man då måste köpa (inklusive vinstlotten, som då blir den sista man köper).
Då säger man att Y följer en Negativ binomialfördelning med r = 3, och p = 0.2.
Om sannolikhetsfördelningen för Y
(Om du bättre vill förstå vilka utfall det blir, kan du rita ett träd enligt samma princip som tidigare; grenar med V som pekar uppåt, med sannolikhet 0.2 och grenar med N som pekar nedåt, med sannolikhet 0.8)
För att få tre vinstlotter måste man ta åtminstone tre lotter så det minsta värde man kan få är y = 3.
Jag kallar detta utfall där alla de tre första lotter man tar är vinstlotter, för “VVV”. Sannolikheten för detta är \(0.2 \cdot 0.2\cdot 0.2\), så \(p(3)=0.2 \cdot 0.2\cdot 0.2\).
Dags att fundera på vad \(p(4)\) blir.
De utfall som kräver 4 försök ser ut såhär:
NVVV (sannolikhet \(0.8 \cdot 0.2\cdot 0.2 \cdot 0.2\) )
VNVV (sannolikhet \(0.2 \cdot 0.8\cdot 0.2 \cdot 0.2\) )
VVNV (sannolikhet \(0.2 \cdot 0.2\cdot 0.8 \cdot 0.2\) )
Det finns alltså tre olika utfall som ger y = 4, och alla tre har samma sannolikhet; \(0.2^3 \cdot 0.8\).
Om man vill förstå varför det blir just tre utfall, kan man tänka sig följande skiss för de möjliga utfallen: _ _ _ V
(Tänk på att den sista lotten alltid måste vara “V” ; man slutar ju så fort man uppnått rätt antal vinstlotter.)
I de tre första positionerna är det precis två som ska vara “V”, och antalet möjligheter att välja ut 2 bland 3 är just tre, ur \(\displaystyle \left( \begin{array}{c} 3 \\ 2 \end{array} \right)\)
Sammanfattningsvis blir \(p(4)=\left( \begin{array}{c} 3 \\ 2 \end{array} \right) \cdot 0.2^3 \cdot 0.8\).
Dags för \(p(5)\):
(Kom ihåg att den sista lotten alltid måste vara “V”.)
Ett av utfallen är NNVVV (sannolikhet \(0.2^3 \cdot 0.8^2\) ).
För att lista ut hur många sådana utfall det finns, kan vi tänka såhär: _ _ _ _ V
I de fyra första positionerna är det precis två som ska vara “V”, och antalet möjligheter att välja ut 2 bland 4 är \(\displaystyle \left( \begin{array}{c} 4 \\ 2 \end{array} \right)\)
Sammanfattningsvis blir \(p(5)=\left( \begin{array}{c} 4 \\ 2 \end{array} \right) \cdot 0.2^3 \cdot 0.8^2\).
Nu börjar man kunna se ett mönster:
y | p(y) |
---|---|
3 | \(\left( \begin{array}{c} 2 \\ 2 \end{array} \right) \cdot 0.2^3\) |
4 | \(\left( \begin{array}{c} 3 \\ 2 \end{array} \right) \cdot 0.2^3 \cdot 0.8\) |
5 | \(\left( \begin{array}{c} 4 \\ 2 \end{array} \right) \cdot 0.2^3 \cdot 0.8^2\) |
6 | \(\left( \begin{array}{c} 5 \\ 2 \end{array} \right) \cdot 0.2^3 \cdot 0.8^3\) |
. | o.s.v |
Slumpvariabelns värde kan bli hur stort som helst…
Formeln för p(y) i det här exemplet (med p=0.2 och r=3) blir
\(p(y)=\left( \begin{array}{c} y-1 \\ 2 \end{array} \right) \cdot 0.2^3 \cdot 0.8^{y-3}\)
Allmänt
Vi har en händelse A som har sannolikheten p att inträffa och upprepar försök tills r st händelser har inträffat. Låt Y vara antalet försök som behövs (inklusive det lyckade sista försöket).
För övrigt gäller samma förutsättningar som för Binomialfördelningen:
+ Försöken är oberoende. + Varje försök har två utfall; \(A\) eller \(\bar{A}\)
+ Varje försök har samma sannolikhet; p för ufallet \(A\)
och följaktligen sannolikheten 1-p för utfallet \(\bar{A}\)
Vi säger då att Y följer en Negativ binomialfördelning med \(S_Y=\{r,r+1,r+2,… \}\),
där parametrarna r och p entydigt beskriver sannolikhetsfördelningen.
Vi skriver \(Y \sim NegBin(r,p)\)
Vi får följande egenskaper för slumpvariabeln Y:
\(p(y)=\left( \begin{array}{c} y-1 \\ {r-1} \end{array} \right) \cdot p^r \cdot (1-p)^{y-r}\) (för y= r,r+1,r+2,…)
Väntevärde: \(E(Y)=\frac{r}{p}\)
Varians: \(V(Y)= \frac{r \cdot (1-p)}{p^2}\)
Övning
Exempel 14
Bestäm det förväntade antal kast som man behöver för att totalt ha slagit två sexor.
Lösning Om Y= antal kast som behövs till och med den andra sexan, gäller \(E(Y)=\frac{\ 2 \ }{\frac{1}{6}}=12\)
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });