Chapter 5 Multivariate Probability Distributions
Kapitel 5 Multivariata sannolikhetsfördelningar
Hittills (i kapitel 3 och kapitel 4) har sannolikhetsfördelningarna handlat om en slumpvariabel.
Det är denna enda slumpvariabels värde som vi har intresserat oss för när det gäller utfallet av försöket.
Men det kan vara så att slumpförsöket ger möjlighet att definiera flera slumpvariabler som kan vara av intresse.
Multivariat betyder “många variabler”.
Vi ska dock starta med bivariata sannolikhetsfördelningar, där det är två slumpvariabler som är aktuella.
Bivariata sannolikhetsfördelningar (Kap 5.2)
Det finns diskreta bivariata sannolikhetsfördelningar och det finns kontinuerliga bivariata sannolikhetsfördelningar.
Eftersom de kontinuerliga bivariata sannolikhetsfördelningarna kräver mer avancerade matematiska metoder, som dubbelintegraler, får vi begränsa oss till de delar av kapitel 5 som berör diskreta bivariata sannolikhetsfördelningar.
Diskreta bivariata sannolikhetsfördelningar
Beteckning
De två intressanta slumpvariablerna för ett slumpförsök betecknas här \(Y_1\) och \(Y_2\).
(I annan litteratur kan andra beteckningar användas, t.ex. \(X\) och \(Y\) )
Beskrivning av fördelning
Det räcker inte att beskriva fördelningarna för \(Y_1\) och \(Y_2\) var för sig, eftersom det troligen är så att variablerna påverkar varandra. T.ex. kan det vara så att sannolikheten att \(Y_1\) får värdet 2 beror på vilket värde \(Y_2\) har, etc.
Därför behöver man presentera en simultan sannolikhetsfördelning så att man får med samverkan mellan de två slumpvariablerna \(Y_1\) och \(Y_2\).
För att beskriva den simultana sannolikhetsfördelningen gör vi på samma sätt som för en-variabelfallet med en diskret slumpvariabel \(Y\) i kapitel 3.
Där beskrivs sannolikhetsfördelningen för \(Y\) med hjälp av en funktion \(p(y)\) som vi också kallar pdf.
Innebörden i \(p(y)\) är \(p(y)=P(Y=y)\).
Den simultana sannolikhetsfunktionen \(p\) för två diskreta slumpvariabler \(Y_1\) och \(Y_2\) ges av \(p(y_1,y_2)=\) \(P\left((Y_1=y_1)\cap (Y_2=y_2)\right)\)
Ett exempel på simultan sannolikhetsfördelning
Slumpförsöket är att plocka upp en klots ur mängden av klotsar som finns avbildad i följande dokument: Klotsar100.pdf
Det är 100 runda klotsar med olika form; det finns 3 olika tjocklekar (1,2,3) och 4 olika längder (1,2,3,4).
Slumpvariabeln \(Y_1\)=tjockleken på den klots som plockades upp i slumpförsöket.
Slumpvariabeln \(Y_2\)=längden på den klots som plockades upp i slumpförsöket.
Med hjälp av att räkna klotsar i dokumentet kan man får fram en beskrivning av den simultana sannolikhetsfördelningen i form av en tabell för (den simultana) sannolikhetsfunktionen \(p(y_1,y_2)\) :
Detta utgör en fullständig beskrivning av den simultana sannolikhetsfördelningen för \(Y_1\) och \(Y_2\).
Om du till exempel vill bestämma sannolikheten att den klots du får upp har tjockleken “3” och längden “1” (formen som liknar en snusdosa) kollar du värdet för \(y_1=3,y_2=1\).
Tabellen visar att \(p(3,1)=0.25\).
Och \(p(3,1)=0.25\) betyder just \(P\left((Y_1=3)\cap (Y_2=1)\right)\) \(=0.25\).
Alltså: Sannolikheten för att \(Y_1\) blir 3 och att \(Y_2\) blir 1 är 25%.
Utfallsrum
Utfallsrummet S för en simultan sannolikhetsfördelning med två diskreta slumpvariabler \(Y_1\) och \(Y_2\) definieras som
den (tvådimensionella) mängden av alla talpar \((y_1,y_2)\) för vilka den simultana sannolikhetsfunktionen \(p\) är definierad.
Utfallsrum klotsexemplet
\(S=\{(1,1),(1,2),(1,3),(1,4),(2,1),(2,2),(2,3),(2,4),(3,1),(3,2),(3,3),(3,4)\}\)
Fördelningsfunktion
Den simultana fördelningsfunktionen \(F\) för två slumpvariabler \(Y_1\) och \(Y_2\) definieras som \(F(y_1,y_2)=\) \(P\left((Y_1 \leq y_1)\cap (Y_2 \leq y_2)\right)=\) \(P\left(Y_1 \leq y_1,Y_2 \leq y_2\right)\) för \((y_1,y_2) \in S\)
Exempel klotsexemplet F(2,3)
\(F(2,3)=P\left(Y_1 \leq y_1,Y_2 \leq y_2\right)\) för de talpar \((y_1,y_2) \in S\) som uppfyller \(y_1 \leq 2\) och \(y_2 \leq 3\)
De talpar i \(S\) som blir aktuella för den olikheten är då följande: \((1,1),(1,2),(1,3),\) \((2,1),(2,2),(2,3)\).
Då får vi att \(F(2,3)=\) \(p(1,1)+p(1,2)+p(1,3)\) \(+p(2,1)+p(2,2)+p(2,3)=\) \(0.01+0.02+0.02\) \(+0.02+0.03+0.10\) \(=0.20\)
Allmänt om den simultana sannolikhetsfunktionen \(p\) för två diskreta slumpvariabler \(Y_1\) och \(Y_2\)
-
\(\displaystyle p(y_1,y_2)\geq 0\)
-
\(\displaystyle\sum_{(y_1,y_2)\in S} p(y_1,y_2)=1\)
-
\(\displaystyle P(Y_1,Y_2\in A) =\sum_{(y_1,y_2)\in A} p(y_1,y_2)\), där \(A\subseteq S\)
Jämför dessa tre punkter med Kolmogorovs tre axiom i början av kapitel 2 och villkoren för p(y) i början av kapitel 3 och egenskaperna för f(y) i början av kapitel 4.
Blandade övningar på klotsexemplet
Exempel 1 (Klotsexemplet)
1a) Bestäm \(p(3,2)\)
1b) Bestäm \(F(3,2)\)
1c) Bestäm \(P(2 \leq Y_1 \leq 3 \: , \: 1 \leq Y_2 \leq 2)\)
Svar Exempel 1
1a) \(p(3,2)=0.20\)
1b) \(F(3,2)=0.53\)
1c) \(0.50\)
Marginalfördelningar och Betingade fördelningar (Kap 5.3)
Marginalfördelningar
Inledande exempel (klotsexemplet)
Exempel 1d)
Bestäm sannolikheten för att en slumpvis utvald klots har tjockleken “3”.
Exempel 1e)
Bestäm sannolikheten för att en slumpvis utvald klots har högst längden “2”.
Marginalfördelning för \(Y_1\)
För att lösa Exempel 1d, behöver du beräkna \(P(Y_1 = 3)\).
Om du tittar på tabellen (beskrivningen av den simultana sannolikhetsfördelningen för klotsexemplet) tror jag att du inser att denna sannolikhet blir 0.55. I definitionen som följer beskrivs beräkningen formellt:
Definition
Marginalfördelningen för \(Y_1\) ; \(P(Y_1=y_1)\) som också kan betecknas \(p_1(y_1)\) definieras som \(p_1(y_1)=\displaystyle \sum_{y_2} p(y_1,y_2)\).
I exempel 1d blir detta \(p_1(3)=\displaystyle \sum_{y_2=1}^4 p(3,y_2)\) ,
dvs \(p_1(3)=\) \(p(3,1)+p(3,2)\) \(+p(3,3)+p(3,4)=\) \(0.25+0.20\) \(+0.05+0.05\) \(=0.55\)
Om vi på motsvarande sätt beräknar \(p_1(y_1)\) för alla möjliga värden på \(y_1\), får vi
\(p_1(1)=0.20\) , \(p_1(2)=0.25\) , \(p_1(3)=0.55\) (redan beräknat)
Så vi skulle kunna sammanfatta marginalfördelningen för \(Y_1\) på följande sätt i en tabell:
\(y_1\) | \(p_1(y_1)\) |
---|---|
1 | 0.20 |
2 | 0.25 |
3 | 0.55 |
Mer om detta exempel, se följande dokument:
MargBetingKlotsar.pdf
Där är det gjort så att man bildmässigt kanske kan inse varför det heter marginal-fördelning.
Marginalfördelning för \(Y_2\)
För att lösa Exempel 1e, behöver du beräkna \(P(Y_2 \leq 2)\).
Om du tittar på tabellen (beskrivningen av den simultana sannolikhetsfördelningen för klotsexemplet) tror jag att du inser att denna sannolikhet blir 0.53.
Även här handlar det om marginalfördelning, fast för \(Y_2\) den här gången:
Definition
Marginalfördelningen för \(Y_2\); \(P(Y_2=y_2)\) som också kan betecknas \(p_2(y_2)\) definieras som \(p_2(y_2)=\displaystyle \sum_{y_1} p(y_1,y_2)\).
I exempel 1e behövs \(p_2(1)\) och \(p_2(2)\)
där \(p_2(1)=\displaystyle \sum_{y_1=1}^3 p(y_1,1)=\) \(p(1,1)+p(2,1)+p(3,1)\) \(=0.28\)
och \(p_2(2)=\displaystyle \sum_{y_1=1}^3 p(y_1,2)=\) \(p(1,2)+p(2,2)+p(3,2)\) \(=0.25\)
Tabellen för marginalfördelningen för \(Y_2\) blir såhär:
\(y_2\) | \(p_2(y_2)\) |
---|---|
1 | 0.28 |
2 | 0.25 |
3 | 0.17 |
4 | 0.30 |
Svaret på Exempel 1e blir alltså
\(P(Y_2 \leq 2)=p_2(1)+p_2(2)\) \(=0.28+0.25=0.53\)
Betingade eller villkorliga fördelningar
1 Fördelning för \(Y_1\) givet ett visst värde för \(Y_2\)
Inledande exempel (klotsexemplet)
Exempel 1f)
Om du vet att du fått upp en klots som har längden “3”; bestäm sannolikheten för att den klotsen har tjockleken “2”.
Vi gör en återblick på kapitel 2 och betingade sannolikheter: \(P(A|B)\) betyder “Den betingade sannolikheten för att A inträffar, givet att B har inträffat”.
I exempel 1f handlar det om att B är händelsen “Klotsen har längden 3” och att A är händelsen “Klotsen har tjockleken 2”.
Enligt definitionen i kapitel 2 gäller \(P(A|B)=\frac{P(A\cap B)}{P(B)}\)
Om vi tillämpar beteckningen \(P(A|B)\) på exempel 1f, skulle vi kunna skriva exempel 1f som \(P \left((Y_1=2)|(Y_2=3) \right)\).
Enligt definitionen får vi då att \(P \left((Y_1=2)|(Y_2=3) \right)=\displaystyle \frac{P\left((Y_1=2)\cap (Y_2=3)\right)}{P(Y_2=3)}\)
Men enligt definitionen av den simultana sannolikhetsfunktionen \(p\) är täljaren \(P \left((Y_1=2)\cap (Y_2=3)\right)\) samma sak som \(p(2,3)\).
Och nämnaren \(P(Y_2=3)\) kan (se marginalfördelningar) skrivas \(p_2(3)\).
Alltså får vi att lösningen på exempel 1f ser ut såhär:
\(P \left((Y_1=2)|(Y_2=3) \right)\) \(=\displaystyle \frac{p(2,3)}{p_2(3)}\) \(=\frac{0.10}{0.17}\) \(\approx 0.588\)
(I exemplet med klotsarna, där vi har 100 klotsar, motsvarar “0.17” 17 stycken klotsar (alla de 17 klotsar som har längden 3). Och “0.10” motsvarar de 10 klotsar som har tjockleken 2 bland dessa 17.)
Även vänsterledet kan skrivas kortare; \(P \left((Y_1=2)|(Y_2=3) \right)\) skrivs \(p(2|3)\).
MEN för att få använda den kortare beteckningen måste man klargöra ordningen; att det är sannolikheten för tjockleken (\(Y_1\)) givet en viss längd (\(Y_2\)) .
(JÄMFÖR Exempel 1f med Exempel 1g nedan.)
I fallet med \(Y_1\) givet ett visst värde för \(Y_2\) som i exempel 1f, kan vi skriva
\(p(2|3)=\displaystyle \frac{p(2,3)}{p_2(3)}\)
Utvidgning av exempel 1f till en HEL sannolikhetsfördelning
(Fortfarande under förutsättning att du fått upp en klots som har längden “3”)
Det finns ju andra möjliga värden för \(Y_1\) än just värdet \(y_1=2\). De möjliga värdena är 1,2 och 3.
Om vi har en klots med längd “3”, måste den ju ha någon av dessa tre tjocklekar, så vi måste ha sannolikheter som summerar till 1. Vi har alltså en sannolikhetsfördelning för \(Y_1\) , men den är betingad värdet 3 för \(Y_2\) :
\(y_1\) | \(p(y_1|3)\) |
---|---|
1 | \(p(1|3)= \frac{p(1,3)}{p_2(3)}\approx 0.118\) “2 av 17” |
2 | \(p(2|3)= \frac{p(2,3)}{p_2(3)}\approx 0.588\) “10 av 17” |
3 | \(p(3|3)= \frac{p(3,3)}{p_2(3)}\approx 0.294\) “5 av 17” |
Tabellen visar alltså den betingade fördelningen för \(Y_1\) givet att \(Y_2=3\), den fördelning som betecknas \(p(y_1|3)\).
På motsvarande sätt kan man ta fram betingade fördelningar för \(Y_1\) givet övriga värden på \(Y_2\) också:
Allmänt
Den betingade fördelningen för \(Y_1\) givet att \(Y_2=y_2\):
\(p(y_1|y_2)=\displaystyle \frac{p(y_1,y_2)}{p_2(y_2)}\)
2 Fördelning för \(Y_2\) givet ett visst värde för \(Y_1\)
Ett exempel “åt andra hållet” (jämfört med Exempel 1f)
Exempel 1g)
Om du vet att du fått upp en klots som har tjockleken “3”; bestäm sannolikheten för att den klotsen har längden “2”.
\(P(A|B)\) betyder “Den betingade sannolikheten för att A inträffar, givet att B har inträffat”.
I exempel 1g handlar det om att B är händelsen “Klotsen har tjockleken 3” och att A är händelsen “Klotsen har längden 2”.
Enligt definitionen i kapitel 2 gäller \(P(A|B)=\frac{P(A\cap B)}{P(B)}\)
Om vi tillämpar beteckningen \(P(A|B)\) på exempel 1g, skulle vi kunna skriva exempel 1g som \(P \left((Y_2=2)|(Y_1=3) \right)\).
Enligt definitionen får vi då att \(P \left((Y_2=2)|(Y_1=3) \right)=\displaystyle \frac{P\left((Y_2=2)\cap (Y_1=3)\right)}{P(Y_1=3)}\)
Men enligt definitionen av den simultana sannolikhetsfunktionen \(p\) är täljaren \(P \left((Y_2=2)\cap (Y_1=3)\right)\) samma sak som \(p(3,2)\).
OBSERVERA ORDNINGEN I FUNKTIONEN \(p\) : Först \(y_1\) , därefter \(y_2\) .
Och nämnaren \(P(Y_1=3)\) kan (se marginalfördelningar) skrivas \(p_1(3)\).
Alltså får vi att lösningen på exempel 1g ser ut såhär:
\(P \left((Y_2=2)|(Y_1=3) \right)\) \(=\displaystyle \frac{p(3,2)}{p_1(3)}\) \(=\frac{0.20}{0.55}\) \(\approx 0.364\)
(I exemplet med klotsarna, där vi har 100 klotsar, motsvarar “0.55” 55 stycken klotsar (alla de 55 klotsar som har tjockleken 3). Och “0.20” motsvarar de 20 klotsar som har längden 2 bland dessa 55.)
Även vänsterledet kan skrivas kortare; \(P \left((Y_2=2)|(Y_1=3) \right)\) skrivs \(p(2|3)\).
MEN för att få använda den kortare beteckningen måste man klargöra ordningen; att det är sannolikheten för längden (\(Y_2\)) givet en viss tjocklek (\(Y_1\)) .
(JÄMFÖR Exempel 1g med Exempel 1f ovan.)
I fallet med \(Y_2\) givet ett visst värde för \(Y_1\) som i exempel 1g, kan vi skriva
\(p(2|3)=\displaystyle \frac{p(3,2)}{p_1(3)}\)
Utvidgning av exempel 1g till en HEL sannolikhetsfördelning
(Fortfarande under förutsättning att du fått upp en klots som har tjockleken “3”)
Det finns ju andra möjliga värden för \(Y_2\) än just värdet \(y_2=2\). De möjliga värdena är 1,2,3 och 4.
Om vi har en klots med tjocklek “3”, måste den ju ha någon av dessa fyra längder, så vi måste ha sannolikheter som summerar till 1. Vi har alltså en sannolikhetsfördelning för \(Y_2\) , men den är betingad värdet 3 för \(Y_1\) :
\(y_2\) | \(p(y_2|3)\) |
---|---|
1 | \(p(1|3)= \frac{p(3,1)}{p_1(3)}\approx 0.455\) “25 av 55” |
2 | \(p(2|3)= \frac{p(3,2)}{p_1(3)}\approx 0.364\) “20 av 55” |
3 | \(p(3|3)= \frac{p(3,3)}{p_1(3)}\approx 0.091\) “5 av 55” |
4 | \(p(4|3)= \frac{p(3,4)}{p_1(3)}\approx 0.091\) “5 av 55” |
Tabellen visar alltså den betingade fördelningen för \(Y_2\) givet att \(Y_1=3\), den fördelning som betecknas \(p(y_2|3)\).
På motsvarande sätt kan man ta fram betingade fördelningar för \(Y_2\) givet övriga värden på \(Y_1\) också:
Allmänt
Den betingade fördelningen för \(Y_2\) givet att \(Y_1=y_1\):
\(p(y_2|y_1)=\displaystyle \frac{p(y_1,y_2)}{p_1(y_1)}\)
Även de betingade fördelningarna finns med i följande dokument:
MargBetingKlotsar.pdf
Blandade övningar
Exempel 2 (Klotsexemplet igen)
2a) Bestäm \(p(2,1)+p(2,2)+p(2,3)\)
2b) Bestäm \(p_2(1)+p_2(2)+p_2(3)\)
2c) Bestäm \(p(2|1)+p(2|2)+p(2|3)\) TOLKAT SOM \(p(y_2|y_1)\)
2d) Bestäm \(p(2|1)+p(2|2)+p(2|3)\) TOLKAT SOM \(p(y_1|y_2)\)
2e) Bestäm \(P(Y_1 = 2)\)
2f) Ge tabellen för fördelningen \(p_2(y_2)\)
2g) Ge tabellen för marginalfördelningen för \(Y_2\)
2h) Ge tabellen för den betingade fördelningen \(p(y_2|3)\)
2i) Ge tabellen för den betingade fördelningen \(p(y_1|3)\)
2j) Ge tabellen för den betingade fördelningen för \(Y_1\) givet att \(Y_2=3\)
2k) Ge tabellen för den betingade fördelningen för \(Y_2\) givet att \(Y_1=3\)
2l) Vilken av beräkningarna ovan skulle också kunna skrivas \(P(Y_2 \leq 3)\) ?
2m) Vilken av beräkningarna ovan skulle också kunna skrivas \(P(Y_1=2, Y_2 \leq 3)\) ?
2n) Bestäm \(P(Y_2 \leq 3 | Y_1 = 2 )\)
2o) Bestäm \(F(3,2)\)
2p) Visa (allmänt; inte bara i klotsexemplet) att \(p(y_1|y_2)\) är en sannolikhetsfunktion, dvs att summan blir 1.
Svar Exempel 2
2a) \(0.02+0.03+0.10\) \(=0.15\)
2b) \(0.28+0.25+0.17\) \(=0.70\)
2c) \(0.100+0.120+0.364\) \(=0.58\)
2d) \(0.071+0.120+0.588\) \(=0.78\)
2e) \(0.25\)
2f)
\(y_2\) | \(p_2(y_2)\) |
---|---|
1 | 0.28 |
2 | 0.25 |
3 | 0.17 |
4 | 0.30 |
2g) Samma som 2f
2h)
\(y_2\) | \(p(y_2|3)\) |
---|---|
1 | 0.455 |
2 | 0.364 |
3 | 0.091 |
4 | 0.091 |
2i)
\(y_1\) | \(p(y_1|3)\) |
---|---|
1 | 0.118 |
2 | 0.588 |
3 | 0.294 |
2j) Samma som 2i
2k) Samma som 2h
2l) \(P(Y_2 \leq 3)\) är samma som \(p_2(1)+p_2(2)+p_2(3)\) , dvs 2b
2m) \(P(Y_1=2, Y_2 \leq 3)\) är samma som \(p(2,1)+p(2,2)+p(2,3)\) , dvs 2a
2n) \(0.60\)
2o)
\(F(3,2)=P\left(Y_1 \leq y_1,Y_2 \leq y_2\right)\) för de talpar \((y_1,y_2) \in S\) som uppfyller \(y_1 \leq 3\) och \(y_2 \leq 2\)
De talpar i \(S\) som blir aktuella för den olikheten är då följande: \((1,1),(1,2),\) \((2,1),(2,2),\) \((3,1),(3,2)\).
Då får vi att \(F(3,2)=\) \(p(1,1)+p(1,2)\) \(+p(2,1)+p(2,2)\) \(+p(3,1)+p(3,2)\)=$ \(0.01+0.02\) \(+0.02+0.03\) \(+0.25+0.20\) \(=0.53\)
2p) Använd t.ex. \(p(y_1|y_2)=\displaystyle \frac{p(y_1,y_2)}{p_2(y_2)}\) och definitionen av \(p_2(y_2)\) .
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });