Chapter 5 Multivariate Probability Distributions
Diskreta bivariata sannolikhetsfördelningar, forts
Oberoende slumpvariabler (Kap 5.4)
Inledning (klotsexemplet)
Är slumpvariablerna \(Y_1\) och \(Y_2\) oberoende?
Frågan är alltså om längden och tjockleken är oberoende. Denna fråga kan även formuleras såhär (två olika alternativ) :
1 Är det så att sannolikheten för en viss längd är oberoende av klotsens tjocklek?
2 Är det så att sannolikheten för en viss tjocklek är oberoende av klotsens längd?
Svaret är nej; det är t.ex. större andel korta klotsar bland de tjocka klotsarna, än bland de smala klotsarna, se följande jämförelse:
En tjock klots är en klots med värdet \(y_1=3\). En kort klots är en klots med värdet \(y_2=1\).
Andelen korta klotsar bland de tjocka klotsarna =
sannolikheten för att få en kort klots givet att den är tjock =
\(P((Y_2=1)|(Y_1=3))=p(1|3)\) \(=\displaystyle \frac{p(3,1)}{p_1(3)}\) \(=\displaystyle \frac{0.25}{0.55}\) \(\approx 0.45\).
En smal klots är en klots med värdet \(y_1=1\). En kort klots är en klots med värdet \(y_2=1\).
Andelen korta klotsar bland de smala klotsarna =
sannolikheten för att få en kort klots givet att den är smal =
\(P((Y_2=1)|(Y_1=1))=p(1|1)\) \(=\displaystyle \frac{p(1,1)}{p_1(1)}\) \(=\displaystyle \frac{0.01}{0.25}\) \(= 0.05\).
Vi ser alltså att andelen korta klotsar bland de tjocka klotsarna är ca 45 %,
medan den andelen korta klotsar bland de smala klotsarna bara är 5 %.
Alltså är längden beroende av tjockleken.
Tvärtom gäller också. (tjockleken är beroende av längden)
Fixar klotsexemplet så att \(Y_1\) och \(Y_2\) blir oberoende
Hur kan man fixa klotsexemplet så att tjockleken och längden är oberoende?
Vi kan kolla på exemplet ovan.
Om längden ska vara oberoende av tjockleken, måste t.ex. \(P((Y_2=1)|(Y_1=3))\) och \(P((Y_2=1)|(Y_1=1))\) vara lika, inte olika som ovan (0.45 respektive 0.05).
Även \(P((Y_2=1)|(Y_1=2))\) måste vara lika de övriga två.
Det betyder att andelen korta klotsar ska vara lika stor oavsett tjocklek.
Men då betyder det att andelen korta klotsar totalt sett också måste vara samma tal, dvs
\(P((Y_2=1)|(Y_1=3))\) = \(P((Y_2=1)|(Y_1=2))\) = \(P((Y_2=1)|(Y_1=1))\) = \(P(Y_2=1)\)
Om vi kommer ihåg att det är \(Y_2\) som står “före strecket”, kan likheten också skrivas såhär:
\(p(1|3)\) =\(p(1|2)\)= \(p(1|1)\) = \(p_2(1)\)
Alltså i alla ekvationer \(p(1|y_1)=\displaystyle \frac{p(y_1,1)}{p_1(y_1)}\) kan vi likaväl skriva \(p_2(1)=\displaystyle \frac{p(y_1,1)}{p_1(y_1)}\).
Detta måste förstås gälla för alla längder \(y_2\), dvs om \(Y_1\) och \(Y_2\) ska vara oberoende måste \(p_2(y_2)=\displaystyle \frac{p(y_1,y_2)}{p_1(y_1)}\).
Om vi skriver om den sista ekvationen som en multiplikation får vi följande villkor:
\(p(y_1,y_2)=p_1(y_1) \cdot p_2(y_2)\) för ALLA par \((y_1,y_2)\)
DETTA ÄR VILLKORET för att \(Y_1\) och \(Y_2\) är oberoende
Ett exempel där \(Y_1\) och \(Y_2\) är oberoende
Här har vi ett exempel där \(Y_1\) och \(Y_2\) är oberoende:
Jag har också lagt till de båda marginalfördelningarna \(p_1(y_1)\) och \(p_2(y_2)\) i tabellen.
Här har vi t.ex. att \(P((Y_2=1)|(Y_1=3))\) = \(P((Y_2=1)|(Y_1=2))\) = \(P((Y_2=1)|(Y_1=1))\) = \(P(Y_2=1)\) = \(0.3\)
(30 % av de smala, 30 % av de mellantjocka, 30 % av de tjocka och 30 % av alla
är korta.)
För att kolla att \(Y_1\) och \(Y_2\) är oberoende, måste man kolla att \(p(y_1,y_2)=p_1(y_1) \cdot p_2(y_2)\) för ALLA tolv rutorna.
Övningar
Övningar på att avgöra oberoende finns bland exemplen i nästa delkapitel (Kap 5.7)
Kovarians mellan två slumpvariabler (Kap 5.7)
Exempel avgöra oberoende
Exemplen finner du i följande dokument: Beroende.pdf
Avgör för vart och ett av de åtta exemplen om \(Y_1\) och \(Y_2\) är oberoende. (Tips: Fyll i marginalfördelningarna först, för att kunna kolla villkoret för oberoende.)
Kommentar: “Krysset” i graferna markerar punkten \((7,15)\) , där \(E(Y_1)=7\) och \(E(Y_2)=15\) .
Introduktion till begreppet kovarians
I exemplen nyss avgjorde vi bara om \(Y_1\) och \(Y_2\) var oberoende eller inte.
(Oberoende gäller endast i exempel b )
Kovariansen \(Cov(Y_1,Y_2)\) säger hur starkt beroende det finns mellan \(Y_1\) och \(Y_2\) .
Om \(Y_1\) och \(Y_2\) är oberoende blir \(Cov(Y_1,Y_2)=0\).
I exempel a är det ett starkt beroende mellan \(Y_2\) och \(Y_1\):
Om man vet att \(Y_1\) blir 5, så vet man med 100% säkerhet att \(Y_2\) blir 10,
och om man vet att \(Y_1\) blir 9, så vet man med 100% säkerhet att \(Y_2\) blir 20.
Sambandet är positivt; när \(Y_1\) ökar, så ökar \(Y_2\)
I exempel c är det också ett beroende mellan \(Y_2\) och \(Y_1\), men inte riktigt lika starkt;
Om man vet att \(Y_1\) blir 5, så vet man bara med 80% säkerhet att \(Y_2\) blir 10,
och om man vet att \(Y_1\) blir 9, så vet man bara med 80% säkerhet att \(Y_2\) blir 20.
Men huvuddraget är fortfarande att sambandet är positivt.
Definition av kovarians
Nu ska vi definiera ett mått som kommer att ge ett högre värde för exempel a än för exempel c ; kovariansen (Det kan översättas med samvarians ; beskriver samvariationen mellan de två slumpvariablerna.)
Definition :
\(Cov(Y_1,Y_2)\) = \(E \left( (Y_1-{\mu}_1) \cdot (Y_2-{\mu}_2) \right)\)
där \({\mu}_1=E(Y_1)\) och \({\mu}_2=E(Y_2)\)
Beräkning :
Enligt kap 5.5 beräknas väntevärdet för ett uttryck som innehåller två diskreta slumpvariabler \(Y_1\) och \(Y_2\) såhär:
\(E \left(g(Y_1,Y_2) \right)\) = \(\displaystyle \sum_{(y_1,y_2)\in S} \Big(g(y_1,y_2) \cdot p(y_1,y_2) \Big)\)
Så kovariansen mellan \(Y_1\) och \(Y_2\) blir:
\(Cov(Y_1,Y_2)\) = \(\displaystyle \sum_{(y_1,y_2)\in S} \big( (y_1-{\mu}_1) \cdot (y_2-{\mu}_2) \big) p(y_1,y_2)\)
Exempel på beräkning av kovarians
Exempel 7
7a) Bestäm kovariansen för exempel a i Beroende.pdf
Lösning 7a
Först beräknas \({\mu}_1=E(Y_1)=7\) och \({\mu}_2=E(Y_2)=15\).
Sedan blir \(Cov(Y_1,Y_2)\) = \((5-7) \cdot (10-15) \cdot p(5,10)\) + \((5-7) \cdot (20-15) \cdot p(5,20)\) + \((9-7) \cdot (10-15) \cdot p(9,10)\) + \((9-7) \cdot (20-15) \cdot p(9,20)\) = \((-2) \cdot (-5) \cdot 0.50\) + \((-2) \cdot 5 \cdot 0\) + \(2 \cdot (-5) \cdot 0\) + \(2 \cdot 5 \cdot 0.50\) = \(10\)
7b) Bestäm kovariansen för Exempel b i Beroende.pdf
7c) Bestäm kovariansen för Exempel c i Beroende.pdf
7e) Bestäm kovariansen för Exempel e i Beroende.pdf
Några kommentarer, bl.a. om kovariansens tecken
Som vi ser har kovariansen den önskade egenskapen; att exempel a har högre kovarians än exempel c.
Dessutom; i exempel b där \(Y_1\) och \(Y_2\) är oberoende blir \(Cov(Y_1,Y_2)=0\).
I exempel a blir de termer som inte är noll positiva.
Om man bara tar med dessa termer som ger något bidrag till summan, får man \((-2) \cdot (-5)\cdot 0.5\) + \((+2) \cdot (+5)\cdot 0.5\)
Så blir det när man har punkter som ligger i nedre vänstra hörnet och i övre högra hörnet i förhållande till krysset. Så ligger ju punkter om man har ett positivt linjärt samband, så kovariansen blir positiv när man har ett positivt samband.
I exempel e blir de termer som inte är noll negativa.
Om man bara tar med dessa termer som ger något bidrag till summan, får man \((-2) \cdot (+5) \cdot 0.5\) + \((+2) \cdot (-5)\cdot 0.5\)
Så blir det när man har punkter som ligger i övre vänstra hörnet och nedre högra hörnet i förhållande till krysset. Så ligger ju punkter om man har ett negativt linjärt samband, så kovariansen blir negativ när man har ett negativt samband.
Alternativ beräkningsformel för kovariansen
Definitionen av kovarians var \(Cov(Y_1,Y_2)=E \left( (Y_1-{\mu}_1) \cdot (Y_2-{\mu}_2) \right)\)
där \({\mu}_1=E(Y_1)\) och \({\mu}_2=E(Y_2)\)
En alternativ formel för kovariansen är följande:
\(Cov(Y_1,Y_2)=E(Y_1 \cdot Y_2)-E(Y_1) \cdot E(Y_2)\)
Exempel med den alternativa beräkningsformeln
Exempel 8
8a) Använd den alternativa beräkningsformeln för att bestämma \(Cov(Y_1,Y_2)\) för exempel a i Beroende.pdf
8b) Visa allmänt att \(E \left( (Y_1-{\mu}_1) \cdot (Y_2-{\mu}_2) \right)\) = \(E(Y_1 \cdot Y_2)-E(Y_1) \cdot E(Y_2)\)
Lösning 8a
Vi vet redan att \(E(Y_1)=7\) och \(E(Y_2)=15\)
Vi behöver också \(E(Y_1 \cdot Y_2)\) som beräknas enligt följande (det vanliga sättet):
\(E \left(Y_1 \cdot Y_2) \right)\) = \(\displaystyle \sum_{(y_1,y_2)\in S} y_1 y_2 p(y_1,y_2)\) = \(5 \cdot 10 \cdot p(5,10)\) + \(5 \cdot 20 \cdot p(5,20)\) + \(9 \cdot 10 \cdot p(9,10)\) + \(9 \cdot 20 \cdot p(9,20)\) = \(50 \cdot 0.50\) + \(100 \cdot 0\) + \(90 \cdot 0\) + \(180 \cdot 0.5\) = \(115\)
Vi får \(Cov(Y_1,Y_2)\) = \(E(Y_1 \cdot Y_2)-E(Y_1) \cdot E(Y_2)\) = \(115-7 \cdot 15=10\) STÄMMER!
Lösning 8b
Lösningen finns i (beviset av) sats 5.10.
Fortsättning med exempel
7g1) Bestäm kovariansen för Exempel g i Beroende.pdf
7g2) Jämför exemplen c och g i Beroende.pdf.
Anser du att sambandet är starkare i g än i c?
Kommentar om kovariansens storlek
Om vi jämför exemplen c och g i Beroende.pdf så är det egentligen ingen skillnad, förutom skalan på axlarna. Det kan ju vara så att i c är värdena i cm, medan man i g har använt mm för måtten.
Detta gör att kovariansen blir högre i g trots att sambanden är exakt likadana.
Svar till exempel 7
7a) \(Cov(Y_1,Y_2)=10\)
7b) \(Cov(Y_1,Y_2)=0\)
7c) \(Cov(Y_1,Y_2)=6\)
7d) \(Cov(Y_1,Y_2)=2\)
7e) \(Cov(Y_1,Y_2)=-10\)
7f) \(Cov(Y_1,Y_2)=-6\)
7g) \(Cov(Y_1,Y_2)=600\)
7h) \(Cov(Y_1,Y_2)=0\)
Korrelation
Korrelation är ett bättre mått än kovarians, eftersom det tar hänsyn till skalan.
Korrelationen kommer att få samma värde i c och g.
Såhär definieras korrelationen \(\rho\) mellan \(Y_1\) och \(Y_2\):
\(\rho (Y_1,Y_2)\) = \(\displaystyle \frac{Cov(Y_1,Y_2)}{ \sqrt{V(Y_1) \cdot V(Y_2)} }\)
Ofta skriver man bara \(\rho\) när det är underförstått vilka slumpvariabler det handlar om.
Exempel på beräkning av korrelation
Exempel 9
9a) Bestäm korrelationen för exempel a i Beroende.pdf
Lösning Exempel 9a
\(\rho =\displaystyle \frac{Cov(Y_1,Y_2)}{ \sqrt{V(Y_1) \cdot V(Y_2)} }\)
Vi behöver \(Cov(Y_1,Y_2)\) , \(V(Y_1)\) och \(V(Y_2)\) .
Delberäkningar:
\(Cov(Y_1,Y_2)\): Den har vi redan beräknat på två sätt (7a och 8a), och fått \(Cov(Y_1,Y_2)=10\)
\(V(Y_1)\): Vi använder “det gamla vanliga” för att få fram variansen: \(V(Y_1)=E(Y_1^2)-(E(Y_1))^2\)
Beräkning av \(E(Y_1^2)\): \(E \left(Y_1^2) \right)\) = \(\displaystyle \sum_{(y_1,y_2)\in S} \Big(y_1^2 p(y_1,y_2) \Big)\) = \(25 \cdot 0.50\) + \(25 \cdot 0\) + \(81 \cdot 0\) + \(81 \cdot 0.5\) = \(53\)
Det ger \(V(Y_1)=E(Y_1^2)-(E(Y_1))^2=53-7^2=4\)
ANM För beräkning av \(E(Y_1^2)\) kan man också använda “genvägen för väntevärde” eftersom bara en variabel är inblandad (Se kap 5.5). Detsamma gäller \(E(Y_2^2)\) nedan.
\(V(Y_2)\): \(V(Y_2)=E(Y_2^2)-(E(Y_2))^2\)
Beräkning av \(E(Y_2^2)\):
\(\displaystyle E \left(Y_2^2 \right) =\sum_{(y_1,y_2)\in S} \left(y_2^2 p(y_1,y_2) \right)=\) \(100 \cdot 0.50 + 400 \cdot 0 + 100 \cdot 0 +400 \cdot 0.5=250\)
Det ger \(V(Y_2)=E(Y_2^2)-(E(Y_2))^2=250-15^2=25\)
Nu har vi alla delar; \(Cov(Y_1,Y_2)=10\), \(V(Y_1)=4\) och \(V(Y_2)=25\), så nu kan vi beräkna korrelationen:
\(\rho =\displaystyle \frac{Cov(Y_1,Y_2)}{ \sqrt{V(Y_1) \cdot V(Y_2)} }\) = \(\displaystyle \frac{10}{ \sqrt{4 \cdot 2}}=1\)
Svar till exempel 9 (Lösningen är enligt samma princip som i 9a så du behöver nog inte göra alla.)
9a) \(\rho=1\)
9b) \(\rho=0\)
9c) \(\rho=0.6\)
9d) \(\rho=0.2\)
9e) \(\rho=-1\)
9f) \(\rho=-0.6\)
9g) \(\rho=0.6\)
9h) \(\rho=0\)
Här ser vi att korrelationen får samma värde i c och g; i båda fallen blir \(\rho=0.6\), medan kovariansen får olika värden; 6 respektive 600.
Korrelationens storlek
Korrelationen \(\rho\) blir alltid ett tal mellan \(-1\) och \(1\) .
Om \(\rho=1\) innebär det att vi har starkast möjliga positiva (linjära) samband mellan \(Y_2\) och \(Y_1\). (som i exempel a i Beroende.pdf )
Om \(\rho=-1\) innebär det att vi har starkast möjliga negativa (linjära) samband mellan \(Y_2\) och \(Y_1\). (som i exempel e i Beroende.pdf )
Anmärkning Korrelationen är ett mått på det linjära beroendet mellan \(Y_2\) och \(Y_1\).
Samband mellan korrelation/kovarians och oberoende
Vi har konstaterat att om \(Y_1\) och \(Y_2\) är oberoende blir \(Cov(Y_1,Y_2)=0\).
Men i ett av exemplen i Beroende.pdf , nämligen i exempel h har vi \(Cov(Y_1,Y_2)=0\), trots att inte \(Y_1\) och \(Y_2\) är oberoende.
Alltså gäller inte \(Cov(Y_1,Y_2)=0\) \(\Rightarrow\) “\(Y_1\) och \(Y_2\) är oberoende.”
Det är bara följande som är sant:
“\(Y_1\) och \(Y_2\) är oberoende” \(\Rightarrow\) \(Cov(Y_1,Y_2)=0\)
Ett undantag finns, där implikationen gäller åt båda hållen; om de två slumpvariablerna \(Y_1\) och \(Y_2\) kommer från en bivariat normalfördelning (Se kap 5.10)
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });