Chapter 3 Discrete Random Variables
(Nedanstående inkluderar även kap 2.11)
Slumpvariabler /stokastiska variabler (Kap 2.11 + Kap 3.1)
Slumpvariabler betecknas X, Y, Z, …
Används för slumpförsök där utfallen kan uttryckas som reella tal.
Exempel 1: Inför en slumpvariabel \(X\) för följande slumpförsök: Man kollar en slumpvis utvald dag om en viss person kommer “för tidigt”, “i rätt tid” eller “för sent”.
Lösning:
Det naturliga utfallsrummet är \(S=\{\mathrm{för\: tidigt,\:i \:rätt \:tid,\:för\: sent}\}\).
Man skulle kunna ge beteckningarna \(s_1\), \(s_2\) och \(s_3\) till de tre utfallen.
Men om man vill införa en slumpvariabel, är det lämpligare att tilldela utfallen reella tal istället; t.ex. på följande sätt:
\(s_1\) ges värdet \(-1\), \(s_2\) ges värdet \(0\) och \(s_3\) ges värdet \(1\).
Lösningen formellt uttryckt:
\(X:S\rightarrow \mathbb{R}\)
där \(S=\{s_1, s_2,s_3\}\) och \(\mathbb{R}\)=mängden av alla reella tal.
Slumpvariabeln X betraktas alltså som en funktion, där
\(X(s_1)=-1\), \(X(s_2)=0\) och \(X(s_3)=1\).
Om beteckningar, m.m.
I den här kursboken används vanligen \(Y\) som beteckning för en slumpvariabel. Formellt definierades \(Y\) som en funktion som tilldelar varje händelse i utfallsrummet ett reellt tal.
Men vi vi kan också betrakta \(Y\) som en samling möjligheter, där vi på förhand inte kan säga vilken det blir.
Det är först när vi har observerat ett utfall som vi säger “Det blev y”.
När vi skriver \(Y=y\) skall detta läsas som en händelse, “\(Y\) blev y”, där y
är realiseringen av slumpvariabeln \(Y\).
Diskreta slumpvariabler
En diskret slumpvariabel kan bara anta ett ändligt (eller uppräkneligt) antal olika värden; oftast heltalsvärden.
Exempel 2: Vi har slumpförsöket att kasta en tärning.
Bestäm en lämplig slumpvariabel, och ange hur man beskriver resultatet om man fick en “trea”.
Lösning: Lämplig slumpvariabel: \(Y\) = antalet prickar som kommer upp. Om vi kastar tärningen och får en trea, skriver vi y=3.
(Slumpvariabeln \(Y\) har antagit värdet y=3.)
Sannolikhet för en diskret slumpvariabel (Kap 3.2)
Vi kan definiera sannolikheten som en funktion p(y), där p(y) betecknar sannolikheten att slumpvariabeln \(Y\) ska anta det numeriska värdet y, dvs
p(y) betyder \(P(Y\)=y)
Sannolikhetsfördelning
Funktionen p(y) kallas för sannolikhetsfördelning eller pdf
för den diskreta slumpvariabeln \(Y\).
Denna funktion p(y) måste uppfylla följande villkor:
-
\(\displaystyle p(y)\geq 0\)
- \(\displaystyle\sum_{y\in S} p(y)=1\)
-
\(\displaystyle P(Y\in A) =\sum_{y\in A} p(y)\), där \(A\subseteq S\)
Jämför dessa tre villkor med Kolmogorovs tre axiom i början av kapitel 2.
Exempel 3: Använd beskrivningen i villkor 3 för att ge ett uttryck för \(P(Y\in A)\)
om \(A\) representerar “accepterat beteende” i exempel 1.
Lösning: Accepterat beteende är att “komma för tidigt” eller “komma i rätt tid”. \(A\) är alltså lika med \(\{s_1, s_2\}\).
Det betyder att \(\displaystyle P(Y\in A)=\sum_{y\in A} p(y)=\) \(p(-1)+p(0)\).
Egenskaper hos en diskret slumpvariabel Y (Kap 3.3)
Lägesmått: Väntevärde E(Y)
(Väntevärdet är det förväntade genomsnittliga värdet vid upprepade slumpförsök).
På engelska heter det “Expected value”.
\(\displaystyle E(Y)=\sum_{y\in S} (y \cdot p(y))\)
Bakgrund till formeln för E(Y) :
Exempel 4: Vi har en slumpvariabel \(Y\) med följande sannolikhetsfördelning:
\(y\) | \(p(y)\) |
---|---|
2 | 0.25 |
4 | 0.50 |
6 | 0.25 |
De tre möjliga värdena för \(Y\) skulle vi kunna beteckna \(y_i\), så att
\(y_1=2, \: y_2=4\) och \(y_3=6\).
Bestäm E(Y)
Lösning: Man skulle kunna tänka såhär:
Vid 10 upprepningar av försöket, skulle man kunnat få t.ex. följande utfall: 2,6,4,4,2,2,4,6,4,4.
(dvs 2 tre gånger, 4 fem gånger, 6 två gånger).
Medelvärdet i detta fall skulle bli
\(\bar{y}=\frac{2\cdot 3+4\cdot 5+6\cdot 2}{10}=3.8\)
Om man skriver om denna beräkning får man följande:
\(\bar{y}=\frac{2\cdot 3+4\cdot 5+6\cdot 2}{10}=\) \(2\cdot \frac{3}{10}+4\cdot \frac{5}{10}+6\cdot \frac{2}{10}\) =
\(y_1\cdot \frac{n(y_1)}{n}+\) \(y_2\cdot \frac{n(y_2)}{n}+\) \(y_3\cdot \frac{n(y_3)}{n}\) =
\(\displaystyle \sum \left( y_i \cdot \frac{n(y_i)}{n} \right)\)
Om vi nu ändrar från n=10 till ett oändligt värde,
kommer (enligt den klassiska sannolikhetsdefinitionen) \(\frac{n(y_i)}{n}\) att gå mot \(p(y_i)\).
Och \(\bar{y}\) övergår till att bli det genomsnittliga värdet (alltså medelvärdet) vid oändligt antal upprepningar av försöket, dvs E(Y).
Svaret till exempel 4 blir alltså
\(\displaystyle E(Y)=\sum_{y\in S} (y \cdot p(y))=\) \(2\cdot 0.3+4\cdot 0.5+\) \(6\cdot 0.2=4\)
Spridningsmått: Varians V(Y) och Standardavvikelse
(Standardavvikelsens tolkning är slumpvariabelvärdenas genomsnittliga avvikelse från väntevärdet, och variansen är standardavvikelsen upphöjd till 2)
\(\displaystyle V(Y)=\sum_{y\in S} ((y-\mu)^2 \cdot p(y))\)
där \(\mu\) är en alternativ beteckning för väntevärdet E(Y)
Bakgrund till formeln för V(Y) :
(Jämför exempel 4, där motsvarande görs för E(Y))
Om man hade ett stickprov av storlek 10 som gav 2,6,4,4,2,2,4,6,4,4
skulle stickprovets varians ha beräknats såhär:
\(s^2=\frac{(2-3.8)^2\cdot 3+(4-3.8)^2\cdot 5+(6-3.8)^2\cdot 2}{10-1}\)
Om man skriver om denna beräkning får man följande:
\(s^2=(y_1-\bar{y})^2\cdot \frac{(n(y_1)}{n-1}+\) \((y_2-\bar{y})^2\cdot \frac{n(y_2)}{n-1}+\) \((y_3-\bar{y})^2\cdot \frac{n(y_3)}{n-1}\) =
\(\sum \left( (y_i-\bar{y})^2 \cdot \frac{n(y_i)}{n-1} \right)\)
Om vi nu ändrar från n=10 till ett oändligt värde,
kommer \(\frac{n(y_i)}{n-1}\) att gå mot \(p(y_i)\),
\(\bar{y}\) att gå mot \(\mu\)
och \(s^2\) övergå till att bli V(Y).
Väntevärdet för en funktion av en slumpvariabel
Exempel 5: Vad är väntevärdet för kvadraten på ett tärningskast?
Lösning : Vi kan tyvärr inte utnyttja att vi vet att väntevärdet för ett tärningskast Y är 3.5.
Svaret på exempel 5 är alltså inte 12.25 (3.52 )
Nej, istället måste vi börja från grunden med fördelningen för \(Y^2\) :
Möjligt värde | Sannolikhet |
---|---|
1 | 1/6 |
4 | 1/6 |
9 | 1/6 |
16 | 1/6 |
25 | 1/6 |
36 | 1/6 |
och då får vi att
\(E(Y^2)=\sum (y^2 \cdot p(y))\) =
\(1\cdot \frac{1}{6}+ 4\cdot \frac{1}{6}+ 9\cdot \frac{1}{6}+\) \(16\cdot \frac{1}{6}+ 25\cdot \frac{1}{6}+ 36\cdot \frac{1}{6}\) \(\approx 15.167\)
Exempel 6:
I exempel 5 användes funktionen \(g(x)=x^2\).
Jämför följande två värden: \(E(g(Y))\) och \(g(E(Y))\).
Lösning: Vi har i exempel 5 berört bägge värdena:
\(E(g(Y))=E(Y^2)\approx 15.167\) (se beräkningen i exempel 5)
och \(g(E(Y))=(E(Y))^2=3.5^2=12.25\)
Ett “icke-samband”
I allmänhet gäller \(E(g(Y)) \neq g(E(Y))\).
Allmänt om väntevärdet för en funktion av en slumpvariabel (Sats 3.2)
\(\displaystyle E(g(Y))=\sum_{y\in S} (g(y) \cdot p(y))\).
Det var just denna formel som användes i exempel 5.
Tillämpning av sats 3.2
Variansen V(Y) för en slumpvariabel Y definieras som
väntevärdet för \((Y-\mu)^2\) där \(\mu=E(Y)\).
Enligt sats 3.2 med \(g(x)=(x-\mu)^2\) får vi då:
\(V(Y)=E((Y-\mu)^2)=\) \(\displaystyle \sum_{y\in S} ((y-\mu)^2 \cdot p(y))\)
Användbara formler för omskrivning av uttryck med “E”
(se satserna 3.3, 3.4 och 3.5)
Jag kallar detta för “E-hantering”
-
\(E(c)=c\)
-
\(E(c \cdot g(Y)) = c \cdot (E(g(Y))\)
-
\(E(g_1(Y)+ g_2(Y) + \cdot \cdot \cdot + g_k(Y) ) =\) \(E(g_1(Y))+ E(g_2(Y)) + \cdot \cdot \cdot + E(g_k(Y))\)
Exempel 7 : (Användning av formlerna för “E-hantering”)
7a) Bestäm E (4).
7b) Avgör om du skulle spela följande spel: Betala 10 kronor, och kasta en tärning. Du får 3 gånger beloppet som visas på tärningen. Så om du t.ex. slår en femma får du 15 kr.
Lösning:
7a) Enligt formel 1 blir E (4) = 4.
7b) Om Y är resultatet av ett tärningskast, gäller att E(Y)=3.5. Vi behöver beräkna väntevärdet för din “inkomst” vid ett spel.
Eftersom din inkomst i ett spel är lika med 3Y, ska vi beräkna E(3Y).
Enligt formel 2 blir \(E(3 \cdot Y) = 3 \cdot (E(Y))\),
dvs \(E(3 \cdot Y) = 3 \cdot 3.5=10.5\)
Din utgift i varje spel är 10 kr, och den förväntade vinsten är alltså 10,50 kr. Så i det långa loppet kommer du att vinna i genomsnitt 50 öre per spel.
Moment
(Vi introducerar begreppet redan här, trots att det ligger i kapitel 3.9, men återkommer senare, när vi gått igenom fler (namngivna) sannolikhetsfördelningar, och introducerar då så kallade momentgenererande funktioner)
När det gäller karakteristik för en slumpvariabel, har vi hittills bara pratat om två “egenskaper”: väntevärde och varians. Det finns fler sådana egenskaper för en slumpvariabler; symmetri och kurtosis(eller kurtositet). Det senare har med hur “tjocka svansar” fördelningen har (Vid hög kurtosis är sannolikheten för extrema utfall hög.)
Ännu mer generaliserat finns för varje slumpvariabel något som kallas för moment.
Det första momentet har med fördelningens läge att göra.
Det andra momentet har med fördelningens spridning att göra.
Det tredje momentet har med fördelningens symmetri att göra.
Det fjärde momentet har med fördelningens kurtosis att göra.
o.s.v.
Om man bara har information om väntevärde \(\mu\) och standardavvikelse \(\sigma\) för en fördelning, är det inte tillräckligt för att entydigt bestämma vilken sannolikhetsfördelning man har, eftersom det finns många olika fördelningar som har samma väntevärde och standardavvikelse
Men med information om värdena för tillräckligt många moment, kan man i många fall entydigt bestämma funktionen p(y) för sannolikhetsfördelningen.
Definitionerna är följande:
* \(E(Y^k)\) kallas det k:te momentet runt origo.
* \(E((Y-b)^k)\) kallas det k:te momentet runt b.
* \(E((Y-E(Y))^k)\) kallas det k:te centralmomentet.
* \(E(Y\cdot(Y-1)\cdot(Y-2)\cdot \cdot\) \(\cdot \cdot (Y-k+1))\) kallas det k:te faktorialmomentet.
Exempel 8:
8a) Ange det första momentet runt 2.
8b) Ange det andra momentet runt origo.
8c) Ge en alternativ benämning av det första momentet runt 0 (origo).
8d) Varför är det andra momentet runt origo inte detsamma som variansen V(Y) ?
8e) Ge en beskrivning av variansen uttryckt som moment.
8f) Ange det första faktoriella momentet.
8g) Ange det andra faktoriella momentet.
Svar:
8a) Det första momentet runt 2
definieras som \(E((Y-2)^1)=\) \(E(Y-2)=\) \(E(Y)-E(2)=\) \(E(Y)-2\)
(Förenklingen sker enligt “E-hanteringssatserna 3.3-3.5 ovan)
8b) Det andra momentet runt origo
definieras som \(E((Y-0)^2)=\) \(E(Y^2)\)
(Detta kan ej förenklas ytterligare.)
8c) Det första momentet runt origo
definieras som \(E(Y^1)=E(Y)\)
och det kallas också för “väntevärdet för \(Y\)”.
8d) Det andra momentet runt origo är \(E(Y^2)\)
Men \(V(Y)=E((Y-\mu)^2)\), och det är inte samma sak som \(E(Y^2)\).
8e) \(V(Y)\) är lika med det andra centralmomentet.
8f) Det första faktoriella momentet är lika med \(E(Y)\).
8g) Det andra faktoriella momentet är lika med \(E(Y\cdot(Y-1))\).
(Det skulle kunna skrivas om som \(E(Y^2)-E(Y)\) )
Användning av moment
Det kan tyckas som om dessa definitioner bara är teoretiska, men rent praktiskt kan manha nytta av t.ex. det andra faktoriella momentet vid härledningar av variansen för en fördelning.
(För den följande hanteringen har du nytta av att kolla på satserna 3.3-3.5.)
Omskrivning av formeln för variansen
Vi utgår från \(V(Y)=E((Y-\mu)^2)=\) \(E((Y-E(Y))^2)\)
Alternativ 1 (Se även sats 3.6)
Det kan vara lättare att följa beviset av sats 3.6 i boken eftersom där används \(\mu\) istället för \(E(Y)\).
Men du behöver kunna utföra nedanstående också; denna typ av omskrivningar ingår i kursfordringarna.
\(V(Y)=E \Big( \big(Y-E(Y) \big)^2 \Big)\)
Först utvecklar vi \((Y-E(Y))^2\), det ger:
\(V(Y)=\) \(E(Y^2-2 \cdot Y \cdot E(Y)+(E(Y))^2)\)
Använd sats 3.5, ger:
\(V(Y)=E(Y^2) – E(2 \cdot Y \cdot E(Y))+\) \(E((E(Y))^2)\)
Sats 3.3+3.4 ger (eftersom 2, E(Y) och E(Y)2 är konstanter.)
\(V(Y)=\) \(E(Y^2)-2 \cdot E(Y) \cdot E(Y)+ (E(Y))^2\)
Vanlig multiplikation med konstanten E(Y) gånger sig själv, ger:
\(V(Y)=\) \(E(Y^2)-2 \cdot (E(Y))^2 + (E(Y))^2\)
Förenkling; två termer av samma sort, ger:
\(V(Y)=E(Y^2) – (E(Y))^2\)
Alternativ 2
Här utgår vi från det andra faktoriella momentet; \(E(Y\cdot(Y-1))\)
Omskrivning ger: \(E(Y\cdot(Y-1)) =\) \(E(Y^2-Y) = E(Y^2)-E(Y)\)
Nu startar vi med resultatet från alternativ 1:
\(V(Y)= E(Y^2) – (E(Y))^2\)
Först adderar vi noll; i form av -E(Y)+E(Y), det ger:
\(V(Y)= E(Y^2) – (E(Y))^2\) \(-E(Y) + E(Y)\)
Byter plats på termerna, det ger:
\(V(Y)= E(Y^2) – E(Y)\) \(- (E(Y))^2 + E(Y)\)
Jämför med omskrivningen av E(Y(Y-1)) alldeles nyss, så får vi:
\(V(Y)= E(Y\cdot(Y-1))\) \(- (E(Y))^2 + E(Y)\)
Mer algebraisk omskrivning, med en extra parentes, ger:
\(V(Y)= E(Y\cdot(Y-1))\) \(- ((E(Y))^2 – E(Y))\)
Alternativ omskrivning:
\(V(Y)= E(Y\cdot(Y-1))\) \(- ((E(Y)) \cdot (E(Y)-1))\)
Beräkning av varians i praktiken
När det gäller ursprungs-formeln \(V(Y)=E((Y-\mu)^2)\) används den såhär i praktiken:
Först beräknas \(\mu\), dvs \(E(Y)\), enligt \(E(Y)=\sum (y \cdot p(y))\).
Därefter \(V(Y)=E((Y-\mu)^2)=\) \(\sum ((y-\mu)^2 \cdot p(y))\)
Alternativ 1-formeln \(V(Y)= E(Y^2) – (E(Y))^2\) används såhär i praktiken:
Först beräknas \(\mu\), dvs \(E(Y)\) enligt \(E(Y)=\sum (y \cdot p(y))\)
Därefter \(E(Y^2)=\sum (y^2 \cdot p(y))\)
Slutligen utförs subtraktionen: \(V(Y)= E(Y^2)-\mu ^2\)
Alternativ 2 – formeln \(V(Y)= E(Y\cdot(Y-1))\) \(- ((E(Y)) \cdot (E(Y)-1))\) används såhär i praktiken:
Först beräknas \(\mu\), dvs \(E(Y)\) enligt \(E(Y)=\sum (y \cdot p(y))\)
Därefter \(E(Y\cdot(Y-1))=\) \(\sum \Big((y \cdot (y-1) \cdot p(y) \Big)\)
Slutligen utförs subtraktionen: \(V(Y)= E(Y\cdot(Y-1))\) \(- ( \mu \cdot(\mu -1))\)
Tillämpning:
Exempel 9: Slumpförsöket Y= resultatet av ett tärningskast.
9a) Beräkna \(V(Y)\) med hjälp av ursprungsformeln \(V(Y)=E((Y-\mu)^2)\)
9b) Beräkna \(V(Y)\) med hjälp av alternativ 1: \(V(Y)= (E(Y))^2- E(Y^2)\)
9c) Beräkna \(V(Y)\) med hjälp av alternativ 2: \(V(Y)= E(Y\cdot(Y-1)) -\) \(\big(E(Y) \cdot (E(Y)-1) \big)\)
Svar Det blir (förstås) samma svar för alla sätten; Svaret är att V(Y)=2.91666…
Lösning
Vi behöver i alla tre uppgifterna (a,b,c) utnyttja att \(E(Y)=3.5\).
9a) \(V(Y)=E((Y-\mu)^2)=\) \(\displaystyle \sum_{y\in S} \big( (y-\mu)^2 \cdot p(y) \big)=\) \((1-3.5)^2 \cdot \frac{1}{6}+\) \((2-3.5)^2 \cdot \frac{1}{6}+\) \((3-3.5)^2 \cdot \frac{1}{6}+\) \((4-3.5)^2 \cdot \frac{1}{6}+\) \((5-3.5)^2 \cdot \frac{1}{6}+\) \((6-3.5)^2 \cdot \frac{1}{6}\) \(=2.91666…\)
9b) \(V(Y)=E(Y^2)-\big(E(Y) \big)^2\)
där \(E(Y^2)=\sum \big(y^2 \cdot p(y) \big)\) \(=15.1666….\) enligt Exempel 5
och \(E(Y)=3.5\), så vi får
\(V(Y)=E(Y^2)-\big(E(Y) \big)^2=\) \(15.1666…-3.5^2=\) \(2.91666…\)
9c) \(V(Y)= E(Y\cdot(Y-1)) -\) \(\big(E(Y) \cdot (E(Y)-1) \big)\)
där \(E(Y\cdot(Y-1))=\) \(\displaystyle \sum_{y\in S} \Big((y \cdot (y-1) \cdot p(y) \Big)=\) \(0 \cdot \frac{1}{6}+\) \(2 \cdot \frac{1}{6}+\) \(6\cdot \frac{1}{6}+\) \(12 \cdot \frac{1}{6}+\) \(20 \cdot \frac{1}{6}+\) \(30 \cdot \frac{1}{6}\) \(=11.6666…\)
och \(\big(E(Y) \cdot (E(Y)-1) \big)=\) \(3.5 \cdot 2.5 =\) \(8.75\), så vi får
\(V(Y)= E(Y\cdot(Y-1)) -\) \(\big(E(Y) \cdot (E(Y)-1) \big)\) \(=11.6666…-8.76\) \(=2.91666…\)
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });