Chapter 4 Continous Random Variables
Kapitel 4.4-4.7: Speciella kontinuerliga sannolikhetsfördelningar, forts
Normalfördelningen (Kap 4.5)
Exempel på Normalfördelningssituation
Det finns mycket i naturen som är ungefär normalfördelat.
En exakt normalfördelning kan man betrakta som en teoretisk modell av verkligheten, så en exakt normalfördelning finns bara i teorin.
(Det är nästan samma sak med t.ex. Poissonfördelning och Gammafördelning; dessa förutätter att händelserna verkligen inträffar helt slumpmässigt, och det kan vi egentligen inte veta.)
Tag t.ex. längden av personer av samma kön i en viss åldersgrupp.
Exempel kvinnor
Låt \(Y\) = längden av en slumpvis utvald svensk kvinna i åldern 18-24 år.
Erfarenheten säger att \(Y\) följer (ungefär) en Normalfördelning.
Om sannolikhetsfördelningen
I det här exemplet kan vi inte direkt härleda formeln för täthetsfunktionen utgående från situationen för slumpförsöket. Istället känner vi till en teoretisk täthetsfunktion, och vi har av erfarenhet upptäckt att kvinnolängderna fördelar sig ungefär i enlighet med denna teoretiska sannolikhetsfördelning.
Vi antar alltså att vi har en normalfördelning.
För att bestämma rätt formel för täthetsfunktionen behöver vi följande information om populationen; medellängden är 167 (cm) och standardavvikelsen 6 (cm).
Täthetsfunktionen för den normalfördelning som har väntevärdet 167 och standardavvikelsen 6 ser ut såhär:
\(f(y) =\frac{1}{6 \sqrt{ 2\pi} }e^{-\frac{1}{2} \left( \frac{y-167 }{6}\right) ^2}\), \(-\infty <y<\infty\)
Vi ser direkt ett problem med den teoretiska modellen; det är bara i teorin som en kvinnolängd kan variera mellan \(-\infty\) och \(\infty\).
Men å andra sidan har f(y) så låga värden när y är långt bort från vad kvinnolängder brukar vara, så att modellen fungerar bra ändå. Det kan vi se i grafen för f(y):
Exempel män
Låt \(Y\) = längden av en slumpvis utvald svensk man i åldern 18-24 år.
Erfarenheten säger att \(Y\) följer (ungefär) en normalfördelning.
Om sannolikhetsfördelningen för männen
Vi antar alltså även här att Y följer en normalfördelning.
För att bestämma rätt formel för täthetsfunktionen behöver vi följande information om populationen; medellängden är 180 (cm) och standardavvikelsen 7 (cm).
Täthetsfunktionen för den normalfördelning som har väntevärdet 180 och standardavvikelsen 7 ser ut såhär:
\(f(y) =\frac{1}{7 \sqrt{ 2\pi} }e^{-\frac{1}{2} \left( \frac{y-180 }{7}\right) ^2}\), \(-\infty <y<\infty\)
Grafen för f(y) ser ut såhär:
Allmänt
Vi har en slumpvariabel Y vars sannolikhetsfördelning är “klockformad”; det som kallas Normalfördelning.
Det är väntevärdet; \(E(Y)=\mu\) och variansen; \(V(Y)=\sigma ^2\) som entydigt beskriver sannolikhetsfördelningen.
Vi skriver \(Y \sim N(\mu,\sigma)\) eller \(Y \sim N(\mu,\sigma ^2)\).
(Det varierar mellan olika författare.)
Allmänna egenskaper för \(Y \sim N(\mu,\sigma)\)
Täthetsfunktion: \(f(y) =\frac{1}{\sigma \sqrt{ 2\pi} }e^{-\frac{1}{2} \left( \frac{y-\mu }{\sigma }\right) ^2}\), \(-\infty <y<\infty\)
Visar att \(f(y) \geq 0\) för \(-\infty < y < \infty\):
\(f(y)\) består av två faktorer; en positiv konstant \(\frac{1}{\sigma \sqrt{ 2\pi} }\) och en exponentialfunktion \(e^{-\frac{1}{2} \left( \frac{y-\mu }{\sigma }\right) ^2}\).
Värdet av en exponentialfunktion är alltid positivt, så då vet vi att \(f(y) > 0\) för \(-\infty < y < \infty\)
Visar att totala arean under f(y) är 1, dvs att \(\displaystyle \int_{-\infty}^{\infty} f(y) \ dy =1\):
f(y) saknar faktiskt primitiv funktion, så detta kan vi inte visa på vanligt sätt.
Återigen får vi lita på att det är riktigt att denna integral blir 1.
Väntevärde:
\(E(Y)=\mu\). Det är det värde \(\mu\) som finns i formeln för f(y).
Även här får vi tyvärr utelämna bevis.
Varians
\(V(Y)= \sigma ^2\). Det är det värde \(\sigma\) som finns i formeln för f(y).
Återigen får vi klara oss utan bevis.
Sannolikhetsberäkningar
Exempel 14a Bestäm sannolikheten för att en slumpvis utvald kvinna är högst 175 cm lång.
Exempel 14b Bestäm sannolikheten för att en slumpvis utvald kvinna är minst 173 cm lång.
Exempel 14c Bestäm sannolikheten för att en slumpvis utvald kvinna är mellan 160 cm och 170 cm lång.
Vi börjar med lösningen till exempel 14a, så kommer resten av lösningarna lite längre ned, efter den allmänna genomgången (som bygger på exempel 14a)
Låt \(Y\) vara längden av en slumvis utvald kvinna i åldern 18-24 år.
Vi antar att \(Y\) följer en normalfördelning.
För att få de rätta parametrarna för normalfördelningen, har vi undersökt populationen och funnit att \(\mu=167\) och att \(\sigma=6\).
Vi har alltså att \(Y \sim N(167,6^2)\)
Då blir \(\displaystyle P(Y \leq 175) =\) \(\int_{-\infty}^{175} \frac{1}{6 \sqrt{ 2\pi} }e^{-\frac{1}{2} \left( \frac{y-167 }{6}\right) ^2} \ dy\)
Tyvärr har vi nyss konstaterat att vi inte kan lösa denna integral exakt, eftersom vi inte kan hitta någon primitiv funktion.
Då återstår numerisk beräkning med hjälp av dator.
Ett annat alternativ är att använda en tabell (som någon med tillgång till dator har konstruerat)
Allmänt om hur man gör sannolikhetsberäkningar med hjälp av tabell.
Det finns inte en tabell för varje möjlig normalfördelning; i så fall skulle det behövas en tabell för \(Y \sim N(167,6^2)\), en tabell för \(Y \sim N(180,7^2)\) o.s.v.
Istället används bara en tabell, som kan användas oavsett vilken normalfördelning man utgått ifrån.
Den tabellen är konstruerad utgående från en standardiserad normalfördelad variabel som brukar betecknas \(Z\) .
För den standardiserade normalfördelningen är väntevärdet 0.
Man översätter sin slumpvariabel \(Y\) till standardiserad \(Z\) genom att beräkna hur många standardavvikelser från väntevärdet som \(Y\) är.
Z-värdet är alltså antalet standardavvikelser från väntevärdet, och beräknas såhär:
\(Z=\frac{Y-\mu}{\sigma}\)
För exempel 14a där vi ska beräkna \(P(Y \leq 175)\) översätts då \(175\) till \(\frac{175-167}{6} \approx 1.33\),
och \(P(Y \leq 175) \approx P(Z \leq 1.33)\)
Värdet 1.33 betyder alltså att 175 är 1.33 standardavvikelser högre än 167.
Fördelningen för \(Z\)
Extra-Övning: Att härleda \(E(Z)\) och \(V(Z)\)
Ledning för Extra-övningen:
Du har nytta av formelsamlingens formler under “Linear Functions”. En utvidgad genomgång av dessa formler kommer i kapitel 5.8
Väntevärde (Extra-Övning a är att härleda detta. )
Eftersom väntevärdet för \(Y\) är \(\mu\) blir väntevärdet för \(Z\) lika med noll.
Använd formeln \(Z=\frac{Y-\mu}{\sigma}\) \(=\frac{1}{\sigma} \cdot Y -\frac{\mu}{\sigma}\)
och informationen \(E(Y)=\mu\) och härled \(E(Z)\) från detta.
Standard-avvikelse (Extra-Övning b är att härleda detta. )
Standardavvikelsen för \(Z\) är 1.
Använd formeln \(Z=\frac{Y-\mu}{\sigma}\) \(=\frac{1}{\sigma} \cdot Y -\frac{\mu}{\sigma}\)
och informationen \(V(Y)=\sigma^2\) och härled \(V(Z)\) från detta.
Exempel Om \(Y\) är en standardavvikelse högre än \(\mu\), blir Z-värdet = 1.
Fördelningen för \(Z\) blir alltså \(Z \sim N(0,1^2)\)
Förhoppningsvis ser du att arean i den här bilden (som visar \(P(Z \leq 1.33)\) )
är samma som arean i den föregående bilden (som visar \(P(Y \leq 175)\)).
Detta visar hur transformationen från \(Y\) till den standardiserade (“översatta”) \(Z\) fungerar.
Man översätter sin beräkning till ett annan beräkning som har samma svar. Fördelen med den andra beräkningen är att man kan hitta den area man vill ha i en tabell.
I tabellen för denna standardiserade normalfördelning är det värdena för fördelningsfunktionen \(F(z)\) man läser av. Kom ihåg att \(F(z)=P(Z \leq z)\) .
Så fungerar den tabell som finns utlagd på ItsLearning och som ni kommer att få med på tentamen. Bokens variant (som finns i appendix 3) är uppbyggd på lite annorlunda sätt, och bokens exempel är lösta med den tabellen.
Så kolla på alla deluppgifter i Exempel 14, så du lär dig använda den tabell som du kommer att ha tillång till på tentamen.
Fortsättning av lösningen till Exempel 14a
\(P(Y \leq 175) =\) \(P \left(Z \leq \frac{175-167}{6} \right)\) \(\approx P(Z \leq 1.33)\) \(\approx 0.9082\) (enligt avläsning i tabellen)
Lösningar till Exemplen 14b och 14c
14b
\(P(Y \geq 173) =\) \(P \left(Z \geq \frac{173-167}{6} \right)=\) \(P(Z \geq 1.00)\) \(\approx 1-0.8413\) \(=0.1587\)
OBSERVERA! Tabellvärdet för z=1.00 ger \(P(Z \leq 1.00)\approx 0.8413\), men den här gången vill du ju ha arean till höger om z =1.00; därav \(1-0.8413\).
(Hela arean under kurvan är ju 1)
14c
\(P(160 < Y < 170) =\) \(P \left( \frac{160-167}{6} < Z < \frac{170-167}{6} \right)\) \(\approx P(-1.17 < Z < 0.50)\) \(\approx 0.6915-0.1210\) \(=0.5705\)
Om du tänker på att du i tabellen använder fördelningsfunktionen \(P(Z \leq z)\) är det inte så svårt att följa lösningarna till exempel 14.
// add bootstrap table styles to pandoc tables $(document).ready(function () { $('tr.header').parent('thead').parent('table').addClass('table table-condensed'); });