Lesson 9

Konfidensintervall

23

I vissa fall vid uppskattning av en okänd parameter θ\theta duger inte punktskattning då ett uppskattningsvärde inte ger tillräckligt med information. Då kan man istället använda intervallskattning som också kallas konfidensintervall.


Punktskattning används nästan alltid i konfidensintervall så det är viktigt att du kan det innan du tar dig an detta kapitel.

Konfidensintervall

Intervallskattning baserar sig på en procentsats som definierar hur stor sannolikheten att resultatet av den slumpbaserade händelsen befinner sig inom intervallet. Denna procentsats kallas konfidensgrad. Om vi har en konfidensgrad på 95%95 \% kommer vi alltså enbart 5%5\% av fallen att hamna utanför intervallet. Felrisken α\alpha blir därmed 5%5\% och konfidensgraden 1α=95%1-\alpha=95\%


För att skapa ett konfidensintervall krävs, precis som vid punktskattningen, ett stickprov av utfallsvärden x1,x2,,xn{x}_{1}, {x}_{2}, \dots , {x}_{n} . Då konfidensintervallet beror på detta stickprov kommer därmed intervallers ändpunkter betraktas vara stokastiska variabler som är funktioner av stickprovet.


Precis som punktskattning kan beräkningarna skilja sig en aning beroende på given information. Oftast brukar den okända parametern θ\theta som ska skattas vara normalfördelad N(θ,D)N(\theta, D) eller chi2 fördelad χ2(f){\chi}^{2}(f) . Vi går igen de vanligaste metoderna nedan.


Alla metoder nedan förutsätter att man applicerar det på en normalfördelning. Detta gäller alla metoder förutom den approximativa-metoden.

t-metoden

Denna metod används också för att skapa ett konfidensintervall för väntevärdet men då både väntevärdet θ\theta och standardavvikelsen DD är okända samt att standardavvikelsen inte beror av väntevärdet. Konfidensintervallet för denna väntevärdet ges då av:



Iμ=θobs±Dobstα/2(f){I}_{\mu}={{ \theta }^{ * }}_{obs} \pm {{D}^{ * }}_{obs}*{t}_{\alpha/2}(f)



där θobs{{ \theta }^{ * }}_{obs} är en punktskattning av väntevärdet, Dobs{{ D }^{ * }}_{obs} är en punktskattning av standardavvikningen och tα/2(f){t}_{\alpha/2}(f) är det värde som läses ur tt -fördelningen för respektive felrisk och parameter.


Vad ff -termen är beror på de s.v. X1,X2,,Xn{X}_{1}, {X}_{2}, \dots , {X}_{n} som stickprovet är taget ifrån. Om variablerna har en normalfördelning ges termen av f=n1f=n-1 där nn är antalet variabler. Men om stickprovet istället kommer från två olika serier med variabler, X1,X2,,Xn1{X}_{1}, {X}_{2}, \dots , {X}_{{n}_{1}} och Y1,Y2,,Yn2{Y}_{1}, {Y}_{2}, \dots , {Y}_{{n}_{2}} där båda är normalfördelade med samma standardavvikning men olika väntevärden, och att stickprovet av fördelningarna slås samman genom t.ex. subtraktion, då kommer termen istället att vara f=n1+n22f={n}_{1}+{n}_{2}-2 .


Exercise

Två kemistudenter mäter pHpH halten i kranvatten ur samma kran. Deras mätvärden blir:

Värde 1Värde 2Värde 3Värde 4Värde 5
Karolin7.27.56.87.88.1
Anton7.47.67.07.08.0


Undersök skillnaden mellan deras resultat och formulera ett konfidensintervall för den förväntade skillnaden. Anta normalfördelning och använd konfidensgraden 95%95\% .

Solution

Vi börjar med att ta fram skillnaden mellan deras resultat genom att ta Karolins värden minus Antons. Vi får skillnaden till:


0.20.10.20.80.1-0.2\, \, \,-0.1\, \, \,-0.2\, \, \,0.8\, \, \,0.1


Vi ser därefter att varken väntevärde eller standardavvikning är given vilket innebär att vi måste använda tt -metodens formel Iμ=θobs±Dobstα/2(f){I}_{\mu}={{\theta }^{ * }}_{obs} \pm {{D}^{ * }}_{obs}*{t}_{\alpha/2}(f) .


Då Anton och Karolin tar proverna från samma kran måste båda deras mätvärden komma från liknande fördelningar med samma väntevärde. Detta ger oss att ff kan beskrivas genom f=n1f=n-1 . (se KTHs formelblad, §11.1 d)


Vi använder nu punktskattning för att skatta väntevärdet θobs{{ \theta }^{ * }}_{obs} genom det aritmetiska medelvärdet z\overline { z } av stickprovet. Efter punktskattningen får vi värdet θobs=x=0.08{{ \theta }^{ * }}_{obs}=\overline { x }=0.08 . Detta ger oss:



θobs=x=0.20.10.2+0.8+0.15=0.08{{ \theta }^{ * }}_{obs}=\overline { x }=\frac{-0.2-0.1-0.2+0.8+0.1}{5}=0.08


Som i sin tur ger oss


Iμ=0.08±Dobstα/2(n1){I}_{\mu}=0.08 \pm {{D}^{ * }}_{obs}*{t}_{\alpha/2}(n-1)



Genom sammanslagningen av Karolins och Antons stickprov kan det nu tolkas att det nya stickprovet kommer från en serie s.v. Z1,Z2,,Zn{Z}_{1}, {Z}_{2}, \dots , {Z}_{n} där utfallet är skillnaden. Detta ger oss att den stokastiska variabel för det aritmetiska medelvärdet Z\overline { Z } kan beskrivas: ZN(μ,σn)\overline { Z } \in N(\mu,\frac{\sigma}{\sqrt{n}}) .


Detta är relevant eftersom det innebär att vår okända parameter råkar uttryckas av samma sak! Alltså: θ=Z\theta=\overline { Z } och därmed kan vi uttrycka väntevärdets standardavvikning som Dobs=σobsn{{D}^{ * }}_{obs}=\frac{{{\sigma}^{ * }}_{obs}}{\sqrt{n}} där σobs{{\sigma}^{ * }}_{obs} skattas genom roten ur stickprovsvariansen ss . Vi får detta värde till


s2=151((0.2)2+(0.1)2+(0.2)2+0.82+0.1215(0.20.10.2+0.8+0.1)2)=0.177{ s }^{ 2 }=\frac { 1 }{ 5-1 } \left( { (-0.2) }^{ 2 }+{ (-0.1) }^{ 2 }+{ (-0.2) }^{ 2 }+{ 0.8 }^{ 2 }+{ 0.1 }^{ 2 }-\frac { 1 }{ 5 } { \left( -0.2-0.1-0.2+0.8+0.1 \right) }^{ 2 } \right)=0.177


Vilket är ekvivalent med


s=0.421s =0.421


och får därmed intervallet till



Iμ=0.08±0.421ntα/2(n1){I}_{\mu}=0.08 \pm \frac{0.421}{\sqrt{n}}*{t}_{\alpha/2}(n-1)



Vi fortsätter nu förenkla intervallet genom att sätta in värdet för nn och insättning av konfidensgraden 95%95\% . Detta ger oss: Iμ=0.08±0.188t0.05/2(4){I}_{\mu}=0.08 \pm 0.188*{t}_{0.05/2}(4) och sedan:



Iμ=0.08±0.188t0.025(4).{I}_{\mu}=0.08 \pm 0.188*{t}_{0.025}(4) .



Till sist läser nu av tt -fördelningen i KTHs tabellsamling och får att t0.025(4)=2.78{t}_{0.025}(4)=2.78 . Detta ger oss intervallet Iμ=0.08±0.1882.78{I}_{\mu}=0.08 \pm 0.188*2.78 och avslutningsvis:


Iμ=0.08±0.523{I}_{\mu}=0.08 \pm 0.523


Metod genom chi2-fördelningen

Denna metod kräver liknande förutsättningar som ovanstående, att både väntevärdet och standardavvikelsen är okända. Men det som denna metod skiljer sig i är att den skapar ett konfidensintervall för standardavvikelsen istället. Detta gör standardavvikelsen till vår okända parameter θ\theta .


Förutsatt att stickprovet som ges x1,x2,,xn{x}_{1}, {x}_{2}, \dots , {x}_{n} är från normalfördelningen N(μ,σ)N(\mu,\sigma) gäller nedanstående formel:



Iσ=(θobsfχ2α/2(f),θobsfχ21α/2(f)){ I }_{ \sigma }=\left( { { \theta }^{ * } }_{ obs }\sqrt { \frac { f }{ { { \chi }^{ 2 } }_{ \alpha /2 }\left( f \right) } } ,{ { \theta }^{ * } }_{ obs }\sqrt { \frac { f }{ { { \chi }^{ 2 } }_{ 1-\alpha /2 }\left( f \right) } } \right)



där θobs{ { \theta }^{ * } }_{ obs } är en punktskattning av standardavvikelsen och χ2α/2(f){{\chi}^{2}}_{\alpha/2}(f) samt χ21α/2(f){{\chi}^{2}}_{1-\alpha/2}(f) är värdet som läses ur tabellsamligen för χ2{\chi}^{2} fördelningen för frihetsgraden ff och den tillhörande arean α/2\alpha/2 respektive 1α/21-\alpha/2.

Exercise

Inför en jämförelse av betygsskillnaden mellan könen görs två stickprov, ett för varje kö som ges av x1,x2x8{x}_{1},{x}_{2} \dots {x}_{8} och y1,y2y11{y}_{1},{y}_{2} \dots {y}_{11} . Antag att könens betygsfördelning är normalfördelade med samma standardavvikelse.


Betygen mäts på en traditionell 11 till 55 skala och medelvärdet av varje stickprov beräknas till x=3.7\overline { x }=3.7 och y=4.2\overline { y }=4.2 . och variansskattningen anses vara s2x=1.96{{s}^{2}}_{x}=1.96 och s2y=1.21{{s}^{2}}_{y}=1.21 .


Beräkna ett konfidensintervall för standardavvikelsen med konfidensgraden 95%95\% .

Solution

I uppgiftsbeskrivningen ges det att intervallet är tänkt att mäta betygskillnaden. Då vi har fått skattningar för varje individuell fördelning behöver vi slå samman informationen så att den omfattar den nya fördelningen som mäter skillnaden.


Om vi reflekterar vi över uppgiften vi har fått, så har könens fördelningar troligtvis olika väntevärden. Den nya fördelningen beskrivs dessutom som skillnaden mellan dessa, därmed är det rimligt att beräkna den nya punkskattningen av variansen genom formeln (se KTHs formelsamling, §11.2b):



s2=(n11)s12+(n21)s22n1+n22{ s }^{ 2 }=\frac { ({ n }_{ 1 }-1){ { s }_{ 1 } }^{ 2 }+({ n }_{ 2 }-1){ { s }_{ 2 } }^{ 2 } }{ { n }_{ 1 }+{ n }_{ 2 }-2 }



Då vi vet att n1=8{n}_{1}=8 och n2=11{n}_{2}=11 lägger vi in det i formeln och utför beräkningen



s2=7sx2+10sy217=71.96+101.2117=1.52{ s }^{ 2 }=\frac { 7{ { s }_{ x } }^{ 2 }+10{ { s }_{ y } }^{ 2 } }{ 17 } =\frac { 7*1.96+10*1.21 }{ 17 } =1.52



s2=(θobs)2=1.52{s}^{2}=({ { \theta }^{ * } }_{ obs })^2=1.52 och θobs=1.52=1.23{ { \theta }^{ * } }_{ obs }=\sqrt{1.52}=1.23 kan nu beskriva konfidensintervallet som:



Iσ=(1.23fχ2α/2(f),1.23fχ21α/2(f)){ I }_{ \sigma }=\left( 1.23\sqrt { \frac { f }{ { { \chi }^{ 2 } }_{ \alpha /2 }\left( f \right) } } ,1.23\sqrt { \frac { f }{ { { \chi }^{ 2 } }_{ 1-\alpha /2 }\left( f \right) } } \right)



Genom ovanstående reflektion får vi dessutom att då könens fördelningar troligtvis har olika väntevärden och att den nya fördelningen beskrivs som skillnaden mellan dessa är det möjligt att anta att f=n1+n22=17f={n}_{1}+{n}_{2}-2=17 .


Vi sätter in värdet på α\alpha och ff och får:



Iσ=(1.2317χ20.05/2(17),1.2317χ210.05/2(17)){ I }_{ \sigma }=\left( 1.23\sqrt { \frac { 17 }{ { { \chi }^{ 2 } }_{ 0.05/2 }\left( 17 \right) } } ,1.23\sqrt { \frac { 17 }{ { { \chi }^{ 2 } }_{ 1-0.05/2 }\left( 17 \right) } } \right)



Efter att ha tagit en titt i KTHs tabellsamling (tabell 4) ser vi att χ20.025(17)=30.2{ { \chi }^{ 2 } }_{ 0.025 }\left( 17 \right) =30.2 och χ20.975(17)=7.56{ { \chi }^{ 2 } }_{ 0.975 }\left( 17 \right)=7.56. Detta ger oss intervallet:



Iσ=(1.231730.2,1.23177.56){ I }_{ \sigma }=\left( 1.23\sqrt { \frac { 17 }{ 30.2 } } ,1.23\sqrt { \frac { 17 }{ 7.56 } } \right)


Och avslutningsvis:


Iσ=(0.9246,1.8480){ I }_{ \sigma }=\left( 0.9246,1.8480 \right)


Innan du fortsätter


Eftersom λ\lambda -metoden och den approximativa metoden inte är förekommande på tentorna har jag inte inte skrivit några övningstal om de. Jag rekommenderar dock att ni läser igenom det i fallet att de skulle komma.

Lambda-metoden

λ\lambda (lambda)-metoden skapar konfidensintervall för väntevärdet då standardavvikningen σ\sigma är given men inte väntevärdet. Detta gör väntevärdet till vår okända parameter θ\theta som ska skattas. För att använda λ\lambda -metoden måste de givna utfallen, stickprovet det vill säga, vara normalfördelad N(θ,D)N(\theta,D) .


Om ovanstående satisfieras kommer konfidensintervallet att kunna ställas upp genom:



Iμ=θobs±Dλα/2{I}_{\mu}={{ \theta }^{ * }}_{obs} \pm D*{\lambda}_{\alpha/2}



där α\alpha är felrisken och θobs{{ \theta }^{ * }}_{obs} är en punktskattning av väntevärdet och D=σnD=\frac{\sigma}{\sqrt{n}} där nn är antalet värden i stickprovet.

Approximativa metoden

Den approximativa-metoden är snarlik λ\lambda -metoden och används för att skapa approximativa konfidensitervall. Detta är användbart när fördelningen metoden ska appliceras på inte är en normalfördelning men kan approximeras som en genom CGS. Formeln ges av:



Iμ=θobs±Dobsλα/2{I}_{\mu}={\theta}^{*}_{obs} \pm {D}^{*}_{obs}* {\lambda}_{\alpha /2}



Bortsett från skillnaden från λ\lambda -metoden gällande approximation gäller även att vi nu bör skatta DD .

Comments

Richard Härlin
där σ∗obs{{\sigma}^{ * }}_{obs}σ∗obs​ skattas genom roten ur stickprovsvariansen sss . Vi får detta värde till

Felskrivning? I beräkningarna som följer verkar det som att sigma*obs skattas som s, inte roten ur s.

profile/avatar/default
Pethrus Gardborn

Vi vet väl redan väntevärdena på de båda könen baserat på medelvärdena på x och y som är givna i uppgiften? Formeln du använder ska väl bara användas då variansen är samma, men i vårt fall är den ju olika för X och Y?

Christian Abdelmassih

@pethrus-gardborn Hej! Det vi har givet i uppgiften är uppskattningar av väntevärdena. Vi kan dock inte säga att de motsvarar väntevärdena så förblir de okända. På din andra fråga så missade jag att skriva ett antagande kring avvikningen i uppgiftsbeskrivningen. Lägger till det med detsamma. Tack!

Emelie Johansson

Hur tolkar jag svaret?

Christian Abdelmassih

@emelie-johansson: Vi kan konstatera med 95%95\% konfidens att standardavvikelsen σ\sigma är inom det givna intervallet 🙂

profile/avatar/default
Mohamed-ab9

Skulle du kunna förklara denna del av lösningen? Vf kan man inte uppskatta standardavvikningen som i tidigare avsnitt? Här så dividerar vi med roten ur n, vf?

Erik Dahlström

Hej, jag är förvirrad av den här delen eller tycker kanske det gick snabbt. Räknar du ut s med formeln under 8. Statistiskt material i KTH:s formelsamling?

Christian Abdelmassih

Precis, i och med att denna kommer efter punktskattningen valde jag att inte skriva ut beräkningen men har nu lagt till hur det går till så läsaren kan hänga med

Christian Abdelmassih

Anledningen är att detta fall är mera komplicerat då vi egentligen har två fördelningar och undersöker skillnaden av dessa. Om du tar en titt i KTHs formelsamling som länkats ovan under §11.1a) så står det att om X1,,Xn{X}_{1}, \dots, {X}_{n} är oberoende s.v. kommer X(μ,σn)\overline { X } \in (\mu, \frac{\sigma}{\sqrt{n}}) där X\overline{X} råkar motsvara θ\theta .

profile/avatar/default
Mohamed-ab9

Jag gissar att den förväntande skillnaden motsvarar medelvärdet eller hur?

Christian Abdelmassih

Just precis, man ska alltså skapa ett konfidensintervall för hur medelvärdet kan variera!

Ariel Blomqvist Rova

Väldigt bra beskrivning. Många tar mycket mer plats åt att förklara mycket sämre :D

Tristan Edwards

Verkar vara en parentes för mycket (eller för lite?) här :)

Christian Abdelmassih

Om du scrollar till höger så ser du resten av ekvationen :)

Erik Dahlström

Varför får vi variansskattningen? Redundant information för att förvirra?

Christian Abdelmassih

Nejdå! Variansskattningen används i ekvationsrad 2 :)

Erik Dahlström

Just det. tack!

Erik Dahlström

Det står ju inte i uppgiften att x1... är från normalfördelningen - ska man bara anta det?

Christian Abdelmassih

Precis! Man ska kunna känna igen vilka fördelningar som är lämpliga för vilka situationer. Jag har dock lagt till en liten hint nu om var stickproven är hämtade ifrån så man har lite mer att gå på.

Christian Abdelmassih

Dock visar det sig att just skolbetyg inte är normalfördelade så då får vi nog lägga till det :)

Erik Dahlström

Hahahaha