Lesson 10

Hypotesförkastning & Chi2-test

39

Nollhypotes

Säg att vi har två stokastiska variabler, XX och YY och vill undersöka om det finns ett samband mellan dessa. Då brukar nollhypotesen H0{H}_{0} användas som är formulerad för det rakt motsatta fallet, att det inte finns något samband alls! Målet vid sambandsanalysen blir därefter att kunna förkasta nollhypotesen H0{H}_{0} med en viss procentuell säkerhet α\alpha och därmed bevisa att ett sådant samband är troligt.

Olika typer av signifikanstest

De vanligaste χ2{\chi}^{2} -testen förekommer i två olika slag:

  1. Fördelningstest

  2. Homogenitetstest

Skillnaden mellan dessa test är främst i vilket syfte de används och att de har olika testvariabler QQ som jämförs med χ2{\chi}^{2} -fördelningen. Teorin bakom jämförelsen ligger i att QQ approximeras till ett värde Qobs{Q}_{obs}χ2{\chi}^{2} -fördelningen och därför inte får understiga det värdet om en förkastning av nollhypotesen H0{H}_{0} är önskvärt.

Fördelningstest

Detta test kallas informellt för χ2{\chi}^{2} -testet och används för att bekräfta om ett stickprov tillhör den sannolikhetsfördelning som är given där nollhypotesen H0{H}_{0} är formulerad så att stickprovet tillhör den givna fördelningen, det vill säga, att resultatet är oförändrat.


För att undersöka detta har vi en testvariabel QQ som har följande utseende:



Q=j=1r(xjnpj)2npjQ=\sum _{ j=1 }^{ r }{ \frac { { \left( { x }_{ j }-n{ p }_{ j } \right) }^{ 2 } }{ n{ p }_{ j } } }



där xi{x}_{i} är ett värde i observationsserien, pi{p}_{i} är den respektive förkomstsannolikheten för just det värdet, rr är längden på observationsserien och nn är summan för observationsserien, det vill säga: n=xin=\sum{{ x }_{ i }}.


Innan ett fördelningstest ens kan inledas måste termen npi{np}_{i} vara större än 55 för alla värden i observationsserien, alltså



npi>5{np}_{i}>5



När detta är satisfierat kan χ2{\chi}^{2} -testet påbörjas, om inte kan det vara önskvärt att slå ihop värden så att observationsserien krymps.


När QQ får ett värde är det värdet bundet till observationen, därför används beteckningen Qobs{Q}_{obs} för att påpeka detta och för att veta om den uppställda nollhypotesen H0{H}_{0} kan förkastas måste följande förhållande satisfiera



Qobs>χα2(r1){Q}_{obs}>{ \chi }_{ \alpha }^{ 2 }\left( r-1 \right)



där α\alpha är den angivna signifikasnivån och rr är antalet värden i observationsserien. Värdet på χα2(r1){ \chi }_{ \alpha }^{ 2 }\left( r-1 \right) kan läsas av i tabellen för χ2{\chi}^{2} -fördelningen. Om förhållandet satisfieras kallas det: nollhypotesen H0{H}_{0} förkastas på nivån α\alpha.


Exercise

Fyra elektronikbolag konkurrerar om kunder. De har en produkt var inom branschen. Den nuvarande kundfördelningen mellan företagen A,B,CA,B,C och DD ges av:


fretag Ao¨12%fretag Bo¨10%fretag Co¨38%fretag Do¨40%\text{företag A} \, \, 12 \% \quad \text{företag B} \, \, 10 \% \quad \text{företag C} \, \, 38 \% \quad \text{företag D} \, \, 40 \%


Företaget AA har förändrat sin produkt och har genom en marknadsundersökning fått reda på att 3636 personer föredrog deras produkt i jämförelse med 2828 , 7777 , 7272 personerna som föredrog produkter från B,CB, C och DD respektive.


Utred om produktförändringen kommer medföra en förändring av kunderna. Använd förkastningsnivån 5%5 \% .

Solution

Nollhypotesen H0{H}_{0} i denna uppgift kan formuleras som att produktförändringen inte kommer medföra någon skillnad i marknadsandelarna. Vi utreder därför om vi kan förkasta hypotesen, det vill säga, bevisa att det faktiskt har skett en förändring!


Vi använder oss av ett χ2{\chi}^{2} -fördelningstest för att de om marknadsundersökningen speglar den givna fördelningen. Vår nollhypotes blir därmed att och utreder om villkoret npj>5n{p}_{j}>5 satisfieras, där pj{p}_{j} är procentsatserna för respektive företag och nn är populationen marknadsundersökningen verkade över, det vill säga 213213 personer.


Vi får:


npfretag Ao¨=25.56npfretag Bo¨=21.3n{p}_{\text{företag A}}=25.56 \quad n{p}_{\text{företag B}}=21.3


npfretag Co¨=80.94npfretag Do¨=85,2n{p}_{\text{företag C}}=80.94 \quad n{p}_{\text{företag D}}=85,2



Följaktligen satisfieras villkoret och vi kan fortsätta med hypotesprövningen. Vi beräknar testvariabeln QQ till:



Qobs=(3625.56)225.56+(2821.3)221.3+(7780.94)280.94+(7285.2)285.2{ Q }_{ obs }=\frac { { \left( 36-25.56 \right) }^{ 2 } }{ 25.56 } +\frac { { \left( 28-21.3 \right) }^{ 2 } }{ 21.3 } +\frac { { \left( 77-80.94 \right) }^{ 2 } }{ 80.94 } +\frac { { \left( 72-85.2 \right) }^{ 2 } }{ 85.2 }


Qobs8.61{Q}_{obs}\approx 8.61



Vi beräknar nu χα2(f){\chi}^{2}_{\alpha}(f) genom att använda f=3f=3 frihetsgrader och α=0.05\alpha=0.05 . Detta ger oss att χ0.052(3)=7.81 {\chi}^{2}_{0.05}(3)=7.81 (Se KTHs formelblad).


Avslutningsvis ser vi att Qobs>χ0.052(3) {Q}_{obs} > {\chi}^{2}_{0.05}(3) vilket ger att vi kan förkasta H0{H}_{0} på nivån 5% 5 \% . Detta innebär att den dena produkten från företag AA troligtvis kommer medföra en förändring av fördelningen av kunderna.

Homogenitetstest

Ett homogenitetstest används då flera observationsserier är givna och man vill se om de tillhör en och samma sannolikhetsfördelning. Den har därför en annan testvariabel QQ än det vanliga χ2{\chi}^{2} -testet:


Q=i=1sj=1r(xijnimjN)2nimjNQ=\sum _{ i=1 }^{ s }{ \sum _{ j=1 }^{ r }{ \frac { { \left( { x }_{ ij }-\frac { { n }_{ i }{ m }_{ j } }{ N } \right) }^{ 2 } }{ \frac { { n }_{ i }{ m }_{ j } }{ N } } } }



xij{x}_{ij} är återigen våra observationvärden, men eftersom vi nu har flera observationsserier behöver vi även använda jj för att skilja på serierna från grupperna. pj{p}_{j} är nu därför sannolikheten för värdets grupp med avseende på samtliga grupper där ni{n}_{i} är summan av värdet serie. rr är längden på serien och ss är längden på grupperna. (se gärna tabellen nedan för förtydligande).


Grupp 1Grupp 2Grupp3Seriesumma
Serie 1 x11{x}_{11} x12{x}_{12}  x13{x}_{13} n1{n}_{1}
Serie 2 x21{x}_{21}x22{x}_{22}x23{x}_{23}n2{n}_{2}
Gruppsummam1{m}_{1}m2{m}_{2}m3{m}_{3}Totalsumma: MM


Om följande förhållande satisfieras förakastar fördelningstestet nollhypotesen H0{H}_{0} på nivån α\alpha


Qobs>χα2((r1)(s1)){Q}_{obs}>{ \chi }_{ \alpha }^{ 2 }\left( \left( r-1 \right) \left( s-1 \right) \right)



När man beräknar Qobs{Q}^{*}_{obs} på homogenitetstest är oerhört lätt att göra fel och därför är det superviktigt att veta att den kan beräknas på de flesta TI-minräknare! Mata bara in grupperna och serierna (utan summorna) genom att klicka på MATRIX\text{MATRIX} och sedan kolumnen EDIT\text{EDIT} . När det är gjort klickar du på STATS\text{STATS} och sedan kolumnen TEST\text{TEST} och väljer χ2-Test{\chi}^{2}\text{-Test} . När det är gjort och du valt rätt matris och klickat på beräkna är det den översta siffran som motsvarar Qobs{Q}^{*}_{obs} . Om du fastnat någonstans på vägen kan du kolla denna guide.


Tänk dock på att du fortfarande måste presentera dina beräkningar och att χ2{\chi}^{2} -test funktionen på miniräknaren är ett bra sätt att kontrollera ditt svar.


Sist men inte minst är nollhypotesen H0{H}_{0} i ett homogenitetstest formulerad så att den utgår från att observationsserierna kommer från samma sannolikhetsfördelning.


Exercise

Vi har att

  • Antalet bilar som passerar en onsdag vid tre olika klockslag är 12,2212,22 och 99

  • Antalet bilar som passerar en lördag vid samma tre olika klockslag är32,1432, 14 och 66.

Avgör huruvida det är samma proportioner av bilar de olika dagarna med en felrisk på 1%1\% .

Solution

Vi sammanfattar först informationen i en tabell så det blir mer strukturerat. Vi har tre klockslag och två dagar. Antalet bilar per dag och tid är:


Tid 1Tid 2Tid 3
Onsdag12229
Lördag32146


Då uppgiften efterfrågar att bekräfta om observationsserierna tillhör samma sannolikhetsfördelning vet vi att det är ett homogenitetstest som ska genomföras med nollhypotesen H0:{H}_{0}: att de tillhör samma fördelning. För att undersöka med testvariabeln QQ


Vi har två olika observationsserier, en serie för onsdag och en för lördag och tre olika grupperingar som representerar de olika klockslagen. Detta ger oss att seriesumman


ni{n}_{i} är antalet bilar som passerat per dag. För onsdag blir detta n1=12+22+9=43{n}_{1}=12+22+9=43 och för lördag n2=32+14+6=52{n}_{2}=32+14+6=52 . Det totala antalet bilar blir därmed 43+52=9543+52=95 bilar.


Vi tar nu fram gruppsummorna som är antalet bilar som passerat vid samma klockslag. Dessa är 12+32=4412+32=44, 22+14=3622+14=36, 9+6=159+6=15 för varje respektive klockslag. Detta kan därför sammanfattas till en enda tabell:


Tid 1Tid 2Tid 3Summa - dag
Onsdag1222943
Lördag3214652
Summa  - tid443615Totalt antal bilar: 95


där sannolikheten för varje grupp, i detta fall klockslag är



p1=4495,p2=3695 och p3=1595{p}_{1}=\frac { 44 }{ 95 }, \, {p}_{2}=\frac { 36 }{ 95 } \text{ och } {p}_{3}=\frac { 15 }{ 95 }



Vi använder oss nu av formeln Q=i=1sj=1r(xijnipj)2nipjQ=\sum _{ i=1 }^{ s }{ \sum _{ j=1 }^{ r }{ \frac { { \left( { x }_{ ij }-{ n }_{ i }{ p }_{ j } \right) }^{ 2 } }{ { n }_{ i }{ p }_{ j } } } } för att skatta QQ och får att Qobs{Q}_{obs} ges av:



Qobs=(12434495)2434495+(22433695)2433695+(9431595)2431595+(32524495)2524495+(14523695)2523695+(6521595)2521595{ Q }_{ obs }=\frac { {(12-43\frac { 44 }{ 95 })}^{2} }{ 43\frac { 44 }{ 95 } } +\frac { {(22-43\frac { 36 }{ 95 })}^{2} }{ 43\frac { 36 }{ 95 } } +\frac { {(9-43\frac { 15 }{ 95 })}^{2} }{ 43\frac { 15 }{ 95 } } +\frac { {(32-52\frac { 44 }{ 95 })}^{2} }{ 52\frac { 44 }{ 95 } } +\frac { {(14-52\frac { 36 }{ 95 })}^{2} }{ 52\frac { 36 }{ 95 } } +\frac { {(6-52\frac { 15 }{ 95 })}^{2} }{ 52\frac { 15 }{ 95 } }


Qobs=10.71{Q}_{obs}=10.71



Vi läser nu av värdet för χ0.012((r1)(s1))=χ0.012(2){ \chi }_{ 0.01 }^{ 2 }\left( \left( r-1 \right) \left( s-1 \right) \right) ={ \chi }_{ 0.01 }^{ 2 }\left( 2 \right) i en tabell och får χ0.012(2)=9.21{ \chi }_{ 0.01 }^{ 2 }\left( 2 \right) =9.21


Avslutligen ser vi att 10.71=Qobs>χ0.012(2)=9.2110.71={Q}_{obs}>{ \chi }_{ 0.01 }^{ 2 }\left( 2 \right) =9.21 vilket innebär att vi kan förkasta H0{H}_{0} på nivån 0.010.01 då observationsserierna kommer från olika sannolikhetsfördelning.

Comments

profile/avatar/default
Hugo

Är stora M här i tabellen samma värde som stora N i formeln för Q här ovan?

Christian Abdelmassih

Det är av denna anledning som man verkligen bör lära sig använda grafräknarens funktioner

Axel Johansson

Var inte H0 att det inte finns något samband? Borde inte nollhypotesen då snarare vara att de inte tillhör samma fördelning, eller tänker man annorlunda när det kommer till försöksserier?

Christian Abdelmassih

@axel-johansson: Förstår din förvirring och kommer inte på någon bra förklaring annat än att H0{H}_{0} i relation till homogenitetstest är formulerad så att de tillhör samma fördelning. Om du kikar in detta dokument så ser du lite mera utförligt hur H0{H}_0{} är formulerad rent matematiskt. Men jag håller med att det inte är som förväntat!

profile/avatar/default
Herman Högman Ording

Vet du om detta går att göra på en TI-82 STATS miniräknare? Googlade runt och hittade bara guider för hur man gör det för TI-83/84.

Christian Abdelmassih

@heho: Jag har för mig att många funktioner inte finns på den men testa leka runt lite på räknaren och se om du hittar något eller låna en väns räknare. Att veta hur du ska använda räknaren är typ 1/4 av tentan!