22. november 2009

Regresjonsanalyse

Regresjonsanalyse består i å lage linjære likninger som beskriver forholdet mellom én eller flere x-variabler og en gjennomsnittlig verdi på en y-variabel. Når det er to eller flere uavhengige variabler med i analysen, kalles det multippel regresjonsanalyse.
Den avhengige variabelen bør være kontinuerlig, men med sunt folkevett kan ordinale variabler også benyttes.
Et annet kriterium er at man bør være ganske sikker på at den/de uavhengige variablene faktisk er uavhengige og befinner seg før den avhengige i tid.

Regresjonslikninger

Her gjelder det å finne regresjonslinjen som representerer den laveste summen av kvadrerte avvik i forhold til fordelingen. På sitt enkeste kan en regresjonslikning se slik ut: Y = 40 + 10X, der:


  • Konstantleddet=40. Dette er verdien på den avhengige variabelen Y når X=0.




  • Regresjonskoeffisienten=10. Dette er mengden konstantleddet øker med når X øker med 1. Beskriver altså graden av sammenheng mellom X og Y.


Er X lik 2, vil altså konstantleddet være 40 + 10*2 = 60.

De minste kvadraters metode

Når konstantleddet skal beregnes, benyttes de minste kvadraters metode. Dette innebærer å finne den likningen som gjør summen av de kvadrerte avstandene mellom alle punkter i datasettet og linjen minst mulig.
Dette gjøres ved å finne restleddet og minimalisere, altså det likningen ikke kan forklare, for hvert enkelt punkt i datasettet. Restleddet betegnes med e. Ved hjelp av uforståelige formler får vi den minst mulige SSR, der SS står for Sum of Squares og R for residual.
SSR betegner altså summerte og kvadrerte avvik fra regresjonslinja, og det er dette vi ønsker å gjøre minst mulig.
Styrken i sammenhengen kan måles med Pearsons r

Multippel korrelasjonskoeffisient (R²)

R² sier hvor mye av variansen på Y som kan forklares av regresjonslinja. Dette beregnes ved å sammenlikne verdien for et gitt punkt slik det blir predikert av gjennomsnittet, med verdien av det samme punktet predikert av regresjonslikningen. Tallet varierer mellom 0 og 1, der 0 er at ingenting blir forklart av X og 1 er alt blir forklart med X.
En kort gjennomgang:


  • For hvert punkt finner man det kvadrerte avviket fra gjennomsnittet, og summerer disse til SST (Total Sum of Squares).




  • Så finner man det kvadrerte avviket fra regresjonslinja for hvert punkt, og summerer disse til SSR (Model Sum of Squares).




  • Trekker man SSR fra SST, sitter man igjen med den et tall på hvor mye bedre regresjonslinja predikerte i forhold til gjennomsnittet, SSM.




  • For å finne R², er formelen SSM/SST.


For å finne R² i en SPSS tabell ser man på kolonnen som heter adjusted R square.

Kilde

1 kommentar:

  1. Å fy. Skulle tro det var kjernefysikk du studerte. Lykke til på eksamen!

    SvarSlett