TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En...

22
Estadística - Grau de Nutrició Humana i Dietètica. Tema 3 TEMA 3 Descripció de la relació entre dues variables numèriques Dep. Estadística i Inv. Operativa Univ. de València

Transcript of TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En...

Page 1: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

TEMA 3

Descripció de la relació entre dues

variables numèriques

Dep. Estadística i Inv. Operativa

Univ. de València

Page 2: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Dues variables

De vegades, és interessant analitzar el comportament de

dues o més variables numèriques simultàniament.

En aquest tema anem a veure quins tipus de gràfics ens

poden ajudar a entendre la relació existent entre elles.

Si les dues variables són contínues, podem utilitzar

qualsevol dels gràfics d’una variable (histogrames,

diagrama de caixa i bigots, etc…) mantenint les

escales i comparar les gràfiques i la forma de les

seues distribucions.

Els gràfics de dispersió són els més utilitzats per a veure el

comportament conjunt de dues variables numèriques,

especialment per a estudiar la relació lineal entre dues

variables.

Page 3: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Gràfics per a comparar: Exemple 3.1

Any Tornats

No

tornats Total106

1978 165 752 917

1979 297 993 1290

1980 550 646 1196

1981 680 680 1360

1982 733 733 1466

1983 752 641 1393

1984 816 780 1596

1985 820 757 1577

1986 950 877 1827

1987 1100 937 2037

1988 1300 1021 2321

1989 1566 957 2523

Número d’envasos d’alumini tornats i no tornats en Austràlia

(1978-1989)

Page 4: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Número d’envasos d’alumini tornats i no

tornats en Austràlia (1978-1989)

Percentatges respecte dels totalsValors absoluts en milions d’unitats

Page 5: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Gràfics per a compararDiagrama de barres agrupat (les barres representen la quantitat

d’envasos tornats i no tornats)

Page 6: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Gràfics per a comparar

Diagrama de barres apilat

(cada barra mostra el nombre d’envasos tornats i no tornats)

ANY

Page 7: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Gràfics per a compararDiagrama de barres apilat (considerant percentatges respecte del total d’envasos)

Page 8: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Gràfics per a comparar: Exemple 3.2Comparació d’antioxidants que contenen alguns aliments.

Lycium Barbarum

(Solanaceas)

Goji

Font:

Wikipedia

Page 9: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Relació Lineal entre dues variables

Anem a considerar estudis en que intervenen 2 variables quantitatives X i Y.

L’objectiu d’aquestos estudis serà analitzar la relació entre X i Y. Les

tècniques de REGRESSIÓ LINEAL i CORRELACIÓ es basen en l’ajust d’una

línia recta a les dades per tal d’explicar la relació entre X i Y.

Les observacions de X i Y poden ser de dos tipus:

Els valors de X són especificats per l’experimentador i per a cada valor de X

es tria individus amb aquest valor de X i s’observa aleatòriament el seu valor

de la variable Y (Exemple 3.3).

Les dues variables X i Y són aleatòries. Es trien a l’atzar n individus i

s’observa els valors de les variables X i Y en ells (Exemple 3.4).

En els dos casos els càlculs són iguals però la interpretació pot ser diferent.

La variable Y rep el nom de variable depenent i la X és la variable independent.

En el primer cas, la variable especificada pel investigador necessàriament és la

X. En el segon cas, cal determinar quina és la variable la qual volem posar en

funció de l’altra per a fer prediccions. De vegades qualsevol variable pot fer

qualsevol paper, però de vegades no.

Page 10: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Relació Lineal entre dues variables: Exemples

Exemple 3.3: AMFETAMINES I CONSUM DE MENJAR

Les amfetamines són fàrmacs que inhibeixen la gana de menjar.

En un estudi sobre aquest efecte, un farmacòleg va assignar

aleatòriament 24 ratolins a tres grups de tractament. Dos grups

van rebre una injecció d’amfetamina en dos nivells diferents (dosi

2.5 i dosi 5 mg/kg). Els ratolins del tercer grup van rebre una

injecció d’una solució salina. Es va mesurar la quantitat de menjar

consumit per cada animal en un període de tres hores després de

la injecció.

Exemple 3.4: LONGITUD I PES DE SERPS

En un estudi d’una població salvatge de la serp Vipera berus, un

grup d’investigadors van caçar nou femelles adultes i en van

mesurar la longitud i el pes.

Page 11: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Exemple 3.3: AMFETAMINES I CONSUM DE MENJARDosi d’amfetamina (mg/kg)

0 2,5 5,0

112,6 73,3 38,5

102,0 81,8 81,3

90,2 67,3 57,1

81,5 55,3 62,3

105,6 80,7 51,5

93,0 90,0 48,3

106,6 75,5 42,7

108,3 77,1 57,9

Mitjana 100,0 75,5 55,0

s 10,7 10,7 13,3

n 8 8 8

Considerem:

X = dosi (mg/Kg) d’amfetamina

variable fixada per l’investigador x = 0, 2.5 i 5.

Y = quantitat de menjar consumit per l’animal en

les tres hores després de la injecció

Si representem les dades, sembla que en

augmentar la dosi d’amfetamina disminueix

el consum d’aliment.

Page 12: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Exemple 3.4: LONGITUD I PES DE SERPS

En un estudi d’una població salvatge de la serp Vipera berus, un grup d’investigadors van caçar nou

femelles adultes i en van mesurar la longitud i el pes.

La següent taula mostra la longitud i el pes de les nou serps:

Longitud (cm) Pes (gr)

60 136

69 198

66 194

64 140

54 93

67 172

59 116

65 174

63 145

Mitjana 63 152

s 4,6 35,3

Considerem:

X = longitud (cm) de la serp

Y = pes (gr) de la serp

Si representem les

dades, sembla que

a major longitud de

la serp es correspon

un pes major.

Aquí volem expressar

el pes en funció de la

longitud però podria

ser al contrari.

Page 13: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Exemple 3.4: LONGITUD I PES DE SERPS (cont)

En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp.

Els estadístics bàsics necessaris per a la regressió lineal i la correlació són:

Abans d’introduir les expressions a

utilitzar per l’ajust de la recta de

regressió entre les dues variables

considerades, anem a introduir el càlcul

d’alguns estadístics bàsics necessaris.

X Y

60 136

69 198

66 194

64 140

54 93

67 172

59 116

65 174

63 145

9n

1726.48)1()( 222 XX snxxSS

cmn

xxsX 6.4

1

)( 2

g 3.351

)( 2

n

yysY

gn

yy 152

9990)1()( 22 YY snyySS

1237)152145)(6363()152174)(6365()152116)(6359()152172)(6367()15293)(6354(

)152140)(6364()152194)(6366()152198)(6369()152136)(6360())((

yyxxSPXY

9.1768

1237

1

n

SPs XY

XY

Nombre de parells observats

Mitjanes mostrals

Suma de quadrats mostrals

Desviacions típiques mostrals

Suma de productes mostral

Covariància mostral

cmn

xx 63

Page 14: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Exemple 3.4: LONGITUD I PES DE SERPS (cont)

El signe (+ o –) de SPXY determina la direcció o

tendència de les dades:

Si SPXY és + corresponen a dades creixents

(la Y es fa gran quan creix la X)

Si SPXY és – corresponen a dades

decreixents (la Y es fa menuda quan creix la X)

Aquí tenim SPXY=1237>0 que correspon a una relació creixent entre les dues variables, ja que la majoria de parells estan en el primer quadrant (i per

tant a un valor de X xicotet respecte a la mitjana li correspon un valor xicotet de Y respecte a la mitjana) i en el tercer quadrant (a un valor gran de X

respecte a la mitjana li correspon un valor gran de Y respecte a la mitjana).

Si dividim els quadrants en base a les

mitjanes mostrals de X i Y, els productes del

sumatori seran positius quan X i Y tinguen el

mateix comportament respecte a les

mitjanes mostrals (i el parell corresponent

estarà en el primer o en el tercer quadrant), i

seran negatius quan no tinguen el mateix

comportament (i estaran en el segon o quart

quadrant). La suma ens donarà una mesura

del comportament global.

))(( yyxxSPXY( )( )x x y y ( )( )x x y y

és negatiu és positiu

( )( )x x y y ( )( )x x y y

és positiu és negatiu

( )( )XYSP x x y y xy n x y Suma de productes (càlcul):

Page 15: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Ajustament de la recta de regressió

Els n parells de dades (xi,yi) observats formen un núvol de punts o diagrama de dispersió.

L’objectiu de l’anàlisi de regressió serà trobar la recta Y = b0 + b1·X que millor s’ajuste al

núvol de punts de manera que es minimitze la suma de les distàncies entre els punts

observats i els punts de la recta amb igual abscissa (és a dir, la recta que, segons aquest

criteri - anomenat dels mínims quadrats -, estiga més a prop de les dades observades).

Aquest residu és una mesura de l’error de l’ajust corresponent al

valor x. Volem obtindre els valors b0 i b1 que defineixen la recta de

regressió que minimitza:

xbby ·ˆ10

Per a cada parell (x,y) observat, anem a definir el valor ajustat amb

la recta de regressió com

Anem a definir el residu associat al valor x com la diferència entre el

valor observat y i el valor ajustat amb la recta de regressió yyyresidu ˆ

)()ˆ( 2 residSSyy

Aquesta recta Y = b0 + b1·X rep el nom de

recta de regressió o de mínims quadrats de Y sobre X

Page 16: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Ajustament de la recta de regressió en l’exemple 3.4

Interpretació

dels coeficients

de la recta de

regressió

19.7172

12371

X

XY

SS

SPb

3016319.7152

10

xbyb

A l’exemple 2 (longitud i

pes de les serps), la recta

de regressió ajustada és:

Y = -301 + 7.19 · X

El valor b1=7.19 significa

que per cada centímetre

addicional de longitud tenim

7.19 g de pes.

0 1 1 0 1

22

on ,

ˆ( ) ( )

XY

X

XY

XYY

X

SPY b b X b b y b x

SS

x ySP xy

n

SPSS resid y y SS

SS

Page 17: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Orígens de la regressióEl terme regressió va ser introduït per Francis Galton en el seu llibre Natural

Inheritance (1889), partint de les anàlisis estadístiques de Karl Pearson.

Estudiant l’alçada de pares i fills a partir

de més de mil registres de grups

familiars, es va arribar a la conclusió

que els pares molt alts tenien una

tendència a tindre fills que heretaven

part d’aquesta alçada, però que

revelaven també una tendència a

tornar a la mitjana.

Galton va generalitzar aquesta

tendència davall la "llei de la regressió

universal":

«Cada peculiaritat en un home és

compartida pels seus descendents,

però en mitjana, en un grau menor.»

Sir Francis Galton (1822–1911), explorador i científic britànic, va contribuir a diferents

àrees de la ciència com la psicologia, la biologia, la tecnologia, la geografia,

l’estadística o la meteorologia. Cosí de Charles Darwin, va aplicar els seus principis a

nombrosos camps, principalment a l’estudi del ser humà i de les diferències

individuals.

El seu treball es va centrar en la descripció dels trets físics dels descendents (variable A) a partir dels seus

pares (variable B).

Page 18: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

El coeficient de correlació mostral r és un valor que mesura la relació lineal

entre dues variables quantitatives.

Exemple 3.4. LONGITUD I PES DE SERPS

Tenim les variables X=longitud (cm) i Y=pes (gr).

Els estadístics bàsics observats a la mostra són:

cmx 63

9990YSS1237XYSP

El coeficient de correlació mostral entre pes i longitud seria:

gy 152

172XSS

XY

X Y

SPr ,

SS SS

.

.

1 2370

172 9 9909436

El coeficient de correlació.

XY XY

X YX Y

SP sr

s sSS SS

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Page 19: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

És adimensional.

-1≤ r ≤ +1

|r| ≈ 1 quan el núvol de punts és llarg i estret.

|r| ≈ 0 quan el núvol de punts és molt dispers.

|r|=1 SOLS quan totes les observacions estan sobre la recta.

El signe de r és el mateix que el de b1 (b1=SPXY / SSX) i indica la tendència de la recta.

Els signes positius i negatius sols indiquen si el valor d’una variable augmenta (+) o

disminueix (-) en augmentar el valor de l’altra. Una correlació 0,85 és tan gran o important

com una de -0,85

El coeficient de correlació: Propietats

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Page 20: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

El coeficient de correlació sí que és

simètric respecte a les dos variables:

Exemple 3.4. LONGITUD I PES DE SERPS

A partir de dues variables quantitatives X i Y observades aleatòriament sobre una mostra

d’individus d’una població, podem fer la regressió de Y sobre X o la regressió de X sobre Y.

Es compleix:

- La recta de regressió no és simètrica

- Però el coeficient de correlació és el mateix

6.4

172

63

X

X

s

SS

x

3.35

9990

152

Y

Y

s

SS

y

1237XYSP

Recta de regressió de Y (pes) sobre X (longitud) Recta de regressió de X (longitud) sobre Y (pes)

YX

XY

SSSS

SPr

La proximitat dels punts a les línies,

mesurada per r, és la mateixa per a

ambdues rectes de regressió.

Simetria del coeficient de correlació

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Page 21: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

En aquest problema teníem r = 0.9436 i r2= 0.89.

S’interpreta com que aproximadament el 89% de la variabilitat del pes de les

serps està explicada per la variabilitat en longitud d’acord amb el model de

regressió lineal. El 11% restant no està explicat per la regressió lineal es deu a

factors aleatoris no controlables.

Per tant, r2 és la fracció de la variabilitat total de Y que és explicada pel model de regressió.

222 )ˆ()ˆ()( yyyyyySSY

2

2

2

)(

)ˆ(.)(.)(1

yy

yy

SS

residSSSS

SS

residSSr

Y

Y

Y

Exemple 3.4: LONGITUD I PES DE SERPS

El coeficient de determinació.

És el quadrat del coeficient de correlació, el representarem per tant per r2.

Però també es pot obtindre com:

Variabilitat

explicada

Variabilitat total

Descomposició de

la Variabilitat total

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3

Page 22: TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp. Els estadístics

Presència de tendències curvilínies

(1) La recta de regressió no representa de forma adequada

les dades.

(2) La correlació es xicoteta.

(3) El coeficient de correlació/determinació són molt xicotets.

Es poden realitzar transformacions no lineals de les dades

per corregir la tendència curvilínia.

Conseqüències de la presència de valors extrem/atípics (outliers):

(1) Disminueixen el coeficient de

correlació.

(2) Augmenten la suma dels

residus al quadrat.

(3) Tenen gran influència en la

recta de regressió.

Analitzar el seu origen, intentar

eliminar-los.

Diferents situacions i efectes en la regressió lineal.

Estadística - Grau de Nutrició

Humana i Dietètica. Tema 3