TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En...
Transcript of TEMA 3 Descripció de la relació entre dues variables ...montes/NHD/teoria/Tema3_val.pdf · En...
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
TEMA 3
Descripció de la relació entre dues
variables numèriques
Dep. Estadística i Inv. Operativa
Univ. de València
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Dues variables
De vegades, és interessant analitzar el comportament de
dues o més variables numèriques simultàniament.
En aquest tema anem a veure quins tipus de gràfics ens
poden ajudar a entendre la relació existent entre elles.
Si les dues variables són contínues, podem utilitzar
qualsevol dels gràfics d’una variable (histogrames,
diagrama de caixa i bigots, etc…) mantenint les
escales i comparar les gràfiques i la forma de les
seues distribucions.
Els gràfics de dispersió són els més utilitzats per a veure el
comportament conjunt de dues variables numèriques,
especialment per a estudiar la relació lineal entre dues
variables.
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Gràfics per a comparar: Exemple 3.1
Any Tornats
No
tornats Total106
1978 165 752 917
1979 297 993 1290
1980 550 646 1196
1981 680 680 1360
1982 733 733 1466
1983 752 641 1393
1984 816 780 1596
1985 820 757 1577
1986 950 877 1827
1987 1100 937 2037
1988 1300 1021 2321
1989 1566 957 2523
Número d’envasos d’alumini tornats i no tornats en Austràlia
(1978-1989)
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Número d’envasos d’alumini tornats i no
tornats en Austràlia (1978-1989)
Percentatges respecte dels totalsValors absoluts en milions d’unitats
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Gràfics per a compararDiagrama de barres agrupat (les barres representen la quantitat
d’envasos tornats i no tornats)
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Gràfics per a comparar
Diagrama de barres apilat
(cada barra mostra el nombre d’envasos tornats i no tornats)
ANY
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Gràfics per a compararDiagrama de barres apilat (considerant percentatges respecte del total d’envasos)
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Gràfics per a comparar: Exemple 3.2Comparació d’antioxidants que contenen alguns aliments.
Lycium Barbarum
(Solanaceas)
Goji
Font:
Wikipedia
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Relació Lineal entre dues variables
Anem a considerar estudis en que intervenen 2 variables quantitatives X i Y.
L’objectiu d’aquestos estudis serà analitzar la relació entre X i Y. Les
tècniques de REGRESSIÓ LINEAL i CORRELACIÓ es basen en l’ajust d’una
línia recta a les dades per tal d’explicar la relació entre X i Y.
Les observacions de X i Y poden ser de dos tipus:
Els valors de X són especificats per l’experimentador i per a cada valor de X
es tria individus amb aquest valor de X i s’observa aleatòriament el seu valor
de la variable Y (Exemple 3.3).
Les dues variables X i Y són aleatòries. Es trien a l’atzar n individus i
s’observa els valors de les variables X i Y en ells (Exemple 3.4).
En els dos casos els càlculs són iguals però la interpretació pot ser diferent.
La variable Y rep el nom de variable depenent i la X és la variable independent.
En el primer cas, la variable especificada pel investigador necessàriament és la
X. En el segon cas, cal determinar quina és la variable la qual volem posar en
funció de l’altra per a fer prediccions. De vegades qualsevol variable pot fer
qualsevol paper, però de vegades no.
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Relació Lineal entre dues variables: Exemples
Exemple 3.3: AMFETAMINES I CONSUM DE MENJAR
Les amfetamines són fàrmacs que inhibeixen la gana de menjar.
En un estudi sobre aquest efecte, un farmacòleg va assignar
aleatòriament 24 ratolins a tres grups de tractament. Dos grups
van rebre una injecció d’amfetamina en dos nivells diferents (dosi
2.5 i dosi 5 mg/kg). Els ratolins del tercer grup van rebre una
injecció d’una solució salina. Es va mesurar la quantitat de menjar
consumit per cada animal en un període de tres hores després de
la injecció.
Exemple 3.4: LONGITUD I PES DE SERPS
En un estudi d’una població salvatge de la serp Vipera berus, un
grup d’investigadors van caçar nou femelles adultes i en van
mesurar la longitud i el pes.
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Exemple 3.3: AMFETAMINES I CONSUM DE MENJARDosi d’amfetamina (mg/kg)
0 2,5 5,0
112,6 73,3 38,5
102,0 81,8 81,3
90,2 67,3 57,1
81,5 55,3 62,3
105,6 80,7 51,5
93,0 90,0 48,3
106,6 75,5 42,7
108,3 77,1 57,9
Mitjana 100,0 75,5 55,0
s 10,7 10,7 13,3
n 8 8 8
Considerem:
X = dosi (mg/Kg) d’amfetamina
variable fixada per l’investigador x = 0, 2.5 i 5.
Y = quantitat de menjar consumit per l’animal en
les tres hores després de la injecció
Si representem les dades, sembla que en
augmentar la dosi d’amfetamina disminueix
el consum d’aliment.
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Exemple 3.4: LONGITUD I PES DE SERPS
En un estudi d’una població salvatge de la serp Vipera berus, un grup d’investigadors van caçar nou
femelles adultes i en van mesurar la longitud i el pes.
La següent taula mostra la longitud i el pes de les nou serps:
Longitud (cm) Pes (gr)
60 136
69 198
66 194
64 140
54 93
67 172
59 116
65 174
63 145
Mitjana 63 152
s 4,6 35,3
Considerem:
X = longitud (cm) de la serp
Y = pes (gr) de la serp
Si representem les
dades, sembla que
a major longitud de
la serp es correspon
un pes major.
Aquí volem expressar
el pes en funció de la
longitud però podria
ser al contrari.
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Exemple 3.4: LONGITUD I PES DE SERPS (cont)
En aquest exemple teníem X = longitud (cm) de la serp Y = pes (gr) de la serp.
Els estadístics bàsics necessaris per a la regressió lineal i la correlació són:
Abans d’introduir les expressions a
utilitzar per l’ajust de la recta de
regressió entre les dues variables
considerades, anem a introduir el càlcul
d’alguns estadístics bàsics necessaris.
X Y
60 136
69 198
66 194
64 140
54 93
67 172
59 116
65 174
63 145
9n
1726.48)1()( 222 XX snxxSS
cmn
xxsX 6.4
1
)( 2
g 3.351
)( 2
n
yysY
gn
yy 152
9990)1()( 22 YY snyySS
1237)152145)(6363()152174)(6365()152116)(6359()152172)(6367()15293)(6354(
)152140)(6364()152194)(6366()152198)(6369()152136)(6360())((
yyxxSPXY
9.1768
1237
1
n
SPs XY
XY
Nombre de parells observats
Mitjanes mostrals
Suma de quadrats mostrals
Desviacions típiques mostrals
Suma de productes mostral
Covariància mostral
cmn
xx 63
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Exemple 3.4: LONGITUD I PES DE SERPS (cont)
El signe (+ o –) de SPXY determina la direcció o
tendència de les dades:
Si SPXY és + corresponen a dades creixents
(la Y es fa gran quan creix la X)
Si SPXY és – corresponen a dades
decreixents (la Y es fa menuda quan creix la X)
Aquí tenim SPXY=1237>0 que correspon a una relació creixent entre les dues variables, ja que la majoria de parells estan en el primer quadrant (i per
tant a un valor de X xicotet respecte a la mitjana li correspon un valor xicotet de Y respecte a la mitjana) i en el tercer quadrant (a un valor gran de X
respecte a la mitjana li correspon un valor gran de Y respecte a la mitjana).
Si dividim els quadrants en base a les
mitjanes mostrals de X i Y, els productes del
sumatori seran positius quan X i Y tinguen el
mateix comportament respecte a les
mitjanes mostrals (i el parell corresponent
estarà en el primer o en el tercer quadrant), i
seran negatius quan no tinguen el mateix
comportament (i estaran en el segon o quart
quadrant). La suma ens donarà una mesura
del comportament global.
))(( yyxxSPXY( )( )x x y y ( )( )x x y y
és negatiu és positiu
( )( )x x y y ( )( )x x y y
és positiu és negatiu
( )( )XYSP x x y y xy n x y Suma de productes (càlcul):
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Ajustament de la recta de regressió
Els n parells de dades (xi,yi) observats formen un núvol de punts o diagrama de dispersió.
L’objectiu de l’anàlisi de regressió serà trobar la recta Y = b0 + b1·X que millor s’ajuste al
núvol de punts de manera que es minimitze la suma de les distàncies entre els punts
observats i els punts de la recta amb igual abscissa (és a dir, la recta que, segons aquest
criteri - anomenat dels mínims quadrats -, estiga més a prop de les dades observades).
Aquest residu és una mesura de l’error de l’ajust corresponent al
valor x. Volem obtindre els valors b0 i b1 que defineixen la recta de
regressió que minimitza:
xbby ·ˆ10
Per a cada parell (x,y) observat, anem a definir el valor ajustat amb
la recta de regressió com
Anem a definir el residu associat al valor x com la diferència entre el
valor observat y i el valor ajustat amb la recta de regressió yyyresidu ˆ
)()ˆ( 2 residSSyy
Aquesta recta Y = b0 + b1·X rep el nom de
recta de regressió o de mínims quadrats de Y sobre X
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Ajustament de la recta de regressió en l’exemple 3.4
Interpretació
dels coeficients
de la recta de
regressió
19.7172
12371
X
XY
SS
SPb
3016319.7152
10
xbyb
A l’exemple 2 (longitud i
pes de les serps), la recta
de regressió ajustada és:
Y = -301 + 7.19 · X
El valor b1=7.19 significa
que per cada centímetre
addicional de longitud tenim
7.19 g de pes.
0 1 1 0 1
22
on ,
ˆ( ) ( )
XY
X
XY
XYY
X
SPY b b X b b y b x
SS
x ySP xy
n
SPSS resid y y SS
SS
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Orígens de la regressióEl terme regressió va ser introduït per Francis Galton en el seu llibre Natural
Inheritance (1889), partint de les anàlisis estadístiques de Karl Pearson.
Estudiant l’alçada de pares i fills a partir
de més de mil registres de grups
familiars, es va arribar a la conclusió
que els pares molt alts tenien una
tendència a tindre fills que heretaven
part d’aquesta alçada, però que
revelaven també una tendència a
tornar a la mitjana.
Galton va generalitzar aquesta
tendència davall la "llei de la regressió
universal":
«Cada peculiaritat en un home és
compartida pels seus descendents,
però en mitjana, en un grau menor.»
Sir Francis Galton (1822–1911), explorador i científic britànic, va contribuir a diferents
àrees de la ciència com la psicologia, la biologia, la tecnologia, la geografia,
l’estadística o la meteorologia. Cosí de Charles Darwin, va aplicar els seus principis a
nombrosos camps, principalment a l’estudi del ser humà i de les diferències
individuals.
El seu treball es va centrar en la descripció dels trets físics dels descendents (variable A) a partir dels seus
pares (variable B).
El coeficient de correlació mostral r és un valor que mesura la relació lineal
entre dues variables quantitatives.
Exemple 3.4. LONGITUD I PES DE SERPS
Tenim les variables X=longitud (cm) i Y=pes (gr).
Els estadístics bàsics observats a la mostra són:
cmx 63
9990YSS1237XYSP
El coeficient de correlació mostral entre pes i longitud seria:
gy 152
172XSS
XY
X Y
SPr ,
SS SS
.
.
1 2370
172 9 9909436
El coeficient de correlació.
XY XY
X YX Y
SP sr
s sSS SS
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
És adimensional.
-1≤ r ≤ +1
|r| ≈ 1 quan el núvol de punts és llarg i estret.
|r| ≈ 0 quan el núvol de punts és molt dispers.
|r|=1 SOLS quan totes les observacions estan sobre la recta.
El signe de r és el mateix que el de b1 (b1=SPXY / SSX) i indica la tendència de la recta.
Els signes positius i negatius sols indiquen si el valor d’una variable augmenta (+) o
disminueix (-) en augmentar el valor de l’altra. Una correlació 0,85 és tan gran o important
com una de -0,85
El coeficient de correlació: Propietats
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
El coeficient de correlació sí que és
simètric respecte a les dos variables:
Exemple 3.4. LONGITUD I PES DE SERPS
A partir de dues variables quantitatives X i Y observades aleatòriament sobre una mostra
d’individus d’una població, podem fer la regressió de Y sobre X o la regressió de X sobre Y.
Es compleix:
- La recta de regressió no és simètrica
- Però el coeficient de correlació és el mateix
6.4
172
63
X
X
s
SS
x
3.35
9990
152
Y
Y
s
SS
y
1237XYSP
Recta de regressió de Y (pes) sobre X (longitud) Recta de regressió de X (longitud) sobre Y (pes)
YX
XY
SSSS
SPr
La proximitat dels punts a les línies,
mesurada per r, és la mateixa per a
ambdues rectes de regressió.
Simetria del coeficient de correlació
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
En aquest problema teníem r = 0.9436 i r2= 0.89.
S’interpreta com que aproximadament el 89% de la variabilitat del pes de les
serps està explicada per la variabilitat en longitud d’acord amb el model de
regressió lineal. El 11% restant no està explicat per la regressió lineal es deu a
factors aleatoris no controlables.
Per tant, r2 és la fracció de la variabilitat total de Y que és explicada pel model de regressió.
222 )ˆ()ˆ()( yyyyyySSY
2
2
2
)(
)ˆ(.)(.)(1
yy
yy
SS
residSSSS
SS
residSSr
Y
Y
Y
Exemple 3.4: LONGITUD I PES DE SERPS
El coeficient de determinació.
És el quadrat del coeficient de correlació, el representarem per tant per r2.
Però també es pot obtindre com:
Variabilitat
explicada
Variabilitat total
Descomposició de
la Variabilitat total
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3
Presència de tendències curvilínies
(1) La recta de regressió no representa de forma adequada
les dades.
(2) La correlació es xicoteta.
(3) El coeficient de correlació/determinació són molt xicotets.
Es poden realitzar transformacions no lineals de les dades
per corregir la tendència curvilínia.
Conseqüències de la presència de valors extrem/atípics (outliers):
(1) Disminueixen el coeficient de
correlació.
(2) Augmenten la suma dels
residus al quadrat.
(3) Tenen gran influència en la
recta de regressió.
Analitzar el seu origen, intentar
eliminar-los.
Diferents situacions i efectes en la regressió lineal.
Estadística - Grau de Nutrició
Humana i Dietètica. Tema 3