Clase 24/04/09

2

Click here to load reader

description

Resumen de la clase del día 24/09/09 realizado por Eider Mitxelena

Transcript of Clase 24/04/09

Page 1: Clase 24/04/09

CLASE DÍA 24 DE SEPTIEMBRE DE 2009

• Medidas de dispersión. La heterogeneidad, la variabilidad, la dispersión es muy importante, pues sin ella no hay nada que estudiar. Lo más basto que se podría estudiar de ella, el primer indicador de heterogeneidad, es el rango. Sin embargo, no gusta mucho porque es sensible a observaciones muy extremas. La

solución podría ser quedarnos con el rango intercuartílico, que propone quitar los extremos más aberrantes, el 25% de cada extremo. Entonces:

Q1 Q2=Me Q3

25% 50% 25%0 36218

RI= Q3 - Q1

Aún no representa mucho. Para medir la heterogeneidad podríamos calcular la media y luego ver cada dato cuánto se aleja de ella. Después, sumar las desviaciones. Pero tampoco nos resulta eficaz porque siempre nos dará resultado cero.

Otra forma de calcular la dispersión sería la Desviación Absoluta Media (DAM): ∑ │PESO ─ μ│

DAM= N

La manera que utilizamos en clase fue otra. Los valores negativos de la desviación (peso-media en el ejemplo de los pesos) desaparecen elevando la cantidad al cuadrado. Además, penaliza las grandes desviaciones. Después, se haría la media, el promedio de la suma del cuadrado de las desviaciones de las observaciones, la varianza. El problema es que el resultado obtenido vendría dado en unidades2, como kg2, luego para eliminar esas magnitudes sacaríamos la raíz cuadrada. Esto sería la desviación estándar. Visualizado en fórmulas:

VARIANZA (σ2): DESVIACIÓN ESTÁNDAR (σ):

√σ2= σ

Es imposible tener una varianza negativo porque la suma al cuadrado será siempre positiva. Si la varianza fuera cero, todos los datos serían iguales.

σEl coeficiente de variación será:

µ• Hemos hecho en R el ejercicio de todo esto. Primero se le indica al programa los

valores que vamos a darle al conjunto con el que vamos a trabajar (ej.: pes<-c(50,60,38,12)), luego calculábamos la media, la diferencia entre esas dos magnitudes (la desviación), lo elevábamos al cuadrado…

• Por último, vimos la paradoja de Simpson o efecto Yule-Simpson con ejemplos como el de la universidad que, aparentemente, discriminaba chicas y con el de los jugadores de béisbol. Recuerdo las tablas:∗ Primer ejemplo : las solicitudes aceptadas y rechazadas en dos departamentos.

Page 2: Clase 24/04/09

Los hombres solicitan en Dpto A. Las mujeres solicitan más en Dpto B. El Dpto A tiene muchas más tasa de aceptación.

Como los hombres tienden a ir al Dpto A, donde la tasa de admisión es mayor, parece que hay discriminación hacia la mujer.

∗ Segundo ejemplo : números de veces que se le lanza la pelota al jugador de béisbol y número de veces que acierta a darle.

1995 1996 Lanzamientos Bateos % Lanzamientos Bateos %

Derek 12 48 25,0% 183 582 31,4% David 104 411 25,3% 45 140 32,1%

DAVID MEJOR QUE DEREK DEREK MEJOR QUE DAVID

1995-1996Lanzamientos Bateos %

195 630 31,0%

149 551 27,0%DEREK MEJOR QUE DAVID

En 1995 (mala temporada) David jugó mucho y en 1996 fue Derek quién jugó más.

• Empezamos el tema tres, estadística descriptiva para dos variables cualitativas. Ejemplo: género y aceptación de las solicitudes. Se hace un análisis de tablas de contingencia para ver si las variables tienen relación entre ellas o si cada una va por su lado. El ejercicio planteado era si tenía alguna relación la clase social con el barrio donde se vive.

Total

Aceptado RechazadoHombres 251 49% 259 51% 510 Mujeres 109 21% 401 79% 510

Dept A Dept B

Aceptado Rechazado Aceptado RechazadoHombres 250 50% 250 50% Hombres 1 10% 9 90% Mujeres 9 90% 1 10% Mujeres 100 20% 400 80%