Trabajo Estadistica_Analisis de Correlacion y regresión

17

Click here to load reader

Transcript of Trabajo Estadistica_Analisis de Correlacion y regresión

Page 1: Trabajo Estadistica_Analisis de Correlacion y regresión

COLEGIO DE BACHILLERES DEL ESTADO DE PUEBLAORGANISMO PÚBLICO DESCENTRALIZADOPLANTEL 11

PROBABILIDAD Y ESTADÍSTICA

CORRELACIÓN Y REGRESIÓN LINEAL

Presentan:

6º C MATUTINO

Xicotepec, Pué, 13 de Mayo de 2010

INDICE

INTRODUCCION | |MARCO TEORICO | |DISTRIBUCION BIDIMENCIONAL | |PARAMETROS DE DISTRIBUCION BIDIMANCIONAL | |REGRESION LINEAL | |ECUACION LINEAL | |DETERMINACION DE LA ECUACION MATEMATICA | |METODOS DE MINIMOS CUADRADOS | |INFERENCIA EN EL ANALISIS DE REGRESION | |EL ERROR ESTANDAR DE ESTIMACION | |ANALISIS DE REGRESION LINEAL MULTIPLE | |RECTAS DE REGRESION | |ANALISIS DE CORRELACION | |CONCLUSION | |BIBLIOGRAFIA | |

INTRODUCCION

En el presente trabajo tiene como objetivo mostrar un gran panorama de lo que es el tema de correlación y regresión lineal en el área de la Estadística Inferencial.

Page 2: Trabajo Estadistica_Analisis de Correlacion y regresión

A grandes rasgos se puede decir que la correlación y la regresión son una herramienta muy útil cuando se trata de relacionar 2 o más variables, relacionadas entre si. Pero esta definición será más explicita y detallada a lo largo del trabajo.No solo se manejara la definición del tema, se darán ejemplos, ejemplos prácticos en diferentes áreas, se mostraran tablas y graficas de correlación y regresión lineal. Este trabajo será realizado para comprender este tema de una manera teórica y práctica.

La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación.

En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.

El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticosLos datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.

Para entender bien este tema debemos tener en cuelta algunos conceptos como los siguientes

DISTRIBUCIÓN BIDIMENSIONAL Distribución estadística en la que intervienen dos variables, x e y, y, por tanto, a cada individuo le corresponden dos valores, xi, yi. Estos dos valores se pueden considerar como coordenadas de un punto (xi, yi) representado en un diagrama cartesiano. Así, a cada individuo de la distribución le corresponderá un punto, y toda la distribución se verá representada mediante un conjunto de puntos.

Page 3: Trabajo Estadistica_Analisis de Correlacion y regresión

Por ejemplo, supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se les pasan unas pruebas que miden la aptitud musical (Mu) y la aptitud para las matemáticas (Ma), se obtienen los siguientes resultados:

INDIVIDUO | A | B | C | D | E |VALORACIÓN Mu | 5 | 7 | 8 | 4 | 2 |VALORACIÓN Ma | 6 | 10 | 5 | 6 | 4 |

|Esta tabla es una distribución bidimensional porque intervienen dos variables: valoración Mu, valoración Ma. A cada individuo le corresponden dos valores: A (5,6), B (7,10), C (4,5), D (8,6), E (2,4). De este modo se asocia a cada individuo un punto en un diagrama cartesiano:

B| A D E C

Esta representación gráfica de una distribución bidimensional se llama nube de puntos o diagrama de dispersión.

PARAPETROS DE DISTRIBUCION BIDIMENCIONAL: Cada una de las dos variables x, y de una distribución bidimensional tiene sus propios parámetros. Para el estudio de la correlación se necesitan sus medias y sus desviaciones típicas, σx, σy. Hay además un nuevo parámetro, σxy, llamado covarianza, que sirve para medir el grado de relación entre las dos variables: cómo varía cada una con relación a la otra.

La covarianza de una distribución bidimensional de n individuos dados por los pares de valores (x1,y1), (x2,y2),…, (xn,yn), se calcula mediante la fórmula siguiente:

σXY=£x1y1n-xy

Page 4: Trabajo Estadistica_Analisis de Correlacion y regresión

La segunda expresión es más cómoda de aplicar cuando las medias no son números enteros. El coeficiente de correlación, r, se obtiene dividiendo la covarianza por el producto de las desviaciones típicas:ρ=σxyσxσy

Este parámetro no tiene dimensiones. Por ejemplo, si la variable x es una longitud y la y un peso, los valores x y σx son longitudes, y sus valores varían según que los datos estén dados en centímetros, en metros…; los valores de y y σy son pesos, y sus valores varían según las unidades en que se expresen los datos; la covarianza, σxy, es el producto de una longitud por un peso, y su valor varía según las unidades en que se den xi, yi; sin embargo, el coeficiente de correlación es un número abstracto cuyo valor no depende de las unidades en que se hallen los valores de las variables. Además, el hecho de que r tome valores entre –1 y 1 (-1 ≤ r ≤ 1) hace que resulte muy cómodo interpretar sus resultados. Por todo ello, r es un parámetro sumamente adecuado para calcular la correlación entre dos variables estadísticas.

REGRESIÓN LINEALLa regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre dos variables.

La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:[] 1. La relación entre las variables es lineal.

Page 5: Trabajo Estadistica_Analisis de Correlacion y regresión

2. Los errores son independientes. 3. Los errores tienen varianza constante. 4. Los errores tienen una esperanza matemática igual a cero. 5. El error total es la suma de todos los errores.Ecuación Lineal

Dos características importantes de una ecuación lineal

1) la independencia de la recta 2) la localización de la recta en algún punto. Una ecuación lineal tiene la forma y = a + bx

En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b señala su pendiente. La variable y es la que se habrá de predecir, y x es la variable predictora.

Determinación de la ecuación matemática

En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.

Métodos de mínimos cuadrados

EL procedimiento más utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes

1) es nula la suma desviaciones verticales en los puntos a partir de la recta 2) es mínima la suma de los cuadrados de dicha desviaciones

Σ(yi – yc)2

En el cual

Page 6: Trabajo Estadistica_Analisis de Correlacion y regresión

Yi = valor esperado de y Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados con el valor correspondientes x para yi

Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviación “ecuaciones normales “

Σy = na + (Σx)Σxy= a (Σx) +b (Σx2)

En las que n es el numero de pares de observaciones. Evaluando las cantidades Σx, Σy, etc. Se puede resolver estas dos ecuaciones simultáneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.

n(Σxy)- (Σx)(Σy) b= n(Σx2)-(Σx)2

Σy – b Σx a= n

Inferencia en el análisis de regresión

Los supuestos para el análisis de regresión son como:

1. Existen datos de medición para a x y z. 2. la variable dependiente es una variable aleatoria. 3. para cada valor de x, existe una distribución condicional de la qué es de naturaleza normal 4. la desviación estándar de toda las distribuciones condicionales son iguales

EL error estándar de estimación

Page 7: Trabajo Estadistica_Analisis de Correlacion y regresión

La determinante primaria de la exactitud es el grado de dispersión de la población: cuanto más dispersa este, menor será la exactitud de la estimación. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada, utilizando la formula.

Se = √Σ (yi –yc)

n-2en la cual:

yi = cada valor de yyc = valor de línea de regresión correspondiente a partir de la ecuación de regresión.n = números de observaciones.

La formula anterior no se utiliza por lo general para cálculos reales, es más fácil trabajar con la formula simplificadaSe √Σy2 – a Σy – b Σxy

n – 2

Inferencia de acerca de la pendiente de una línea de regresión

Aun cuando es muy poca o nula relación entre dos variables de aun población, es posible obtener valores maestrales que hacen que parezca que la variables están relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parámetros verdaderos no son cero), Si no existe ninguna relación se esperaría obtener aun pendiente cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.

La significación del coeficiente de regresión se puede probar comparándolo con su desviación estándar

t = valor de la muestra – valor esperado

Page 8: Trabajo Estadistica_Analisis de Correlacion y regresión

Desviación estándar

Análisis de regresión lineal múltiple

La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operación al desarrollo de una ecuación que se puede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresión lineal simple.Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión.

Yc= a +b1x1+b2x2+…bkxk

a = ordenada en el origenb1= pendientek = numero de variables independientes

Un análisis de regresión simple de dos variable da lugar a la ecuación de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a(k +1) dimensiones.Rectas de regresión Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste.[] * La recta de regresión de Y sobre X:

* La recta de regresión de X sobre Y:

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno; si r es cercano o igual a 0, se tratará de un ajuste malo. Ambas rectas de regresión se intersecan en un punto

Page 9: Trabajo Estadistica_Analisis de Correlacion y regresión

llamado centro de gravedad de la distribución.EJEMPLO

En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos en los siguientes estadísticos:

Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15. Solución: Lo que se busca es la recta , que mejor aproxima los valores de Y (según el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:

Así, el modelo lineal consiste en:

Por tanto, si x=15, el modelo lineal predice un valor de Y de:

En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.

ANÁLISIS DE CORRELACIÓN

EL objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por partes. EL termino “correlación “significa relación mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres técnicas de correlación uno para datos de medición, otro para datos jerarquizados y el último para clasificaciones nominales.

la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A

Page 10: Trabajo Estadistica_Analisis de Correlacion y regresión

y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad

Cuando r = 1 existe una relación funcional entre las dos variables de modo que el valor de cada variable se puede obtener a partir de la otra. Los puntos de la nube están todos situados sobre una recta de pendiente positiva.

Esto ocurre, por ejemplo, cuando una barra metálica se somete a distintas temperaturas, x1, x2,…, xn, y se miden con precisión sus correspondientes longitudes, y1, y2,…, yn. Las longitudes se obtienen funcionalmente a partir de las temperaturas de modo que, conociendo la temperatura a que se va a calentar, se podría obtener la longitud que tendría la barra.Cuando r es positivo y grande (próximo a 1) se dice que hay una correlación fuerte y positiva. Los valores de cada variable tienden a aumentar cuando aumentan los de la otra. Los puntos de la nube se sitúan próximos a una recta de pendiente positiva.

Es el caso de las estaturas, x1, x2,…, xn, y los pesos, y1, y2,…, yn, de diversos atletas de una misma especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede haber excepciones.Cuando r es próximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la correlación es muy débil (prácticamente no hay correlación). La nube de puntos es amorfa.

Es lo que ocurriría si lanzáramos simultáneamente dos dados y anotáramos sus resultados: puntuación del dado rojo, xi; puntuación del dado verde, yi. No existe ninguna relación entre las puntuaciones de los dados en las diversas tiradas.Cuando r es próximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlación fuerte y negativa. Los valores de cada variable tienden a disminuir cuando aumentan los de la otra. Los puntos de la nube están próximos a una recta de pendiente negativa.

Page 11: Trabajo Estadistica_Analisis de Correlacion y regresión

Si en un conjunto de países en vías de desarrollo se miden sus rentas per cápita, xi, y sus índices de natalidad, yi, se obtiene una distribución de este tipo, pues suele ocurrir que, grosso modo, cuanto mayor sea la renta per cápita menor será el índice de natalidad.

Cuando r = -1 todos los puntos de la recta están sobre una recta de pendiente negativa. Existe una relación funcional entre las dos variables.

La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma: * La fuerza extrema segun el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil. * El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa. * La forma establece el tipo de línea que define el mejor ajuste: la línea rectal, la curva monotónica o la curva no monotónica.La correlación, método por el cual se relacionan dos variables se pude graficar con un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos mas cercanos de una recta hablaran de una correlación mas fuerte, ha esta recta se le denomina recta de regresión, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente.También se puede describir un diagrama de dispersión en coordenadas cartesianas valores como en la distribución diváriate, en donde la nube de puntos representa los pares de valores.

Conclusión

Ya se han mostrado ejemplos, se ha definido y entendido el tema. En ocasiones nos puede interesar el estudiar si existe o no alguna relación entre dos tipos de variables, ya sea como ejemplo, la relación entre dos

Page 12: Trabajo Estadistica_Analisis de Correlacion y regresión

calificaciones de un alumno o niveles de hormonas durante el embarazo, la regresión y correlación, siendo una rama de la estadística inferencia, nos ayudara a poder calcula u obtener esta relación. En conclusión podemos decir que la relación y correlación comprende el análisis de datos muéstrales para saber como se relaciones entre si dos o mas variables de una población.

BIBLIOGRAFIA

* http://web.usal.es/~javisan/hidro/practicas/correlacion/Correlacion_explicacion.pdf * http://www.eumed.net/cursecon/medir/index.htm * http://www.monografias.com/trabajos26/estadistica-inferencial/estadistica-inferencial.shtml * PROBABILIDAD Y ESTADÍSTICA 4ª Ed. Editorial McGraw-Hill (2006) * PROBABILIDAD Y ESTADISTICA. Ed. Nueva Librería. Alejandro D. Zylberberg. (2005) * PROBABILIDAD Y ESTADÍSTICA. Editorial: Thomson (2001)