Regresión lineal simple y correlación

11
Regresión lineal simple y correlación El análisis de regresión se utiliza principalmente con el propósito de hacer predicciones. El análisis de correlación se utiliza para medir la intensidad de la asociación entre las variables numéricas. Diagrama de dispersión: cada valor es graficado en sus coordenadas particulares X, Y. Tipos de modelos de regresión. El modelo de línea recta puede representarse como: El primer termino (B0), es la intersección Y para la población; B1 es lapendiente de la población y E es el error aleatorio en Y para la observacióni. En este modelo, la pendiente de la recta B1 representa el cambio esperado enY por unidad de cambio en X; esto es, representa la cantidad que cambia lavariable Y con respecto a una unidad de cambio particular en X. B0 representa elvalor promedio de Y cuando X es igual a cero. El modelo matemático estáinfluenciado por la distribución de los valores X y Y en el diagrama dedispersión. Determinación de la ecuación de regresión lineal simple. El método de mínimoscuadrados. A b0 y b1 se los puede considerar como estimaciones de B0 y B1. Porconsiguiente, la ecuación de regresión de muestra sería: Yi es el valor predicho de Y para la observación i, y Xi es el valor de X para laobservación i. Unatécnica matemática utilizada para determinar los valores de bo y b1 que mejorse ajusten a los datos observados se conoce como método de mínimos cuadrados.Al utilizar este método surgen dos ecuaciones normales: I. II. El error estándar de estimación.

Transcript of Regresión lineal simple y correlación

Page 1: Regresión lineal simple y correlación

Regresión lineal simple y correlaciónEl análisis de regresión se utiliza principalmente con el propósito de hacer predicciones.El análisis de correlación se utiliza para medir la intensidad de la asociación entre las variables numéricas.Diagrama de dispersión: cada valor es graficado en sus coordenadas particulares X, Y.Tipos de modelos de regresión. El modelo de línea recta puede representarse como:

El primer termino (B0), es la intersección Y para la población; B1 es lapendiente de la población y E es el error aleatorio en Y para la observacióni. En este modelo, la pendiente de la recta B1 representa el cambio esperado enY por unidad de cambio en X; esto es, representa la cantidad que cambia lavariable Y con respecto a una unidad de cambio particular en X. B0 representa elvalor promedio de Y cuando X es igual a cero. El modelo matemático estáinfluenciado por la distribución de los valores X y Y en el diagrama dedispersión.

Determinación de la ecuación de regresión lineal simple. El método de mínimoscuadrados.

A b0 y b1 se los puede considerar como estimaciones de B0 y B1. Porconsiguiente, la ecuación de regresión de muestra sería:

Yi es el valor predicho de Y para la observación i, y Xi es el valor de X para laobservación i.

Unatécnica matemática utilizada para determinar los valores de bo y b1 que mejorse ajusten a los datos observados se conoce como método de mínimos cuadrados.Al utilizar este método surgen dos ecuaciones normales:

I.

II.

El error estándar de estimación.

Elerror estándar de la estimación, representado como Syx se define como:

SST = SSR + SSE

En la que SST =

Podemos ahora definir el coeficiente de determinación r2: mide la porciónde variación que es explicada por la variable independiente del modelo deregresión:

Algunosinvestigadores sugieren que se calcule un coeficiente r2 ajustado para reflejartanto el número de variables explicatorias del modelo como el tamaño de lamuestra. El coeficiente r2 ajustado se calcula de la siguiente manera:r, cuyos valores van de –1 a +1. El coeficiente de correlación en casos deregresión lineal simple toma el signo de b1.

Page 2: Regresión lineal simple y correlación

Suposiciones de regresión y correlación. Las cuatro principalessuposiciones acerca de la regresión son: 1.Normalidad. 2. Homoscedasticidad. 3.Independencia de error. 4. Linealidad.La primera suposición, normalidad, requiere que los valores de Y esténdistribuidos normalmente en cada valor de X. Siempre y cuando la distribuciónde los valores de Yi alrededor de cada nivel de X no sea extremadamentediferente de una distribución normal, las inferencias acerca de la línea deregresión y de los coeficientes de regresión no se verán seriamenteafectadas. La segunda suposición, homoscedasticidad, requiere que la variaciónalrededor de la línea de regresión sea constante para todos los valores de X.La tercera suposición, independencia de error, requiere que el error seaindependiente de cada valor de X. Por último, la linealidad establece que larelación entre las variables es lineal.

Estimación del intervalo de confianza para predecir

myx.

Intervalo de predicción para una respuesta individual Yi

Inferencias respecto a los parámetros de población en regresión ycorrelación

Ho= β1=0 (No hay relaciσn)

H1= β1 ≠ 0 (Hay relaciσn)

Y la estadístida de prueba para probar la hipótesis está dada por:

La estadística de prueba sigue una distribución t con n-2 grados delibertad.

Un segundo método equivalente para probar la existencia de una relaciónlineal entre las variables consiste en establecer una estimación de intervalode confianza de β1 y determinar si el valor supuesto está incluido en elintervalo. La estimación del intervalo de confianza se obtendría de lasiguiente manera:

Un tercer método para examinar la existencia de una relación lineal entredos variables implica al coeficiente de correlación de la muestra, r. Para ellose realiza lo siguiente:

Ho: ρ = 0 ( No hay relación)

H1: ρ ≠ 0 (Hay relaciσn)

La estadística de prueba para determinar la existencia de una correlaciónesta dada por:

La estadística de prueba sigue una distribución t con n-2 grados delibertad.

Dificultades de la regresión y cuestiones éticasLas dificultades que surgen con frecuencia son:

15. Falta de conciencia sobre las suposiciones de la regresión de mínimos cuadrados.

Page 3: Regresión lineal simple y correlación

16. Conocimiento de cómo evaluar las suposiciones de la regresión de mínimos cuadrados.

17. Conocimientos de cuáles son las alternativas de la regresión de mínimos cuadrados si no se cumple alguna suposición individual.

18. La creencia de que la correlación implica causalidad.

19. El uso del modelo de regresión sin conocer de qué se trata.

16. Aplicaciones estadísticas en administración de lacalidad y productividad

Calidad y productividad: Una perspectiva histórica. Al tema de calidad yproductividad lo podemos dividir en cuatro fases históricas: 1. Podemos pensaren una administración de primera generación como administración mediante laacción, el tipo administración practicada por las sociedadescazadoras-recolectoras primitivas en que los individuos producían algo para símismos o para su unidad tribal, siempre que el producto fuera necesario. 2.Luego encontramos la administración por dirección. Es la época delsurgimiento de los gremios en Europa (Edad Media). Los gremios administraban elentrenamiento de aprendices y trabajadores y determinaban las normas de calidady fabricación de los productos hechos por el gremio. 3. La administración porcontrol, surge aproximadamente con Henry Ford, en el cual los trabajadoresestaban divididos entre aquellos que en realidad hacían el trabajo y aquellosque planeaban y supervisaban el trabajo. Esto le quitó responsabilidad altrabajador individual con respecto al tema calidad y dejó el tema en manos deinspectores. El estilo de administración por control contenía una estructurajerárquica que ponía énfasis en la responsabilidad individual por la obtenciónde un conjunto de objetivos predeterminados. 4. Por último encontramos laadministración por proceso. Llamada a menudo TQM o Administración de CalidadTotal. Una de las características principales de este planteamiento consiste encentrar la atención en una continua mejora de los procesos. Se le daimportancia al trabajo en equipo, atención al cliente y rápida reacción a loscambios. Tiene fuerte fundamentación estadística.

La teoría de los diagramas de control. El diagrama de control es un mediopara revisar la variación de la característica de un producto o serviciomediante 1. la consideración de la dimensión temporal en la cual el sistemafabrica productos y 2. el estudio de la naturaleza de la variabilidad delsistema. El diagrama de control puede utilizarse para estudiar desempeñospasados o evaluar las condiciones presentes o ambas cosas. Los diagramas decontrol pueden utilizarse para diferentes tipos de variables: para las variablescategóricas y para las variables discretas. La atención principal del diagramade control se enfoca en el intento de separar las causas especiales o asignablesde la variación de las causas comunes o debidas al azar.

o Las causas especiales o asignables representan grandes fluctuaciones en los datos que no son inherentes a un proceso. Tales fluctuaciones son ocasionadas por cambios en un sistema.

o Las causas comunes o debidas al azar representan la variabilidad inherente que se presenta en un sistema.

Page 4: Regresión lineal simple y correlación

Las causas especiales se consideran aquellas que no forman parte de unproceso y son susceptibles de corregir; mientras que las causas comunes puedenreducirse solo cambiando el sistema. Existen dos tipos de errores que losdiagramas de control ayudan a prevenir. El primer tipo de error implica lacreencia de que un valor observado representa una causa especial de la variacióncuando de hecho se debe a una causa común de variación del sistema. El segundoerror implica tratar a una causa especial como si fuera una causa común y notomar medidas correctivas cuando son necesarias.

La forma más típica de un diagrama de control establece límites de controlque se encuentran dentro de +/-3 desviaciones estándar de la medida de estadísticade interés. En general puede establecerse como:

Algunas herramientas para estudiar un proceso: diagrama de esqueleto depescado (Ishikawa) y de flujo de procesos. Un proceso es una secuencia de pasosque describen una actividad desde el inicio hasta su terminación.

o El diagrama de esqueleto de pescado (o Ishikawa): El nombre viene de la manera en que las diferentes causas están ordenadas en el diagrama. El problema se muestra en la parte derecha y las principales causas se colocan en la parte izquierda. Estas causas a menudo se subdividen.

o Diagrama de flujo de proceso. Este diagrama nos permite ver un flujo de pasos de un proceso, desde su inicio hasta su terminación.

Los catorce puntos de Deming: una teoría de la administración por proceso.Deming desarrollo su enfoque basándose en los siguientes catorce puntos:

24. Crear una constancia en el propósito de mejorar el producto y el servicio.

25. Adoptar la nueva filosofía.

26. Dejar de ser dependientes de la inspección para lograr la calidad.

27. Terminar con la práctica de otorgar contratos sobre la única base del precio. En vez de ello minimizar el costo total trabajando con un solo proveedor.

28. Mejorar constantemente y para siempre cada proceso de planeación, producción y servicio.

29. Instituir el entrenamiento en el trabajo.

30. Adoptar e instituir el liderazgo.

31. Eliminar el miedo.

32. Derribar las barreras entre áreas de personal.

33. Eliminar lemas, exhortaciones y metas destinados a la fuerza laboral.

Page 5: Regresión lineal simple y correlación

34. Eliminar cuotas numéricas para la fuerza laboral y objetivos numéricos para la administración.

35. Retirar barreras que le restan orgullo a la gente respecto a su trabajo. Eliminar el sistema de evaluación anual o de mérito.

36. Instituir un vigoroso programa de educación y autodesarrollo para todos.

37. Poner a todo el que trabaje en la compañía a trabajar en el logro de la transformación.

Diagramas de control para la proporción y el número de elementos que no seajustan:. Los diagramas p y np.

o Diagrama p: basado en la porción de elementos que no cumplen con los requisitos. Para establecer los límites de control:

Cualquier valor negativo del límite de control inferior significará que ellímite de control inferior no existe.

o Diagrama np: basado en el número de elementos que no cumplen con los requisitos. Los límites de control los establecemos de la siguiente manera:

El diagrama R: Un diagrama de control para la dispersión. Los límites deeste diagrama de control los obtenemos de la siguiente manera:

Diagrama X. El diagrama de control para X utiliza subgrupos de tamaño n quese obtienen sobre k secuencias consecutivas o periodos. Los límites de controlse obtienen de la siguiente manera:

ResumenPronóstico de series de tiempo.Tipos de métodos de predicción: Existen dos planteamientos para la predicción:cualitativa y cuantitativa. Los métodos de predicción cualitativa sonespecialmente importantes cuando no se dispone de datos históricos. Seconsideran altamente subjetivos. Los métodos de predicción cuantitativa hacenuso de los datos históricos.

Introducción al análisis de series de tiempo.Una serie de tiempo es un conjunto de datos numéricos que se obtienen en períodosregulares a través del tiempo. El principal objetivo de una serie de tiempoconsiste en identificar y aislar tales factores de influencia con propósitos dehacer predicciones, así como para efectuar una planeación y un controladministrativo.

Factores componentes del modelo multiplicativo de series temporales.Tendencia: impresión a largo plazo.

Page 6: Regresión lineal simple y correlación

Componente cíclico: representa la oscilación o los movimientos a la baja y ala alta que se dan a lo largo de la serie. Los movimientos cíclicos varían enlongitud, por lo general de dos a 10 años.Componente irregular aleatorio: cualquier componente que no sigue la curva detendencia modificada por el componente cíclico.Cuando los datos se registran mensual o trimestralmente además de la tendenciacíclica y los componentes irregulares debemos tomar en cuenta el factorestacional.El modelo multiplicativo clásico de las series temporales.Cuando los datos se obtienen anualmente una observación Yi puede expresarsecomo:Yi=Ti*Ci*Ii; en la que Ti es el valor del componente tendencia, Ci= valor delcomponente cíclico; Ii es el valor del componente irregular.Por otra parte cuando los datos se obtienen de manera trimestral o mensual unaobservación Yi puede estar dada por:Yi=Ti*Si*Ci*Ii, en la que Si es el valor del componente estacional.

El primer paso de una serie de tiempo consiste en graficar los datos yobservar su tendencia a través del tiempo. Primero debemos determinar si parecehaber un movimiento a largo plazo hacia arriba o hacia abajo en la serie. ( esdecir una tendencia), o si la serie parece oscilar alrededor de una líneahorizontal a través del tiempo. Si este último parece ser el caso entoncesdebe emplearse el método de promedios móviles o el suavizado exponencial, parasuavizar la serie y proporcionarnos una impresión global a largo plazo.

Suavizado de las series temporales anuales:. promedios móviles y suavizadoexponencial.Promedios móviles. Este método es altamente subjetivo y dependiente de lalongitud del período elegido para la construcción de los promedios. Paraeliminar las fluctuaciones cíclicas, el período escogido debe ser un valorentero que corresponda a la duración promedio estimada de un ciclo.Los promedios móviles para un período elegido de longitud L consisten en unaserie de medias aritméticas calculadas en el tiempo de tal modo que cada mediase calcula para una secuencia de valores observados que tienen esa longitudparticular, L.

El promedio móvil puede calcularse de la siguiente manera:Cuanto más largo sea el período, menor será el número de valores promedio móvilque se pueden calcular y graficar. Por consiguiente, la selección de promediosmóviles con períodos de longitud mayores a siete años es, por lo general, nodeseable puesto que habrá demasiados puntos de datos que faltan al inicio y alfinal de la serie, haciendo que sea más difícil de obtener una impresiónglobal de la serie completa.

Suavizado Exponencial.El suavizado exponencial puede utilizarse para obtener predicciones a cortoplazo. Su nombre deriva del hecho de que nos proporciona un promedio móvilpesado o ponderado exponencialmente a través de la serie de tiempo, esto es, alo largo de la serie cada cálculo de suavizado o predicción depende de todoslos valores observados anteriormente. Esta es una ventaja con respecto al otro método.Con este método los pesos asignados a los valores observados disminuyen con eltiempo, de modo que cuando se hace el cálculo, el valor observado más recienterecibe el mayor peso.

Para suavizar una serie de tiempo en cualquier periodo i tenemos la siguienteexpresión:.

Page 7: Regresión lineal simple y correlación

Ei= valor de la serie suavizada exponencialmente que se calcula en el períodoi.Ei-1= valor de la serie suavizada exponencialmente calculado en el período i-1Yi= valor observado de la serie en el período iW= peso o coeficiente de suavizado que se asigna de manera subjetiva.W==2/(L+1)

El modelo lineal:

El modelo cuadrático:

El modelo exponencial:

Elección de un modelo de predicción apropiado

Trabajo enviado por:Hernan [email protected]

Si deseamos suavizar una serie mediante la eliminación de las variaciones cíclicase irregular no deseadas, debemos seleccionar un pequeño valor de W. Si, nuestroobjetivo es hacer predicciones debiésemos seleccionar el valor más grande de W(cercano a uno).

Análisis de series de datos anuales: ajuste de tendencia de mínimoscuadrados y pronóstico.

Correlación: medición de la intensidad de la asociaciónEn el análisis de correlación estamos interesados en medir el grado deasociación entre dos variables. La intensidad de larelación se mide mediante el coeficiente de correlación

Mediciones de variación en regresión y correlación. Con el fin de examinarque tan bien una variable independiente predice a la variable dependiente,necesitamos desarrollar algunas medidas de variación. La primera: la suma totalde cuadrados, esta puede dividirse en dos partes: la variación explicada o sumade cuadrados debida a la regresión (SSR) y la variación no explicada o suma decuadrados de error (SSE). La suma de cuadrados debida a la regresión. La SSRrepresenta la diferencia entre el valor promedio de Y y el valor promedio de Yque sería predicho a partir de la relación de regresión).La SSE representaaquella parte de la variación de Y que noo es explicada por la regresión.

SST = SSR + SSE

II.

El análisis de regresión lineal simple tiene que ver con la búsqueda de lalínea recta que mejor se ajusta a los datos. El mejor ajuste significa quedeseamos encontrar la línea recta para la cual las diferencias entre losvalores reales (Yi) y los valores que serían predichos a partir de la líneaajustada de regresión (Yi estimada) sean lo más pequeñas posibles. Debido aque tales

Page 8: Regresión lineal simple y correlación

diferencias serán positivas y negativas para las diferentesobservaciones, minimizamos matemáticamente la expresión:

En donde X es la media de la muestra correspondiente a cada una de las dosmuestras, n es el tamaño de la muestra y por último tenemos la varianza de lamuestra.

Si suponemos que las varianzas son iguales y que las muestras fueron tomadasde manera aleatoria e independiente se puede utilizar una prueba t de varianzaconjunta para determinar si existe alguna diferencia significativa entre lasmedias de las poblaciones. Si puede calcular la siguiente estadística de pruebat de varianza conjunta: