2.2 variables bidimensionales

María del Consuelo Valle Espinosa

Variables bidimensionales

Instituto Tecnológico Superior de Zacapoaxtla

Departamento de Desarrollo Académico

Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.

Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical. Un diagrama de dispersión se llama también gráfico de dispersión o nube de puntos.

El estadístico que se puede utilizar para mediar la asociación entre los valores individuales de un conjunto de datos apareados es la :

Covarianza SXY

Que es una medida que nos indica la variabilidad conjunta de dos variables numéricas (cuantitativas).

Se define como:

• Si SXY > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente).

• Si SXY < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos decreciente).

Si los puntos se reparten con igual intensidad alrededor de (x, y), SXY = 0 (no hay relación lineal).

La covarianza es una medida de la variabilidad común de dos variables (crecimiento de ambas al tiempo o crecimiento de una y decrecimiento de la otra), pero está afectada por las unidades en las que cada variable se mide. Así pues, es necesario definir una medida de la relación entre dos variables, y que no esté afectada por los cambios de unidad de medida. Una forma de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones estándares de cada variable, ya que así se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlación lineal de Pearson

Propiedades del coeficiente de correlación lineal:

Carece de unidades de medida (adimensional).

Es invariante para transformaciones lineales (cambio de origen y escala) de las variables.

Sólo toma valores comprendidos entre −1 y 1.

Cuando |r| esté próximo a uno, se tiene que existe una relación lineal muy fuerte entre las variables.

Cuando r es aproximadamente igual a 0, puede afirmarse que no existe relación lineal entre ambas variables.

! El coeficiente de correlación lineal mide la asociación, no la

causalidad!

Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una relación.

Regresión

El coeficiente de determinación de la regresión se define:

2

22 1

Y

E

SS

r

Se define E como la diferencia entre los auténticos valores de Y y los teóricos suministrados por la regresión

De modo que E sea una variable cuya media deba de ser 0, y cuya varianza deba de ser pequeña(en comparación con la de Y).

Si el ajuste Y mediante la curva de regresión es bueno

cabe esperar que la cantidad

2

22 1

Y

E

SS

r

tome un valor próximo a 1

El coeficiente de determinación sirve entonces para medir de qué modo las diferencias entre los verdaderos valores de una variable y los de su aproximación mediante una curva de regresión son pequeños en relación con los de la variabilidad de la variable que intentamos aproximar

r2 mide el poder explicatorio del modelo propuesto a través de la función f(x)

Para encontrar el modelo matemático f(x) que mejor aproxime a la nube de puntos se usa la herramienta denominada Mínimos Cuadrados que es una técnica estudiada en Álgebra Lineal .

En el programa Excel se tiene integrado este algoritmo y a través de él se puede aproximar varias funciones, de ellas se puede escoger aquella que mejor coeficiente de determinación tenga.

El saber escoger la función que mejor aproxime a la nube de puntos depende fundamentalmente del contexto del problema de donde se obtuvieron los datos, el mejorar el coeficiente de determinación solo es una opción que tiene el investigador.

Referencias:

Bioestadística: métodos y aplicaciones

Autores: Francisca Ríus Díaz, Francisco Javier Barón López, Elisa Sánchez Font y Luis Parras Guijosa. Universidad de Málaga .

Sitio en Internet:

http://www.bioestadistica.uma.es/libro/

INTRODUCCIÓN A LA ESTADÍSTICA

ROSS, SHELDON M. Editorial REVERTE



2.2 variables bidimensionales

Education

Transcript of 2.2 variables bidimensionales