[2016] Principios de Estadística - Inicio · población y las principales formas de resumir la...

[2016]

Principios de Estadística Lic. Tecnología de los alimentos.

FCV. UNCPBA

Notas de clases. Edgardo Rodriguez, Rosana Cepeda

Principios de ESTADISTICA 2016

Página 1

UNIDAD 1: ORGANIZACIÓN Y REPRESENTACION DE DATOS

Variables cualitativas y cuantitativas. Distribución de frecuencias. Tallos y hojas. Gráficos

INTRODUCCION

La estadística puede ser divertida, fácil y también útil. La utilizamos todos los días, para cuestiones de la vida cotidiana así como también en las diferentes ciencias para tomar decisiones. Por ejemplo,

• Para analizar la producción lechera de un establecimiento, el encargado registra y consulta la planilla diaria de litros por animal.

• En un mercado de valores los productores observan cómo se distribuyen los precios entre los distintos puestos para realizar la mejor compra/venta que combine calidad y precio.

La necesitan: - Los médicos veterinarios para saber el grado de eficiencia de un tratamiento - Los profesionales de la salud, para entender los resultados de las investigaciones médicas. - Los economistas, porque cálculos eficientes les permitirán llegar al fondo de la cuestión que

analizan. - Los docentes cuando se enfrentan al problema de evaluar el rendimiento de los alumnos. - Los sociólogos para diseñar y procesar sus encuestas. - Los responsables de la calidad en un proceso productivo, al detectar las piezas defectuosas y

controlar los factores que influyen en la producción de las mismas. - La industria farmacéutica para desarrollar nuevos medicamentos y establecer las dosis

terapéuticas. - Los ciudadanos, para sacar sus propias conclusiones sobre los resultados de las encuestas

políticas, los índices de precios y desocupación, y los resultados estadísticos que habitualmente se presentan en los medios masivos de comunicación (diarios, revistas, radio, televisión).

La estadística no tiene una definición formal, se trata de una ciencia que involucra métodos científicos relacionados con la recolección, presentación y análisis de datos, para la deducción de conclusiones y la toma de decisiones objetivas. Es el arte de la decisión en presencia de azar o incertidumbre.

Podemos utilizar la estadística de dos maneras generales: para describir los datos, mediante la organización, representación y cálculo de medidas de resumen; y para realizar inferencia a partir de la información recolectada. Así tenemos la Estadística descriptiva que se encarga de la presentación, ordenamiento y resumen de los datos y la Estadística inductiva o inferencial que permite generalizar información los datos provenientes de una muestra a un número más grande de individuos (población).

1.1. ALGUNAS DEFINICIONES.

La estadística tiene su propio vocabulario. Veremos algunos términos básicos, que volveremos a encontrar más adelante, además, seguiremos incorporando términos a lo largo de las notas.


Página 2

Población:

Una población es un conjunto de elementos (personas, animales, o individuos) acotados en un tiempo y en un espacio determinados, con alguna característica común observable o medible.

Si la población es finita, diremos que el tamaño poblacional es el número de elementos de la misma y lo denotaremos con N. Muestra:

Generalmente es imposible o impracticable examinar alguna característica en la población entera, por lo que se examina una parte de ella y en base a la información relevada en esa porción se hacen inferencias sobre toda la población. Una muestra es un subconjunto de elementos de la población en estudio con alguna característica común observable o medible.

El problema es cómo debe seleccionarse esa parte de la población, que proveerá la información acerca de la o de las características buscadas, de manera tal que puedan obtenerse conclusiones. Más adelante, nos enfocaremos a presentar algunas técnicas para la obtención de muestras de una población y las principales formas de resumir la información que éstas proveen, así como también a calcular un número óptimo de individuos que forman la muestra. Una parte importante al pensar en una situación de interés es definir la unidad de análisis con la que se va a trabajar y en la que se va a registrar la variable de interés.

Las Unidades muestrales o experimental (UE) son los objetos donde se registra la información de interés del estudio o sobre quien se mide el efecto del tratamiento. Muchas veces, las unidades muestrales son individuos, animales, otras veces las unidades están compuestas por muchos individuos: ciudades, lotes (de animales) etc.

También podemos definir la unidad observacional (UO), lo hacemos mediante un ejemplo: Cuando en un ensayo clínico veterinario, a varios perros se les aplican diferentes medicamentos, cada perro es una UE y si, por otra parte, a cada perro se la aplica una pomada sobre los pies, entonces cada pie es una UO. Cuando se aplica un tipo de alimento (tratamiento) a unos cerdos de un chiquero, esta sería la UE; sin embargo, las observaciones de aumento de peso se hacen a cada animal, por lo cual los animales son las UO. En algunos casos las UE y las UO son iguales pero en otros no.

Variables: Las observaciones o mediciones sobre los elementos de una población constituyen la materia prima con la cual se trabaja en Estadística. Para que dichas observaciones puedan ser tratadas estadísticamente deben estar expresadas, o poder ser re-expresadas, en términos numéricos. Aunque sea obvio, se destaca que la característica de interés a observar o medir en cada elemento de la población debe ser la misma, en tanto que se espera que no tomar el mismo valor en cada uno de los elementos que la conforman. Las variables son características que pueden cambiar de una unidad muestral a otra, como la edad de los animales, la población de cada ciudad, el porcentaje de animales enfermos de un establecimiento, la preferencia de un alimento balanceado para un animal, el tiempo de sobrevida de una enfermedad, la cantidad de larvas por muestra de agua, el ancho de la grupa, etc.

Desde el punto de vista de su naturaleza, se habla de variables CUALITATIVAS para referirse a aquellas cuyos elementos de variación tienen un carácter cualitativo, no susceptible de observación medible


Página 3

numéricamente y de variables CUANTITATIVAS como aquellas cuyas propiedades pueden presentarse en forma numérica.

De acuerdo con su naturaleza matemática, se diferencian las variables cuantitativas en DISCRETAS Y CONTINUAS, siendo las primeras aquellas que están definidas sobre recorridos finitos o infinitos numerables; no pueden tomar valores intermedios entre dos valores dados. Las continuas son aquellas definidas sobre recorridos infinitos no numerables; pueden tomar cualquier valor dentro de un recorrido o intervalo dado.

Para clasificar variables, se utilizan diferentes tipos de escalas, siendo las más comunes las NOMINALES, las ORDINALES, su uso depende básicamente de los objetivos del estudio y de la naturaleza de la variable.

La escala nominal consiste en clasificar objetos o fenómenos, según ciertas características, tipologías o nombres, dándoles una denominación o símbolo, sin que implique ninguna relación de orden, distancia o proporción entre los objetos o fenómeno. La medición se da a un nivel elemental cuando los números u otros símbolos se usan para la distinción y clasificación de objetos, persona o características. Cuando se utilizan números para representar las diferentes clases de una escala nominal, estos no poseen propiedades cuantitativas y sirven solamente para identificar las clases.

La escala ordinal, llamada también escala de orden jerárquico, establece posiciones relativas de los objetos o fenómenos en estudio, respecto a alguna característica de interés, sin que se reflejen distancias entre ellos.

A continuación resumimos los tipos de variables y presentamos ejemplos para cada situación.

Cuantitativas

Continuas

Litros de leche producidos por vaca por día

kilos de ganancia de peso de terneros

Tiempo que tarda en ocurrir un determinado evento

Discretas

Cantidad de huevos que pone una gallina ponedora por día.

Número de lechones por camada

Cualitativas

Nominales

Estado sanitario de un rodeo respecto a una enfermedad (sano o enfermo).

Pelajes de equinos

Razas de perros

Ordinales Altura: Alto- medio- bajo

Tamaño: Grande, mediano y chico


Página 4

1.2 ORGANIZACIÓN DE DATOS CUANTITATIVOS.

Al registrar los resultados de un estudio, se obtiene un número de observaciones que puede ser muy grande y su simple listado es de poca relevancia en el sentido interpretativo, es decir no nos dice nada del fenómeno que se está estudiando.

Cuando se registran datos ya sean de una muestra o de la población se deben presentar en forma resumida, elaborando tablas y gráficos apropiados. Así, de éstas se pueden extraer las principales características de los datos. En esta sesión mostramos cómo se pueden organizar y presentar conjuntos de datos cuantitativos en forma de tablas y gráficas apropiadas para su análisis.

1.2.1 TABLAS DE FRECUENCIAS.

Una tabla de distribución de frecuencias posee una columna que contiene los diferentes valores que toma la variable en estudio y otra columna que indica la frecuencia absoluta, que es el número de veces que el valor de la variable se repite en el conjunto de datos.

Generalmente en una tabla de distribución de frecuencias no sólo se muestran las frecuencias absolutas, sino que también se incluyen las frecuencias relativas y las frecuencias acumuladas. Cada una de estas columnas contiene información útil para describir la información que poseen los datos. Las tablas de frecuencias pueden considerarse para datos simples, o para datos agrupados por intervalos de clases, dependiendo de la cantidad de datos y de la repetición que tengan esos datos, vemos a continuación un ejemplo:

Ejemplo 1: Los siguientes datos corresponden a la cantidad de colmenas en producción que tuvo el Apiario H en el partido de Tandil, desde el año 1993 al 2000:

Año Total de colmenas

1993 28

1994 26

1995 30

1996 27

1997 28

1998 31

1999 29

2000 24

Tabla 1: datos de colmenas

Teniendo en cuenta la variable de interés, que es el número de colmenas productivas, la distribución de frecuencias simples consiste en observar los valores que toma la variable y cuantas veces se repite, esto es su frecuencia absoluta, la tabla completa sería entonces:


Página 5

Cant. Colmenas Frecuencia

Frecuencia relativa

Frecuencia relativa%

Frecuencia acumulada creciente

Frecuencia acumulada creciente %

24 1 =1/8=0.125 12.5% 1 12.5

26 1 0.125 12.5 2 25

27 1 0.125 12.5 3 37.5

28 2 0.25 25 5 52.5

29 1 0.125 12.5 6 65

30 1 0.125 12.5 7 77.5

31 1 0.125 12.5 8 100

Tabla 2: medidas de resumen para los datos de colmenas.

Vemos que podría ser más útil definir intervalos para agrupar la cantidad de colmenas, la utilización de intervalos se recomienda cuando la cantidad de datos es grande y hay poca repetición de los valores de la variable, un número de intervalos entre 5 y 10 suele ser una cantidad razonable aunque existen diferentes métodos para calcular la cantidad.

Mostramos a continuación cual sería una distribución por intervalos posible para estos datos, aunque recalcamos que no es lo más recomendable para este caso por tratarse de pocos datos.

Cant. Colmenas Frecuencia

Frecuencia relativa

Frecuencia relativa%

Frecuencia acumulada creciente

24-26 1 =1/8=0.125 12.5% 12.5%

26-28 2 0.25 25% 37.5%

28-30 3 0.375 37.5% 75%

30-32 2 0.25 25% 100%

Tabla 3: tabla de frecuencia por intervalos para datos de colmenas

Como mencionamos antes las otras columnas de la tabla tienen información muy útil, así por ejemplo, el 37.5% de la cuarta columna se interpreta como: el 37.5% de los años la cantidad de colmenas fue inferior a 30, así por ejemplo la última fila de la tercer columna indica que el 25% de los años hubo entre 30 y 32 colmenas.

1.2.2 EL DIAGRAMA DE TALLOS Y HOJAS.

Dado un conjunto de datos formado por n observaciones, las cuales tiene por lo menos dos dígitos, una forma rápida de obtener una representación visual del conjunto de datos es construir un diagrama de tallos y hojas. Este diagrama es usado cuando hay un número no muy pequeño de datos.

Los siguientes son los pasos para construir un diagrama de tallos y hojas. Los diagramas de tallos y hojas nos dan una idea de la localización de los datos y de la forma de la distribución. Esta técnica funciona bien para los conjuntos de datos que no tienen una dispersión muy grande. Mostramos el procedimiento a partir de un ejemplo,

Ejemplo 2: La siguiente tabla representa el porcentaje de proteína en un alimento balanceado para perros, tomado de 64 días consecutivos de producción de la fábrica.


Página 6

33.1 35.3 34.2 33.6 33.6 33.1 37.6 33.6 35.1 36.2 35.2 36.8 37.1 33.6 32.8 36.8

34.5 34.7 33.4 32.5 35.4 34.6 37.3 34.1 34.7 36.8 35 37.9 34 32.9 32.1 34.3

35.6 35 34.7 34.1 34.6 35.9 34.6 34.7 33.6 35.1 34.9 36.4 34.1 33.5 34.5 32.7

36.3 35.4 34.6 35.1 33.8 34.7 35.5 35.7 32.6 33.6 33.8 34.2 34.6 34.7 35.8 37.8

Tabla 4: datos de porcentaje de proteína en alimento balanceado

El diagrama de tallos y hojas para los anteriores datos aparece a continuación. Consideramos el Tallo como los enteros desde el 32 hasta el 37 y las repeticiones decimales son las hojas:

Tallo Hojas

6 32 156789

18 33 114566666688

(21) 34 011122355666667777779

25 35 00111234456789

11 36 234888

5 37 13689

Figura 1: representación en tallos y hojas

Con el método de tallos y hojas se muestran simultáneamente la tabla de distribución de frecuencia así como también el aspecto de su distribución.

Ejemplo 3: Un experimento consistió en contar el número de crías en 50 perras del criadero “Ciudad Mascota”. Los valores resultantes del conteo fueron los siguientes:

10 8 6 3 9 7 5 4 6 9 6 7 8 8 6 7 7 8 10 7 9 10 6 8 6 3 2 5 3 2 1 4 3 0 4 3 2 7 5 5 4 3 7 6 7 9 8 6 6 8

Tabla 5: datos de cantidad de crías

Los datos así presentados son de difícil comprensión, por lo que conviene resumirlos en una tabla:

X Cant cachorros

Frec. Absoluta Cant perras

Frec acum Frec. rel. Frec. rel acum-

0 1 1 0.02 0.02

1 1 2 0.02 0.04

2 3 5 0.06 0.1

3 6 11 0.12 0.22

4 4 15 0.08 0.3


Página 7

5 4 19 0.08 0.38

6 9 28 0.18 0.56

7 8 36 0.16 0.72

8 7 43 0.14 0.86

9 4 47 0.08 0.94

10 3 50 0.06 1 Tabla 6: Distribución de frecuencias para el número de crías

En esta tabla se puede ver que el número total de datos es 50, que las perras con menos de 3 crías y con más de 9 son poco frecuentes y que las perras con 6 u 8 crías son las más frecuentes. Solo el 10 % tiene menos de 3 crías.

1.3 REPRESENTACIÓN GRÁFICA DE DATOS CUANTITATIVOS.

1.3.1 GRAFICO DE BARRAS.

Cuando la variable es tratada como dato simple o de manera discreta, como en la tabla 2 y la 6 para los ejemplos de las colmenas y las crías respectivamente, el grafico que corresponde es el de barras, donde sobre el eje X se identifican los valores (discretos) de X y sobre el eje de coordenadas la frecuencia, que puede ser absoluta, relativa o porcentual, en todos los casos el grafico que se obtiene es equivalente, solo

cambia la escala, el primero va de 0 a n, mientras que en el segundo va de 0 a 1, y el ultimo de 0 a 100.

Figura 2

1.3.2 HISTOGRAMAS.

El histograma es una técnica gráfica utilizada para presentar gran cantidad de datos; se le atribuye a Karl Pearson en 1895. Como en el gráfico de barras, el histograma puede realizarse con las frecuencias absolutas o las frecuencias relativas y no cambia su interpretación. Para la construcción del histograma se requiere elaborar una tabla de distribución de frecuencias definiendo previamente los intervalos en los que si divide el rango de variación de la variable de interés.

0 1 2 3 4 5 6 7 8 9 10

cachorros

0.60

2.80

5.00

7.20

9.40

fa

24 26 27 28 29 30 31

Cant. Colmenas

0.00

0.33

0.67

1.00

1.33

1.67

2.00

2.33

2.67

3.00

Fre

cu

en

cia


Página 8

El histograma (de frecuencias) en si es una sucesión de rectángulos construidos sobre un sistema de coordenadas de la siguiente manera:

1. Las bases de los rectángulos se localizan en el eje horizontal. La longitud de la base es igual al ancho del intervalo.

2. Las alturas de los rectángulos se registran sobre el eje vertical y corresponden a las frecuencias de los intervalos.

3. Las áreas de los rectángulos son proporcionales a las frecuencias de las clases.

Algunos términos:

Cada uno de los intervalos se llama intervalos de clase, el menor y mayor valor de cada intervalo se llaman límite inferior y superior respectivamente, el punto medio de cada clase se llama marca de clase, y es el valor que representa a todos los valores de esa clase y finalmente la diferencia entre los limites se llama amplitud de la clase, que se intenta que sea la misma a lo largo de los distintos intervalos. Entonces para los ejemplos anteriores los histogramas correspondientes se muestran a continuación:

Figura 3

cachorros LI LS

Clase MC FA FR

[0-2] 1 1.00 5 0.10

(2-4] 2 3.00 10 0.20

(4-6] 3 5.00 13 0.26

(6-8] 4 7.00 15 0.30

(8-10] 5 9.00 7 0.14 Tabla 7: Distribución de frecuencias por intervalos

23 25 27 28 30 32

Cant. Colmenas

0.00

0.10

0.20

0.30

0.39

fre

cu

en

cia

re

lativa

0 2 4 6 7 9 11

Cant cachorros

0.00

0.08

0.16

0.24

0.32

fre

cu

en

cia

re

lativa


Página 9

1.3.3 POLÍGONO DE FRECUENCIAS.

Otro recurso gráfico para ilustrar el comportamiento de los datos es el polígono de frecuencias. Este se construye sobre el sistema de coordenadas cartesianas, al colocar sobre cada marca de clase un punto a una altura igual a la frecuencia asociada a esa clase; luego se unen dichos puntos por segmentos de recta. Para los casos anteriores mostramos los polígonos asociados.

0 2 3 5 7 9 10 12

Cant cachorros

0.00

0.08

0.16

0.24

0.32

frecu

enci

a re

lativ

a

Figura 4

1.4 PRESENTACIÓN DE DATOS CUALITATIVOS.

Cuando se manejan variables cualitativas, las respuestas categóricas se pueden presentar en tablas de frecuencia o tablas resumen y luego en forma gráfica. En esta sección se presentan algunos gráficos de uso frecuente en la presentación de datos cualitativos.

1.4.1 TABLA DE FRECUENCIA O TABLA RESUMEN.

La construcción de una tabla de frecuencia para datos cualitativos requiere solo contar el número de elementos o individuos que caen dentro de cierta clase o categoría, es decir la frecuencia absoluta de la clase o la categoría.

Ejemplo 4: Según un informe de estudio de mercado realizado en Argentina en 2013, en los últimos años se vislumbra una clara recuperación de la actividad porcina: hoy se estiman a nivel país 3458995 cabezas (Área Porcinos. Dirección de Ovinos, Porcinos, Aves de Granja y Pequeños Rumiantes con datos de SENASA). En cuanto a la distribución del stock nacional por provincia, existe una marcada concentración en las de la Pampa Húmeda, donde Buenos Aires posee el 920084 cabezas (26.77 %), Córdoba 840346, (el 24.45 %) y Santa Fe 701835 (el 20.42 %). El resto del país tiene el 29 % del stock, destacándose por su importancia Salta, Chaco, Entre Ríos, Formosa, La Pampa, Santiago del Estero y San Luis. Para este ejemplo, la procedencia forma una variable cualitativa, nominal. Organizamos esta información primero en una tabla de frecuencias:

Pcia Fi Fr%

Bs.AS 920084 26.77

Cordoba 840346 24.45

Santa Fe 701835 20.42

Resto 996730 29

Total 3458995 100 Tabla 8


Página 10

De esta forma tenemos organizada la información. ¿La tabla termina ahí?, ¿tendría sentido calcular las frecuencias acumuladas?

No, las frecuencias acumuladas responden a preguntas con desigualdades generadas a partir de los valores de X, que en este caso es la pcia. Sería muy útil además poder asociarle un gráfico.

1.4.2. GRÁFICO PORCENTUAL O EN FORMA DE TORTA.

Se trata de un gráfico circular que provee un concepto visual de un todo, de modo que el 100% es igual a 360 grados. La torta se divide en sectores, cada uno de ellos corresponde a la categoría o clase de la variable representada. El tamaño de los sectores es proporcional al porcentaje de la categoría correspondiente. Para nuestro ejemplo:

Figura 5

Es muy importante que los valores figuren al lado de cada porción y no en el cuadro de referencias. Existen otro tipo de representaciones dentro del grupo de las tortas en las que las porciones aparecen separadas.

1.4.3. DIAGRAMA DE BARRAS.

Este gráfico consiste de una serie de barras horizontales o verticales asignadas a cada categoría de la variable cualitativa cuyas alturas son dadas por la frecuencia de la categoría. A continuación se dan algunas sugerencias para la elaboración de gráficas de barras.

1. Para respuestas categóricas cualitativas, las barras se deben diseñar en forma horizontal y para respuestas categóricas numéricas, en forma vertical.

2. Todas las barras deben ser del mismo ancho para no confundir al lector. 3. Se deben incluir las escalas y algunas indicaciones para que ayuden a la lectura de las gráficas. 4. Los ejes de las gráficas se deben identificar en forma clara.

Bs.AS Cordoba Santa Fe Resto

Pcia

0.00

12.50

25.00

37.50

50.00

Fr%

Figura 6


Página 11

1.4.4. GRAFICO DE BARRAS COMPARATIVAS.

Se utiliza para comparar series, donde la variable de interés es cualitativa o cuantitativa discreta, por ejemplo si en el caso del ejemplo 4, tuviésemos la misma información para el año anterior, podríamos hacer el siguiente grafico comparativo:

Pcia Año Fi

Bs.AS 2013 920084

Córdoba 2013 840346

Santa Fe 2013 701835

Resto 2013 996730

Bs.AS 2012 810000

Córdoba 2012 820350

Santa Fe 2012 780870

Resto 2012 975000

Tabla 7

Figura 8

Ejemplo 5: Supongamos que estamos interesados en analizar la cantidad de ovinos que han sufrido diarrea en los últimos 30 días (de cada 100), en tres campos vecinos, los datos son:

Campo 1 Campo 2 Campo 3

Sanos 20 27 32

Enfermos 80 73 68

Tabla 9: Distribución de frecuencias por campos

Figura 10

2012 2013

Bs.AS Cordoba Santa Fe Resto

Pcia

687090.25

768186.38

849282.50

930378.63

1011474.75

2012 2013

0

10

20

30

40

50

60

70

80

Campo 1 Campo 2 Campo 3

Sanos

Enfermos


Página 12

UNIDAD 2: MEDIDAS DE RESUMEN Media, mediana, moda, rango, desvío estándar, varianza y cuantiles

La mente humana puede captar la información que aportan diez números, cien es difícil y con mil, casi imposible. Por esa razón, es muy importante contar con pocos valores (medidas resumen), que de alguna manera puedan describir las características más sobresalientes del conjunto que se está analizando. Una medida resumen es un número. Se obtiene a partir de una muestra y, en cierta forma, la caracteriza. Es el valor de un estadístico (valor obtenido de la muestra, lo definiremos más adelante más formalmente). Por ejemplo, un porcentaje o una proporción son medidas resumen. Se utilizan con datos categóricos o con datos numéricos. Las medidas resumen permiten tener una idea rápida de como son los datos. Pero, un estadístico mal utilizado puede dar una idea equivocada respecto de las características generales que interesa mostrar. El cálculo de medidas resumen es el primer paso; se realiza cuando se recolectan los datos en un estudio para tener una idea de que está pasando. Posteriormente, los investigadores pondrán a prueba sus hipótesis respecto a algún valor poblacional (parámetro), estimaran características de la población y estudiaran posibles relaciones entre las variables. Cuando presentan sus conclusiones al público en general, las medidas resumen muestran los resultados en forma concisa y clara, volviendo a tener importancia. En principio, se pueden obtener muchísimas formas de resumir los valores de un conjunto de datos numéricos. Es importante que sean fáciles de interpretar. Cualquier conjunto de datos tiene dos propiedades importantes: un valor central y la dispersión alrededor de ese valor. Vemos esta idea en los siguientes histogramas hipotéticos

2.1 MEDIDAS DE POSICIÓN.

Como se observa en las Figuras 8A, 8B y 8C la distribución de los datos es similar pero difieren en la ubicación, en el eje X, respecto al origen.

Figura 8A Figura 8B Figura 8C

0

10

20

30

40

50

60

70

80

0

10

20

30

40

50

60

70

80


Página 13

En este caso lo que ocurre es que se desplazan los datos sobre el eje X.

Las medidas de tendencia central (MTC), son valores numéricos que describen o indican el centro de un conjunto de datos, nos interesan especialmente tres medidas: la MEDIA, la MEDIANA y la MODA o MODO. Promedio, media o media aritmética: El promedio de un conjunto de n observaciones es simplemente la suma de las observaciones dividida por el número total de observaciones, en el caso de una muestra, n.

n

i

i

n

xx

1

Si los datos organizados es una tabla de distribución de frecuencias, el promedio es la suma ponderada de los valores de x por su frecuencia dividida el total de datos, lo representamos con la siguiente expresión:

1 1 2 2 1

1 2 3

1

.....

.....

n

i i

n n i

n

ni

i

x fx f x f x f

Xf f f f

f

En el caso de que los datos estén agrupados en intervalos o clases, en el lugar de ix de la

expresión, se utiliza la marca de clase, recordemos que este valor es el representante de su

intervalo o clase. Mencionamos algunas de sus principales propiedades:

a) La media es única y fácil de calcular.

b) La suma algebraica de los desvíos respecto a la media es 0, es decir:

n

ii xx

1

0)(

c) También se cumple para cualquier valor A en R, que:

n

ii

n

ii Axxx

1

2

1

2 )()(

Es decir, la suma de las desviaciones -respecto a la media- elevadas al cuadrado siempre es menor que las desviaciones respecto de otro punto del conjunto de datos. A esta propiedad se la denomina “suma de cuadrados mínima”.

d) Es sensible a datos extremos, como el cálculo se basa en todos los individuos de la muestra, si alguno de ellos es o muy grande o muy chico, va a afectar al promedio.

e) Si a cada observación se le suma (o resta) un valor constante c, el promedio del nuevo conjunto de datos, será el promedio original sumado (o restado) la constante c. Podemos formalizar esta propiedad de la siguiente forma: Sea X una variable de interés que en una muestra adopta los valores x1, x2, x3, . . ., xn y sea c una constante, llamamos Y a la variable X+c, entonces:

cXn

yY

n

i

i 1

.

f) Sean X1 y X2 dos variables “aleatorias” y hacemos yi = x1i + x2i luego: 21 XXY , y

equivalentemente para la resta: si yi = x1i - x2i luego 21 XXY

g) Si xi = c para todo i, donde c es constante luego x = c.

h) Si a cada observación xi se la multiplica (o divide) por una constante c la media aritmética de la nueva variable será igual al promedio original multiplicado (o dividido) por la constante c, es decir:


Página 14

Xcn

xc

n

cx

n

yY

n

i

in

i

in

i

i 111

Calculamos la media para el ejemplo 3 de los cachorros:

X: Cant cachorros fi xifi Fi

0 1 0 1

1 1 1 2

2 3 6 5

3 6 18 11

4 4 16 15

5 4 20 19

6 9 54 28

7 8 56 36

8 7 56 45

9 4 36 49

10 3 30 52

n=50 Total =293

Tabla 11. Distribución de frecuencias cantidad de cachorros

El promedio es: 293/50=5.86. ¿Cómo se interpreta? Observemos que el promedio puede no coincidir con uno de los valores que adopta la variable. Moda o modo: El valor de variable que tenga la mayor frecuencia, es decir que más se repite (puede no existir y si existe puede no ser única), se define como la moda o modo de un conjunto de datos. Para el ejemplo la moda corresponde a X=6, es decir lo más frecuente en esta muestra es que un animal tenga 6 cachorros. Mediana: Es un valor tal que el número de observaciones menores ó iguales que él es igual al número de observaciones mayores ó iguales que él, es decir reparte a la distribución en el 50%. Es importante considerar los datos ordenados, por ejemplo de menor a mayor, se define a la mediana

como el valor de observación que ocupa el lugar2

1n, si n es impar y si n es par será la promedio de

los valores que ocupan el lugar 2

n y 1

2

n, es decir:

parnsi

XX

imparnsiX

Md

nn

n

2

122

2

1


Página 15

Podemos resumir los pasos para hallar la mediana: a) Ordenar los datos de menor a mayor (o viceversa).

b) Calcular el orden o la posición de la mediana: 2

1nMdº

c) Calcular el valor de la mediana: - Si n es impar el valor de la mediana se obtiene directamente. - Si n es par el valor de la Md será el promedio entre el valor anterior y posterior al valor calculado. Volviendo al ejemplo 3, tenemos 50 datos, cantidad par, al utilizar la tabla de distribución de frecuencias los datos ya están ordenados, tenemos que ubicar la posición de la mediana, en este caso, el lugar seria entre el 25 y 26, como es par, debemos promediar los valores de X de esas dos posiciones, es decir el promedio de dos valores 6, lo que resulta también en 6. Propiedades:

a) Solo utiliza los datos del centro de la distribución por lo que no se ve afectada por valores extremos

b) Es única y simple de calcular Existen otras medidas conocidas como media geométrica y media armónica de uso en situaciones específicas, que no utilizaremos en la materia. Veamos otro ejemplo: Supongamos que se realizan 55 observaciones de una variable "X", cantidad de cortes de carne con lesiones por cada media res, obteniendo los siguientes datos: 1 4 7 2 5 5 4 6 9 2 6 4 4 2 3 2 4 3 5 2 4 7 4 5 5 3 6 4 6 3 4 3 6 4 3 5 1 4 6 8 3 7 4 5 3 3 4 5 4 3 5 5 1 4 5

Primero organizamos la información en una tabla de distribución de frecuencias:

X Frecuencia

Frecuencia relativa

Frecuencia acumulada

Frec. rel. acumulada %

fi xi

1 3 0.055 3 5.45 3

2 5 0.091 8 14.55 10

3 10 0.182 18 32.73 30

4 15 0.273 33 60.00 60

5 11 0.200 44 80.00 55

6 6 0.109 50 90.91 36

7 3 0.055 53 96.36 21

8 1 0.018 54 98.18 8

9 1 0.018 55 100 9

Total 55 1.000 232

Tabla 12. Distribución de frecuencias cortes de carnes con lesiones


Página 16

Media: n

x

x

n

i

i 1 = 218.4

55

232

55

42442741

o según la tabla:

n

xf

x

n

i

ii

1 218.455

232

55

918173665114153102513

Mediana: los datos están ordenados en la tabla, entonces calculamos la posición de la mediana, en

este caso el lugar 28 ( º282

155

2

1nMdº

), en la tabla vemos que en esta posición X vale 4, es

decir: Md=4 1º 2º 3º 4º 5º 18º 19º 27º 28º 29º 33º 34º 53º 54º 55º

1 1 1 2 2 3 4 4 4 4 4 5 7 8 9

Moda: vemos que la cantidad que más se repite es 4, es decir la moda de este conjunto es: Mo=4

Existen otras medidas de centralización o promedios, que se utilizan en situaciones muy específicas, la media geométrica, cuando la variable en estudio tiene un comportamiento de crecimiento geométrico y la media armónica que es de utilidad cuando la variable adopta unidades en razón o relativas, como por ejemplo km/h, donde la media aritmética no es útil.

Media geométrica: n

n

i

in

n xxxxxMg

1

321

Para facilitar el cálculo la solución se obtiene utilizando logaritmo, entonces:

nxxxxn

Mg loglogloglog1

)log( 321

y luego se calcula el antilogaritmo:

nxxxx

nantiMgantiMg loglogloglog

1log)log(log 321 .

Si las observaciones están agrupadas en una tabla de frecuencia, la formula será:

n

n

i

f

in f

n

fff in xxxxxMg

1

321321

Media armónica: Se define como:

n

i ix

nMh

1

1


Página 17

2.2 MEDIDAS DE DISPERSIÓN.

Supongamos que observamos el tamaño de las camadas de 10 perras de la misma raza y edad de dos lugares, criadero A y B. En el caso del criadero A, fueron de 4, 4, 5, 6 y 6 mientras que en el criadero B fueron 5, 5, 5, 5 y 5. La cantidad promedio de cachorros fue en ambos sitios de 5, pero claramente la situación fue distinta. ¿Cómo los comparamos? ¿Cuál es la diferencia entre ellos? Las distribuciones son distintas, tienen la misma medida de centralización, pero los datos varían más en el primer caso que en el segundo, es decir sus distribuciones difieren en cuanto a su dispersión.

Una medida de dispersión es una medida de cuan alejados están los datos del centro de la distribución, ya sea que se tome como centro a la media o a la mediana de los datos. En las Figuras 9 se observan histogramas que probablemente tengan promedios similares o iguales, pero distinto agrupamiento respecto al valor central. La diferencia está en que estas tres distribuciones tienen diferente dispersión, vale decir se distribuyen de diferente forma. Figura 9ª

Figura 9 A y B

Existe una cantidad importante de medidas de dispersión, veremos a continuación las más sencillas y las de mayor uso. a) Rango (también llamada amplitud o recorrido): Es la diferencia entre el mayor valor y el menor

que alcanza la variable de interés en el conjunto de valores de la variable. Depende mucho de la presencia de valores extremos o atípicos, por lo que no es muy confiable. R=Xmax-Xmin

b) Desvío medio: La desviación media o desvío medio es la media aritmética o promedio de los valores absolutos de las desviaciones respecto a la media aritmética. Tiene las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente, cuando mayor sea el valor de la desviación media, mayor es la dispersión de los datos. Sin embargo, no proporciona una relación matemática precisa entre su magnitud y la posición de un dato dentro de una distribución. La desviación media al tomar los valores absolutos mide una observación sin mostrar si la misma está por encima o por debajo de la media aritmética.

n

xx

MD

n

i

1..

0

5

10

15

20

25

30

35

40

45

50

1 3 5 7 9 11 13 15 17

0

5

10

15

20

25

30

35

40

45

50

1 3 5 7 9 11 13 15 17

http://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtml



http://www.monografias.com/Matematicas/index.shtml

http://www.monografias.com/trabajos11/metcien/metcien.shtml#OBSERV


Página 18

c) Varianza (s2): Una medida natural de la dispersión seria promediar los desvíos o diferencias entre cada observación y el promedio, pero esta cantidad se anula por la propiedad de la media, entonces se elevan al cuadrado estas cantidades y surge la varianza. Es el promedio de los cuadrados de las desviaciones respecto a la media:

Debido a que la varianza está elevada al cuadrado, las unidades de la misma serán también al cuadrado. Por ejemplo si la variable está expresada en kilos la varianza será en Kg2. Algunas de sus principales propiedades son:

- Es siempre positiva: Var (x)0 - Si los datos coinciden, es decir son constantes su varianza es nula (Si k es constante Var(k)=0) - Si los datos se trasladan por efecto de sumar o restar una constante, la varianza no cambia:

Var(k+x)=Var(x) - Si los datos se modifican por efecto de multiplicar o dividir por una constante, la varianza se ve

afectada por la constante elevada al cuadrado: Var(kx)=k2 Var(x) - Si X e Y son dos variables “aleatorias” cualesquiera:

Var(x+y)=Var(x) + Var(y) + 2cov(x,y)

Var(x-y)=Var(x) + Var(y) - 2cov(x,y),

donde Cov(X,Y) indica la covarianza entre X e Y, una medida de la relación lineal que hay entre ellas y

que se define como:

1),cov( 1

n

yyxx

yxi

n

i

i

.

d) Se llama desviación estándar o simplemente desvío, a la raíz cuadrada de la varianza. Es más útil

que la varianza ya que tiene las mismas unidades que los datos.

e) Coeficiente de variación: es el cociente entre la desviación estándar y la media. Se utiliza para evaluar la representatividad de la media en la muestra, y para comparar distintas muestras. Valores bajos indican muestras menos dispersas y una media más representativa, valores altos indican lo contrario.

También se acostumbra a multiplicar por 100 al CV y hablar entonces de un porcentaje de variación de los datos. Este coeficiente no posee unidades por ello es muy útil para comparar muestras o grupos. Para el ejemplo anterior, calculamos las medidas de dispersión, para ello completamos unas columnas más de la tabla, generando los desvíos al cuadrado:


Página 19

X f (x i- x ) (xi - x )2 fi . (xi - x )2

1 3 -3.218 10.356 31.067

2 5 -2.218 4.920 24.598

3 10 -1.218 1.484 14.835

4 15 -0.218 0.048 0.713

5 11 0.782 0.612 6.727

6 6 1.782 3.176 19.053

7 3 2.782 7.740 23.219

8 1 3.782 14.304 14.304

9 1 4.782 22.868 22.868

Total 55 157.382 Tabla 13

Claramente el rango de variación de la cantidad de cortes con lesiones es de 8, Rango= 9-1 = 8, por otra parte la varianza es:

914.254

382.157

155

868.221304.141920.45356.103

1

)(

ˆ)(var 1

2

22

n

xxf

Sx

n

i

ii

Y el desvío estándar de 707.1914.2 S . Es decir, en promedio la cantidad de cortes con lesiones

por cada media res se desvía de su promedio en 2.91, es decir aproximadamente 3 unidades.

2.3 OTRAS MEDIDAS DE POSICIÓN:

Los Cuantiles son medidas de posición que separan a los datos en partes iguales. Así, la mediana los

divide en dos partes iguales, los cuartiles en cuatro partes iguales, los deciles en 10 y los

percentiles en 100. Se calculan manera análoga a la mediana. Es decir, una vez ordenados los datos,

se calcula la posición, por ejemplo ¿en qué posición estará el dato que divide a la distribución en el

primer 25%? Este dato se conoce como cuartil uno (Q1) y obtiene observando el valor de x en la

posición n/4. De forma similar el 75% corresponde al Q3.

El Box –Plot es una herramienta grafica sumamente útil para describir la distribución de los datos, el

diagrama de caja refleja la forma de la distribución de frecuencias dando información acerca de su

simetría ó sesgo, sus cuartiles y detectando la presencia de valores extremos y/ó atípicos. El box plot

consiste en construir una caja cuyos límites son el Q1 y el Q3, luego se ubican en el la media y

mediana, y se considera las líneas extremas que unen la caja al mínimo y máximo (o a veces al P(5) y

P(95), para contener en la representación el 90% central de los datos)

El Box-Plot puede presentarse horizontal o verticalmente y su lectura es la siguiente:

Si la distancia entre el primer cuartil y la mediana es aproximadamente igual a la distancia entre el segundo cuartil y la mediana se concluye que la distribución de los datos es simétrica

Si la distancia entre el primer cuartil y la mediana es menor que la distancia entre la mediana y el segundo cuartil se dice que la distribución presenta un sesgo a izquierda.

Si la distancia entre el primer cuartil y la mediana es mayor que la distancia entre la mediana


Página 20

y el segundo cuartil se dice que la distribución presenta un sesgo a derecha.

Para el ejemplo de las lesiones, vemos que n/4=13.75, el Q1 es 3, y 3/4N=41.25, entonces el Q3 corresponde al 5. n Media D.E. Var CV Mín Máx Mediana Q1 Q3

55 4.22 1.71 2.91 40.47 1 9 4 3 5

El box plot es:

0

2

4

6

8

10

nro

le

sio

ne

s

Figura 10


Página 21

UNIDAD 3: PROBABILIDADES Espacio muestral. Evento. Probabilidad.

3.1 ANTECEDENTES. La probabilidad estudia la incertidumbre de las variables de los modelos aleatorios para asignar una medida del grado de certeza de que tales variables tomen un cierto valor. La teoría de la probabilidad se empezó a estudiar en el siglo XVII cuando los matemáticos franceses Pascal y Fermat intercambió correspondencia sobre una controversia surgida de observaciones sobre juegos de azar; pues se trataba de asignar el grado de certeza con que ocurrían determinados resultados en un juego de dados. En el siglo XIX, Laplace demostró que el cálculo de probabilidades podía aplicarse a una gran variedad de problemas científicos y prácticos; sin embargo, fue hasta la tercera década del siglo XX cuando la teoría de probabilidad se desarrolló sobre bases matemáticas sólidas. Desde entonces, esta disciplina se ha aplicado a muchos campos del conocimiento, especialmente a la ingeniería, en donde frecuentemente se utiliza para tomar decisiones bajo incertidumbre, tanto en aspectos de diseño, como de gestión y control.

3.2 ESPACIO MUESTRAL Se dice que un fenómeno ó experimento es aleatorio si pueden asumirse válidas las siguientes hipótesis:

1. El experimento puede repetirse, y en las mismas condiciones cada vez 2. El conjunto de todos los resultados posibles del experimento es conocido 3. El resultado particular del experimento no puede predecirse (incerteza)

El conjunto de todos los resultados posibles del experimento o fenómeno se llama espacio muestral y a cada uno de esos resultados posibles se le llama punto o elemento. Un evento es una colección de puntos contenidos en el espacio muestral. Los espacios muestrales son discretos cuando sus puntos son contables o numerables, o continuos cuando sus puntos son incontables o innumerables. Los espacios muestrales discretos pueden ser finitos o infinitos; los continuos son siempre infinitos. Por extensión, los adjetivos continuo y discreto se aplican también a los modelos y a las variables. En un espacio muestral, dos eventos son mutuamente excluyentes si la ocurrencia de uno de ellos implica la imposibilidad de que ocurra el otro. Si la ocurrencia de dos o más eventos incluye a todo el espacio muestral, tales eventos son exhaustivos.

Ejemplo 6: a) supongamos que se considera el experimento de arrojar una moneda, existen dos

resultados posibles, que salga cara o seca, entonces el espacio muestral es .

b) Si el experimento consiste en arrojar dos monedas, todos los resultados posibles son las

combinaciones de C y S es decir:

a) Ahora si contamos el número de caras en el resultado del caso (a) y (b),

entonces y son los respectivos espacios muestrales.


Página 22

3.3 ELEMENTOS DE TEORÍA DE CONJUNTOS

Un conjunto es una colección bien definida de objetos, elementos, miembros o puntos, que se designa con alguna letra mayúscula. El contenido de los conjuntos se encierra entre llaves y se describe con la relación de sus elementos o con alguna propiedad que los caracteriza Si x es un elemento del conjunto A, se escribe: x ∈ A. Al número de elementos del conjunto A se le designa con n(A). Si cada elemento de A pertenece también al conjunto B, pero no todos los puntos de B pertenecen a A, se dice que A es subconjunto de B (A⊂ B) o que está contenido en B (B⊃ A). Dos conjuntos son iguales, A=B, si A⊆B y B⊆ A. Si dos conjuntos no tienen elementos comunes, se dice que los conjuntos son disjuntos. Un conjunto vacío (Φ) es el que no tiene elementos, por lo que corresponde al evento imposible; en cambio, el conjunto universal (Ω o S) contiene a todos los elementos posibles, por lo que corresponde al evento seguro. Las operaciones de conjuntos básicas son la unión y la intersección y el complemento, definidas:

Unión: A∪B = x: x ∈ A ó x ∈ B

Intersección: A∩B = x: x ∈ A y x ∈ B

Complemento: AC = x: x∈Ω , x ∉ A A la representación gráfica de las operaciones se les llama diagrama de Venn. En estos, el rectángulo representa al conjunto universal, las figuras cerradas en su interior representan a los conjuntos y lo sombreado a la operación. Así: Figura 11

C

3.4 DEFINICIONES

a) "Definición clásica de Probabilidades (Def. a priori)": "Si un experimento aleatorio puede producir n resultados mutuamente excluyentes, siendo todos igualmente probables y si f de estos resultados se consideran favorables, la probabilidad de que aparezca un resultado favorable es el número de casos favorables dividido el número de casos posibles".

P ( A ) f

n

nº de casos favorables

nº de casos posibles

Las limitaciones de esta teoría están dadas por la condición de "igualmente probable" y que requiere del conocimiento previo de la experiencia (a priori).


Página 23

¿Qué valores puede tomar P(A)? ¿Qué relación tiene con un porcentaje? Veamoslo con un ejemplo, supongamos que se arroja un dado y se observa el número que sale:

la probabilidad de obtener un 1 es: P ( x 1 )1

60 .16666i

la probabilidad de obtener un 5 o un 6 es: P ( x 5 o x = 6 )2

60 .33333i i

b) Teoría del límite de la frecuencia relativa (Definición a posteriori): "Si un experimento

aleatorio se realiza n veces con f éxitos, se supone que la frecuencia relativa, f

n, tiende a un

límite cuando n aumenta". Entonces la probabilidad de éxito será:

P ( A ) = Lim f

n = p

n

A

En este caso el límite no tiene el sentido estrictamente matemático, sino que intenta representar la propiedad de la regularidad y estabilidad estadística de la frecuencia relativa, dado que al aumentar n también aumenta proporcionalmente la cantidad de éxitos (fA). Para obtener el valor de la

probabilidad no es necesario calcular el límite, pero esta teoría permite estimar el verdadero valor de la probabilidad para un número de pruebas, n grande.

c) Teoría Axiomática de la Probabilidad (Kolmogov, 1937)

Esta definición enuncia 3 axiomas que debe cumplir una función de probabilidad. Sea el suceso A en un espacio muestral se cumple:

0 P(A) ) 1 para todo suceso A,

2 ) P( S ) = 1,

)P(A+...+)P(A+)P(A= )A...AP(A 3) k21k21

De estos axiomas surgen tres leyes o teoremas:

3.1 0 P ( ) 1 , los valores que puede tomar la probabilidad están entre 0 y 1 (No puede haber

menos de 0% fracasos ni más de 100 % de éxitos).

3.2 Ley de la suma: Si dos eventos A y B son mutuamente excluyentes la probabilidad de obtener el suceso A o B es igual a la suma de la probabilidad de A más la probabilidad de B, es decir,

(B) P + (A) P= B) (A PB)oP(A .

En cambio, si A y B no son mutuamente excluyentes:

B)P(A -(B) P + (A) P= B) (A PB)oP(A ,

donde P(A ∩ B) es la probabilidad conjunta, es decir la probabilidad de que ocurran ambos sucesos al mismo tiempo.

3.3 Ley de la multiplicación: Dos sucesos A y B pertenecientes a S son "estadísticamente independientes", si:

(B). P (A) P= B) (A P= B)y (A P


Página 24

A y B no son "estadísticamente independientes", si

)B

AA

B P( (B) P= )( P (A) P= B) (A P= B)y (A P

donde P(B/A) y P(A/B) son probabilidades condicionadas.

P(B/A), es la probabilidad de que ocurra el suceso B dado (condicionado a) que ocurrió previamente A.

3.5 VARIABLE ALEATORIA

Un experimento aleatorio es aquel que repetido en las "mismas condiciones" no produce siempre el mismo resultado. Por el contrario un experimento no aleatorio, se denomina determinístico.

Asociado al concepto de experimento aleatorio se encuentra el de variable aleatoria. Los experimentos aleatorios originan variables aleatorias.

Podemos definir a una variable aleatoria como una función que relaciona los eventos de un espacio muestral, asignando valores en la recta real. Esquemáticamente sería:

MMM 3

MHH

HMH 1

HHM

MMH

MHM 2

HMM

HHH 0

Veamos algunos ejemplos:

a) Del experimento de arrojar un dado, se puede definir una variable aleatoria X como: X = resultados posibles, los valores que adopta la variable aleatoria son: x

1=1; x2=2; x3=3; x

4=4; x

5=5

y x6=6.

b) Del experimento de registrar el número de partir de los animales de un establecimiento, la variable X puede tomar valores enteros a partir de 0, x1=0 ; x2=1 ;...; xi=40 ,…., etc.

Observación: La variable aleatoria puede tomar una cantidad finita o no de valores y estos valores pueden estar bien definidos, como por ejemplo la edad, o pueden variar en un intervalo real, como por ejemplo el peso.


Página 25

Mostramos a continuación como se llaman las funciones asociadas al cálculo de probabilidades:

Variable Función de probabilidad P(X≤x) o función acumulada

Cuantitativa Discreta P(x): función masa F(X)

Cuantitativa Continua f(x): función densidad de probabilidad

F(X): función distribución o acumulada

Estas funciones deben cumplir con los 3 axiomas, luego,

1) p( x ) = f ( x ) 0i i

2) 1n

1i)

if(x

n

ii

xp

1

)(

3) al cumplir con el tercer axioma podemos sumar las probabilidades y de esta manera se define la función F(x), Función de distribución de probabilidad o función de probabilidad acumulada como:

i

1j

jii )(x p= )x(X P= )(x F

donde la sumatoria se extiende para todo valor de Xxi.

Ejemplo 7: para el experimento de arrojar dos dados, se tiene que el espacio muestral es

S = (1,1), (1,2), (1,3), ..., (6,6) con 36 puntos muestrales.

Todos los sucesos elementales tienen la misma probabilidad de ocurrir, 1/36.

Se define la v.a. X: suma de las dos caras. Esta variable puede tomar los valores 2, 3, 4, ...., 12.

La tabla con la función masa de probabilidad y la función distribución acumulada, F(x) seran:

x Sucesos f(x) F(x)

2 (1,1) 1/36 =0.028 1/36

3 (1,2), (2,1) 2/36 =0.056 3/36

4 (1,3), (2,2), (3,1) 3/36 =0.083 6/36

5 (1,4), (2,3), (3,2), (4,1) 4/36 =0.111 10/36

6 (1,5), (2,4), (3,3), (4,2), (5,1) 5/36 =0.139 15/36

7 (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 6/36 =0.167 21/36

8 (2,6), (3,5), (4,4), (5,3), (6,2) 5/36 =0.139 26/36

9 (3,6), (4,5), (5,4), (6,3) 4/36 =0.111 30/36

10 (4,6), (5,5), (6,4) 3/36 =0.083 33/36

11 (5,6), (6,5) 2/36 =0.056 35/36

12 (6,6) 1/36 =0.028 36/36


Página 26

Y gráficamente,

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

2 3 4 5 6 7 8 9 10 11 12x

f(x)

Figura 12

Ejemplo 8: Dado el experimento de observar la presencia de cierta enfermedad en un Apiario, la siguiente tabla muestra la función masa para la variable X: número de colmenas enfermas.

X 0 1 2 3 4 5

p(x) 0,01 0,1 0,3 0,4 0,1 ?

Encontrar f(5). Construir F(x). Encontrar p(X2), p(X<2) y p(X>3).

Para que se cumpla las condiciones 1 y 2, es necesario que f(5)=0,09:

X 0 1 2 3 4 5

f(x) 0,01 0,1 0,3 0,4 0,1 0,09

F(x) 0,01 0,11 0,41 0,81 0,91 1

P(X2) = F(2) = 0,41.

P(X<2) = P(X1) = F(1)=0,11 o P(X<2) = P(X1) =f(0)+f(1)=0,01+0,1=0,11

P(X>3) = 1 - p(X3) = 1- F(3) = 1 - 0,81 = 0,19.

Del mismo modo se define la función para las variables continuas, que también cumplen con los 3 axiomas, luego

1) p( x ) = f ( x ) 0i i para todo x que pertenece al intervalo (-,+ )

2) 1dxf(x)

.

3) Si A = X: a X b entonces dx

b

a

f(x)= (A) P .


Página 27

3.6 PARÁMETROS DE UNA DISTRIBUCION.

Esperanza Matemática: Sea X una variable aleatoria con función de probabilidad p(X) o f (X). La esperanza matemática de X es:

E ( X ) = x p( x )i i

i=1

n

si X es discreta.

E (X) = x f(x )dxi i-

si X es continua.

La esperanza matemática de una v.a es “un promedio de los valores de la variable, donde cada valor está ponderado por su probabilidad de ocurrencia”.

¿Cuál es la interpretación de esta cantidad?

Para el ejemplo 2, calcular e interpretar la esperanza matemática (o media).

75.209,0.51,0.44,0.33,0.21,0.101,0.0)x(p.x)x(E0x

x

Varianza Matemática: Dos o más distribuciones pueden tener la misma medida de posición (medias) y sin embargo ser distintas. La varianza es una medida de cuán disímiles son los valores de la v.a. Esta cantidad hace referencia a la dispersión de la distribución.

Sea X una variable aleatoria con función de probabilidad p(X) o f (X). La varianza matemática de X, se define como:

22 )x(E)x(E)x(V ,

si X es discreta o continua, se simboliza con, 2x

22x )x(E , donde:

n

0x

22 )x(fx)x(E .

En nuestro problema, del ejemplo 2,

1875.1)75,2(09,0.251,0.164,0.93,0.41,0.101,0.0)x(E 22x

22x

Desvío Estándar: La varianza se expresa en función de los desvíos al cuadrado, luego el valor de la variable no está en la escala original, el desvío se define entonces como la raíz cuadrada de la varianza:

)X(V 2σσ .


Página 28

UNIDAD 4: MODELOS PROBABILISTICOS

Binomial. Poisson. Normal

4.1 MODELO BINOMIAL

Supongamos que se realizan n pruebas independientes cada una con dos resultados posibles, mutuamente excluyentes: éxito y fracaso y que la probabilidad de éxito p (y la de fracaso q=1-p) son constantes en cada prueba. Considerando X como la variable aleatoria cantidad de éxitos en las n pruebas, se dice que X tiene función de distribución binomial, luego la probabilidad de que X tome un valor k, k=1, 2, …., n, puede calcularse como:

nk1,qp)!kn(!k

!n)p1(p

k

n)kX(P knkknk

.

donde 12...)2()1(! nnnn

Observación: en un muestreo una variable binomial debe responder a pruebas con reposición, salvo que el tamaño de la población sea muy grande.

Los parámetros de este modelo son: E(X)=np, Var(X)=npq.

En resumen las características de un modelo binomial son:

hay solo dos resultados posibles: éxito y fracaso

p y q contantes en cada prueba.

el experimento puede repetirse (n pruebas )

los eventos son independientes.

Ejemplo 9: Dentro de las abejas en estado larval, la enfermedad más importante por su gravedad y rápido contagio, es la Loque Americana que es producida por una bacteria. La Loque Americana, es transmitida por las abejas adultas, el alimento, o sea, la miel, y también el néctar. Tal enfermedad puede llegar a matar a toda la colmena y es muy peligrosa desde el punto de vista de su alta contagiosidad. Se sabe que al inyectar un determinado antibiótico el 85% de las abejas sobrevive. En un apiario se aplica el antibiótico a 6 colmenas. Calcular:

a) la probabilidad de que al menos mueran 4 colmenas

b) la probabilidad de que mueran a lo sumo 2 colmenas

c) la esperanza de la v.a. “cantidad de colmenas muertas” (entre las 6 a las que se aplicó la droga).

d) Si el apicultor trata el total de sus colmenas (200), cuantas colmenas curadas esperaría tener.


Página 29

De los datos rescatamos que el número de pruebas es n=6, y definimos el éxito X= cantidad de colmenas que no sobreviven, por ello, p=0.15 (probabilidad de morir) y q=0.85 (probabilidad de sobrevivir), entonces:

a) X: cantidad de colmenas que no sobreviven

005881.0000011.000038.000549.015.085.015.05

685.015.0

4

6

)6()5()4()4(

6524

XPXPXPXP

b) )X(P)X(P)X(P)X(P 2102 =

9526.017618.03994.03771.085.015.02

685.015.0

1

685.015.0

0

6425160

c) E(X)=np=6. 0,15=0.90

d) E(X)=nq=200. 0,85= 170

4.2 MODELO POISSON Otra de las distribuciones discretas de probabilidad que ocurren muy frecuentemente en la ciencia animal y vegetal, es la distribución Poisson.

La variable aleatoria Poisson representa el conteo del número de eventos que ocurren independiente y

aleatoriamente en el tiempo o en el espacio, a una tasa (o razón) constante, λ , en promedio. Una v.a.

X es Poisson con parámetro λ si,

casootroen

,....,,Xsi!k

e),kX(f

k

0

210λ

λ

λ

La media y varianza de esta distribución coinciden y son iguales a λ , el promedio de ocurrencia por unidad de análisis.

Por lo tanto las características del modelo Poisson son:

la variable aleatoria es conteo en una unidad de tiempo o espacio

la probabilidad de ocurrencia es baja

el número de experiencias es alto

Ejemplo 10: En una experiencia realizada en una plantación de girasol sometida a polinización un investigador estimó que el promedio de visitas fue de 15 abejas por hora y por capítulo, utilizando 2,5 colmenas por ha.

a) Calcular la probabilidad de que una planta reciba 40 abejas en 3 horas.

b) ¿Cuál es la probabilidad de que una planta no reciba ninguna visita en los primeros 30 minutos?

Si en una hora una planta recibe 15 visitas en 3 horas recibe en promedio 45 visitas, luego 45 y la

P(X=40)= 04716.0!40

45 4540

e

. En 30 minutos 5,7 y la P(X=0)= 00055.0!0

5,7 5,70

e

.


Página 30

4.3 DISTRIBUCIÓN NORMAL

Esta función también conocida como campana de Gauss, desempeña un papel central en la teoría y en la práctica de la estadística. Muchos fenómenos de la naturaleza se estudian a partir de la distribución normal. Variables continúas tales como peso, longitud, altura, temperatura etc. presentan gráficas de distribuciones de frecuencias que se pueden aproximar muy bien por esta función de densidad.

Una variable aleatoria se define como normalmente distribuida si su función densidad de probabilidad está dada por:

22

1

2

1)(

x

exf ,

donde los parámetros μ y σ , satisfacen, 0σμ , .

La representación gráfica de la función de densidad normal es una curva simétrica respecto de que μ

(la media o esperanza) y la mayor o menor amplitud de la campana viene dada por 2σ (la varianza).

Una variable aleatoria normal con los parámetros mencionados se simboliza con: X~N(μ , 2σ ).

La probabilidad de que X se halle entre a y b corresponde al área bajo la curva f(x) entre a y b. Este área se halla mediante el cálculo de una integral definida por a y b (esta integral no tiene una expresión analítica, por lo que el área se aproxima numéricamente).

Dado que existen infinitas distribuciones normales (tantas como combinaciones posibles de valores de los parámetros), se realiza una transformación para llevar todas estas distribuciones a una con forma

estándar, es decir con media 0 y varianza 1, esta transformación es: ZX

2σ

μ, entonces, Z~N(0,1).

Figura 12


Página 31

-5 0 5 10 15 20 25 30

N(0,1) N(20,1) N(20,4)

Figura 13

La ventaja de la transformación es que se han tabulado (Tabla de curva normal) las probabilidades para una v. a. N(0,1), luego es posible calcular cualquier probabilidad bajo distribución normal.

Propiedades de la distribución normal:

Tiene una única moda (o modo), que coincide con su media y su mediana.

La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor en R es teóricamente posible. El área total bajo la curva es igual a 1.

Es simétrica con respecto a su media μ , por ello la probabilidad de observar un dato mayor

que la media es de un 0.5, y un 0.5 de observar un dato menor.

La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación estándar (σ ). Cuanto mayor sea σ , más concentrada será la curva.

El área bajo la curva comprendida entre los valores situados aproximadamente a una desviación estándar de la media es igual a 0.68. Es decir, existe un 68% de posibilidad de

observar un valor comprendido en el intervalo ),( .

El área bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. Es decir, existe un 95% de posibilidades de

observar un valor comprendido en el intervalo )2,2( .

El área bajo la curva comprendida entre los valores situados aproximadamente a tres desviaciones estándar de la media es igual a 0.99. Es decir, existe un 99% de posibilidades de

observar un valor comprendido en el intervalo )3,3( .

La forma de la campana de Gauss depende de los parámetros μ y σ . La media indica la

posición de la campana, de modo que para diferentes valores la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina la forma de la curva. Cuanto mayor sea el valor de σ , más se dispersarán los datos en torno a la media y la curva será más baja. Un valor pequeño de este parámetro indica, una gran probabilidad de obtener datos cercanos al valor medio de la distribución y la curva será más alta.


Página 32

Ejemplo 11: Suponga que se sabe que el peso promedio de 500 animales de un establecimiento es de 151 kg y que la varianza es de 225 Kg2, ¿Cuántos animales pesan menos de 125 kg?

X~(151;225),luego, 04182.0)733.1()15

151125()125(

ZP

XPXP

=21animales

4.4 DISTRIBUCIÓN T DE STUDENT.

La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo de W. S. Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que desaprobaba la publicación de investigaciones de sus empleados. Para evadir esta prohibición, publicó su trabajo en secreto bajo el nombre de "Student". En consecuencia, la distribución t comúnmente se llama distribución t de Student, o simplemente distribución t.

En la siguiente gráfica se muestra como la distribución t extendida que la distribución normal Z.

Las características de la distribución t son:

1. Es una distribución continua. 2. Tiene forma de campana y es simétrica. 3. Es una familia de curvas. Todas tienen la misma media de cero, pero sus desviaciones estándar

difieren de acuerdo al tamaño de la muestra. 4. La distribución t es más baja y dispersa que la distribución normal. Cuando el tamaño de la muestra

se incrementa, la distribución t se aproxima a la normal.

4.5 DISTRIBUCIÓN JI- CUADRADO

En estadística, la distribución ji-cuadrado, también denominada ji-cuadrado de Pearson, es una

distribución de probabilidad continua con un parámetro n que representa los grados de libertad de la

variable aleatoria:

221 .... nZZX

donde Zi son variables de distribución normal, de media cero y varianza uno, es decir estandarizadas.

Esta distribución se expresa habitualmente 2

~ nX .

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal

http://es.wikipedia.org/wiki/Media

http://es.wikipedia.org/wiki/Varianza


Página 33

Propiedades

1. Los valores de X2 son mayores o iguales que 0.

2. La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay un número infinito de distribuciones X2.

3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1.

4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha.

5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1).

6. El valor modal de una distribución X2se da en el valor (n-3).

La siguiente figura ilustra tres distribuciones X2. Note que el valor modal aparece en el valor (n-3) = (gl-

2).

La función de densidad de la distribución X2 esta dada por:

para x>0

La tabla que se utiliza muestra el área a la derecha del valor de abscisa, según sus gl.


Página 34

La distribución ji-cuadrado tiene muchas aplicaciones en inferencia estadística, por ejemplo en el test

ji-cuadrado y en la estimación de varianzas. También está involucrada en el problema de estimar la

media de una población normalmente distribuida y en el problema de estimar la pendiente de una

recta de regresión lineal.

4.6 Distribución F de Fisher - Snedecor

Esta distribución es usada en teoría de probabilidad y estadística, la distribución F es una distribución

de probabilidad continua. También se la conoce como distribución F de Snedecor o como distribución F

de Fisher-Snedecor. Una variable aleatoria de distribución F se construye como cociente de dos

variables de distribución Chi-cuadrada:

donde U1 y U2 tienen una distribución chi-cuadrado de d1 y d2 grados de libertad respectivamente, y

U1 y U2 son estadísticamente independientes.

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística

especialmente en el análisis de varianza.

http://es.wikipedia.org/wiki/Inferencia_estad%C3%ADstica

http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal

http://es.wikipedia.org/wiki/Teor%C3%ADa_de_probabilidad

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://es.wikipedia.org/wiki/Variable_aleatoria

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_Chi-cuadrada

http://es.wikipedia.org/wiki/An%C3%A1lisis_de_varianza


Página 35


Página 36

UNIDAD 5: MUESTREO E INFERENCIA Muestra. Muestreo. Estimador. Estadístico. Tamaño de muestra. Intervalos de confianza

5.1 CONCEPTOS PARA LA SELECCIÓN DE UNA MUESTRA.

• Población diana: Aquella población de la que se desea obtener una información. En ocasiones parte de la misma es desconocida por lo que en ese caso no puede ser utilizada para seleccionar de ella la muestra.

• Población a estudiar: La población de la que realmente se obtendrá la información porque de esta es de la que se extrae la muestra. Corresponde a la parte de la población diana que es conocida.

• Unidad de muestreo: Elemento básico sobre el que desarrollaremos la investigación. Esta puede ser, dependiendo del objetivo del estudio, los animales, los rodeos, los productores, etc.

• Muestra: Grupo de unidades de muestreo, seleccionadas de la población a estudiar, sobre las que se realizará toda la investigación propuesta.

• Fracción de muestreo: Cociente entre el tamaño de la muestra y el tamaño de la población a estudiar, en caso de conocerse.

5.2 VENTAJAS Y DESVENTAJAS DEL MUESTREO.

Ventajas:

a) Se mejora la calidad de la información obtenida, debido a que al trabajar con menos personal, éste puede ser de mejor nivel.

b) Disminución del tiempo y costo de ejecución.

c) Por ser menos multitudinario permite mayor detalle de los datos.

× Desventajas:

a) No se conoce la población completa

b) Debe realizarlo un especialista en el tema.

MUESTREO EXPLORADOR Y MUESTREO PILOTO.

Si no se conoce nada de la población o del fenómeno a estudiar, debe hacerse previamente un muestreo que en estos casos se llama explorador o de prueba; si se conoce algo y quiere ajustarse detalles, puede también hacerse un muestreo previo, que se denomina piloto.

ERRORES SISTEMÁTICOS Y PROPIOS DEL AZAR.

Errores sistemáticos o vicios ocultos: Normalmente el investigador desconoce la existencia de los mismos. En la medida que aumenta el tamaño de la muestra, aumenta dicho error. Ejemplo de este


Página 37

tipo de error es el tener mal calibrada una balanza. Cuantos más animales pesemos, más error estaremos cometiendo.

Errores propios del azar: son cometidos por el hecho de no trabajar con toda la población. En este caso a medida que aumenta el tamaño de la muestra, disminuye dicho error.

MARCO MUESTREAL.

Son las características y límites que deberá tener el muestreo, del que no debe apartarse el que lo realiza. Se deberá tener en cuenta el tipo de características a estudiar: si son atributos (enfermedad) o variables discretas (número de huevos puestos por gallina ponedora de un criadero) ó continuas (producción de litros de leche).

Debe considerarse si se va a trabajar directamente con los integrantes o si se utilizará un símbolo que los represente. Utilizar definiciones operativas: si se van a investigar tambos, establecer que se entiende por ellos. Deberá definirse el área geográfica donde se desarrollará el estudio.

MUESTRA REPRESENTATIVA.

Hacer representativa una muestra tomada de una población supone, por un lado, que posea un tamaño adecuado y por otro que el método de selección sea el correcto, de manera que todas las subpoblaciones posibles estén representadas de forma adecuada. Para realizar esto es imprescindible conocer previamente los conceptos que están implicados en la selección de una muestra.

DISEÑO DE LA MUESTRA

a) El tamaño de la muestra (n).

Hay cinco elementos a tener en cuenta para el cálculo del "n"

a1) Variación de la población: A mayor homogeneidad, menor muestra. Se mide con la varianza

(variable cuantitativa) ( 2 ) ó con la proporción (variable cualitativa) [p (1-p)].

a2) Precisión de la estimación ó Diferencia (D): Mide cuan precisa es la muestra.

A mayor precisión, mayor muestra ó lo que es lo mismo a menor diferencia mayor muestra. Se mide

como la diferencia entre P y p ó entre y x . Es decir (P-p) y (- x ).

a3) Nivel de confianza: El nivel de confianza representa la probabilidad de que la estimación sea verdadera y tiene relación directa con el tamaño de la muestra a través del coeficiente de confianza z. A mayor confianza, mayor muestra.

a4) Tamaño de la población: a mayor población mayor muestra. Este elemento no está incluído en la fórmula, debido a que en la mayoría de las veces se trabaja con poblaciones infinitas. Cuando se conoce el número de integrantes de la población existe otra fórmula para ajusta el tamaño de la muestra en función del tamaño de la población.

a5) Recursos: esta variable influye directamente sobre los otros elementos a tener en cuenta para el cálculo de "n".

Luego las expresiones para el cálculo del tamaño muestra para variables cualitativas y cuantitativas, serán respectivamente:


Página 38

2

2 1.

D

ppZn

ó 2

22.

D

Zn

Si el tamaño de la muestra obtenido con la fórmula precedente puede ser excesivo cuando esa muestra representa mas del 10% del tamaño total de la población, puede ser excesivo, sobre todo en poblaciones memores a 1000 unidades de muestreo. Cuando la población es finita y con menos de 1000 individuos y el muestreo es sin reposición, el tamaño de la muestra obtenido puede ajustarse por el tamaño de la población (N). En este caso el tamaño de la muestra ajustado será menor, con el consecuente ahorro de recursos. La corrección, que determina el tamaño final de la muestra que se

debe tomar es:

N

n

nn

1

' , siendo n el tamaño de la muestra y N el tamaño de la población.

b) El método de selección de los elementos.

Existen dos métodos diferentes de muestreo de las poblaciones de individuos atendiendo a la intervención o no del azar en la selección de las unidades de muestreo:

Probabilístico: Todos los individuos de la población a estudiar tienen la misma probabilidad de formar parte de la muestra, siendo el azar el que determina que individuos forman parte de la muestra y cuáles no. En este caso se utilizan sistemas de "lotería" o de "números aleatorios", tablas de números distribuidos en filas y columnas distribuidos al azar, para seleccionar cada unidad de muestreo. Atendiendo a las características de la población investigada y de los objetivos de la investigación existen diversos tipos de métodos probabilísticos:

- Simple: Es necesario tener identificados todos los individuos. Consiste en seleccionar uno a uno, mediante lotería o tablas de números aleatorios, los animales que entran a formar parte de la muestra. Es el método más sencillo y se utiliza cuando no existen factores que puedan hacer que la población se distribuya en subgrupos diferentes atendiendo a dicho factor.

- Sistemático: Se utiliza cuando no se conoce la identidad de los individuos. En ese caso se establece entre los mismos un orden (por ejemplo, orden de paso de los animales por una cinta de clasificación). Se seleccionan, mediante loterías o números aleatorios, un primer número, que corresponde a aquel del orden establecido que constituirá la primera muestra. Posteriormente se selecciona (con el mismo sistema) un segundo número que corresponderá al intervalo de muestreo. Para evitar errores debidos al azar, como número que representa el intervalo de muestreo puede utilizarse el valor obtenido de dividir el tamaño de la población por el tamaño de la muestra.

- Estratificado: En ocasiones, interesa analizar la población en función de la existencia de diferencias en un determinado carácter, por ejemplo el sexo. En ese caso, se divide la población total en subgrupos en función de ese carácter tomando de cada subgrupo una muestra por métodos simples o sistemáticos. El número de individuos a muestrear en cada grupo será proporcional al tamaño de ese grupo respecto al total de la población (si un sexo supone en la población el 75% de los animales, en la muestra ese sexo debe estar representado en un 75%).


Página 39

- Conglomerados o cluster: En ocasiones encontramos la población dividida en grupos de los que conocemos el número que hay dentro de la población pero no se conoce el número de unidades de cada uno de esos grupos. En ese caso, se realiza un muestreo, simple o sistemático de los grupos, incluyendo en la muestra la totalidad de las unidades de cada grupo seleccionado (ejemplo: zonas geográficas).

- Multietápico: Consiste en un sistema mixto de los métodos anteriormente desarrollados. Se trata de realizar el muestreo a dos niveles: por ejemplo un primer nivel entre grupos y un segundo nivel entre unidades dentro de los grupos seleccionados.

No probabilístico: En este método no todos los individuos de la población tienen la misma probabilidad de formar parte de la muestra, siendo el investigador o el propio productor el que decide cuales forman parte de la muestra y cuáles no. En estos casos, se corre el riesgo de que la muestra no sea representativa de la población. En función de quien es el que decide los individuos que integran la muestra, los métodos no probabilísticos se denominan:

- Con voluntarios: El productor decide voluntariamente que animales o lotes de los mismos forman parte de la muestra y cuales no según a él le interese.

- De conveniencia: El investigador decide qué animales forman parte de la muestra, en función de que posean o no algún carácter que desea analizar.

c) La forma como se harán las estimaciones de los parámetros que se quieren conocer.

d) Determinación del tamaño muestral.

e) Métodos de selección de una muestra en una investigación epidemiológica.

5.8 INFERENCIA ESTADÍSTICA. ESTIMACIÓN PUNTUAL Y POR INTERVALOS.

Inferencia estadística es obtener conclusiones para la población a partir de la información que nos brinda una porción pequeña de ella, ya sea una muestra o realizando un experimento. Para que las conclusiones sean válidas es necesario aplicar una metodología que pueda reproducirse. Hemos hablado ya de algunas técnicas de muestreo que permiten recolectar información de la población y posteriormente veremos algunas condiciones mínimas necesarias para llevar a cabo un experimento. La inferencia estadística puede realizarse de dos formas: Mediante la Estimación o el Test de Hipótesis, a su vez la estimación puede ser: Estimación Puntual o por Intervalos de confianza

6.8.1 ESTIMACIÓN PUNTUAL.

Vamos a definir al estimador puntual como una función de una muestra aleatoria. Por ejemplo: sea x1, x2, . . .,xn una muestra aleatoria, una función sería:

n

x

x

n

i

i 1


Página 40

la cual es en sí, misma una variable aleatoria, y en este caso es un estimador puntual del parámetro . La calidad de la estimación obtenida depende de la adecuada elección del estimador puntual. Debido a que existe una gran variedad de estimadores posibles en cada situación particular es que necesitamos de criterios de selección. Para seleccionar un buen estimador entre un conjunto de posibles estimadores, los estadísticos propuestos son estudiados teniendo en cuenta ciertas propiedades.

Las propiedades de los buenos estimadores son:

a) Insesgadez: Un estimador ( ) es insesgado si, para cualquier tamaño muestral, su esperanza

es igual al parámetro (θ) que estima. Esto es, E( ) = θ , para todo valor de θ. El sesgo del

estimador es definido como: Sesgo ( )=E( - θ ). Esto se puede probar para la media muestral, de la siguiente manera: si se considera a la muestra de “n” observaciones como una colección de “n” variables aleatorias, todas idénticamente distribuidas con E(Xi ) = μi luego,

n

n

nn

XE

n

XE

n

X

ExE

n

i

n

i

n

i

i

n

i

i

1111)(

b) Consistencia: Un estimador es consistente si la probabilidad de que la diferencia entre el parámetro y su estimador (en valor absoluto) sea mayor que un valor ε, tienda a cero cuando “n” tiende a infinito.

Esto es si la P(| -θ|>ε) tiende a 0, para ε>0, cuando el tamaño de la muestra tiende a ∞.

c) Eficiencia: Un estimador insesgado, se dice que es eficiente si tiene la mínima varianza posible.

Los estimadores más usuales son:

Parámetro Estimador

Promedio (MTC) x

Variancia (MD) S

Proporción p

Correlación r

Regresión:

ordenada al origen

a

Pendiente b

5.8.2 ESTIMACIÓN POR INTERVALO DE CONFIANZA.

Los estimadores puntuales son también variables aleatorias y, por lo tanto, es de esperar que diferentes muestras de una misma población, arrojen distintas estimaciones puntales para un mismo


Página 41

parámetro. Supongamos que se quiere determinar el peso promedio de un lote de novillos y para ello se seleccionan distintas muestras, cada una de tamaño 10, es lógico pensar que si cambian los individuos de una muestra a la otra, también cambiará el promedio resultante de cada muestra. Por lo tanto es deseable que la estimación puntual esté acompañada de alguna medida del posible error de esa estimación. Esto puede hacerse indicando el error estándar del estimador o dando un intervalo (límite inferior y superior) que incluya al verdadero valor del parámetro con un cierto nivel de confianza. El procedimiento que permite calcular los límites inferior y superior del intervalo se conoce como: Estimación por Intervalo, el intervalo obtenido: Intervalo de Confianza y (1- α)100 se el Nivel de Confianza. Los niveles de confianza más usados son 95%, 99% o 99,9%.

Simbólicamente:

P(LiθLs) = 1- α

donde:

Li: es el límite inferior del intervalo de confianza

Ls: es el límite superior del intervalo de confianza

1- α es nivel de confianza, generalmente expresado en porcentaje: (1-α)100

INTERVALO DE CONFIANZA PARA .

Para el cálculo del intervalo de confianza nos basaremos en distribuciones conocidas que nos permitirán encontrar fácilmente los límites (Li y Ls). Por ejemplo conociendo la distribución normal podemos encontrar z1 y z2 de modo que se cumpla la siguiente expresión:

P( z1 z z2 ) =0.95 [1]

En este caso z1 corresponde al valor de z que acumula un area bajo la curva normal (0,1) de α/2 y z2 corresponde al valor de z que acumula (1-α/2). Si α=0.05 luego se tiene:

Z(α/2)= -1.96 y Z(1-α/2)= 1.96.

Por otra parte también conocemos que Z= x

(que tiene distribución normal). Luego remplazando

en la expresión [1] y realizando pasajes de términos y los reemplazos correspondientes llegamos a la siguiente expresión:

1..

21

21 n

Zxn

ZxP

Para que esta expresión pueda ser utilizada debemos conocer la varianza σ2. Sin embargo cuando no se conoce la varianza poblacional σ2, la distribución en la cual nos basaremos será la distribución “t” de

Student, luego el cálculo del intervalo de confianza para tendrá la siguiente expresión:

1..

21,

21, n

Stx

n

StxP

glgl

En este caso los grados de libertad sería gl= n-1


Página 42

INTERVALO DE CONFIANZA PARA LA DIFERENCIAS DE MEDIAS (1-2).

Cuando se desea estimar la diferencia entre los promedios de dos poblaciones independientes, el

estimador puntual natural sería x 1- x 2, y también podríamos calcular el intervalo de confianza. Dependiendo de la situación, si conocemos las variancias poblacionales (σ2

1 y σ22) nos basaremos en la

distribución normal, mientras que si tenemos los estimadores (S21 y S2

2) utilizaremos la distribución “t” de Student. En este caso las expresiones para el cálculo son respectivamente las siguientes:

1..

2

2

2

1

2

1

2111

2

2

2

1

2

1

21 2121

nnZxx

nnZxxP

1..

2

2

2

1

2

1

21;211

2

2

2

1

2

1

21;2 21

2121

21

n

S

n

Stxx

n

S

n

StxxP

nnnn

INTERVALO DE CONFIANZA PARA σ2

En ocasiones es de interés estimar la variancia de la población, y en este caso basaremos la inferencia

en la distribución de Chi cuadrado (2), resultando la siguiente expresión:

1.1.1

2

),(

22

2

)1,(

2

22glgl

X

Sn

X

SnP

En este caso los grados de libertad sería gl= n-1.

INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN

Cuando nuestros estudios involucran variables cualitativas dicotómicas, el estimador puntual sería una “proporción” (p), por ejemplo la proporción de enfermos (P) (prevalencia), en esta situación también podemos estimar su intervalo de confianza y la expresión sería la siguiente:

1

)1(.

)1(.

21

21 n

ppZpP

n

ppZpP


Página 43

5.9 ENSAYOS COMPARATIVOS.

Podemos diferenciar dos tipos de ensayos comparativos: Los “diseños experimentales” y los “estudios observacionales”.

Es necesario especificar el objetivo del experimento, para ello debemos:

Identificar los factores que influyen, cuales son variables y cuales hay que mantener constantes

Identificar las características a medir

Especificar el procedimiento de medición de las características

Determinar el número de repeticiones

Precisar los recursos y materiales

Además debemos preguntarnos:

¿Cuál es mi objetivo?

¿Qué es lo que quiero saber?

¿Por qué quiero saberlo?

Un “Experimento” es una investigación que establece un particular conjunto de circunstancias bajo un protocolo específico con motivo de observar y evaluar los resultados observados.

Podemos diferencias dos tipos de experimentos:

Experimento comparativo: Es el experimento típico en el campo de la biología, medicina veterinaria, agricultura, ingeniería. El objetivo comparativo implica establecer más de una circunstancia y las respuestas observadas resultan de las diferentes circunstancias y pueden ser comparadas unas con otras. La unidad básica de estudio se denomina “unidad experimental”.

Estudio observacional comparativo: cuando la experiencia no puede llevarse a cabo por razones éticas o prácticas. La unidad básica de estudio tiene el mismo rol que la unidad experimental y se la denomina “unidad observacional”.

La inferencia estadística es la primer diferencia entre un diseño experimental y un estudio observacional. En el diseño experimental es a menudo posible asignar relación causal entre la respuesta y el tratamiento. Los estudios observacionales son limitados para relacionar asociación entre la respuesta y las condiciones del tratamiento.

El tratamiento, es el conjunto de circunstancias creadas por el experimentador en respuesta a la hipótesis a investigar y ellos son el foco de la investigación. También existen los tratamientos control y placebo. Hay distintas circunstancias en las cuales un tratamiento control es útil y necesario. Este tratamiento revela las condiciones bajo las cuales se desarrolló la experiencia, esto también es denominado testigo. Por lo general el tratamiento control se refiere a la ausencia total de tratamiento, no obstante hay experiencias en las que el control puede representar una práctica estándar por lo cual el método experimental puede ser comparado, en estos casos el tratamiento control se denomina “placebo”. En el tratamiento placebo se realizan las mismas maniobras que en el tratamiento a comparar pero sin la droga o principio activo que queremos probar. El placebo puede revelar el efecto de la manipulación de las unidades experimentales en ausencia de algún tratamiento. En ocasiones son necesarios ambos tratamientos testigos, el control propiamente dicho y el placebo. A modo de ejemplo supongamos que queremos probar una nueva droga "H" para tratar alguna enfermedad, y dicha droga es inyectada a animales afectados por dicha enfermedad y posteriormente se evalúa el


Página 44

efecto. En esta experiencia podríamos tener animales a los que no se les realiza ningún tratamiento (Tratamiento Control), otros a los que se les inyecta solamente el excipiente (Tratamiento Placebo) y otro grupo a los cuales se le aplica el tratamiento de interés (excipiente + la droga “H”)

Unidad Experimental: Es la entidad física o sujeto expuesto al tratamiento. El tratamiento debe ser asignado en forma aleatoria en cada unidad experimental, esto contribuye a obtener “independencia” entre las respuestas por parte de las unidades experimentales. Cada unidad experimental constituye una simple réplica. Las repeticiones son necesarias para poder medir el error experimental y permiten una mejor estimación del o los efectos que queremos comparar. La aleatorización permite validar la inferencia. Provee la justificación para la inferencia estadística de los métodos de estimación y del test de hipótesis. La réplica por si sola no garantiza la validez de la estimación.

Tanto en los diseños experimentales como en los estudios observacionales, nos interesará obtener conclusiones válidas que podamos referir a toda la población, para ello tendremos que plantearnos objetivos claros y formularnos "preguntas" que trataremos de responder objetivamente y con rigor científico. Para tomar una decisión estadística, será necesario plantear hipótesis que podamos contrastar y poner a prueba mediante métodos estadísticos. Para poner a prueba una hipótesis debemos seguir una serie de pasos, que se detallan a continuación:

5.10 PRUEBA DE HIPÓTESIS.

1) Plantear las hipótesis

De acuerdo al objetivo propuesto se planteara una hipótesis nula (H0), en la cual siempre debe incluirse la igualdad y una hipótesis alternativa (H1) que expresa lo contrario de la nula. El conjunto de hipótesis (H0 y H1) generan pruebas bilaterales o unilaterales, En el siguiente esquema se representan los 3 conjuntos de hipótesis posibles:

Bilateral Unilateral derecha Unilateral izquierda

H0 : =0 H0 : 0 H0 : 0

H1 : 0 H1 : >0 H1 : <0

2) Elección del estadístico

En este paso elegiremos el estadístico más apropiado para probar nuestra hipótesis. La elección de la herramienta estadística dependerá del tipo de variable en estudio, de la cantidad de información y principalmente del parámetro que se desea evaluar y será necesario conocer la distribución del estimador. Las pruebas que conoceremos en este curso serán:

Cuantitativas Una población Test “z” (Variancias conocida)

Test “t” (Variancias desconocida)

Dos poblaciones Test “z”; (Variancias conocidas)

Test “t” (Variancias desconocidas pero iguales)

Test “t” (Variancias desconocidas y distintas)


Página 45

Datos pareados Test “t”

Categóricas Chi2 Prueba de la bondad de Ajuste

Prueba de la Independencia

Prueba de la Homogeneidad de proporciones

3) Determinar el nivel de confianza

Al tomar una decisión estadística se pueden cometer dos tipos de errores, de Tipo I y de Tipo II. El error

de tipo I se lo simboliza con la letra griega y representa la probabilidad de rechazar una hipótesis

nula que es verdadera. Por el contrario, la probabilidad de aceptar H0 cuando es verdadera es (1-) y

expresada en porcentaje se la denomina “nivel de confianza” y se simboliza como (1-)100. El error de tipo II se comete, cuando aceptamos una hipótesis nula que en realidad es falsa y cuya probabilidad se

simboliza con la letra griega .Por el contrario la probabilidad de no cometer error de tipo II sería (1-), y se la denomina “potencia” del test. La potencia del test es la capacidad de la prueba de rechazar una hipótesis nula que es falsa.

De este modo fijando el nivel de confianza determinamos el error que estamos dispuestos a cometer,

así si (1-)100 es igual a 95%, estaremos dispuestos a cometer un error = 0.05

4) Determinar la zona de rechazo

En función del nivel de confianza y la cantidad de información (grados de libertad) se determina el valor crítico, delimitando la zona de aceptación y de rechazo.

5) Cálculo del estadístico

En este paso se desarrolla el cálculo bajo hipótesis nula.

6) Conclusión

En este paso se toma una decisión. En este momento se deberá aceptar o no la hipótesis nula planteada anteriormente. Cuando la hipótesis nula es rechazada, se dice que, por ejemplo, las diferencias son estadísticamente significativas, o sea que no se debieron al azar. Por el contrario, si se acepta la hipótesis nula, se concluye que dichas diferencias no son estadísticamente significativas, o sea que se debieron al azar.


Página 46

TIPOS DE ERRORES:

Cuando realizamos una prueba de hipótesis, se pueden cometer dos tipos de errores: tipo I y tipo II.

Los riesgos de estos dos errores están inversamente relacionados y son determinados por el nivel de

significancia y la potencia de la prueba. Ninguna prueba de hipótesis es 100% cierta, ya que la prueba

se basa en probabilidades, siempre existe la posibilidad de sacar una conclusión incorrecta.

Hipótesis nula Decisión

Rechazar H0 No Rechazar H0

Verdadera Decisión incorrecta

Error de tipo I, con probabilidad α de ocurrir

Decisión correcta,

con probabilidad 1- α, de ocurrir

Falsa Decisión Correcta: Potencia de la prueba, con probabilidad 1-β de ocurrir

Decisión incorrecta

Error de tipo II, con probabilidad β de ocurrir


Página 47

UNIDAD 6: REGRESIÓN LINEAL Y CORRELACIÓN Correlación. Pendiente. Ordenada al origen. Residuo

Muchas veces en la práctica nos encontramos con situaciones en las que se requiere analizar la relación entre dos variables cuantitativas. Los dos objetivos fundamentales de este análisis serán, por un lado, determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, si los valores de una de las variables tiende a aumentar –o disminuir- al aumentar los valores de la otra); y por otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra. La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación. Sin embargo, el estudio de la correlación es insuficiente para obtener una respuesta a la segunda cuestión: se limita a indicar la fuerza de la asociación mediante un único número, tratando las variables de modo simétrico, mientras que nosotros estaríamos interesados en modelar dicha relación y usar una de las variables para explicar la otra. Para tal propósito se recurrirá a la técnica de regresión. Aquí analizaremos el caso más sencillo en el que se considera únicamente la relación entre dos variables. Así mismo, nos limitaremos al caso en el que la relación que se pretende modelar es de tipo lineal. En cada uno de estos casos se pueden plantear varios interrogantes: ¿existe alguna relación entre las variables?, si se conoce el comportamiento de una de ellas, ¿se puede predecir el comportamiento de la otra?

El Análisis de Regresión Lineal es una técnica que tiene como objetivo describir como varía la esperanza de la variable dependiente E(Y), frente a cambios en X. Es decir, permite estudiar la relación funcional entre una variable respuesta Y (variable dependiente) y una variable regresora X (variable independiente o predictora). Identifica el modelo o función que liga a las variables, estima sus parámetros y eventualmente, prueba hipótesis sobre ellos. Por último, modelar por regresión también tiene como objetivo la predicción, es decir el uso del modelo para dar el valor esperado de Y cuando X toma un valor particular.

6.1 LA RECTA DE REGRESIÓN. Sea Y una variable aleatoria respuesta (o variable dependiente), que se supone relacionada con otra variable (no necesariamente aleatoria) que llamaremos explicativa, predictora o independiente y que se denotará por X. A partir de una muestra de n individuos para los que se dispone de los valores de ambas variables, (Xi,Yi),i = 1,...n, se puede visualizar gráficamente la relación existente entre ambas mediante un gráfico de dispersión, en el que los valores de la variable X se disponen en el eje horizontal y los de Y en el vertical. El problema que subyace a la metodología de la regresión lineal simple es el de encontrar una recta que ajuste a la nube de puntos del diagrama así dibujado, y que pueda ser utilizada para predecir los valores de Y a partir de los de X. Por ejemplo, las siguientes figuras muestran dos diagramas de dispersión, para variables que pueden considerarse relacionadas linealmente:


Página 48

12,16 14,86 17,57 20,28 22,98

Perímetro

14,80

37,90

61,00

84,10

107,20

pe

so

La ecuación general de la recta de regresión será entonces de la forma: Y = a + bX, que es desconocida, luego es necesario estimar el valor de los parámetros a y b.

Ejemplo 1: Supongamos que se quiere estudiar la distribución del ancho de las alas de una población de abejas con relación a la longitud de las mismas. Para cualquier longitud elegida, por ejemplo 8.59 mm, existe una distribución del ancho, es decir la distribución del ancho del ala de todas las abejas de la especie que poseen esa longitud de ala. Esta distribución se conoce como distribución condicionada de Y dado X (Y/X=8.59), tiene como esperanza al ancho medio de las alas de las abejas que tienen longitud del ala 8.59mm. La varianza, como se puede observar en la figura siguiente, será común a todas (supuesto de homogeneidad de variancias).

Así, se dice que la regresión del ancho sobre la longitud de las alas representa la esperanza de la distribución de los anchos según la longitud. Observar la siguiente figura:

8.59

8.59 8.60

f(Y

/X)

E(Y/X=8.59)

8.61 8.62

6.2 ESTIMACIÓN DE LOS PARÁMETROS.

0 1 3 4 5

vecinos

2,06

10,07

18,08

26,09

34,11

incre


Página 49

El problema radica en encontrar aquella recta que mejor ajuste a los datos. Es usual utilizar el método de mínimos cuadrados, que elige como recta de regresión a aquella que minimiza las distancias verticales de las observaciones a la recta. Más concretamente, se pretende encontrar a y b tales que:

n

1i

2i

n

1i

2i

1ii

2ii

b,ae)XbaY()YY(Min .

Donde ii XbaY es el valor predicho o ajustado por el modelo lineal y ei es el residuo definido

como iii YYe

Resolviendo este problema mediante un sencillo cálculo de derivación, se obtienen el estimador mínimo cuadrático de cada uno de los coeficientes de la recta de regresión:

XbYa,

n

X

X

n

YX

YX

)XX(

)YY)(XX(

b2

n

1iin

1i

2i

n

1ii

n

1iin

1iii

n

1i

2i

n

1iii

.

Como se puede suponer, la relación Y = a + bX no va a cumplirse exactamente, sino que existirá un error que representa la variación de Y para cada valor de la variable independiente. Las distancias verticales entre el valor observado y el valor dado por la recta para cada individuo (o

valor ajustado) reciben el nombre de residuos, y se suelen denotar por i . La expresión teórica del

modelo matemático será entonces:

n,...,1iεbXaY iii ,

en esta expresión i es el componente o variable aleatoria del modelo, lo que hace que la variable Y

sea aleatoria. Se deben realizar una serie de supuestos (ver figura ) sobre esta variable aleatoria:

1- La esperanza de la distribución de los errores es 0:

.n,...,1i,0)ε(E i

2- La varianza de la distribución de los errores es constante (homogeneidad de variancias u

homocedasticidad), .n,...,1i,σ)ε(Var 2i

3- La distribución de los errores es normal,

.n,...,1i),σ,0(N~ε 2i

4- Las observaciones Y i son independientes. Bajo las hipótesis de normalidad. Esta hipótesis en función de los errores sería “los i son independientes”.

La validación de estos supuestos puede hacerse mediante diferentes herramientas. Varias de ellas pueden inspeccionarse mediante gráficos.


Página 50

6.3 INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN En la ecuación general de la recta de regresión, claramente b es la pendiente de la recta y a el valor de la variable dependiente Y para X = 0. En consecuencia, una vez estimados estos coeficientes, en la mayoría de las aplicaciones el valor de â no tendrá una interpretación directa, mientras que el valor

b servirá como un indicador del sentido de asociación entre ambas variables.

b >0: indica una relación directa entre las variables (a mayor valor de la variable explicativa, mayor valor de la variable dependiente),

b <0: indica una relación de tipo inverso,

b =0 : indica que no existe una relación lineal entre ambas variables. Ejemplo 2: en la siguiente tabla se muestran los datos de 69 pacientes de los que se conoce su edad y una medición de su tensión sistólica. Si estamos interesados en estudiar la variación en la tensión sistólica en función de la edad del individuo, deberemos considerar como variable respuesta la tensión y como variable predictora la edad.

Es decir que la ecuación de ajuste es la recta: Y=103.35 +0.98X. Ejemplo 16: Datos de presión según la edad

Nº Tensión Sistólica Edad Nº Tensión Sistólica Edad Nº Tensión Sistólica Edad

1 114 17 24 152 41 47 150 56

2 134 18 25 158 41 48 154 56

3 124 19 26 124 42 49 165 56

4 128 19 27 128 42 50 164 57

5 116 20 28 138 42 51 168 57

6 120 21 29 142 44 52 140 59

7 138 21 30 160 44 53 170 59

8 130 22 31 135 45 54 185 60

9 139 23 32 138 45 55 154 61

10 125 25 33 142 46 56 169 61

11 132 26 34 145 47 57 172 62

12 130 29 35 149 47 58 144 63


Página 51

…. ………

Diagrama de dispersión. Recta de regresión. Es interesante plantear la hipótesis de pendiente nula, es decir, b=0. El hecho de que el test no resulte significativo, indicará la ausencia de una relación clara de tipo lineal entre las variables, aunque pueda existir una asociación que no sea captada a través de una recta, por ejemplo una relación cuadrática. Para los datos del ejemplo, el resultado de ajustar un modelo de regresión lineal se muestra a continuación:

Variable Coeficiente (B) IC 95% (B) T P

Constante 103,35 (94,72; 111,99) 23,89 <0,001

Edad 0,98 (0,81; 1,16) 11,03 <0,001

Fuente de Variación Suma de Cuadrados g.l. Cuadrado Medio F P

Regresión en edad 14965,31 1 14,965,31 121,59 <0,001

Residual 8246,46 67 123,08

Total 23211,77 68

6.4 ANÁLISIS DE VARIANZA.

En este curso no entramos en el detalle de estas tablas conocidas como Análisis de la Varianza. Generalmente un análisis de regresión suele ser expresado por este tipo de tablas.


Página 52

La bondad de un ajuste lineal, puede medirse en función de la proporción de variabilidad explicada por el modelo (coeficiente de correlación lineal de Pearson) que recibe el nombre de coeficiente de determinación, y que se pretende sea próximo a 1.

En nuestro ejemplo el coeficiente de determinación es R2=0,645 y R=0.80 (se obtiene del cociente 14965.31/23211.77)

La columna "Suma de cuadrados" muestra una descomposición de la variación total de Y en las partes explicada y no explicada (residual) por la regresión.

Esto se deduce de la siguiente identidad en términos de sumas de cuadrados:

2n

1jjj

n

1j

2j

n

1j

2j )xbay()yy()yy(

O equivalentemente suele expresarse como: SSTO = SSR + SSE

A partir de esta descomposición es posible utilizar una medida de la calidad del ajuste o “capacidad predictiva” del modelo, el coeficiente de determinación, R2,

SSTO

SSR

)yy(

)yy(

)yy(

ε

1Rn

1j

2j

n

1j

2j

n

1j

2j

n

1j

2j

2

Ejemplo 17: Cada fila representa los valores observados sobre una unidad experimental, conformada por una parcela de 50 cm. por 50 cm. en la que se midió el Nitrógeno en el suelo y por planta calculado como promedio sobre todas las plantas de la parcela.

X: Nitrogeno en Suelo (ppm) Y: Nitrógeno en plantas (ppm)

0.42 0.13 0.45 0.15 0.50 0.16 0.55 0.17 0.68 0.18 0.69 0.18 0.70 0.19 0.73 0.2 0.80 0.2 0.9 0.21 0.92 0.22 0.94 0.23

El diagrama de dispersión para los datos se presenta en la siguiente figura:

Suma de cuadrados

Total Suma de cuadrados de la

Regresión

Suma de cuadrados

Residual


Página 53

Análisis de regresión lineal

Variable N R²

Nitrógeno plantas 12 0,95

Coeficientes de regresión y estadísticos asociados

Coeficientes Estimación E.E. LI(95%) LS(95%) T Valor p

const 0,08 0,01 0,06 0,09 9,35 <0,0001

Nitrog.Suelo 0,16 0,01 0,13 0,18 13,94 <0,0001

Tabla de análisis de la varianza

FV SC gl CM F Valor p

Modelo 0,01 1 0,01 194,32 <0,0001

Nitrogeno Suelo 0,01 1 0,01 194,32 <0,0001

Error 4,6E-04 10 4,6E-05

Total 0,01 11

Residuo Nitrógeno plantas Valores Ajustados

-0,01 0,14 0,00 0,15 0,01 0,15 0,01 0,16 0,00 0,18

0,39 0,54 0,68 0,82 0,97

Nitrogeno Suelo

0,13

0,15

0,18

0,21

0,24

Nitró

ge

no

pla

nta

s


Página 54

-0,01 0,18 0,00 0,19 0,01 0,19 0,00 0,20 -0,01 0,22 0,00 0,22 0,01 0,22

6.5 ANÁLISIS DE CORRELACIÓN LINEAL.

En el análisis de regresión la variable X es usualmente fija, mientras que la variable dependiente Y es aleatoria. Si X e Y son ambas variables aleatorias observables sobre una misma unidad o elemento de la población, podría ser de interés medir el grado en que estas variables covarian ya sea positiva o negativamente.

La simple observación de que dos variables parecen estar relacionadas, no revela mucho. Dos preguntas que pueden surgir al respecto, son:

¿Qué tan estrecha es la relación entre las variables? O ¿Cuál es el grado de asociación que existe entre ambas?

¿Es real la asociación observada o podría haber ocurrido solo por azar?

Para responder a la primer pregunta se necesita una medida del grado de asociación entre dos variables. Esta medida es el coeficiente de correlación, que se denota en general con la letra griega ρ

(rho). Para la segunda, se precisa una prueba de hipótesis sobre ρ .

El análisis de correlación clásico supone que los pares de variables aleatorias tienen una distribución normal bivariada. El coeficiente de correlación lineal entre dos variables aleatorias X e Y se define como:

)Y(Var)X(Var

)Y,X(Covρ ,

donde Cov(X,Y) es la covarianza entre X e Y que se define como )Y(E)X(E)XY(E)Y,X(Cov . La

versión muestral del coeficiente de correlación de denomina con r, y puede calcularse como:

n

Y

Yn

X

X

n

YX

YX

)YY()XX(

)YY)(XX(

r2

n

1iin

1i

2i

2n

1iin

1i

2i

n

1ii

n

1iin

1iii

n

1i

2i

n

1i

2i

n

1iii

.

Características:

r es un número sin dimensiones que se encuentra entre -1 y 1.


Página 55

si las variables son independientes r =0. La inversa no es necesariamente cierta. Si las variables son normales sí es cierto que si r=0, las variables son independientes.

si las variables estuvieran relacionadas linealmente r =1

Cuando X e Y no están correlacionadas, r=0.

Prueba de hipótesis sobre ρ : Si se satisface la suposición de distribución normal bivariada, y se tiene

una muestra aleatoria de n pares de valores (X,Y), es posible utilizar el coeficiente de correlación muestral r, para probar la hipótesis de independencia entre X e Y probando la hipótesis H0

: ρ =0.

Para probar esta hipótesis contra 0ρ:H1 , el estadístico utilizado es

2n

r1

rT

2

, que tiene una

distribución t de Student con n-2 grados de libertad, donde n es el número de pares (X,Y).

Ejemplo: Los datos de la siguiente tabla se refieren al contenido de proteína bruta (PB) y caseína (CA) en leche de 23 tambos de la cuenca lechera de la región central Argentina.

PB CA PB CA

2,74 1,87 3,25 2,33

3,19 2,26 2,95 2,04

2,96 2,07 3,08 2,16

2,91 2,09 3,14 2,16

3,23 2,28 3,22 2,22

3,04 2,04 3,14 2,22

3,08 2,18 3,15 2,24

3,23 2,3 3,2 2,22

3,11 2,17 2,95 2,07

3,11 2,15 3,19 2,25

3,1 2,16 3,12 2,23

2,99 2,16

El coeficiente de correlación lineal muestral es de r=0.9327. ¿Es esta correlación significativa? Parar responder se realiza la prueba de hipótesis: H0

: ρ =0 versus 0ρ:H1 , fijando 05.0α . El valor de

prueba 85.11

223

9327.01

9327.0T

2

, mientras que los cuantiles 0.025 y 0.975 de una

0

0,5

1

1,5

2

2,5

2,7 2,8 2,9 3 3,1 3,2 3,3

PB

CA


Página 56

t n-2 son de –2.079 y 2.079 respectivamente, lo que determina que debe rechazarse la hipótesis nula, se concluye entonces que la correlación lineal existente es estadísticamente significativa.


Página 57

UNIDAD 7: CONTROL DE CALIDAD Gráficos para posición. Gráficos para dispersión y cant. de defectos

Hoy en día los gráficos de control de calidad se utilizan ampliamente en la industria como técnica de diagnóstico, para supervisar procesos de producción e identificar variaciones y circunstancias anormales. Los conceptos básicos para desarrollar esta teoría se basan en distribuciones muestrales

tales como la de la media muestral X , y la proporción muestral. La idea principal en este tema es la persistente variación que presentan de manera natural diferentes individuos u objetos. No importa cómo se cuide la calibración de una máquina, cuanto se entrene a un empleado, cuanto se controlen los factores ambientales, etc. los pesos variaran de muestra a muestra, los largos variaran, los productos tendrán defectos. Puede pensarse que esta variación natural es como un ruido de fondo incontrolable. Sin embargo hay otras fuentes de variación que pueden tener un impacto pernicioso en la calidad de los productos producidos en algún proceso, cuya variación puede atribuirse a material contaminado, ajuste incorrecto de máquinas, desgaste de herramientas y otras causas semejantes, estas causas reciben el nombre de causas asignables, en control de calidad. Los gráficos de control constituyen un método para detectar situaciones donde las causas asignables pueden estar afectando de manera adversa la calidad del producto. Cuando un gráfico indica una situación fuera de control, se puede iniciar una investigación para identificar causas y tomar medidas correctivas. Los gráficos tienen una línea central (en general es un valor predeterminado o una especificación de diseño) y dos líneas de control, los limites, inferior (LIC) y superior (LSC). Si todos los puntos del gráfico se encuentran entre los límites de control se considera que el proceso está controlado, es decir se cree que el proceso opera de un modo estable si refleja solo una variación aleatoria natural. Una “señal” fuera de control aparece cuando un punto cae fuera de estos límites, lo cual se atribuye a una causa asignable y entonces comienza la búsqueda de tales causas. Los límites de control están diseñados para que un proceso dentro de control genere pocas falsas alarmas, mientras que un proceso fuera de control dará lugar a un punto fuera de los límites. Desde el punto de vista de las pruebas de hipótesis, existe cierta analogía ya que aquí la hipótesis nula puede plantearse como “el proceso esta en control”. Cuando un proceso en control produce un punto fuera de control, ha ocurrido un error de tipo I. Por otra parte resulta un error de tipo II cuando un proceso fuera de control produce un punto dentro de los límites de control. La selección apropiada del tamaño muestral y los límites de control (correspondientes a la región de rechazo y aceptación) logrará que las probabilidades asociadas sean pequeñas. Gráficos de control para “localización” del proceso. Un uso importante de los gráficos de control es saber si alguna medida de posición de la distribución de una variable aleatoria observada X permanece estable en el tiempo. El gráfico más utilizado para

este propósito es el gráfico X .


Página 58

1. Gráfico X basado en valores conocido de los parámetros Debido a la incertidumbre sobre el valor de la variable en cuestión, se representa con X, y se supone que para un proceso “dentro de control”, X tiene una distribución normal con media μ y desviación

estándar σ . Entonces, si X simboliza la media muestral para una muestra aleatoria de tamaño n seleccionada en un punto particular en el tiempo, se sabe que:

E( X )=μ b)n

XV2σ

)( c) X tiene distribución normal.

Se deduce entonces que:

)()( 3Z3P3X3P Xx σμσμ =0.9974,

donde Z es una variable normal estándar. Por lo tanto es muy probable que para un proceso dentro de control la media muestral caiga dentro de 3 desviaciones estándar de la media del proceso. Supongamos que los valores de μ y σ son conocidos y que en cada punto del tiempo 1, 2, 3 , …, hay una muestra de tamaño n y se representa con ,...,,, 321 xxx los valores de las respectivas medias

muestrales. Se obtiene un gráfico de X al trazar las medias ix en el tiempo, es decir trazar los puntos

)...,(),(),,( 321 x3x2x1 y así sucesivamente y después dibujar líneas horizontales en:

LIC = Límite inferior de control = n

3σ

μ .

LSC = Límite superior de control = n

3σ

μ .

Este gráfico recibe el nombre de gráfico 3 sigmas. Cualquier punto fuera de los límites de control sugiere que el proceso está fuera de control en ese momento, de modo que lo más adecuado sería iniciar una investigación sobre las causas asignables. Ejemplo: Una vez al día se eligen al azar tres especímenes de aceites comestibles del proceso de producción y cada uno se analiza para determinar su viscosidad. La tabla 1, corresponde a un período de 25 días de observación. La experiencia sugiere que cuando un proceso está controlado, la viscosidad sigue una distribución normal con media 10.5 y desviación estándar de 0.18. Por lo tanto, el desvío

muestral es 10403180nσσ x ././ , y los límites de control de 3 desviaciones estándar son:

LIC = n

3σ

μ =10.5-3*0.104=10.188 LSC = n

3σ

μ =10.5+3*0.104=10.812

Tabla 1

Elementos Promedios Rangos Desvíos

Muestra 1 2 3 2.00 2.00

1 10.37 10.19 10.36 10.31 0.18 0.10

2 10.48 10.24 10.58 10.43 0.34 0.17

3 10.77 10.22 10.54 10.51 0.55 0.28

4 10.47 10.26 10.31 10.35 0.21 0.11

5 10.84 10.75 10.53 10.71 0.31 0.16

6 10.48 10.75 10.50 10.58 0.27 0.15

7 10.41 10.52 10.46 10.46 0.11 0.06

8 10.40 10.52 10.46 10.46 0.12 0.06


Página 59

9 10.33 10.35 10.49 10.39 0.16 0.09

10 10.73 10.45 10.3 10.49 0.43 0.22

11 10.41 10.68 10.25 10.45 0.43 0.22

12 10 10.6 10.71 10.44 0.71 0.38

13 10.37 10.5 10.34 10.40 0.16 0.09

14 10.47 10.6 10.75 10.61 0.28 0.14

15 10.46 10.46 10.56 10.49 0.10 0.06

16 10.44 10.68 10.32 10.48 0.36 0.18

17 10.65 10.42 10.26 10.44 0.39 0.20

18 10.73 10.72 10.83 10.76 0.11 0.06

19 10.39 10.75 10.27 10.47 0.48 0.25

20 10.59 10.23 10.35 10.39 0.36 0.18

21 10.47 10.67 10.64 10.59 0.20 0.11

22 10.4 10.55 10.38 10.44 0.17 0.09

23 10.24 10.71 10.27 10.41 0.47 0.26

24 10.37 10.69 10.4 10.49 0.32 0.18

25 10.46 10.35 10.37 10.39 0.11 0.06

Luego el gráfico X para los datos observados es:

Gráfico x

Todos los puntos del gráfico caen dentro de los límites de control, lo que indica un comportamiento estable de la media del proceso.

2. Gráficos X basados en parámetros desconocidos (estimados) En la práctica es común no conocer los valores de los parámetros, en ese caso es necesario estimarlos a partir de las muestras. Antes de determinar los límites de control. En general se considera conveniente trabajar con k muestras de tamaño n cada una, los valores típicos de n son 3, 4, 5 o 6 y se recomienda que k sea por lo menos 20. Supongamos entonces que se reunieron k muestras de tamaño n durante un período cuando el proceso estaba en control.


Página 60

Sean como antes ,...,,, 321 xxx las medias muestrales, la estimación usual para el promedio

poblacional es el promedio de estas medias: k

x

x

k

1ii

μ . Para estimar sigma, se utilizan en general

dos métodos. a) Estimación basada en S: Consideremos S1, S2, S3,…, Sk los desvíos muestrales para las k muestras y

sea k

S

S

k

1ii

, el promedio de estos desvíos, la cantidad naS / resulta un buen estimador del

desvío poblacional σ . El coeficiente an es una cantidad que se encuentra tabulada. A continuación mostramos algunos valores:

n 3 4 5 6 7 8

an 0.886 0.921 0.940 0.952 0.959 0.965

Por lo tanto los límites de control basados en las desviaciones estándar son:

LIC= na

S3x

n

LSC= na

S3x

n

donde k

S

Sk

x

x

k

1ii

k

1ii

,

ˆ

Ejemplo: Siguiendo con el ejemplo de viscosidad, si se estima media general y la desviación estándar por este método, resulta:

Promedio Promedio Promedio

de promedios de desvios LSC 10.77843116

10.48 0.15 LC 10.4776

LIC 10.17676884

Los límites difieren un poco de los anteriores, debido a las estimaciones, sin embargo todos los puntos siguen dentro de los límites de control obtenidos.


Página 61

Gráfico x basado en los desvios muestrales(S)

b) Estimación basada en R: Para hallar una estimación basada en los rangos, se utiliza la relación que

dice que:

R =r ango(X1, …, Xn) = max(X1, …, Xn) - min(X1, …, Xn)

),...,(),..,(),...,(),...,( n1n1n1n1 ZZminZZmax

XXmin

XXmax

σσ

μ

σ

μ

σ

μ

σ

μσR

donde las Zi son variables aleatorias normales estándares independientes. Puede deducirse entonces que si bn es el valor esperado (o promedio) del rango de una muestral normal estándar de tamaño n, R/bn es un buen estimador (insesgado) del desvío σ . Los valores de bn también se hallan tabulados y se presentan algunos a continuación:

n 3 4 5 6 7 8

bn 1.693 2.058 2.325 2.536 2.706 2.844

Luego, los límites de control basados en los rangos muestrales son:

LIC= nb

r3x

n

LSC= nb

r3x

n

donde k

R

rk

x

x

k

1ii

k

1ii

,

ˆ

, los Ri son los k rangos muestrales individuales.

Para el mismo ejemplo que estábamos trabajando:

Promedio Promedios de

de promedios rangos

10.48 0.29

Rango

LSC 10.77809544

LC 10.48

LIC 10.17710456


Página 62

Gráfico x basado en los rangos muestrales (R)

Se observa que los límites de control son exactamente los mismos que con la estimación anterior, por lo tanto las conclusiones son las mismas. Características de los gráficos de control: Se ha supuesto que los datos empleados para estimar μ y σ se obtuvieron de un proceso dentro

de control. Sin embargo, supongamos que un punto del gráfico cae fuera de los límites de control. Entonces si se puede encontrar y verificar una causa asignable se recomienda recalcular los límites de control sin ese punto. De manera análoga, si otro punto cae fuera de estos nuevos límites repetir la operación de eliminarlo y volver a calcular los límites.

En general un gráfico de control será eficiente si da muy pocas señales fuera de control cuando el proceso esta en control, pero muestra un punto fuera de los límites de control tan pronto como el proceso se sale de control. En este sentido es eficiente, una evaluación de la eficiencia de este gráfico se basa en la “probabilidad de error.

Gráficos de control para “variación” (dispersión) del proceso. También es importante que el proceso se encuentre en control respecto a la variación. De hecho, la mayoría de los expertos recomiendan establecer control sobre la variación antes de construir gráficos de X o cualquiera de localización. Los gráficos de control para la dispersión se basan principalmente en los desvíos muestrales y el rango muestral. 1- Gráfico S Nuevamente suponemos que se tiene k muestras de tamaño n, seleccionadas de forma independiente y que la variable de interés tiene distribución normal. Sean Si las desviaciones estándares y sea

k

S

S

k

1ii

. Los valores de Si se trazan en un gráfico S. La línea central corresponde a S y los límites de

3 sigmas deben determinarse, calculando el desvío que tienen los desvíos muestrales Sσ . Las

estimaciones propuestas generan los siguientes límites de control:


Página 63

LIC= n

2n

a

a1S3S

LSC=

n

2n

a

a1S3S

La expresión de LIC será negativa si n 5, en cuyo caso se considera LIC=0. Los valores an son equivalentes a los anteriores. Ejemplo: En la siguiente tabla se presenta observaciones sobre la resistencia al esfuerzo de las cáscaras de huevo (fuerza en psi, necesaria para romperla). Hay 22 muestras de tamaño 4 cada una.

Nro. Muestra Observaciones Desvios Rango

1 29.7 29 28.8 30.2 0.6449 1.4 2 32.2 29.3 32.2 32.9 1.6010 3.6

3 35.9 29.1 32.1 31.3 2.8331 6.8

4 28.8 27.2 28.5 35.7 3.8301 8.5

5 30.9 32.6 28.3 28.3 2.1093 4.3

6 30.6 34.3 34.8 26.3 3.9404 8.5

7 32.3 27.7 30.9 27.8 2.2955 4.6

8 32 27.9 31 30.8 1.7633 4.1

9 24.2 27.5 28.5 31.1 2.8535 6.9

10 33.7 24.4 34.3 31 4.5332 9.9

11 35.3 33.2 31.4 28 3.0923 7.3

12 28.1 34 31 30.8 2.4116 5.9

13 28.7 28.9 25.8 29.7 1.7056 3.9

14 29 33 30.2 30.1 1.7056 4

15 33.5 32.6 33.6 29.2 2.0662 4.4

16 26.9 27.3 32.1 28.5 2.3664 5.2

17 30.4 29.6 31 33.8 1.8257 4.2

18 29 28.9 31.8 26.7 2.0897 5.1

19 33.8 30.9 31.7 28.2 2.3159 5.6

20 29.7 27.9 29.1 30.1 0.9592 2.2

21 27.9 27.7 30.2 32.9 2.4309 5.2

22 30 31.4 27.7 28.1 1.7224 3.7

Se tiene que 322S1051S i .. , de manera que el centro del gráfico esta en 2.32 (aunque el

LIC=0, por lo que la línea de centro no está realmente en el centro del gráfico). a4=0.921, entonces,


Página 64

LSC=2.32+3.2.32( 265921092101 2 ../).( ,

Gráfico S

2- Gráficos R

Consideremos como antes Ri los rangos de las k muestras de tamaño n y R , el promedio de estos

rangos. La línea central del gráfico R esta a la altura de R . La determinación de los límites de control requiere que se estime el desvío de los rangos Rσ , que se obtienen utilizando las mismas técnicas que

para el gráfico de X basado en R. En esta estimación aparece una nueva constante que mejora el estadístico y se conoce como cn , algunos valores de estas constantes se presentan en la próxima tabla:

n 3 4 5 6 7 8

cn 0.888 0.880 0.864 0.848 0.833 0.820

Finalmente los límites de control para el gráfico R son:

LIC= n

n b

RcR 3- LSC=

n

n b

RcR 3+

La expresión de LIC será negativa si n 6, en cuyo caso se considera LIC=0.

Ejemplo: Para los datos anteriores, ∑ 24.5=,3.115= RyRi , Como n=4, b4=2.058 y c4= 0.88, luego

el límite superior de control es: LSC=5.24+3.0.88*5.24/2.058=11.96. Y el gráfico para R es:


Página 65

Gráfico R

Gráficos de control para atributos El término atributo se utiliza en literatura sobre control de calidad para describir dos situaciones: 1) Cada pieza producida es defectuosa o no defectuosa (cumple las especificaciones o no) 2) Una sola pieza puede tener uno o más defectos y el número de estos están determinados. En el primer caso un gráfico de control se basa en la distribución Binomial, en el segundo en la distribución Poisson. 1- Gráfico p para proporción de defectos Supongamos que cuando un proceso esta en control la probabilidad de que una pieza tenga un defecto es p y que las piezas son independientes entres sí, con respecto a sus condiciones. Consideramos una muestra de n piezas obtenidas en un tiempo particular, y sea X el número de piezas defectuosas y

./ˆ nXp Como X tiene distribución Binomial, E(X)=np y V(X)=npq, por lo cual,

n

p1ppVppE

)()ˆ(,)ˆ(

.

a) En el caso de que p sea conocida o fijada a priori, los límites de control serán entonces:

LIC = n

p1p3p

)( , LSC =

n

p1p3p

)( .

Si cada muestra tiene n piezas, el número de piezas defectuosas de la i-ésima muestra es xi, y

nxp ii /ˆ , es la proporción de defectuosas de esa muestra, entonces se trazan ,...,ˆ,ˆ 21 pp en el

gráfico de control p.

b) Si p no se conoce debe estimarse de los datos, sea entonces k

p

p

k

1ii

ˆ

, el promedio de las

proporciones de defectuosas en las k muestras, p estima la proporción de defectuosas en la

población, luego los límites de control serán:


Página 66

LIC = n

p1p3p

)( , LSC =

n

p1p3p

)( .

SI LIC es negativo, se sustituye por 0 2- Gráfico c para proporción de defectos Ahora consideremos situaciones donde la observación en cada punto en el tiempo es el número de defectos en una unidad. La unidad puede ser una sola pieza (por ejemplo, una lata de pescado) o un grupo de piezas (por ejemplo, defectos en un conjunto de latas). En el segundo caso se supone que el tamaño del grupo es el mismo en cada punto del tiempo. El gráfico de control para el número de piezas defectuosas está basado en la distribución Poisson. Recordamos que si Y es una variable Poisson con parámetro λ , E(Y)= λ =V(Y). Dado que la suma de variables Poisson es otra variables Poisson en ambas situaciones se tiene esta distribución. Luego, a) si el parámetro λ es conocido los límites de control serán:

LIC = λ3λ LSC = λ3λ Con xi igual al número total de defectos en la i-ésima muestra se trazan puntos con alturas x1, x2, …, en el gráfico. c) si λ no es conocido debe estimarse de los datos. Como E(Xi)= λ , es natural utilizar xλ . La

gráfica c para el número de defectos en una unidad tiene su línea central a la altura de x y los límites son:

LIC = xx 3 LSC = xx 3 Si LIC es negativo, se sustituye por 0.

[2016] Principios de Estadística - Inicio · población y las principales formas de resumir la...

Documents

Transcript of [2016] Principios de Estadística - Inicio · población y las principales formas de resumir la...