Apuntes de Estadistica

23
Pág. 1 Estadística I UNIDAD: DISTRIBUCIONES Distribución normal (ó campana de Gauss-Laplace) Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal. No obstante, y aunque algunos autores han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento. El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. La simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando los datos no sean normales, podremos o bien transformarlos o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos). A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística. En la sección 1.1.3 se describirán los métodos habituales para contrastar la hipótesis de normalidad. Propiedades de la distribución normal: La distribución normal posee ciertas propiedades importantes que conviene destacar: I. Tiene una única moda, que coincide con su media y su mediana. II. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre - y + es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1. III. Es simétrica con respecto a su media μ. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor. IV. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica (σ). Cuanto mayor sea σ, más aplanada será la curva de la densidad. V. El área bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo (μ-1.96σ, µ+1.96σ). VI. La forma de la campana de Gauss depende de los parámetros µ y σ (Figura 2). La media indica la posición de la campana, de modo que para diferentes valores de μ la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro

Transcript of Apuntes de Estadistica

Page 1: Apuntes de Estadistica

Paacuteg 1

Estadiacutestica I

UNIDAD DISTRIBUCIONES Distribucioacuten normal (oacute campana de Gauss-Laplace) Una de las distribuciones teoacutericas mejor estudiadas en los textos de bioestadiacutestica y maacutes utilizada en la praacutectica es la distribucioacuten normal tambieacuten llamada distribucioacuten gaussiana Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenoacutemenos naturales y cotidianos siguen aproximadamente esta distribucioacuten Caracteres morfoloacutegicos (como la talla o el peso) o psicoloacutegicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribucioacuten normal No obstante y aunque algunos autores han sentildealado que el comportamiento de muchos paraacutemetros en el campo de la salud puede ser descrito mediante una distribucioacuten normal puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento El uso extendido de la distribucioacuten normal en las aplicaciones estadiacutesticas puede explicarse ademaacutes por otras razones Muchos de los procedimientos estadiacutesticos habitualmente utilizados asumen la normalidad de los datos observados Aunque muchas de estas teacutecnicas no son demasiado sensibles a desviaciones de la normal y en general esta hipoacutetesis puede obviarse cuando se dispone de un nuacutemero suficiente de datos resulta recomendable contrastar siempre si se puede asumir o no una distribucioacuten normal La simple exploracioacuten visual de los datos puede sugerir la forma de su distribucioacuten No obstante existen otras medidas graacuteficos de normalidad y contrastes de hipoacutetesis que pueden ayudarnos a decidir de un modo maacutes riguroso si la muestra de la que se dispone procede o no de una distribucioacuten normal Cuando los datos no sean normales podremos o bien transformarlos o emplear otros meacutetodos estadiacutesticos que no exijan este tipo de restricciones (los llamados meacutetodos no parameacutetricos) A continuacioacuten se describiraacute la distribucioacuten normal su ecuacioacuten matemaacutetica y sus propiedades maacutes relevantes proporcionando alguacuten ejemplo sobre sus aplicaciones a la inferencia estadiacutestica En la seccioacuten 113 se describiraacuten los meacutetodos habituales para contrastar la hipoacutetesis de normalidad Propiedades de la distribucioacuten normal La distribucioacuten normal posee ciertas propiedades importantes que conviene destacar

I Tiene una uacutenica moda que coincide con su media y su mediana

II La curva normal es asintoacutetica al eje de abscisas Por ello cualquier valor entre - y + es teoacutericamente posible El aacuterea total bajo la curva es por tanto igual a 1

III Es simeacutetrica con respecto a su media micro Seguacuten esto para este tipo de variables existe una probabilidad de un 50 de observar un dato mayor que la media y un 50 de observar un dato menor

IV La distancia entre la liacutenea trazada en la media y el punto de inflexioacuten de la curva es igual a una desviacioacuten tiacutepica (σ) Cuanto mayor sea σ maacutes aplanada seraacute la curva de la densidad

V El aacuterea bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones estaacutendar de la media es igual a 095 En concreto existe un 95 de posibilidades de observar un valor comprendido en el intervalo (micro-196σ micro+196σ)

VI La forma de la campana de Gauss depende de los paraacutemetros micro y σ (Figura 2) La media indica la posicioacuten de la campana de modo que para diferentes valores de micro la graacutefica es desplazada a lo largo del eje horizontal Por otra parte la desviacioacuten estaacutendar determina el grado de apuntamiento de la curva Cuanto mayor sea el valor de σ maacutes se dispersaraacuten los datos en torno a la media y la curva seraacute maacutes plana Un valor pequentildeo de este paraacutemetro

Paacuteg 2

indica por tanto una gran probabilidad de obtener datos cercanos al valor medio de la distribucioacuten

Figura 2 Ejemplos de distribuciones normales con diferentes paraacutemetros

Como se deduce de este uacuteltimo apartado no existe una uacutenica distribucioacuten normal sino una familia de distribuciones con una forma comuacuten diferenciadas por los valores de su media y su varianza De entre todas ellas la maacutes utilizada es la distribucioacuten normal estaacutendar que corresponde a una distribucioacuten de media 0 y varianza 1 Asiacute la expresioacuten que define su densidad se puede obtener de la Ecuacioacuten 1 resultando

Es importante conocer que a partir de cualquier variable X que siga una distribucioacuten N (microσ) se puede obtener otra caracteriacutestica Z con una distribucioacuten normal estaacutendar sin maacutes que efectuar la transformacioacuten

Ecuacioacuten 2

Esta propiedad resulta especialmente interesante en la praacutectica ya que para una distribucioacuten N (01) existen tablas publicadas a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z y que permitiraacuten resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribucioacuten aproximadamente normal Consideremos por ejemplo el siguiente problema supongamos que se sabe que el peso de los sujetos de una determinada poblacioacuten sigue una distribucioacuten aproximadamente normal con una

Paacuteg 3

media de 80 Kg y una desviacioacuten estaacutendar de 10 Kg iquestPodremos saber cuaacutel es la probabilidad de que una persona elegida al azar tenga un peso superior a 100 Kg Denotando por X a la variable que representa el peso de los individuos en esa poblacioacuten eacutesta

sigue una distribucioacuten Si su distribucioacuten fuese la de una normal estaacutendar podriacuteamos utilizar la tabla para calcular la probabilidad que nos interesa Como eacuteste no es el caso resultaraacute entonces uacutetil transformar esta caracteriacutestica seguacuten la Ecuacioacuten 2 y obtener la variable

Para poder utilizar dicha tabla Asiacute la probabilidad que se desea calcular seraacute

Como el aacuterea total bajo la curva es igual a 1 se puede deducir que

Esta uacuteltima probabilidad puede ser faacutecilmente obtenida a partir de la Tabla resultando ser

Por lo tanto la probabilidad buscada de que una persona elegida aleatoriamente de esa poblacioacuten tenga un peso mayor de 100 Kg es de 1ndash09772=00228 es decir aproximadamente de un 23

De modo anaacutelogo podemos obtener la probabilidad de que el peso de un sujeto esteacute entre 60 y 100 Kg

De la Figura 2 tomando a =-2 y b =2 podemos deducir que

Por el ejemplo previo se sabe que Para la segunda probabilidad sin embargo encontramos el problema de que las tablas estaacutendar no proporcionan el valor de

para valores negativos de la variable Sin embargo haciendo uso de la simetriacutea de la distribucioacuten normal se tiene que

Finalmente la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg es de 09772-00228=09544 es decir aproximadamente de un 95 Resulta interesante comprobar que se obtendriacutea la misma conclusioacuten recurriendo a la propiedad (iii) de la distribucioacuten normal No obstante es faacutecil observar que este tipo de situaciones no corresponde a lo que habitualmente

nos encontramos en la praacutectica Generalmente no se dispone de informacioacuten acerca de la distribucioacuten teoacuterica de la poblacioacuten sino que maacutes bien el problema se plantea a la inversa a partir

de una muestra extraiacuteda al azar de la poblacioacuten que se desea estudiar se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la poblacioacuten de origen En un ejemplo

similar al anterior supongamos que se dispone del peso de n =100 individuos de esa misma

Paacuteg 4

poblacioacuten obtenieacutendose una media muestral de Kg y una desviacioacuten estaacutendar muestral S=12 Kg querriacuteamos extraer alguna conclusioacuten acerca del valor medio real de ese peso en la

poblacioacuten original La solucioacuten a este tipo de cuestiones se basa en un resultado elemental de la teoriacutea estadiacutestica el llamado teorema central del liacutemite Dicho axioma viene a decirnos que las

medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribucioacuten normal

con igual media que la de la poblacioacuten y desviacioacuten estaacutendar la de la poblacioacuten dividida por

En nuestro caso podremos entonces considerar la media muestral con lo cual a partir de la propiedad (iii) se conoce que aproximadamente un 95 de los posibles valores

de caeriacutean dentro del intervalo Puesto que los valores de micro y σ son desconocidos podriacuteamos pensar en aproximarlos por sus anaacutelogos muestrales resultando

Estaremos por lo tanto un 95 seguros de que el peso medio real en la poblacioacuten de origen oscila entre 756 Kg y 803 Kg Aunque la teoriacutea estadiacutestica subyacente es mucho maacutes compleja en liacuteneas generales eacuteste es el modo de construir un intervalo de confianza para la media de una poblacioacuten

Teorema de la combinacioacuten lineal de variaciones normales y chi-cuadrada Terorema de Chebshev este teorema da una estimacioacuten conservadora de la probabilidad de que una variable aleatoria tome un valor dentro de k dentro de k desviaciones estaacutendar de su media para cualquier nuacutemero real k Proporcionaremos solo la demostracioacuten para caso continuo La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones

estaacutendar de la media es al menos 1- 21k

Es decir

2

11

kkuXkuP

Distribuciones muestrales En esta seccioacuten estudiaremos las distribuciones maacutes importantes de variables aleatorias

continuas unidimensionales El soporte de una variable aleatoria continua se define como aquella

regioacuten de donde su densidad es no nula 0xf Para las distribuciones que enunciaremos

podraacute ser bien todo o bien un segmento de la forma ba

Distribuciones normales

La distribucioacuten gaussiana recibe tambieacuten el nombre de distribucioacuten normal ya que una gran mayoriacutea de las variables aleatorias continuas de la naturaleza siguen esta distribucioacuten Se dice que una variable aleatoria X sigue una distribucioacuten normal de paraacutemetros micro y σ2 lo que representamos del modo

Si su funcioacuten de densidad es

Paacuteg 5

Observacioacuten

Estos dos paraacutemetros micro y σ2coinciden ademaacutes con la media (esperanza) y la varianza respectivamente de la distribucioacuten como se demostraraacute maacutes adelante

La forma de la funcioacuten de densidad es la llamada campana de Gauss

Figura Campana de Gauss o funcioacuten de densidad de una variable aleatoria de distribucioacuten normal El aacuterea contenida entre la graacutefica y el eje de abcisas vale 1

Para el lector es un ejercicio interesante comprobar que eacutesta alcanza un uacutenico maacuteximo

(moda) en micro que es simeacutetrica con respecto al mismo y por tanto

Con lo cual en micro coinciden la media la mediana y la moda y por uacuteltimo calcular sus

puntos de inflexioacuten

El soporte de la distribucioacuten es todo de modo que la mayor parte de la masa de probabilidad (aacuterea comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media y las ramas de la curva se extienden asintoacuteticamente a los ejes de modo que cualquier valor ``muy alejado de la media es posible (aunque poco probable)

La forma de la campana de Gauss depende de los paraacutemetros micro y σ

micro indica la posicioacuten de la campana (paraacutemetro de centralizacioacuten)

Paacuteg 6

Figura Distribuciones gaussianas con diferentes medias e igual dispersioacuten

σ2 (o equivalentemente σ) seraacute el paraacutemetro de dispersioacuten Cuanto menor sea

mayor cantidad de masa de probabilidad habraacute concentrada alrededor de la media (grafo de f muy apuntado cerca de micro) y cuanto mayor sea ``maacutes aplastado seraacute

Figura Distribuciones gaussianas con igual media pero varianza diferente

La funcioacuten caracteriacutestica de la distribucioacuten normal se comprueba maacutes adelante que es

Paacuteg 7

Como consecuencia la distribucioacuten normal es reproductiva con respecto a los paraacutemetros micro y σ2 ya que

Observacioacuten Como se ha mencionado anteriormente la ley de probabilidad gaussiana la encontramos

en la mayoriacutea de los fenoacutemenos que observamos en la naturaleza por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella Sin embargo a pesar de su utilidad hay que apuntar un hecho negativo para esta ley de probabilidad

La funcioacuten 2xe no posee primitiva conocida

Las consecuencias desde el punto de vista praacutectico son importantes ya que eso impide el que podamos escribir de modo sencillo la funcioacuten de distribucioacuten de la normal y nos tenemos que limitar a decir que

Sin poder hacer uso de ninguna expresioacuten que la simplifique Afortunadamente esto no

impide que para un valor de x fijo F(x) pueda ser calculado De hecho puede ser calculado con tanta precisioacuten (decimales) como se quiera pero para esto se necesita usar teacutecnicas de caacutelculo numeacuterico y ordenadores Para la utilizacioacuten en problemas praacutecticos de la funcioacuten de distribucioacuten F existen ciertas tablas donde se ofrecen (con varios decimales de precisioacuten) los valores F(x) para una serie limitada de valores xi dados Normalmente F se encuentra tabulada para una distribucioacuten Z normal de media 0 y varianza 1 que se denomina distribucioacuten normal tipificada

En el caso de que tengamos una distribucioacuten diferente se obtiene Z haciendo el siguiente cambio

De manera general se tiene Proposicioacuten (Cambio de origen y escala)

Paacuteg 8

Sean Entonces

Este resultado puede ser utilizado del siguiente modo Si y nos interesa

calcular

1 Hacemos el cambio y calculamos

2 Usamos la tabla relativa a la distribucioacuten para obtener (de modo aproximado)

3 Como tenemos que el valor obtenido en la tabla FZ(z) es la probabilidad buscada

1111 Ejemplo

Supongamos que cierto fenoacutemeno pueda ser representado mediante una variable

aleatoria y queremos calcular la probabilidad de que X tome un valor entre 39 y

48 es decir

Comenzamos haciendo el cambio de variable

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 2: Apuntes de Estadistica

Paacuteg 2

indica por tanto una gran probabilidad de obtener datos cercanos al valor medio de la distribucioacuten

Figura 2 Ejemplos de distribuciones normales con diferentes paraacutemetros

Como se deduce de este uacuteltimo apartado no existe una uacutenica distribucioacuten normal sino una familia de distribuciones con una forma comuacuten diferenciadas por los valores de su media y su varianza De entre todas ellas la maacutes utilizada es la distribucioacuten normal estaacutendar que corresponde a una distribucioacuten de media 0 y varianza 1 Asiacute la expresioacuten que define su densidad se puede obtener de la Ecuacioacuten 1 resultando

Es importante conocer que a partir de cualquier variable X que siga una distribucioacuten N (microσ) se puede obtener otra caracteriacutestica Z con una distribucioacuten normal estaacutendar sin maacutes que efectuar la transformacioacuten

Ecuacioacuten 2

Esta propiedad resulta especialmente interesante en la praacutectica ya que para una distribucioacuten N (01) existen tablas publicadas a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z y que permitiraacuten resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribucioacuten aproximadamente normal Consideremos por ejemplo el siguiente problema supongamos que se sabe que el peso de los sujetos de una determinada poblacioacuten sigue una distribucioacuten aproximadamente normal con una

Paacuteg 3

media de 80 Kg y una desviacioacuten estaacutendar de 10 Kg iquestPodremos saber cuaacutel es la probabilidad de que una persona elegida al azar tenga un peso superior a 100 Kg Denotando por X a la variable que representa el peso de los individuos en esa poblacioacuten eacutesta

sigue una distribucioacuten Si su distribucioacuten fuese la de una normal estaacutendar podriacuteamos utilizar la tabla para calcular la probabilidad que nos interesa Como eacuteste no es el caso resultaraacute entonces uacutetil transformar esta caracteriacutestica seguacuten la Ecuacioacuten 2 y obtener la variable

Para poder utilizar dicha tabla Asiacute la probabilidad que se desea calcular seraacute

Como el aacuterea total bajo la curva es igual a 1 se puede deducir que

Esta uacuteltima probabilidad puede ser faacutecilmente obtenida a partir de la Tabla resultando ser

Por lo tanto la probabilidad buscada de que una persona elegida aleatoriamente de esa poblacioacuten tenga un peso mayor de 100 Kg es de 1ndash09772=00228 es decir aproximadamente de un 23

De modo anaacutelogo podemos obtener la probabilidad de que el peso de un sujeto esteacute entre 60 y 100 Kg

De la Figura 2 tomando a =-2 y b =2 podemos deducir que

Por el ejemplo previo se sabe que Para la segunda probabilidad sin embargo encontramos el problema de que las tablas estaacutendar no proporcionan el valor de

para valores negativos de la variable Sin embargo haciendo uso de la simetriacutea de la distribucioacuten normal se tiene que

Finalmente la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg es de 09772-00228=09544 es decir aproximadamente de un 95 Resulta interesante comprobar que se obtendriacutea la misma conclusioacuten recurriendo a la propiedad (iii) de la distribucioacuten normal No obstante es faacutecil observar que este tipo de situaciones no corresponde a lo que habitualmente

nos encontramos en la praacutectica Generalmente no se dispone de informacioacuten acerca de la distribucioacuten teoacuterica de la poblacioacuten sino que maacutes bien el problema se plantea a la inversa a partir

de una muestra extraiacuteda al azar de la poblacioacuten que se desea estudiar se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la poblacioacuten de origen En un ejemplo

similar al anterior supongamos que se dispone del peso de n =100 individuos de esa misma

Paacuteg 4

poblacioacuten obtenieacutendose una media muestral de Kg y una desviacioacuten estaacutendar muestral S=12 Kg querriacuteamos extraer alguna conclusioacuten acerca del valor medio real de ese peso en la

poblacioacuten original La solucioacuten a este tipo de cuestiones se basa en un resultado elemental de la teoriacutea estadiacutestica el llamado teorema central del liacutemite Dicho axioma viene a decirnos que las

medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribucioacuten normal

con igual media que la de la poblacioacuten y desviacioacuten estaacutendar la de la poblacioacuten dividida por

En nuestro caso podremos entonces considerar la media muestral con lo cual a partir de la propiedad (iii) se conoce que aproximadamente un 95 de los posibles valores

de caeriacutean dentro del intervalo Puesto que los valores de micro y σ son desconocidos podriacuteamos pensar en aproximarlos por sus anaacutelogos muestrales resultando

Estaremos por lo tanto un 95 seguros de que el peso medio real en la poblacioacuten de origen oscila entre 756 Kg y 803 Kg Aunque la teoriacutea estadiacutestica subyacente es mucho maacutes compleja en liacuteneas generales eacuteste es el modo de construir un intervalo de confianza para la media de una poblacioacuten

Teorema de la combinacioacuten lineal de variaciones normales y chi-cuadrada Terorema de Chebshev este teorema da una estimacioacuten conservadora de la probabilidad de que una variable aleatoria tome un valor dentro de k dentro de k desviaciones estaacutendar de su media para cualquier nuacutemero real k Proporcionaremos solo la demostracioacuten para caso continuo La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones

estaacutendar de la media es al menos 1- 21k

Es decir

2

11

kkuXkuP

Distribuciones muestrales En esta seccioacuten estudiaremos las distribuciones maacutes importantes de variables aleatorias

continuas unidimensionales El soporte de una variable aleatoria continua se define como aquella

regioacuten de donde su densidad es no nula 0xf Para las distribuciones que enunciaremos

podraacute ser bien todo o bien un segmento de la forma ba

Distribuciones normales

La distribucioacuten gaussiana recibe tambieacuten el nombre de distribucioacuten normal ya que una gran mayoriacutea de las variables aleatorias continuas de la naturaleza siguen esta distribucioacuten Se dice que una variable aleatoria X sigue una distribucioacuten normal de paraacutemetros micro y σ2 lo que representamos del modo

Si su funcioacuten de densidad es

Paacuteg 5

Observacioacuten

Estos dos paraacutemetros micro y σ2coinciden ademaacutes con la media (esperanza) y la varianza respectivamente de la distribucioacuten como se demostraraacute maacutes adelante

La forma de la funcioacuten de densidad es la llamada campana de Gauss

Figura Campana de Gauss o funcioacuten de densidad de una variable aleatoria de distribucioacuten normal El aacuterea contenida entre la graacutefica y el eje de abcisas vale 1

Para el lector es un ejercicio interesante comprobar que eacutesta alcanza un uacutenico maacuteximo

(moda) en micro que es simeacutetrica con respecto al mismo y por tanto

Con lo cual en micro coinciden la media la mediana y la moda y por uacuteltimo calcular sus

puntos de inflexioacuten

El soporte de la distribucioacuten es todo de modo que la mayor parte de la masa de probabilidad (aacuterea comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media y las ramas de la curva se extienden asintoacuteticamente a los ejes de modo que cualquier valor ``muy alejado de la media es posible (aunque poco probable)

La forma de la campana de Gauss depende de los paraacutemetros micro y σ

micro indica la posicioacuten de la campana (paraacutemetro de centralizacioacuten)

Paacuteg 6

Figura Distribuciones gaussianas con diferentes medias e igual dispersioacuten

σ2 (o equivalentemente σ) seraacute el paraacutemetro de dispersioacuten Cuanto menor sea

mayor cantidad de masa de probabilidad habraacute concentrada alrededor de la media (grafo de f muy apuntado cerca de micro) y cuanto mayor sea ``maacutes aplastado seraacute

Figura Distribuciones gaussianas con igual media pero varianza diferente

La funcioacuten caracteriacutestica de la distribucioacuten normal se comprueba maacutes adelante que es

Paacuteg 7

Como consecuencia la distribucioacuten normal es reproductiva con respecto a los paraacutemetros micro y σ2 ya que

Observacioacuten Como se ha mencionado anteriormente la ley de probabilidad gaussiana la encontramos

en la mayoriacutea de los fenoacutemenos que observamos en la naturaleza por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella Sin embargo a pesar de su utilidad hay que apuntar un hecho negativo para esta ley de probabilidad

La funcioacuten 2xe no posee primitiva conocida

Las consecuencias desde el punto de vista praacutectico son importantes ya que eso impide el que podamos escribir de modo sencillo la funcioacuten de distribucioacuten de la normal y nos tenemos que limitar a decir que

Sin poder hacer uso de ninguna expresioacuten que la simplifique Afortunadamente esto no

impide que para un valor de x fijo F(x) pueda ser calculado De hecho puede ser calculado con tanta precisioacuten (decimales) como se quiera pero para esto se necesita usar teacutecnicas de caacutelculo numeacuterico y ordenadores Para la utilizacioacuten en problemas praacutecticos de la funcioacuten de distribucioacuten F existen ciertas tablas donde se ofrecen (con varios decimales de precisioacuten) los valores F(x) para una serie limitada de valores xi dados Normalmente F se encuentra tabulada para una distribucioacuten Z normal de media 0 y varianza 1 que se denomina distribucioacuten normal tipificada

En el caso de que tengamos una distribucioacuten diferente se obtiene Z haciendo el siguiente cambio

De manera general se tiene Proposicioacuten (Cambio de origen y escala)

Paacuteg 8

Sean Entonces

Este resultado puede ser utilizado del siguiente modo Si y nos interesa

calcular

1 Hacemos el cambio y calculamos

2 Usamos la tabla relativa a la distribucioacuten para obtener (de modo aproximado)

3 Como tenemos que el valor obtenido en la tabla FZ(z) es la probabilidad buscada

1111 Ejemplo

Supongamos que cierto fenoacutemeno pueda ser representado mediante una variable

aleatoria y queremos calcular la probabilidad de que X tome un valor entre 39 y

48 es decir

Comenzamos haciendo el cambio de variable

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 3: Apuntes de Estadistica

Paacuteg 3

media de 80 Kg y una desviacioacuten estaacutendar de 10 Kg iquestPodremos saber cuaacutel es la probabilidad de que una persona elegida al azar tenga un peso superior a 100 Kg Denotando por X a la variable que representa el peso de los individuos en esa poblacioacuten eacutesta

sigue una distribucioacuten Si su distribucioacuten fuese la de una normal estaacutendar podriacuteamos utilizar la tabla para calcular la probabilidad que nos interesa Como eacuteste no es el caso resultaraacute entonces uacutetil transformar esta caracteriacutestica seguacuten la Ecuacioacuten 2 y obtener la variable

Para poder utilizar dicha tabla Asiacute la probabilidad que se desea calcular seraacute

Como el aacuterea total bajo la curva es igual a 1 se puede deducir que

Esta uacuteltima probabilidad puede ser faacutecilmente obtenida a partir de la Tabla resultando ser

Por lo tanto la probabilidad buscada de que una persona elegida aleatoriamente de esa poblacioacuten tenga un peso mayor de 100 Kg es de 1ndash09772=00228 es decir aproximadamente de un 23

De modo anaacutelogo podemos obtener la probabilidad de que el peso de un sujeto esteacute entre 60 y 100 Kg

De la Figura 2 tomando a =-2 y b =2 podemos deducir que

Por el ejemplo previo se sabe que Para la segunda probabilidad sin embargo encontramos el problema de que las tablas estaacutendar no proporcionan el valor de

para valores negativos de la variable Sin embargo haciendo uso de la simetriacutea de la distribucioacuten normal se tiene que

Finalmente la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg es de 09772-00228=09544 es decir aproximadamente de un 95 Resulta interesante comprobar que se obtendriacutea la misma conclusioacuten recurriendo a la propiedad (iii) de la distribucioacuten normal No obstante es faacutecil observar que este tipo de situaciones no corresponde a lo que habitualmente

nos encontramos en la praacutectica Generalmente no se dispone de informacioacuten acerca de la distribucioacuten teoacuterica de la poblacioacuten sino que maacutes bien el problema se plantea a la inversa a partir

de una muestra extraiacuteda al azar de la poblacioacuten que se desea estudiar se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la poblacioacuten de origen En un ejemplo

similar al anterior supongamos que se dispone del peso de n =100 individuos de esa misma

Paacuteg 4

poblacioacuten obtenieacutendose una media muestral de Kg y una desviacioacuten estaacutendar muestral S=12 Kg querriacuteamos extraer alguna conclusioacuten acerca del valor medio real de ese peso en la

poblacioacuten original La solucioacuten a este tipo de cuestiones se basa en un resultado elemental de la teoriacutea estadiacutestica el llamado teorema central del liacutemite Dicho axioma viene a decirnos que las

medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribucioacuten normal

con igual media que la de la poblacioacuten y desviacioacuten estaacutendar la de la poblacioacuten dividida por

En nuestro caso podremos entonces considerar la media muestral con lo cual a partir de la propiedad (iii) se conoce que aproximadamente un 95 de los posibles valores

de caeriacutean dentro del intervalo Puesto que los valores de micro y σ son desconocidos podriacuteamos pensar en aproximarlos por sus anaacutelogos muestrales resultando

Estaremos por lo tanto un 95 seguros de que el peso medio real en la poblacioacuten de origen oscila entre 756 Kg y 803 Kg Aunque la teoriacutea estadiacutestica subyacente es mucho maacutes compleja en liacuteneas generales eacuteste es el modo de construir un intervalo de confianza para la media de una poblacioacuten

Teorema de la combinacioacuten lineal de variaciones normales y chi-cuadrada Terorema de Chebshev este teorema da una estimacioacuten conservadora de la probabilidad de que una variable aleatoria tome un valor dentro de k dentro de k desviaciones estaacutendar de su media para cualquier nuacutemero real k Proporcionaremos solo la demostracioacuten para caso continuo La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones

estaacutendar de la media es al menos 1- 21k

Es decir

2

11

kkuXkuP

Distribuciones muestrales En esta seccioacuten estudiaremos las distribuciones maacutes importantes de variables aleatorias

continuas unidimensionales El soporte de una variable aleatoria continua se define como aquella

regioacuten de donde su densidad es no nula 0xf Para las distribuciones que enunciaremos

podraacute ser bien todo o bien un segmento de la forma ba

Distribuciones normales

La distribucioacuten gaussiana recibe tambieacuten el nombre de distribucioacuten normal ya que una gran mayoriacutea de las variables aleatorias continuas de la naturaleza siguen esta distribucioacuten Se dice que una variable aleatoria X sigue una distribucioacuten normal de paraacutemetros micro y σ2 lo que representamos del modo

Si su funcioacuten de densidad es

Paacuteg 5

Observacioacuten

Estos dos paraacutemetros micro y σ2coinciden ademaacutes con la media (esperanza) y la varianza respectivamente de la distribucioacuten como se demostraraacute maacutes adelante

La forma de la funcioacuten de densidad es la llamada campana de Gauss

Figura Campana de Gauss o funcioacuten de densidad de una variable aleatoria de distribucioacuten normal El aacuterea contenida entre la graacutefica y el eje de abcisas vale 1

Para el lector es un ejercicio interesante comprobar que eacutesta alcanza un uacutenico maacuteximo

(moda) en micro que es simeacutetrica con respecto al mismo y por tanto

Con lo cual en micro coinciden la media la mediana y la moda y por uacuteltimo calcular sus

puntos de inflexioacuten

El soporte de la distribucioacuten es todo de modo que la mayor parte de la masa de probabilidad (aacuterea comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media y las ramas de la curva se extienden asintoacuteticamente a los ejes de modo que cualquier valor ``muy alejado de la media es posible (aunque poco probable)

La forma de la campana de Gauss depende de los paraacutemetros micro y σ

micro indica la posicioacuten de la campana (paraacutemetro de centralizacioacuten)

Paacuteg 6

Figura Distribuciones gaussianas con diferentes medias e igual dispersioacuten

σ2 (o equivalentemente σ) seraacute el paraacutemetro de dispersioacuten Cuanto menor sea

mayor cantidad de masa de probabilidad habraacute concentrada alrededor de la media (grafo de f muy apuntado cerca de micro) y cuanto mayor sea ``maacutes aplastado seraacute

Figura Distribuciones gaussianas con igual media pero varianza diferente

La funcioacuten caracteriacutestica de la distribucioacuten normal se comprueba maacutes adelante que es

Paacuteg 7

Como consecuencia la distribucioacuten normal es reproductiva con respecto a los paraacutemetros micro y σ2 ya que

Observacioacuten Como se ha mencionado anteriormente la ley de probabilidad gaussiana la encontramos

en la mayoriacutea de los fenoacutemenos que observamos en la naturaleza por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella Sin embargo a pesar de su utilidad hay que apuntar un hecho negativo para esta ley de probabilidad

La funcioacuten 2xe no posee primitiva conocida

Las consecuencias desde el punto de vista praacutectico son importantes ya que eso impide el que podamos escribir de modo sencillo la funcioacuten de distribucioacuten de la normal y nos tenemos que limitar a decir que

Sin poder hacer uso de ninguna expresioacuten que la simplifique Afortunadamente esto no

impide que para un valor de x fijo F(x) pueda ser calculado De hecho puede ser calculado con tanta precisioacuten (decimales) como se quiera pero para esto se necesita usar teacutecnicas de caacutelculo numeacuterico y ordenadores Para la utilizacioacuten en problemas praacutecticos de la funcioacuten de distribucioacuten F existen ciertas tablas donde se ofrecen (con varios decimales de precisioacuten) los valores F(x) para una serie limitada de valores xi dados Normalmente F se encuentra tabulada para una distribucioacuten Z normal de media 0 y varianza 1 que se denomina distribucioacuten normal tipificada

En el caso de que tengamos una distribucioacuten diferente se obtiene Z haciendo el siguiente cambio

De manera general se tiene Proposicioacuten (Cambio de origen y escala)

Paacuteg 8

Sean Entonces

Este resultado puede ser utilizado del siguiente modo Si y nos interesa

calcular

1 Hacemos el cambio y calculamos

2 Usamos la tabla relativa a la distribucioacuten para obtener (de modo aproximado)

3 Como tenemos que el valor obtenido en la tabla FZ(z) es la probabilidad buscada

1111 Ejemplo

Supongamos que cierto fenoacutemeno pueda ser representado mediante una variable

aleatoria y queremos calcular la probabilidad de que X tome un valor entre 39 y

48 es decir

Comenzamos haciendo el cambio de variable

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 4: Apuntes de Estadistica

Paacuteg 4

poblacioacuten obtenieacutendose una media muestral de Kg y una desviacioacuten estaacutendar muestral S=12 Kg querriacuteamos extraer alguna conclusioacuten acerca del valor medio real de ese peso en la

poblacioacuten original La solucioacuten a este tipo de cuestiones se basa en un resultado elemental de la teoriacutea estadiacutestica el llamado teorema central del liacutemite Dicho axioma viene a decirnos que las

medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribucioacuten normal

con igual media que la de la poblacioacuten y desviacioacuten estaacutendar la de la poblacioacuten dividida por

En nuestro caso podremos entonces considerar la media muestral con lo cual a partir de la propiedad (iii) se conoce que aproximadamente un 95 de los posibles valores

de caeriacutean dentro del intervalo Puesto que los valores de micro y σ son desconocidos podriacuteamos pensar en aproximarlos por sus anaacutelogos muestrales resultando

Estaremos por lo tanto un 95 seguros de que el peso medio real en la poblacioacuten de origen oscila entre 756 Kg y 803 Kg Aunque la teoriacutea estadiacutestica subyacente es mucho maacutes compleja en liacuteneas generales eacuteste es el modo de construir un intervalo de confianza para la media de una poblacioacuten

Teorema de la combinacioacuten lineal de variaciones normales y chi-cuadrada Terorema de Chebshev este teorema da una estimacioacuten conservadora de la probabilidad de que una variable aleatoria tome un valor dentro de k dentro de k desviaciones estaacutendar de su media para cualquier nuacutemero real k Proporcionaremos solo la demostracioacuten para caso continuo La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones

estaacutendar de la media es al menos 1- 21k

Es decir

2

11

kkuXkuP

Distribuciones muestrales En esta seccioacuten estudiaremos las distribuciones maacutes importantes de variables aleatorias

continuas unidimensionales El soporte de una variable aleatoria continua se define como aquella

regioacuten de donde su densidad es no nula 0xf Para las distribuciones que enunciaremos

podraacute ser bien todo o bien un segmento de la forma ba

Distribuciones normales

La distribucioacuten gaussiana recibe tambieacuten el nombre de distribucioacuten normal ya que una gran mayoriacutea de las variables aleatorias continuas de la naturaleza siguen esta distribucioacuten Se dice que una variable aleatoria X sigue una distribucioacuten normal de paraacutemetros micro y σ2 lo que representamos del modo

Si su funcioacuten de densidad es

Paacuteg 5

Observacioacuten

Estos dos paraacutemetros micro y σ2coinciden ademaacutes con la media (esperanza) y la varianza respectivamente de la distribucioacuten como se demostraraacute maacutes adelante

La forma de la funcioacuten de densidad es la llamada campana de Gauss

Figura Campana de Gauss o funcioacuten de densidad de una variable aleatoria de distribucioacuten normal El aacuterea contenida entre la graacutefica y el eje de abcisas vale 1

Para el lector es un ejercicio interesante comprobar que eacutesta alcanza un uacutenico maacuteximo

(moda) en micro que es simeacutetrica con respecto al mismo y por tanto

Con lo cual en micro coinciden la media la mediana y la moda y por uacuteltimo calcular sus

puntos de inflexioacuten

El soporte de la distribucioacuten es todo de modo que la mayor parte de la masa de probabilidad (aacuterea comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media y las ramas de la curva se extienden asintoacuteticamente a los ejes de modo que cualquier valor ``muy alejado de la media es posible (aunque poco probable)

La forma de la campana de Gauss depende de los paraacutemetros micro y σ

micro indica la posicioacuten de la campana (paraacutemetro de centralizacioacuten)

Paacuteg 6

Figura Distribuciones gaussianas con diferentes medias e igual dispersioacuten

σ2 (o equivalentemente σ) seraacute el paraacutemetro de dispersioacuten Cuanto menor sea

mayor cantidad de masa de probabilidad habraacute concentrada alrededor de la media (grafo de f muy apuntado cerca de micro) y cuanto mayor sea ``maacutes aplastado seraacute

Figura Distribuciones gaussianas con igual media pero varianza diferente

La funcioacuten caracteriacutestica de la distribucioacuten normal se comprueba maacutes adelante que es

Paacuteg 7

Como consecuencia la distribucioacuten normal es reproductiva con respecto a los paraacutemetros micro y σ2 ya que

Observacioacuten Como se ha mencionado anteriormente la ley de probabilidad gaussiana la encontramos

en la mayoriacutea de los fenoacutemenos que observamos en la naturaleza por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella Sin embargo a pesar de su utilidad hay que apuntar un hecho negativo para esta ley de probabilidad

La funcioacuten 2xe no posee primitiva conocida

Las consecuencias desde el punto de vista praacutectico son importantes ya que eso impide el que podamos escribir de modo sencillo la funcioacuten de distribucioacuten de la normal y nos tenemos que limitar a decir que

Sin poder hacer uso de ninguna expresioacuten que la simplifique Afortunadamente esto no

impide que para un valor de x fijo F(x) pueda ser calculado De hecho puede ser calculado con tanta precisioacuten (decimales) como se quiera pero para esto se necesita usar teacutecnicas de caacutelculo numeacuterico y ordenadores Para la utilizacioacuten en problemas praacutecticos de la funcioacuten de distribucioacuten F existen ciertas tablas donde se ofrecen (con varios decimales de precisioacuten) los valores F(x) para una serie limitada de valores xi dados Normalmente F se encuentra tabulada para una distribucioacuten Z normal de media 0 y varianza 1 que se denomina distribucioacuten normal tipificada

En el caso de que tengamos una distribucioacuten diferente se obtiene Z haciendo el siguiente cambio

De manera general se tiene Proposicioacuten (Cambio de origen y escala)

Paacuteg 8

Sean Entonces

Este resultado puede ser utilizado del siguiente modo Si y nos interesa

calcular

1 Hacemos el cambio y calculamos

2 Usamos la tabla relativa a la distribucioacuten para obtener (de modo aproximado)

3 Como tenemos que el valor obtenido en la tabla FZ(z) es la probabilidad buscada

1111 Ejemplo

Supongamos que cierto fenoacutemeno pueda ser representado mediante una variable

aleatoria y queremos calcular la probabilidad de que X tome un valor entre 39 y

48 es decir

Comenzamos haciendo el cambio de variable

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 5: Apuntes de Estadistica

Paacuteg 5

Observacioacuten

Estos dos paraacutemetros micro y σ2coinciden ademaacutes con la media (esperanza) y la varianza respectivamente de la distribucioacuten como se demostraraacute maacutes adelante

La forma de la funcioacuten de densidad es la llamada campana de Gauss

Figura Campana de Gauss o funcioacuten de densidad de una variable aleatoria de distribucioacuten normal El aacuterea contenida entre la graacutefica y el eje de abcisas vale 1

Para el lector es un ejercicio interesante comprobar que eacutesta alcanza un uacutenico maacuteximo

(moda) en micro que es simeacutetrica con respecto al mismo y por tanto

Con lo cual en micro coinciden la media la mediana y la moda y por uacuteltimo calcular sus

puntos de inflexioacuten

El soporte de la distribucioacuten es todo de modo que la mayor parte de la masa de probabilidad (aacuterea comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media y las ramas de la curva se extienden asintoacuteticamente a los ejes de modo que cualquier valor ``muy alejado de la media es posible (aunque poco probable)

La forma de la campana de Gauss depende de los paraacutemetros micro y σ

micro indica la posicioacuten de la campana (paraacutemetro de centralizacioacuten)

Paacuteg 6

Figura Distribuciones gaussianas con diferentes medias e igual dispersioacuten

σ2 (o equivalentemente σ) seraacute el paraacutemetro de dispersioacuten Cuanto menor sea

mayor cantidad de masa de probabilidad habraacute concentrada alrededor de la media (grafo de f muy apuntado cerca de micro) y cuanto mayor sea ``maacutes aplastado seraacute

Figura Distribuciones gaussianas con igual media pero varianza diferente

La funcioacuten caracteriacutestica de la distribucioacuten normal se comprueba maacutes adelante que es

Paacuteg 7

Como consecuencia la distribucioacuten normal es reproductiva con respecto a los paraacutemetros micro y σ2 ya que

Observacioacuten Como se ha mencionado anteriormente la ley de probabilidad gaussiana la encontramos

en la mayoriacutea de los fenoacutemenos que observamos en la naturaleza por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella Sin embargo a pesar de su utilidad hay que apuntar un hecho negativo para esta ley de probabilidad

La funcioacuten 2xe no posee primitiva conocida

Las consecuencias desde el punto de vista praacutectico son importantes ya que eso impide el que podamos escribir de modo sencillo la funcioacuten de distribucioacuten de la normal y nos tenemos que limitar a decir que

Sin poder hacer uso de ninguna expresioacuten que la simplifique Afortunadamente esto no

impide que para un valor de x fijo F(x) pueda ser calculado De hecho puede ser calculado con tanta precisioacuten (decimales) como se quiera pero para esto se necesita usar teacutecnicas de caacutelculo numeacuterico y ordenadores Para la utilizacioacuten en problemas praacutecticos de la funcioacuten de distribucioacuten F existen ciertas tablas donde se ofrecen (con varios decimales de precisioacuten) los valores F(x) para una serie limitada de valores xi dados Normalmente F se encuentra tabulada para una distribucioacuten Z normal de media 0 y varianza 1 que se denomina distribucioacuten normal tipificada

En el caso de que tengamos una distribucioacuten diferente se obtiene Z haciendo el siguiente cambio

De manera general se tiene Proposicioacuten (Cambio de origen y escala)

Paacuteg 8

Sean Entonces

Este resultado puede ser utilizado del siguiente modo Si y nos interesa

calcular

1 Hacemos el cambio y calculamos

2 Usamos la tabla relativa a la distribucioacuten para obtener (de modo aproximado)

3 Como tenemos que el valor obtenido en la tabla FZ(z) es la probabilidad buscada

1111 Ejemplo

Supongamos que cierto fenoacutemeno pueda ser representado mediante una variable

aleatoria y queremos calcular la probabilidad de que X tome un valor entre 39 y

48 es decir

Comenzamos haciendo el cambio de variable

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 6: Apuntes de Estadistica

Paacuteg 6

Figura Distribuciones gaussianas con diferentes medias e igual dispersioacuten

σ2 (o equivalentemente σ) seraacute el paraacutemetro de dispersioacuten Cuanto menor sea

mayor cantidad de masa de probabilidad habraacute concentrada alrededor de la media (grafo de f muy apuntado cerca de micro) y cuanto mayor sea ``maacutes aplastado seraacute

Figura Distribuciones gaussianas con igual media pero varianza diferente

La funcioacuten caracteriacutestica de la distribucioacuten normal se comprueba maacutes adelante que es

Paacuteg 7

Como consecuencia la distribucioacuten normal es reproductiva con respecto a los paraacutemetros micro y σ2 ya que

Observacioacuten Como se ha mencionado anteriormente la ley de probabilidad gaussiana la encontramos

en la mayoriacutea de los fenoacutemenos que observamos en la naturaleza por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella Sin embargo a pesar de su utilidad hay que apuntar un hecho negativo para esta ley de probabilidad

La funcioacuten 2xe no posee primitiva conocida

Las consecuencias desde el punto de vista praacutectico son importantes ya que eso impide el que podamos escribir de modo sencillo la funcioacuten de distribucioacuten de la normal y nos tenemos que limitar a decir que

Sin poder hacer uso de ninguna expresioacuten que la simplifique Afortunadamente esto no

impide que para un valor de x fijo F(x) pueda ser calculado De hecho puede ser calculado con tanta precisioacuten (decimales) como se quiera pero para esto se necesita usar teacutecnicas de caacutelculo numeacuterico y ordenadores Para la utilizacioacuten en problemas praacutecticos de la funcioacuten de distribucioacuten F existen ciertas tablas donde se ofrecen (con varios decimales de precisioacuten) los valores F(x) para una serie limitada de valores xi dados Normalmente F se encuentra tabulada para una distribucioacuten Z normal de media 0 y varianza 1 que se denomina distribucioacuten normal tipificada

En el caso de que tengamos una distribucioacuten diferente se obtiene Z haciendo el siguiente cambio

De manera general se tiene Proposicioacuten (Cambio de origen y escala)

Paacuteg 8

Sean Entonces

Este resultado puede ser utilizado del siguiente modo Si y nos interesa

calcular

1 Hacemos el cambio y calculamos

2 Usamos la tabla relativa a la distribucioacuten para obtener (de modo aproximado)

3 Como tenemos que el valor obtenido en la tabla FZ(z) es la probabilidad buscada

1111 Ejemplo

Supongamos que cierto fenoacutemeno pueda ser representado mediante una variable

aleatoria y queremos calcular la probabilidad de que X tome un valor entre 39 y

48 es decir

Comenzamos haciendo el cambio de variable

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 7: Apuntes de Estadistica

Paacuteg 7

Como consecuencia la distribucioacuten normal es reproductiva con respecto a los paraacutemetros micro y σ2 ya que

Observacioacuten Como se ha mencionado anteriormente la ley de probabilidad gaussiana la encontramos

en la mayoriacutea de los fenoacutemenos que observamos en la naturaleza por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella Sin embargo a pesar de su utilidad hay que apuntar un hecho negativo para esta ley de probabilidad

La funcioacuten 2xe no posee primitiva conocida

Las consecuencias desde el punto de vista praacutectico son importantes ya que eso impide el que podamos escribir de modo sencillo la funcioacuten de distribucioacuten de la normal y nos tenemos que limitar a decir que

Sin poder hacer uso de ninguna expresioacuten que la simplifique Afortunadamente esto no

impide que para un valor de x fijo F(x) pueda ser calculado De hecho puede ser calculado con tanta precisioacuten (decimales) como se quiera pero para esto se necesita usar teacutecnicas de caacutelculo numeacuterico y ordenadores Para la utilizacioacuten en problemas praacutecticos de la funcioacuten de distribucioacuten F existen ciertas tablas donde se ofrecen (con varios decimales de precisioacuten) los valores F(x) para una serie limitada de valores xi dados Normalmente F se encuentra tabulada para una distribucioacuten Z normal de media 0 y varianza 1 que se denomina distribucioacuten normal tipificada

En el caso de que tengamos una distribucioacuten diferente se obtiene Z haciendo el siguiente cambio

De manera general se tiene Proposicioacuten (Cambio de origen y escala)

Paacuteg 8

Sean Entonces

Este resultado puede ser utilizado del siguiente modo Si y nos interesa

calcular

1 Hacemos el cambio y calculamos

2 Usamos la tabla relativa a la distribucioacuten para obtener (de modo aproximado)

3 Como tenemos que el valor obtenido en la tabla FZ(z) es la probabilidad buscada

1111 Ejemplo

Supongamos que cierto fenoacutemeno pueda ser representado mediante una variable

aleatoria y queremos calcular la probabilidad de que X tome un valor entre 39 y

48 es decir

Comenzamos haciendo el cambio de variable

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 8: Apuntes de Estadistica

Paacuteg 8

Sean Entonces

Este resultado puede ser utilizado del siguiente modo Si y nos interesa

calcular

1 Hacemos el cambio y calculamos

2 Usamos la tabla relativa a la distribucioacuten para obtener (de modo aproximado)

3 Como tenemos que el valor obtenido en la tabla FZ(z) es la probabilidad buscada

1111 Ejemplo

Supongamos que cierto fenoacutemeno pueda ser representado mediante una variable

aleatoria y queremos calcular la probabilidad de que X tome un valor entre 39 y

48 es decir

Comenzamos haciendo el cambio de variable

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 9: Apuntes de Estadistica

Paacuteg 9

De modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente

Proposicioacuten

Sea Entonces

Demostracioacuten Por ser la normal una ley de probabilidad se tiene que

Es decir esa integral es constante Con lo cual derivando la expresioacuten anterior con respecto a micro se obtiene el valor 0

Luego

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 10: Apuntes de Estadistica

Paacuteg 10

Para demostrar la igualdad entre la var[X] y σ2 basta con aplicar la misma teacutecnica pero esta vez derivando con respecto a σ2

Luego

Para demostrar el resultado relativo a la funcioacuten caracteriacutestica consideramos en primer

lugar la variable aleatoria tipificada de X

Y calculamos

Como deducimos que

112 Distribucioacuten Chi-Cuadrada (X2)

Si consideramos una va la va X=Z2 se distribuye seguacuten una ley de

probabilidad distribucioacuten x2 con un grado de libertad lo que se representa como

Si tenemos n va independientes la suma de sus cuadrados respectivos es una distribucioacuten que denominaremos ley de distribucioacuten x2con n grados de libertad x2

n

La media y varianza de esta variable son respectivamente

Y su funcioacuten de densidad es

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 11: Apuntes de Estadistica

Paacuteg 11

Los percentiles de esta distribucioacuten que aparecen con maacutes frecuencia en la praacutectica los podemos encontrar en la tabla

Figura Funcioacuten de densidad de x2n para valores pequentildeos de n

Figura Funcioacuten de densidad de x2

n para valores grandes de n

En consecuencia si tenemos x1hellipxn va independientes donde cada se tiene

Observacioacuten

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 12: Apuntes de Estadistica

Paacuteg 12

La ley de distribucioacuten x2 muestra su importancia cuando queremos determinar la variabilidad (sin

signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal Como ilustracioacuten tenemos el siguiente ejemplo

Ejemplo Un instrumento para medir el nivel de glucemia en sangre ofrece resultados bastantes aproximados con la realidad aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviacioacuten tiacutepica

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo

de n=100 pacientes Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes Podemos plantear varias estrategias para medir los errores acumulados Entre ellas destacamos las siguientes

1 Definimos el error acumulado en las mediciones de todos los pacientes como

iquestCuaacutel es el valor esperado para E1

2 Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas)

iquestCuaacutel es el valor esperado para E2

A la vista de los resultados cuaacutel de las dos cantidades E1 y E2 le parece maacutes conveniente utilizar en una estimacioacuten del error cometido por un instrumento

Solucioacuten Suponiendo que todas las mediciones son independientes se tiene que

De este modo el valor esperado para E1 es 0 es decir que los errores ei van a tender a compensarse entre unos pacientes y otros Obseacutervese que si micro no fuese conocido a priori podriacuteamos utilizar E1 para obtener una aproximacioacuten de micro

Sin embargo el resultado E1 no nos indica en queacute medida hay mayor o menor dispersioacuten

en los errores con respecto al 0 En cuanto a E2 podemos afirmar lo siguiente

En este caso los errores no se compensan entre siacute y si no fuese conocido podriacutea ser ``estimado de modo aproximado mediante

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 13: Apuntes de Estadistica

Paacuteg 13

Sin embargo no obtenemos ninguna informacioacuten con respecto a micro

En conclusioacuten E1 podriacutea ser utilizado para calcular de modo aproximado micro y E2 para

calcular de modo aproximado Las dos cantidades tienen intereacutes y ninguna lo tiene maacutes que la otra pues ambas formas de medir el error nos aportan informacioacuten

El siguiente resultado seraacute de importancia maacutes adelante Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una va con distribucioacuten x con los de un estadiacutestico como la varianza

Teorema (Cochran)

Sean va independientes Entonces

Distribucioacuten de Student

La distribucioacuten -Student se construye como un cociente entre una normal y la raiacutez de una x2

independientes De modo preciso llamamos distribucioacuten t-Student con n grados de libertad tn a la de una va T

Donde Este tipo de distribuciones aparece cuando tenemos n+1 va independientes

y nos interesa la distribucioacuten de

La funcioacuten de densidad de es

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 14: Apuntes de Estadistica

Paacuteg 14

Figura Funcioacuten de densidad de una de Student

La distribucioacuten t de Student tiene propiedades parecidas a N(01) Es de media cero y simeacutetrica con respecto a la misma Es algo maacutes dispersa que la normal pero la varianza decrece hasta 1 cuando el nuacutemero de

grados de libertad aumenta

Figura Comparacioacuten entre las funciones de densidad de t1 y N(01)

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 15: Apuntes de Estadistica

Paacuteg 15

Para un nuacutemero alto de grados de libertad se puede aproximar la distribucioacuten de Student por la normal es decir

Figura Cuando aumentan los grados de libertad la distribucioacuten de Student se aproxima a la distribucioacuten normal tipificada

Para calcular

En lugar de considerar una primitiva de esa funcioacuten y determinar la integral definida

buscaremos el resultado aproximado en una tabla de la distribucioacuten tn Veacutease la tabla al final del libro

La distribucioacuten de Snedecor Otra de las distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones x2independientes Sean e va independientes Decimos entonces que la variable

Sigue una distribucioacuten de probabilidad de Snedecor con (nm) grados de libertad Obseacutervese que

La forma maacutes habitual en que nos encontraremos esta distribucioacuten seraacute en el caso en que

tengamos n+m va independientes

Y asiacute

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 16: Apuntes de Estadistica

Paacuteg 16

De esta ley de probabilidad lo que maacutes nos interesa es su funcioacuten de distribucioacuten

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 17: Apuntes de Estadistica

Paacuteg 17

y para ello como en todas las distribuciones asociadas a la normal disponemos de una tabla donde encontrar aproximaciones a esas cantidades

Figura Funcioacuten de densidad de

Es claro que la distribucioacuten de Snedecor no es simeacutetrica pues soacutelo tienen densidad de

probabilidad distinta de cero los punto de Otra propiedad interesante de la distribucioacuten de Snedecor es

12 Aproximacioacuten a la normal de la ley binomial

Se puede demostrar (teorema central del liacutemite) que una variable aleatoria discreta con

distribucioacuten binomial se puede aproximar mediante una distribucioacuten normal si n es suficientemente grande y p no estaacute ni muy proacuteximo a 0 ni a 1 Como el valor esperado y la varianza

de X son respectivamente np y npq la aproximacioacuten consiste en decir que El convenio que se suele utilizar para poder realizar esta aproximacioacuten es

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un

valor muy grande o 21 qp Como ilustracioacuten obseacutervense las figuras siguientes

Figura Comparacioacuten entre la funcioacuten de densidad de una variable aleatoria continua con distribucioacuten N(npnpq) y el diagrama de barras de una variable aleatoria discreta de distribucioacuten B(np) para casos en que la aproximacioacuten normal de la binomial es vaacutelida Es peor esta aproximacioacuten

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 18: Apuntes de Estadistica

Paacuteg 18

cuando p estaacute proacuteximo a los bordes del intervalo [01]

Figura La misma comparacioacuten que en la figura anterior pero

realizada con paraacutemetros con los que damos la aproximacioacuten normal de la binomial es mejor

Ejemplo

Durante cierta epidemia de gripe enferma el 30 de la poblacioacuten En un aula con 200 estudiantes de Medicina iquestcuaacutel es la probabilidad de que al menos 40 padezcan la enfermedad Calcular la probabilidad de que haya 60 estudiantes con gripe

Solucioacuten La variable aleatoria que contabiliza el nuacutemero de alumnos que padece la gripe es

Cuya media es micro =np=60 y su varianza es σ2=npq=42 Realizar los caacutelculos con la ley

binomial es muy engorroso ya que intervienen nuacutemeros combinatorios de gran tamantildeo y

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 19: Apuntes de Estadistica

Paacuteg 19

potencias muy elevadas Por ello utilizamos la aproximacioacuten normal de X teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable

Asiacute aproximando la variable aleatoria discreta binomial X mediante la variable aleatoria

continua normal XN tenemos

Tambieacuten es necesario calcular P[X]=60 Esta probabilidad se calcula exactamente como

Dada la dificultad numeacuterica para calcular esa cantidad y como la distribucioacuten binomial no

estaacute habitualmente tabulada hasta valores tan altos vamos a utilizar su aproximacioacuten normal XN Pero hay que prestar atencioacuten al hecho de que XN es una variable aleatoria continua y por tanto la probabilidad de cualquier punto es cero En particular

Lo que ha de ser interpretado como un error de aproximacioacuten Hay meacutetodos maacutes

aproximados para calcular la probabilidad buscada Por ejemplo podemos aproximar P[X]=60 por el valor de la funcioacuten de densidad de XN en ese punto (es en el uacutenico sentido en que se puede entender la funcioacuten de densidad de la normal como una aproximacioacuten de una probabilidad) Asiacute

Por uacuteltimo otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60

del que deseamos hallar su probabilidad y hacer

Ejemplo

Seguacuten un estudio la altura de los varones de cierta ciudad es una va X que podemos considerar que se distribuye seguacuten una ley gaussiana de valor esperado micro =175 cm y desviacioacuten

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 20: Apuntes de Estadistica

Paacuteg 20

tiacutepica σ=10 cm Dar un intervalo para el que tengamos asegurado que el 50 de los habitantes de la ciudad esteacuten comprendidos en eacutel

Solucioacuten Tenemos que Si buscamos un intervalo donde estar seguros de que el 50 de los habitantes tengan sus alturas comprendidas en eacutel hay varias estrategias posibles

1 Podemos tomar el percentil 50 ya que este valor deja por debajo suya a la mitad 05 de la masa de probabilidad Este valor x05 se definiriacutea como

Donde

El valor z05 lo podemos buscar en la tabla (distribucioacuten N(01) y se obtiene

Por tanto podemos decir que la mitad de la poblacioacuten tiene una altura inferior a X05=175

cm Este resultado era de esperar ya que en la distribucioacuten es simeacutetrica y habraacute una mitad de individuos con un peso inferior a la media y otro con un peso superior Esto puede escribirse como

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo (-175)

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel Como se observa no es un tamantildeo oacuteptimo en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda)

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 21: Apuntes de Estadistica

Paacuteg 21

2 Anaacutelogamente podemos considerar el percentil 50 y tomar como intervalo aquellos pesos que lo superan Por las mismas razones que en el problema anterior podremos decir

El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [175+) 3 Los anteriores intervalos auacuten dando un resultado correcto no son satisfactorios en el

sentido de que son muy grandes y no tienen en cuenta la simetriacutea de la distribucioacuten normal para tomar un intervalo cuyo centro sea micro Vamos a utilizar entonces otra teacutecnica que nos permita calcular el intervalo centrado en la media y que ademaacutes seraacute el maacutes pequentildeo posible que contenga al 50 de la poblacioacuten

Para ello observamos que la mayor parte de probabilidad estaacute concentrada siempre alrededor de la media en las leyes gaussianas Entonces podemos tomar un intervalo que contenga un 25 de probabilidad del lado izquierdo maacutes proacuteximo a la media y un 25 del derecho

Figura Intervalo donde tenemos asegurado que el 50 de la poblacioacuten tiene un peso comprendido en eacutel En este caso el intervalo es maacutes pequentildeo que el anterior y estaacute centrado en micro

Esto se puede describir como el intervalo donde x025 es el valor que deja por debajo de siacute al 25 de la masa de probabilidad y x075 el que lo deja por encima (o lo que es lo mismo el que deja por debajo al 75 de las observaciones) Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucioacuten normal tipificando en primera instancia para destipificar despueacutes

Donde

En una tabla encontramos el valor z075 y se destipifica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 22: Apuntes de Estadistica

Paacuteg 22

Anaacutelogamente se calculariacutea

Donde Por la simetriacutea de la distribucioacuten normal con respecto al origen tenemos que z025= -

z075Luego

En conclusioacuten El 50 de la poblacioacuten tiene un peso comprendido en el intervalo [1682518175] De entre los tres intervalos que se han calculado el que tiene maacutes intereacutes es el uacuteltimo ya

que es simeacutetrico con respecto a la media y es el maacutes pequentildeo de todos los posibles (maacutes preciso) Este ejemplo es en realidad una introduccioacuten a unas teacutecnicas de inferencia estadiacutestica que trataremos posteriormente conocidas con el nombre de ``estimacioacuten confidencial o ``caacutelculo de intervalos de confianza Problemas Ejercicio 1 Para estudiar la regulacioacuten hormonal de una liacutenea metaboacutelica se inyectan ratas albinas con un faacutermaco que inhibe la siacutentesis de proteiacutenas del organismo En general 4 de cada 20 ratas mueren a causa del faacutermaco antes de que el experimento haya concluido Si se trata a 10 animales con el faacutermaco iquestcuaacutel es la probabilidad de que al menos 8 lleguen vivas al final del experimento Ejercicio 2 En una cierta poblacioacuten se ha observado un nuacutemero medio anual de muertes por caacutencer de pulmoacuten de 12 Si el nuacutemero de muertes causadas por la enfermedad sigue una distribucioacuten de Poisson iquestcuaacutel es la probabilidad de que durante el antildeo en curso 1 iquestHaya exactamente 10 muertes por caacutencer de pulmoacuten 2 iquest15 o maacutes personas mueran a causa de la enfermedad 3 iquest10 o menos personas mueran a causa de la enfermedad Ejercicio 3 Dantildeando los cromosomas del oacutevulo o del espermatozoide pueden causarse mutaciones que conducen a abortos defectos de nacimiento u otras deficiencias geneacuteticas La probabilidad de que tal mutacioacuten se produzca por radiacioacuten es del 10 De las siguientes 150 mutaciones causadas por cromosomas dantildeados iquestcuaacutentas se esperariacutea que se debiesen a radiaciones iquestCuaacutel es la probabilidad de que solamente 10 se debiesen a radiaciones Ejercicio 4 Entre los diabeacuteticos el nivel de glucosa en sangre X en ayunas puede suponerse de distribucioacuten aproximadamente normal con media 106 mg100 ml y desviacioacuten tiacutepica 8 mg100 ml es decir

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall

Page 23: Apuntes de Estadistica

Paacuteg 23

1 Hallar

2 iquestQueacute porcentaje de diabeacuteticos tienen niveles comprendidos entre 90 y 120

3 Hallar

4 Hallar

5 Hallar el punto x caracterizado por la propiedad de que el 25 de todos los diabeacuteticos tiene un nivel de glucosa en ayunas inferior o igual a x

BIBLIOGRAFIacuteA

MC ALLISTER Elementos de Estadiacutestica en la economiacutea y los negocios Primera EdicioacutenEcasa Meacutexico DF 1987

KENNETH D HPKINS BR HPKINS GENE V GLASS Estadiacutestica Baacutesica para las Ciencias Sociales y del ComportamientoTercera Edicioacuten Ed Prentice Hall Meacutexico DF 1997

P ARMITAGE G BERRY Estadiacutestica para la Investigacioacuten Biomeacutedica Doyma Barcelona 1992

MARTIacuteN ANDREacuteS JD LUNA DEL CASTILLO Bioestadiacutestica para las Ciencias de la salud Norma Meacutexico DF 1994

RD REMINGTON MA SCHORK Estadiacutestica Biomeacutetrica y Sanitaria Prentice Hall International Meacutexico DF 1979

STEEL TORRIE Bioestadiacutestica (Principios y Procedimientos) Mac Graw-Hill Meacutexico DF 1985

M TSOKOS Estadiacutestica para Psicologiacutea y Ciencias de la Salud Interamericana Mac Graw-Hill Meacutexico DF 1989

SL WEINBERG KP GOLDBERG Estadiacutestica Baacutesica para las Ciencias Sociales Nueva Editorial Interamericana Mexico 1982

BIBLIOGRAFIacuteA BAacuteSICA Y COMPLEMENTARIA

A Probabilidad y Estadiacutestica para Ingenieriacutea y AdministracioacutenHINES WILLIAM W Y DOUGLAS C MONTGOMERYED CECSA 1986

B Estadiacutestica para IngenierosBOWKER ALBERT H Y LIBERMAN GERALD J ED Prentice Hall Hispanoamericana 1981

C Mathematical StatisticsFREUND JHON E Ed Prentice Hall 2da ed 1971

D Probability and Statistics for EngineersWALPOLE RONALD E Y RAYMOND H MYERSED 2nd ed 1978 Capiacutetulo 5

E Estadiacutestica Matemaacutetica ERWING KREYSZIGED Limusa

F Estadiacutestica para AdministracioacutenWILLIAM J STEVENSON

G WALPOLE Probabilidad y Estadiacutesitica para IngenierosSexta Edicioacuten Prentice Hall