Lab1 estadistica

download Lab1 estadistica

of 10

Transcript of Lab1 estadistica

  • 7/26/2019 Lab1 estadistica

    1/10

    Laboratorio 1

    Simulacion Estadstica

    Modelos probabilisticos y pruebas de bondad de ajuste

    Julian Quintero (1325088)Katherin Quinonez (1325863)

    Julian Tutlacha (1325510)

    Junio 6 del 2016

  • 7/26/2019 Lab1 estadistica

    2/10

    Indice

    1. Revision bibliografica sobre la aplicacion de un modelo probabilstico 31.1. El muestreo en problemas de comparacion forense . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2. Explicacion del problema y el experimento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2. Ajustar una probabilidad a un fenomeno real 42.1. INTRODUCCION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2. DESCRIPCION DE LA DISTRIBUCION DE PROBABILIDAD . . . . . . . . . . . . . . . . . . . . 42.3. PRUEBA DE BONDAD DE AJUSTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4. METODOLOGIA DEL EXPERIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.5. RESULTADOS OBTENIDOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6. Conclusiones obtenidas de los resultados observados . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.7. Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.8. Codigo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    Indice de figuras

    1. Plantilla Encuesta Salon 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82. Histograma de las proporciones obtenidas a partir de Bootstrap . . . . . . . . . . . . . . . . . . . . . 8

    Indice de tablas

    1. Relacion salones vs cantidad de fumadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62. Prueba Bondad de Ajuste Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

  • 7/26/2019 Lab1 estadistica

    3/10

    Modelos de probabilidad y prueba de bondad de ajuste

    1. Revision bibliografica sobre la aplicacion de un modelo probabilsti-

    co

    1.1. El muestreo en problemas de comparacion forense

    En el artculo que encontramos (el muestreo en problemas de comparacion forense) podemos evidenciar eluso de la distribucion hipergeometrica como modelo probabilstico para la comparacion de fragmentos de vidrioen investigaciones forenses, en este estudio se quiere mostrar como la utilizacion del muestreo puede facilitar lainvestigacion en cuestiones tanto de tiempo como economicamente, una caracterstica significativa de la distribucionhipergeometrica es que se basa en conjuntos o subconjuntos de una poblacion y esta caracterstica nos sirve de granayuda para el fin de este estudio. Es claro para el investigador que debe obtener conclusiones representativas sobreun grupo pequeno de elementos (fragmentos de vidrio) y con este modelo probabilstico puede lograr excelentesresultados.

    1.2. Explicacion del problema y el experimento

    Como un ejemplo de un problema de comparacion forense consideramos evidencia a partir de fragmentos de vi-drio aunque tales problemas surgen con la evidencia derivada de muchos otros materiales. Cuando un vaso de vidriose quiebra deja muchos fragmentos en la zona donde este cae en una escena de un crimen, ahora si encontramospersonas con fragmentos de este vaso de vidrio, el trabajo sera calcular la probabilidad de que esa persona tenga esosfragmentos por coincidencia o si realmente estaba en la escena del crimen, tambien sera de suma importancia sabercual es el origen de esos fragmentos para poder deliberan sobre la persona sospechosa, para eso debemos conocer lapoblacion y el parametro asociado a ella con respecto a las muestras de fragmentos que el investigador recoge, de-bemos saber su distribucion a priori y la distribucion Beta nos ayuda a encontrarla dichos parametros. Se asume que

    N = el numero total de fragmentos recuperados del sospechoso. M = el numero de busqueda de fragmentos entotal. Por lo tanto hay N-M fragmentos no coincidentes. M s olo puede ser determinada mediante el examen detodos los fragmentos N. M puede ser considerada como la Prueba. n = el numero de fragmentos que se muestreasin sustitucion de la N recuperado fragmentos. m = el numero de fragmentos en la sub-muestra de n que partido.

    Ahora se explicara de manera mas detallada como se encontraron las distribuciones a priori para la poblaci onde los parametros y se calcularon probabilidades de coincidencia o no, para cada persona que obtuvo fragmentos

    de vidrio. Si se elige una muestra n de fragmentos del total de fragmentos N, la probabilidad de que m de estosfragmentos coincide con el control esta dada por la distribucion hipergeometrica, es decir,

    P r(m|n,M,N) =

    Mn

    NMnm

    Nn

    La cuestion de interes real es cual es la probabilidad que hay que coinciden M fragmentos recuperados de N

    total dado que me encontre m fragmentos que coinciden en mi muestra de n? Deseamos encontrarP r(M|m,n,N).

    Se quiere cuantificar la incertidumbre acerca de M en funci on de un parametro teta, la verdadera pero desco-nocida proporcion de fragmentos coincidentes en cualquier conjunto similar de fragmentos recuperados. De hecho,

    la accion esperada valor de la relacion M / N es teta, es decir, E[M/N] =teta, donde E[x]es el valor esperado deX.

    En el analisis de las pruebas de vidrio, teta podra cambiar bajo las hipotesis en competencia de (el sospecho-so estaba en contacto con la escena del crimen) o (El sospechoso No estaba en contacto con la escena del crimen).Con el fin de modelar cada situacion, es necesario para seleccionar una distribucion para teta que refleja los hechosbajo cada hipotesis. Si no hay nada conocido, podemos poner una distribucion a priori no informativa en teta, esdecir, teta se distribuye de manera uniforme entre 0 y 1. De hecho esto es un problema que fue considerado porprimera vez por el reverendo Bayes En el caso de contacto se podra tener en cuenta la distribucion del numero delos grupos de vidrio que se encuentran en las personas conocidas por estar asociadas de un delito. Bajo el supuestode que el evento Contacto ha tenido lugar la probabilidad a priori de teta y debe corresponder a esta distribuci on,

    Simulacion Estadstica 3

  • 7/26/2019 Lab1 estadistica

    4/10

    Modelos de probabilidad y prueba de bondad de ajuste

    siendo el supuesto de que una mayor proporcion de fragmentos de vidrio vendra de una sola fuente. Bajo el supuestode ?no contacto?, la probabilidad a priori de teta puede corresponder a la distribucion del numero de grupos decristal en las personas no asociadas con el crimen. Es decir, si el sospechoso tiene el vidrio en su ropa, entonces esmas probable que provienen de una variedad de fuentes, en lugar de una fuente concentrada.

    La eleccion de estas distribuciones previas se modela mediante la seleccion los parametros de una distribucionbeta. Es decir, si una variable aleatoria tiene una distribucion Beta con parametros alpha y beta, entonces la mediade dicha variable aleatoria es

    +

    . Este hecho es util porque si usted tiene una estimacion previa sobre la proporcion,digamos p, entonces eligiendo alpha=P y beta=1-P, la distribucion Beta tendra una media de P.

    Resultado

    P r(M|m,n,N) =

    Mm

    NMnm

    NN

    Beta(M+ , N M+ )

    Nn

    nm

    Beta(m + , n m + )

    Donde Beta (a, b) es la funcion beta estandar.

    1.3. Conclusiones

    con base en lo anteriormente planteado se puede responder alas preguntas que se furmaloron con mayor fiabilidad.Esta funcion dice que la probabilidad de que hay M fragmentos que responden a la muestra de control de un total deN fragmentos recuperados depende de la probabilidad de m fragmentos a juego en nuestra muestra n de fragmentos

    y probabilidad de que los datos tienen en cuenta que hay fragmentos M que coinciden y la hip otesis de H = Contactoo H = no Contacto

    2. Ajustar una probabilidad a un fenomeno real

    2.1. INTRODUCCION

    Los modelos de probabilidad nos permiten tener un acercamiento a problemas y/o situaciones reales, de lascuales podemos mediante diferentes tecnicas modelarlos y saber que comportamiento tienen los datos del problema.En nuestra caso, escogimos conocer la incidencia de los estudiantes fumadores dentro de la facultad de Ingenieriade la Universidad del Valle. Es necesario entender que la universidad es proclamada un espacio libre de humo, ynecesitamos identificar como y de que manera afecta la proporcion de fumadores a la universidad.

    El estudio se realizo el da miercoles (Junio 01 del 2016, en las instalaciones de la Universidad del Valle, graciasa que contamos con la informacion de registro academico acerca de los salones asignados para la Facultad de Inge-nieria en el Periodo Febrero-Julio de 2016, decidimos hacer muestreo por conglomerados, es decir, coincidimos enque la cantidad de fumadores, no iba a ser afectada por el salon que se escogiera.El muestreo por conglomerados trata de identificar una caracterstica que permita dividir la poblacion en gruposdisjuntos, de tal manera que los grupos no difieran entre s en relacion a la cantidad de fumadores. Despues de esto,escogimos algunos de los conglomerados para ser estudiados(salones).Seguidamente decidimos hacer un muestreo bietapico, es decir decidimos encuestar a todos los alumnos que estabanen cada uno de los 10 salones, escogiendo un n=24 para cada uno de los 10 salones, contando con un total de 240estudiantes encuestados.

    2.2. DESCRIPCION DE LA DISTRIBUCION DE PROBABILIDAD

    Inicialmente podramos imaginarnos que la distribucion de la cual proviene la variable aleatoria X= Estudiantesde la Facultad de Ingenieria que fuman, tiende a una distribucion Bernoulli(p), pero como necesitamos encontrar laproporcion de la muestra extraida de estudiantes de la Facultad de Ingenieria se convierte en una suma de variablesaleatorias independientes identicamente distribuidas Bernoulli(p) es decir en una distribucion Binomial(n,p). Ladistribucion Binomial contiene las siguientes caracteristicas:1. En cada prueba del experimento solo son posibles dos resultados: exito y fracaso.2.La probabilidad de exito es constante, es decir, que no vara de una prueba a otra. Se representa por p.X=0 El estudiante de la Facultad de Ingeniera no fuma.X=1 El estudiante de la Facultad de Ingeniera si fuma.3.La probabilidad de fracaso tambien es constante, Se representa por q, donde q = 1 ? p.

    Simulacion Estadstica 4

  • 7/26/2019 Lab1 estadistica

    5/10

    Modelos de probabilidad y prueba de bondad de ajuste

    4.El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.5.La variable aleatoria binomial, X, expresa el numero de exitos obtenidos en las n pruebas. Por tanto, los valoresque puede tomar X son: 0, 1, 2, 3, 4, ..., n.

    2.3. PRUEBA DE BONDAD DE AJUSTE

    Ya que el problema escogido corresponde a una distribucion discreta decidimos descartar la prueba de bondadde ajuste de Kolmogorov-Smirnov para contrastar la distribucion, puesto que esta prueba tiene mayor contundenciaen distribuciones continuas. Hemos escogido la prueba de bondad chi-cuadrado que me permite interactuar entre lafrecuencia observada y la frecuencia esperada de los datos.

    Debemos en primera instancia, encontrar un estimador UMVUE(Estimador de Minima Varianza)para el para-metro p, lo encontramos mediante el metodo de maaxima verosimilitud:

    fx =

    n

    x

    Px(1 P)nx

    Aplicando productoria

    L(x;p) = P

    xi

    (1 P)n

    xi

    ni=1

    n

    x

    Sucesivamente aplicando Ln a la funcion L(x;p)

    ln(L(x;p) =

    xiln(p) + n

    xiln(1p) + ln(

    ni=1

    n

    x

    )

    Encontrando la derivada parcial del parametro p respecto a la funcion Ln(L(x;p)

    xp

    =

    xi

    p

    n

    xi

    (1p) = 0xi(1p)p(n

    xi) = 0

    xip

    xi np +p

    xi = 0

    xi= np

    p=

    xi

    n

    Donde p es la proporcion de los estudiantes fumadores encontrados en la Facultad de Ingeniera.En el programaestadistico R, procedemos a hallar pdandonos como resultado

    p= 0.15Procediendo a hacer la prueba de bondad de ajuste Chi-Cuadrado, seguiremos los siguientes pasos:

    PASO 1 Formulacion de Hipotesis:

    H0 = Los datos provienen de una distribucion binomial

    H1 = Los datos no provienen de una distribucion binomial

    PASO 2 Obtencion del estadstico:

    Para encontrar los valores esperados de x debemos utilizar la formula de la distribucion binomial

    Simulacion Estadstica 5

  • 7/26/2019 Lab1 estadistica

    6/10

    Modelos de probabilidad y prueba de bondad de ajuste

    nx

    pxqn x

    Donde n es igual a la muestra de cada uno de los salones escogidos por conglomerado, es decir 24 y los para-metros p y q son las probabilidades asociadas a la cantidad de fumadores.

    24xpxq24 x

    Tabla 1: Relacion salones vs cantidad de fumadoresCantidad de Fumadores Cantidad de Salones

    0 01 22 03 44 25 06 0

    7 2Total 10

    Para la distribucion de frecuencias observadas para la media es

    = np

    = 2(1)+3(4)+4(2)+7(2)10 = 3610 = 3.6

    Asi pues, despejando P

    p= n

    = 3.624 = 0.15 coincidiendo con el parametro estimado a partir de R.

    Procedemos a usar la siguiente formula que nos permite identificar los valores esperados.

    x2calc =Nx=1

    (Fo Fe)2

    Fe

    Tabla 2: Prueba Bondad de Ajuste Chi-Cuadrado

    N.de Fumadores P (Fumadores) Fe Fo (FoFe)2

    Fe

    0 0.0202 0.202 0 0.2021 0.0857 0.857 2 1.52682 0.1740 1.74 0 1.743 0.2251 2.25 4 1.36114 0.2085 2.085 2 0.00345 0.1472 1.472 0 1.4726 0.0822 0.822 0 0.8227 0.0373 0.373 2 7.0961

    x2calc 14.2242

    Simulacion Estadstica 6

  • 7/26/2019 Lab1 estadistica

    7/10

    Modelos de probabilidad y prueba de bondad de ajuste

    PASO 3 Obtencion del estadstico en la tabla:

    Debemos establecer los grados de libertad(K-m-1)

    K= Categorias M=Parametros estimados = 0.01

    X2811,0.01 = 16.8118

    PASO 4 Regi on de rechazo: Si X2obs. X2crit. Se rechazaH0

    Como 14.22 es menor que 16.81, con un = 0.01 podemos decir que los datos siguen en buena medida la dis-tribucion binomial.

    2.4. METODOLOGIA DEL EXPERIMENTO

    Para la realizacion de este experimento tuvimos en cuenta los siguientes pasos:

    1. Creacion de plantilla la cual albergara todos los datos.

    2. Escogimos la Universidad del Valle sede Melendez para la realizacion de encuestas

    3. El programa de mejoramiento continuo de la Facultad de Ingenieria, nos proporciono la base de datos de loscursos que son dictados el periodo Febrero-Julio de 2016.

    4. Escogimos aleatoriamente 10 salones de la facultad de ingenieria, en el cual encuestamos todos sus interan-

    tes y escogimos aleatoriamente 24 de cada uno, contando al final con un total de 240 encuestados.

    5. Finalmente, despues de diligenciada la plantilla, comenzamos a hacer los calculos correspondientes para la esti-macion del parametro p, la prueba de bondad de ajuste e intervalos de confianza.

    A continuacion anexamos la plantilla que se utilizo para la recoleccion de los datos

    2.5. RESULTADOS OBTENIDOS

    Segun lo anteoriormente descrito utilizamos la prueba de bondad de ajuste chi-cuadrado y con un = 0.01resulto que es plausible pensar que los datos sigan una distribucion binomial.

    En cuanto a la estimacion del parametro p, decidimos utilizar la tecnica de bootstrap(remuestreo) que basica-mente se basa en la muestra inicial que obtuvimos de 240 estudiantes de la Facultad de Ingenieria, volver a tomaruna muestra del mismo tamano 10000 veces.

    Encontramos la siguiente distribuccion Bootstrap para la proporcion de la muestra optenidaAdemas calculamos para las 10000 proporciones obtenidas 10000 intervalos de confianza y hallamos la proporcion

    de estos que contienen el parametro estimado que es 0.15Encontramos que de los 10000 intervalos generados el 91.13 contienen el valor 0.15

    Simulacion Estadstica 7

  • 7/26/2019 Lab1 estadistica

    8/10

    Modelos de probabilidad y prueba de bondad de ajuste

    Figura 1: Plantilla Encuesta Salon 9

    Histograma de las proporciones arrojadas por Bootstrap

    P

    Frecuencia

    0.10 0.15 0.20 0.25

    0

    500

    1000

    150

    0

    2000

    Figura 2: Histograma de las proporciones obtenidas a partir de Bootstrap

    2.6. Conclusiones obtenidas de los resultados observados

    La tecnica de boostrap resulta ser una herramienta eficaz a la hora de necesitar ajustar nuestros datos a unadistribucion.El bootstrap usa la informacion de la muestra para estimar, mediante remuestreo de los propios datos,propiedades de los estimadores estadsticos y as poder realizar tareas tales como crear un IC o realizar un test dehipotesis.

    El estudio realizado en la facultad de ingenieria nos permite vislumbrar que resulta una proporcion peque nade

    Simulacion Estadstica 8

  • 7/26/2019 Lab1 estadistica

    9/10

    Modelos de probabilidad y prueba de bondad de ajuste

    lo estudiantes que fuman, puesto que esta alrededor de un 15Podemos darnos cuenta que en su mayoria existe una tendencia del genero masculino como fumadores en la

    muestra obtenida de la Facultad de Ingenieria, y por supuesto de la Universidad del Valle.Es importante tener una buena herramienta de muestreo para reducir la posible falta de validez interna, es decir

    representatividad que se logra desde el campo de la aleatoriedad en la escogencia de los datos. En nuestro estudio noimportaba de que programa fuesen los estudiantes, pues esta variable no era considerada como una posible afectaciona la variable de cantidad de fumadores, es por esto que pudimos utilizar el muestreo por conglomerados,la variablede estudio era la suma de Estudaintes fumadores dentro de la facultad.

    2.7. Bibliografia

    http://www.tqmp.org/RegularArticles/vol04-2

    Introduction to the theory of statistics-third edition-Alexander M. Mood, Franklin A. Graybill, Duane C. Boes

    Sampling in forensic comparison problems-JM CURRAN. CM TRIGGS- http://www.jstor.org

    https://carlosmarquez.files.wordpress.com/2012/02/prueba-de-bondad-de-ajuste.pdf

    http://www.netquest.com/blog/es/muestreo-probabilistico-muestreo-conglomerados/

    2.8. Codigo

    datos

  • 7/26/2019 Lab1 estadistica

    10/10

    Modelos de probabilidad y prueba de bondad de ajuste

    summary(datos)

    Simulacion Estadstica 10