Tema 3, IQ, Tratamiento estadístico de los datos.pptx

22
Tratamiento estadístico de los datos: errores aleatorios Dr. Noé costilla Sánchez 2016-I

Transcript of Tema 3, IQ, Tratamiento estadístico de los datos.pptx

Page 1: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Tratamiento estadístico de los datos: errores aleatorios

Dr. Noé costilla Sánchez2016-I

Page 2: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Errores aleatorios• Los errores aleatorios llamados también indeterminados se

distribuyen alrededor del valor central. El error aleatorio tiene la misma probabilidad de ser positivo ó negativo. La mayor parte de los factores que contribuyen al error aleatorio no pueden identificarse con certeza. Incluso son tan pequeñas que no pueden detectarse individualmente. Sin embargo el efecto acumulativo de cada una de las incertidumbres hace que las medidas por duplicado de una serie, fluctúen al azar del valor central del conjunto.

• Si en un experimento se repite un gran número de veces, y los errores son puramente aleatorios, los resultados tienden a agruparse simétricamente al valor medio. Cuantas más veces se repita el experimento, más se acerca los resultados a una curva suave ideal llamada distribución de Gauss.

Page 3: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Tratamiento estadístico de los datos del error aleatorio

• El análisis estadístico de los datos analíticos se basa en la suposición de que los errores aleatorio siguen una distribución gaussiana ó normal.

• La leyes de la estadística se dedujeron para usarlas en las población, y, con frecuencia deben modificarse cuando se aplican a una muestra pequeña porque un número pequeño de datos podría no ser representativo de la población completa.

• En Q.A., una población es un conjunto de todas las medidas al experimentador.

• La muestra es un subconjunto de medidas seleccionadas de la población

Page 4: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx
Page 5: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Curva normal o de Gauss• N la figura se muestra una gráfica de frecuencia relativa

(y) versus el valor de x.• La curva se puede representar por una ecuación que

tiene dos parámetros: la media poblacional µ y la desviación estándar de la población, σ.

• Parámetro, es la cantidad que define la población o distribución.

• La variable estadística, x, es la estimación del parámetro

2/22 2/)( xey

Page 6: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

• La desviación estándar de la población,

• Donde N es el número de datos de la población• La curva normal de Gauss, se puede representar

como frecuencias versus el valor de z. El valor de z, se define como la desviación de un dato con respecto a la media relacionada con una desviación estándar, es decir,

• z = (x - µ)/

N

xN

ii

1

2)(

2

2/2zey

𝜎

Curva normal ó de Gauss

Page 7: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Curva normal o de Gauss• Las propiedades de una curva normal: (1) la media cae

en el punto central de máxima frecuencia, (2) hay una distribución simétrica de las desviaciones positivas y negativas en torno al valor máximo, (3) conforme aumenta la magnitud de las desviaciones hay una disminución exponencial de la frecuencia, por lo tanto son más frecuentes los pequeños errores que los grandes.

• El área de la curva con un 68.3% se sitúa dentro de una desviación estándar de ± 1σ, un área de 95.4% se sitúa dentro de ± 2σ, un área de 99.7% se sitúa dentro de ± 3σ

Page 8: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Termino estadístico para muestra Expresión matemática

1-) Desviación estándar

2-) Error estándar de la media

3-) Coeficiente de variación

4-) desviación estándar combinada

5-) Varianza s2

6-) Desviación estándar relativa

7-) Dispersión w = wf - w

11

)(1

2

1

2

N

d

N

xxs

N

ii

N

ii

Nssm

100xxsCV

............11

..................1 1

22

N

dds

N

i

N

iii

xssDER r

Algunas expresiones estadísticas

Page 9: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Tratamiento y evaluación de datos estadísticosLas aplicaciones más comunes de las aplicaciones de las pruebas estadísticas son:1-) Definir un intervalo conocido como, intervalo de confianza, IC, en el que se espera encontrar esté la media del conjunto de réplicas con una cierta probabilidad 2-) Determinar el número de medidas necesarias para garantizar una media experimental3-) Estimar la probabilidad de que una media experimental y un valor verdadero ó dos medias experimentales sea diferentes; es decir si la diferencia es real o se debe a un error aleatorio.4-) Determinar con un nivel de probabilidad dado, si difiere la precisión de 2 conjuntos de medidas.5-) Comparar más de dos medias y determinar la diferencia entre ellas es real o deriva de errores aleatorios(análisis de varianza)6-) Decidir con una cierta probabilidad si un valor atípico en un conjunto de réplicas de medidas es el resultado de un gran error y se rechaza ó no hay error y se acepta

Page 10: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Intervalo de confianza• El intervalo de confianza de la media, IC, son los valores de la

media dentro de los cuales se espera que esté la media poblacional con una probabilidad dada.

• La probabilidad, es el nivel de confianza, NC, que se expresa generalmente en porcentaje.

• Nivel de significación ó nivel de significancia, es la probabilidad de que un resultado este fuere del nivel de confianza

• El IC, cuando se conoce σ, su expresión matemática es , IC = ± donde: z, es la desviación de un dato con respecto a la media; σ, la desviación estándar poblacional, N es el número de medidas y es la media de las medidas N.

x

Nz / x

Page 11: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Intervalo de confianza• En química analítica el valor de N es pequeño (3 a

30) mediciones, entonces en lugar de σ, se utiliza la desviación estándar para pocos valores «s», en lugar de z se utiliza la t de student, el cual tiene una definición similar a z: t = ( x - µ)/s

• Los valores de z y t se encuentran en tablas. Para conocer z basta conocer la probabilidad y para t además de probabilidad es necesario conocer el valor de N

• La expresión de IC para este caso es, IC = ± x Nst /

Page 12: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Pruebas de Hipótesis• Las pruebas de hipótesis son la base de muchas

decisiones a nivel científico y en ingeniería• La hipótesis nula, es una prueba estadística que plantea

que dos o más cantidades observadas son una misma.• Las pruebas de hipótesis que suelen usar los químicos

son: la media de un conjunto de datos experimentales

frente a lo que se considera el valor verdadero la media frente a un valor predicho o de corte las medias o desviaciones estándar de dos ó mas

conjuntos de datos

Page 13: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Comparación entre una media experimental y un valor conocido

• En toda hipótesis se considera dos resultados contradictorios: 1ro, µ = µ0 ; 2do Ha , puede expresarse como µ diferente de µ0 , menor de µ0 ó mayor de µ0 .

• La prueba z es apropiada cuando se tiene resultados muy numerosos, y la evaluación de la hipótesis se procede así Expresar la hipótesis nula: µ = µ0 Determinar la variable z: z = (x - µ)/ Exprese la hipótesis alterna, Ha y determine la región de rechazo Ha : µ ≠ µ0 , rechazar µ0 si z ≥ zcrit ó z ≤ zcrit Ha : µ > µ0 , rechazar µ0 si z ≥ zcrit Ha : µ < µ0 , rechazar µ0 si z ≤ - zcrit

• Cuando se tiene, µ ≠ µ0 , se tiene una prueba de dos colas. Por ejemplo para un nivel de confianza, la probabilidad de que z es mayor que zcrit es de 0.025 para

Nz /

Page 14: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Prueba t con muestras pequeñas• En el caso de contar con pocos datos se recurre a un

procedimiento similar a la prueba z, con la diferencia que se recurre a la prueba t. El procedimiento del análisis de la hipótesis se desarrolla así, Expresar la hipótesis nula: µ = µ0 Determinar la variable t: t = (x - µ)/ Exprese la hipótesis alterna, Ha y determine la

región de rechazo Ha: µ ≠ µ0 ,rechazar µ0 si t ≥ tcrit ó t ≤ tcrit Ha : µ > µ0 , rechazar µ0 si t ≥ tcrit Ha : µ < µ0 , rechazar µ0 si t ≤ - tcrit

Nts /Nts /

Page 15: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Comparación entre una media experimental y un valor conocido

• Cada extremo y el total es de 0.05. El nivel de significación es de 0.05 y el valor de z crítico es de 1.96

• Cuando µ > µ0 , se tiene una prueba de una cola. La probabilidad de que z > zcrit es de 0.05. En ambas colas es de 10%. El nivel de significación es de = 0.10 y el valor crítico es de 1.64. Cuando µ < µ0 , la probabilidad de que z < -tcrit es de 0.05. En ambas colas es del 10%, el nivel de significación es de = 0.10 y el valor crítico es de 1.64

Page 16: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Prueba t : Comparación de 2 medias• Este análisis permite evaluar si dos materiales son idénticos o no.

Para este caso la hipótesis nula es µ1 = µ2 y la hipótesis alterna Ha podría ser, µ1 ≠ µ2 , µ1 > µ2 ó µ1 < µ2 .

• Si los datos se recopilaron de la misma manera y ambos analistas fueron cuidadosos, se podría suponer que las desviaciones estándar de ambos conjuntos son similares, y se puede emplear la desviación estándar combinada, cuya expresión es,

• • El valor de t se calcula con la expresión,

• Calculado el valor de t se evalúa con el valor de t crítico o de tabla con el grado de libertad de N1 + N - 2 a cierto nivel de confianza y si este valor de t es menor que el de tabla, no hay diferencia entre los conjuntos en caso contrario hay diferencia

2)1()1(

21

2221

21

NN

NsNsscombinada

21

2121

NNNN

sxxt

combinada

Page 17: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Prueba t: pareja de datos• Aquí se utiliza el mismo procedimiento que en la

prueba t normal, salvo que se utilizan pares de datos. La desviación estándar es la desviación de la diferencia entre las medias. La hipótesis nula es H0: µd = 0 donde 0 es un valor específico de la diferencia en que se intenta probar, frecuentemente cero, el valor de t es,

• Donde es la diferencia promedio igual a Ʃdi/N. La hipótesis alterna podría ser µd ≠ 0 , µd > 0 ó µd < 0

Ns

dt

d

0

d

d

Page 18: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Comparación de precisión• La prueba F, (de Fisher) sirve para comparar

varianzas, siempre y cuando las poblaciones tengan distribución normal (de Gauss).

• La prueba F se basa en la hipótesis nula de que las 2 varianzas poblacionales consideradas son iguales, σ2

1 = σ2

2 . Similarmente la prueba F, que relaciona las 2 varianza muestrales (F = s2

1 / s22 ), se calcula y se

calcula con el valor crítico de F según el nivel de confianza escogido. La hipótesis nula se rechaza cuando cuna do F calculado es mayor que F crítico. La hipótesis alterna puede ser, σ2

1 > σ22 ó σ2

1 ≠ σ22 .

Page 19: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Varianza

• Conocida por la siglas de ANOVA, se usa pata verificar si existe diferencia entre las medias de 3 ó más poblaciones. La ANOVA aprovecha los métodos de diseño experimental para el planteamiento y ejecución de experimentos.

• En el análisis de varianza se distinguen 3 conceptos: el factor o tratamiento que es la característica común de la población, el nivel que son los distintos valores del factor, y la respuesta que es la medición de los niveles.

• Algunos ejemplos: ¿Existe alguna diferencia entre los resultados de 5 analistas en la

determinación de calcio mediante un método volumétrico?: El analista es el factor, los niveles son los analistas del 1 al 5 y el valor encontrado por los analistas (cantidad química) son los resultados.

¿Son distintos los resultados en la determinación de Mn

Page 20: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Varianza• con tres métodos analíticos diferentes?: El factor es el método,

el nivel son los métodos del 1 al 3, y la respuesta es una concentración de Mn.

¿Es distinta la fluorescencia de un ion complejo para 6 valores de pH distintos?: el factor es el pH, los niveles son el pH del 1 al 6 y la respuesta es la intensidad de fluorescencia

• En el análisis de un factor se pueden comparar I medias poblaciones, µ1 , µ2 , µ1 …… µI , la hipótesis nula tiene la forma,

H0 : µ1 = µ2 = µ1 = …… = µI y la hipótesis alterna es, Ha : al menos dos de las medias son diferentes.• Para la prueba F, se requiere sumas de cuadrados:

Page 21: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Varianza

• Suma de los cuadrados debido al factor(SCF)• Suma de los cuadrados debido al error(SCE)• Suma de los cuadrados totales(SCT)• Los grados de libertad: SCT(N-1), SCF(I-1), SCE(N-I)• Los valores cuadrados medios: CMF y CME • La evaluación de F = CMF/CME• Se rechaza H0 si F excede el valor crítico.

Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado medio

Estimaciones de

cuadrados medio

F

Intergrupal (efecto de

factor)

SCF I – 1 CMF=

1ISCF

22FE CMF/CME

Intergrupal ( error)

SCE N – I CME=

1NSCE

0E

Total SCT N – 1

Page 22: Tema 3, IQ,  Tratamiento estadístico de los datos.pptx

Resultados diferentes y Prueba Q• Para determinar la diferencia entre las medias, se aplica el método

de la diferencia significativa mínima, (DSM), de acuerdo al número de réplicas de cada grupo, Ng:

• Donde el valor de t debe tener N-I grados de libertad.• La prueba Q, es una prueba estadística para decidir si se acepta o

rechaza un resultado discordante. Para ello se divide el valor absoluto de la diferencia del valor discordante y el valor más cercano a el, entre la dispersión, w, de todo el conjunto para obtener el valor de Q. Previamente hay que ordenar el conjunto de datos de una manera creciente. Luego el valor de Q calculado se compara con el valor de Q crítico y si es menor que este valor, se conserva el valor observado

gNxCMEtDSM 2