Download - Ultima Version Proyecto

UNIVERSIDAD CENTRAL DE VENEZUELAFACULTAD DE AGRONOMÍA

COMISIÓN DE ESTUDIO DE POSTGRADOPOSTGRADO DE ESTADÍSTICA

PROGRAMA DE MAESTRÍA EN ESTADÍSTICA

EVALUACIÓN DE ANÁLISIS NO PARAMÉTRICO DE DATOS PROVENIENTES DE

UN ARREGLO EN PARCELAS DIVIDIDAS.

LIC. ARDINELIA AMALIA MACHADO RAMIREZ

MARACAY, JULIO 2013.






AUTOR: LIC. ARDINELIA AMALIA MACHADO RAMIREZ

TUTOR: DRA. MARISELA ASCANIO EVANOFF

TRABAJO DE GRADO PRESENTADO COMO PARTE DE LOS REQUISITOS PARA OPTAR AL TITULO DE MAGISTER SCIENTIARUM EN ESTADÍSTICA QUE OTORGA LA ILUSTRE UNIVERSIDAD CENTRAL DE VENEZUELA

MARACAY, JULIO DEL 2013.






EL PRESENTE TRABAJO DE GRADO HA SIDO EXAMINADO Y APROBADO

POR EL SIGUIENTE COMITÉ CONSEJERO

______________________Dra. Marisela Ascanio.

Profesor Tutor

___________________ __________________Prof. Aouiqw Ascanio Prof. Román MontañaMiembro Comité Consejero Miembro Comité Consejero

Maracay, Julio 2013I. DEDICATORIA

A dios todopoderoso, por brindarme la oportunidad y permitirme llegar aquí,

iluminándome en todo momento para la realización de este trabajo que representa la

culminación de una etapa muy importante en mi vida profesional.

II. AGRADECIMIENTO

Esta tesis representa una etapa muy enriquecedora en mi vida profesional y personal y el

camino que el tiempo obliga. En toda la experiencia universitaria y la culminación del

trabajo de grado, ha habido personas que merecen las gracias porque sin su valiosa

aportación no hubiera sido posible este trabajo.

Agradezco a la Dra. Marisela Ascanio por ser una excelente guía en el desarrollo de la

tesis y en la elaboración del trabajo final junto con la publicación, por su gran

desempeño y dedicación; e igualmente al Profesor Aouiqw Ascanio integrante del

comité revisor por sus aportaciones hechas en este trabajo.

Agradezco al Ing. Piro Spiridione por haber confiado en mí, por su paciencia y por la

disposición en la dirección de este trabajo.

Esta tesis está dedicada a mi madre Ardinelia Ramírez quien le agradezco por su amor,

cariño, compresión y por estar siempre a mi lado en todos mis momentos que con su

apoyo incondicional me da fuerza para seguir adelante gracias te amo muchísimo.

Un agradecimiento especial a la Universidad Central de Venezuela autónoma quien me

brindó la oportunidad de cumplir un sueño muy importante en mi vida.

III. TABLA DE CONTENIDO

IV. Tabla de cuadros

V. Tabla de figuras

VI. Resumen

VII. Abstract

1. Introducción

2. Objetivos

2.1. General

2.2. Específicos

3. Revisión bibliográfica

4. Metodología

4.1

IV. TABLA DE CUADROS

Cuadro 1.

Cuadro 2.

V. TABLA DE FIGURAS

Figura 1.

VI. RESUMEN

Los experimentos en parcelas divididas han resultado de mucha utilidad para realizar

estudios en las más diversas áreas de la investigación. Es un factorial conducido de tal

manera que la unidad experimental con respecto a uno o más factores es una sub-unidad

de la unidad experimental respecto a otros factores. El análisis de la información que

ellos generan es muy sencillo, siempre y cuando las variables estén medidas en una

escala cuantitativa y cumplan con los cuatro supuestos del análisis de la varianza

(normalidad de los errores, homogeneidad de la varianza de los errores, independencia

de los errores y aditividad de los efectos). Sin embargo, cuando las variables están

medidas en escala ordinal o con variable cuantitativa pero se incumple con uno o más

supuestos del análisis de la varianza y la transformación de datos no permite cumplir los

supuestos, la forma adecuada de analizar la información generada por un experimento

factorial es mediante la utilización de metodologías no paramétricas. En el área no

paramétrica se han propuesto varias técnicas para el análisis de esta situación, que por

desconocimiento de muchos investigadores no son implementadas y se sigue en muchos

casos aplicando técnicas erradas. En este sentido en la presente investigación se

estudiaron cuatro casos para datos alterados normales, para datos originales normales y

datos uniformes, bajo un diseño completamente al azar utilizando los valores de

probabilidad y la respuesta en la hipótesis como criterios de comparación, planteándose

dos situaciones, en la primera (caso paramétrico) se utilizaron datos que cumplen con

los supuestos del análisis de la varianza, utilizándose está técnica como patrón, mientras

que en la segunda situación (caso no paramétrico) se utilizaron datos en donde la

variable respuesta fue medida en escala cuantitativa en donde uno o más de los

supuestos del análisis de la varianza no se cumplieron o en escala ordinal, utilizando en

este caso la técnica tipo Anova como la técnica patrón. Las técnicas estudiadas fueron:

Anavar, Friedman, Wilcoxón, Caso I, Caso II, Caso III y Caso IV. Se evaluaron las

tasas de error tipo I, II y la potencia de las pruebas y esto se lleva a efecto usando

técnicas de simulación programando funciones en el proyecto R.

Palabras Claves: Parcelas divididas, no paramétrica, pruebas, wilcoxón, técnica tipo

anova.

VII. ABSTRACT

The split plot experiments have proved very useful for studies in diverse research areas.

Is driven in such a way factorial experimental unit with respect to one or more factors is

a sub-unit of the experimental unit for other factors. Analyzing the information they

generate is very simple, as long as the variables are measured in a quantitative scale and

meet the four assumptions of analysis of variance (error normality, homogeneity of

variance of the error, regardless of errors and additivity of effects). However, when the

variable are measured on an ordinal scale or quantitative variable but fails to meet one

or more assumptions of the analysis of variance and data processing can not meet the

assumptions, the appropriate way to analyze the data generated by an experiment

factorial using nonparametric methods. On the non-parametric several techniques have

been proposed for the analysis of this situation, that ignorance of many researchers are

not implemented and followed in many cases using wrong techniques. Thus in the

present investigation we studied four cases for normal altered data to original data

normal and uniform data under a completely randomized design using the values of

response probability and hypothesis as comparison criteria, considering two scenarios,

in the first (parametric case) data were used to meet the assumptions of the ANOVA,

using this technique as a template, while in the second situation (nonparametric case)

data were used where the response variable was measured in scale Quantitative wherein

one or more of the assumptions of variance analysis not performed or ordinal scale, in

this case using the technique such as the technique pattern Anova. The techniques

studied were: Anavar, Friedman, Wilcoxon, Case I, Case II, Case III and Case IV.

Evaluated error rates type I, II and potency testing and this is carried out using modeling

techniques in the project scheduling functions R.

Keywords: split plots, nonparametric tests, Wilcoxon type ANOVA technique.

1. INTRODUCCIÓN

El uso de bloques es una técnica que es usada para disminuir los efectos de

variación entre las unidades experimentales. Los niveles del factor (tratamiento) a ser

investigado son asignados a las unidades dentro de los bloques al azar. En la mayoría de

los casos, los efectos de los tratamientos son considerados fijos porque los tratamientos

en el experimento son los únicos sobre los cuales se realizarán inferencias. En otras

palabras, el investigador desea estimar y comparar medias de los tratamientos con

precisión y niveles de significancia estadística que sean validos en referencia a la

población entera de bloques y no sólo de aquellos en el experimento. Para lograr esto, se

requiere la especificación adecuada de los efectos aleatorios en el modelo.

A su vez, los cómputos de los métodos estadísticos deben incluir adecuadamente

los efectos aleatorios. El modelo para datos de diseños con bloques al azar usualmente

contiene efectos fijos por las contribuciones de los tratamientos y efectos aleatorios de

los bloques, conformándose un modelo mixto.

El diseño de parcelas divididas es un factorial conducido de tal manera que la

unidad experimental con respecto a uno o más factores es una sub-unidad de la unidad

experimental con respecto a otros factores. Los experimentos con parcelas divididas son

frecuentemente usados por necesidad cuando un factor debe ser aplicado a una gran

unidad experimental, mientras que otros factores son más apropiados aplicarlos a las

sub-unidades. También este diseño es utilizado por la conveniencia o facilidad de

aplicar diferentes factores a diferentes unidades con tamaños distintos. El diseño de

parcelas divididas también puede ser usado para incrementar la precisión del efecto

estimado por la aplicación de un factor a las sub-unidades.

Por consiguiente, los experimentos en parcelas divididas han resultado de mucha

utilidad para realizar estudios en las más diversas áreas de la investigación. En el caso

particular de la investigación experimental en la agricultura, sus aplicaciones con

diferentes disposiciones de los tratamientos principales son resaltadas por autores de

gran trayectoria, como Steel y Torrie (1960), Cochram y Cox (1976), Pimentel (1976),

De Campos (1984), Martínez (1988), entre otros.

Vale la pena destacar, muchos estudios utilizan diseños que requieren modelos

de análisis de varianza con dos o más tipos de errores experimentales. Ejemplos los que

son usados en experimentos de parcelas divididas, diseños factoriales y modelos de

regresión. Anteriormente, tales estudios han sido analizados utilizando procedimientos

computacionales apropiados para modelos de efectos fijos modificados para obtener la

estadística relevante.

En este sentido, la experimentación dentro de la investigación científica es muy

amplia y la cantidad y tipos de experimentos que se pueden realizar son muy grandes,

uno de estos tipos de experimentos lo constituye el arreglo de tratamiento factorial o

experimentación factorial como es conocido tradicionalmente.

Sin embargo, en un ambiente de incertidumbre los experimentos son, en forma

general, comparativos en el sentido de que, idealmente, miden y comparan las

respuestas de unidades experimentales esencialmente idénticas, después de que estas se

exponen a los tratamientos seleccionados y aplicados por el investigador. Canavos,

(1988).

No obstante, cuando las variables respuestas estudiadas en el experimento están

medidas en una escala cuantitativa (en escala de proporción o de intervalo) y además,

cumplen con los supuestos del análisis de varianza; la técnica adecuada para poder

analizar la información, tanto para la situación en donde se estudia el efecto de los

factores por separado, como en la que estudia el efecto de las interacciones, es el

análisis de la varianza, el cual es ampliamente conocido y de uso común para estas

situaciones.

Es importante hacer referencia a que el análisis convencional de los datos

experimentales se basa en los supuestos de: normalidad, independencia e igualdad de

varianzas. Existen muchas situaciones experimentales donde estos supuestos no se

cumplen, especialmente el de normalidad no es satisfecho. La mayoría de estos métodos

están basados en estudios por rangos y su estadística. Otra de las razones para el uso de

la estadística por rangos es lo expuesto por Conover e Iman (1976), que los rangos se

acercan aproximadamente a una distribución normal cuando n (cantidad de elementos)

incrementa.

Notándose que muchos estudios matemáticos y estadísticos en los últimos

tiempos, están más interesados en los análisis no paramétricos, cuando los paramétricos

no pueden ser usados, y están desarrollando investigaciones que permitan establecer las

condiciones para su uso, los niveles de aceptación de sus resultados y la comprobación

de técnicas estadísticas conocidas con datos de tipo ordinal.

Asimismo, las pruebas no paramétricas de que dispone la literatura cubren varios

procedimientos, entre ellos se pueden mencionar: diseños completamente al azar,

diseños de bloques completamente al azar, diseños de bloques incompletos, diseños

para bioensayos, diseños de parcelas divididas, diseños de cross-over.

Por lo expuesto anteriormente, el presente trabajo pretende analizar las técnicas

de análisis estadístico no paramétrico comparar datos experimentales provenientes de un

arreglo en parcelas divididas, a través del uso de métodos estadísticos no paramétricos

alternativos (mediante las pruebas de Friedman (1937) y Wilcoxon (1945)

principalmente), para datos provenientes de un arreglo en parcelas divididas, que

permitan mejorar la conducción, análisis e interpretación de los mismos, bajo un diseño

completamente al azar, en donde las variables respuestas estén medidas en escala

cuantitativa, que no cumplen con los supuestos del análisis de la varianza, ó estén

medidas en escala ordinal.

2. OBJETIVOS

2.1. General

Analizar las metodologías estadísticos no paramétricos, para datos provenientes de un

arreglo en parcelas divididas.

2.2. Específicos

2.2.1 Describir las metodologías estadísticos no paramétricos, para arreglos en

parcelas divididas.

2.2.2 Aplicar las metodologías estadísticos no paramétricos, para datos reales provenientes de arreglos en parcelas divididas.

2.2.3. Contrastar las metodologías estadísticos no paramétricos, para parcelas divididas con base a valores de probabilidad y respuestas en la hipótesis.

3. REVISIÓN DE LITERATURA

Existe una amplia diversidad de pruebas no paramétricas, las cuales pueden ser

utilizadas dependiendo de los objetivos y los juegos de hipótesis planteadas en un

estudio específico, para establecer conclusiones sobre el comportamiento de las

variables bajo estudio. Estas pruebas ofrecen algunas ventajas con respecto a sus

contrapartes paramétricas, destacándose la rapidez del análisis y facilidad de

interpretación del mismo (Berenson and Levine, 1992), es por ello que muchos

investigadores han analizado sus diversas aplicaciones.

En este sentido, Steel y Torrie (1990), con base a sus estudios definen que el

concepto de experimentos factoriales está en realidad restringido a un tipo especial de

diseño de tratamientos, el cual implica que todos los tratamientos posibles son la

resultante de combinar cada uno de los niveles de los diferentes factores bajo estudio.

Asimismo, para Montgomery (1991), los experimentos factoriales completos son

un tipo de arreglos de tratamientos que se llevan a cabo con la finalidad de estudiar los

efectos producidos por dos o más factores a dos o más niveles, en estos experimentos se

investigan todas las posibles combinaciones de los niveles de los factores en cada

ensayo completo o réplica.

Siegel (1975), señala que en función de la escala en la cual se miden las

variables respuesta, se pueden establecer dos grandes grupos; un primer grupo

compuesto por las escalas de medidas de proporción y de intervalo, también conocidas

como escalas cuantitativas, y un segundo grupo en el que se tienen las escalas de

medidas nominal y ordinal, también conocidas como escalas cualitativas.

De tal forma, el llamado diseño en parcelas divididas con falta de aleatorización

en la sub-parcela es usado para similar al análisis estadísticos paramétricos que se

utilizan asumen que los errores se distribuyan normal e independientemente

homogeneidad de varianza de los errores y aditividad de los efectos como supuestos

básicos. La teoría para el caso paramétrico ha sido desarrollada y descrita por muchos

autores (Munzel y Bruner, 200).

Ascanio, et. Al. (2007), en su trabajo titulado El análisis no paramétrico de un

factorial 23 aplicado a la experimentación en cultivo de tejidos vegetales, comentan que

los procedimientos estadísticos no paramétricos ofrecen una alternativa de análisis a los

experimentos factoriales en el caso de que los requerimientos de la vía paramétrica no

puedan ser satisfechos. En el cual, detalla las metodologías de un procedimiento no

paramétrico que permite la determinación de las interacciones en un factorial 23 para

variables respuesta, que no pueden ser analizadas por los procedimientos paramétricos

convencionales y que sirven de base a la presente investigación.

Igualmente, Miñarro (1998), en su investigación sobre Estimación no

paramétrica de la función de densidad, deja claro que el enfoque no paramétrico

permite que los datos determinen de forma totalmente libre, sin restricciones, la forma

de la densidad que los ha de representar. Esto implica, que la controversia sobre la

utilización de una estimación paramétrica o no paramétrica no ha cesado a lo largo de

los años, la eficiencia en la estimación que proporciona la valoración paramétrica se

contrapone al riesgo que suponen desviaciones de las suposiciones que determinan el

modelo, que pueden conducir a errores de interpretación, que supongan mayor pérdida

que la ganancia proporcionada por la eficacia estimadora de los mismos.

Entre las principales situaciones en las cuales la estimación no paramétrica de la

densidad ha resultado ser de especial interés se puede destacar:

Análisis exploratorio: Diversas características descriptivas de la

densidad, tales como multi-modalidad, asimétricas, comportamiento en las colas,

etc., enfocadas desde un punto de vista no paramétrico, y por tanto, más flexible,

pueden ser más reveladoras y algunas características no quedar enmascaradas

por suposiciones más rígidas.

Presentación de datos: La presentación grafica de los resultados

obtenidos en una estimación no paramétrica de la densidad, es fácilmente

comprensible e intuitiva para aquellas personas no especialistas en estadística

que muy a menudo son los clientes de los servicios de estadística.

Técnicas multivariantes: Estimaciones no paramétricas de la densidad

son utilizadas en problemas de discriminación, clasificación, contrastes sobre las

modas, etc.

Regresión: Estimaciones no paramétricas de la densidad permiten

estimar la Curva de Regresión de la Media, que sabemos que es la que minimiza

la esperanza matemática del error cuadrático.

Hemos de destacar finalmente, que si en los últimos años se ha producido un

gran desarrollo de las técnicas de estimación no paramétrica, el mismo ha sido paralelo

al de la informática y su aplicación a la estadística, el acceso a nuevos y potentes

ordenadores, y la aparición de una gran gama de software estadístico y facilidades

graficas de alto nivel.

Por el contrario, los términos estadísticas no paramétrica o métodos libres de

distribución hacen referencia a una colección de pruebas estadísticas en las cuales no se

hacen suposiciones acerca de la distribución de la población de donde provienen datos;

hay algunas suposiciones que se asocian a la mayoría de las técnicas o pruebas

estadísticas no paramétrica como la independencia de las observaciones, la continuidad

básica de la variable, entre otras, en general estas suposiciones son menores y son más

débiles que las asociadas con la estadística paramétrica. (Hettmansperger, Mckean y

Shearther, 2000).

De igual manera, Hotelling y Pabst (1934), realizan un primer trabajo, la cual se

basan en el uso de las permutaciones para crear un estadístico que permitía comparar

dos muestras medidas en escala ordinal, este trabajo es catalogado por muchos autores

como uno de los avances significativos dentro de la inferencia estadística no

paramétrica.

Además, Milla y Chacín (2006), estudiaron el ANCOVA Múltiple No

Paramétrico (extensión del método usado por Conover e Imán en ANCOVA Simple), en

el caso de cinco observaciones por tratamiento este genera valores de F en su mayoría

superiores a los obtenidos en el ANCOVA Múltiple Clásico, además, la potencia de

prueba del ANCOVA Múltiple No Paramétrico es significativamente mayor a su

contraparte.

Especialmente, en el caso de diez observaciones por tratamiento, hay evidencias

de que el ANCOVA Múltiple No Paramétrico tiene una mayor potencia de prueba que

el ANCOVA Múltiple Clásico, cuando se está en presencia de distribuciones no

normales, tales como log-normal, exponencial y uniforme.

Vale la pena destacar, una aplicación interesante fue la realizada por Shah, et al

(2004), en la cual se estudió datos provenientes de enfermedades en plantas, a través de

un análisis no paramétricos de datos ordinales en un arreglo factorial, obteniendo que el

poder de la prueba y la precisión de los parámetros estimados aumenten dramáticamente

con el incremento del número de replicaciones.

Del mismo modo, Mood y Graybill (1972) afirman que al aplicar métodos

estadísticos resulta necesario conocer, al menos aproximadamente, la forma general de

la distribución que siguen los datos que se estudian y que si ésta es normal, se podrá

usar directamente los métodos paramétricos, pero en caso contrario, se deberá

transformar los datos de modo que las observaciones transformadas sigan la distribución

normal, y que cuando se desconozca la forma de la distribución se deberá usar métodos

más generales, llamado distribución libre o no paramétricos.

Por consiguiente, Calzadilla (1999) presenta en su trabajo titulado la falta de

normalidad puede afectar a la homogeneidad de varianzas, sobre todo cuando existe

mucha diferencia en el número de observaciones; que en general los métodos

paramétricos realizan operaciones aritméticas de los valores muéstrales, por lo cual, los

mismos requieren que los datos estén medidos por lo menos en escala de intervalo,

mientras que los de distribución libre, en su mayoría se fijan en el orden o rango de los

valores, no en sus valores numéricos, lo cual ha influido en que se establezcan

diferencias en los estadísticos a usar en ambos procedimientos, de acuerdo a las

posibilidades que brinda cada escala de medida y a que se tengan más en cuenta los

métodos de distribución libre, por ser frecuente el estudio de variables medidas en

escalas nominales u ordinales.

En el mismo orden de ideas, con la finalidad de probar la efectividad de las

pruebas no paramétrica, Thompson et al (1995), aplicó cuatro test no paramétricos a un

grupo de datos dispuestos en paneles (split), estos test fueron: Mann-Whitney

Wilcoxon, el test de los signos, el test de los signos por rango de Wilcoxon y el test de

Quade, con la finalidad de estimar diferencias entre paneles. Ellos concluyeron que

cuando era dudoso el supuesto de normalidad los test no paramétricos tenían mayor

poder que sus contrapartes paramétrica.

Por el contrario, Dyke y Patterson (1952), usaron la regresión logística en

arreglos factoriales con predictores cualitativos y Shah, et al (2004), concluyeron que

es más rápido y fácil interpretar diferencia entre variables en escala de rangos que las

medidas en escala ordinal.

Por su parte, Akritas y Brunner (1997) presentan una investigación El análisis

multivariado de datos basado en clasificaciones separadas para las distintas variables

y multivariante a los diseños, en la cual desarrollaron un método no paramétrico para

diseños factoriales generales, sus ideas están basadas en un teorema central del límite

para las estadísticas lineales robustas, incluso para funciones de la distribución

discontinuas. Las conclusiones de esta investigación establecen que esta metodología

permite generalizar los resultados de los modelos no paramétrico de los diseños

multivariantes.

Y también, Beasley y Zumbo (2003), en una investigación donde compararon la

prueba de Rangos de Friedman contra métodos paramétricos evaluando la interacción

en diseño de parcelas divididas, encontraron que cuando la estructura de covarianza no

es esférica, se incrementa el error tipo I en la prueba F, en análisis univariantes cuando

el tamaño muestra es muy pequeño, cuando no hay una buena distribución del error y

cuando los datos son rangos.

En este mismo orden de ideas en cuanto al análisis no paramétrico Danny

Villegas Rivas (2007), propone ilustrar como se aplican cada una de las técnicas del

análisis estadístico no paramétrico en experimentos con mediciones no repetidas en el

tiempo, se utilizarán datos reales provenientes de diseños de tratamientos con

mediciones repetidas en el tiempo caso 2 tratamientos y 2 periodos de tiempo (2x2)

tales como el estadístico Un, además de los estadísticos tipo Wald (WTS) y tipo

ANOVA (ATS); donde se hayan medido variables respuesta en escala cuantitativa bajo

condiciones de cumplimiento de los supuestos del análisis de la varianza con lo cual se

pretende determinar si tienen la misma eficiencia en cuanto al rechazo o no de la

hipótesis nula.

Entre éstos, se establece la siguiente desigualdad: FÓRMULA. Esta relación

indica que el criterio de Wald es el de mayor valor numérico. Los tres estadísticos

tendrán el mismo valor sólo cuando las raíces de ‖A-λβ‖=0 sean todas nula, lo cual

ocurre cuando la hipótesis nula es cierta en la muestra. Mientras mayores sean las

raíces, mayor será la diferencia entre los criterios.

Breusch (1979) aclara que la desigualdad de los estadísticos no es una

implicación de la potencia relativa de los procedimientos y, por lo tanto, no se puede

decir que una prueba es más potente que otra sólo porque el valor del estadístico es

mayor y, en consecuencia, es más probable rechazar la hipótesis nula. Más aún, la

desigualdad se mantiene cuando la hipótesis es cierta.

Para esta investigación, la atención se centrará en el procedimiento de Friedman

(1937), para rangos en ensayos con interacción. Los efectos de rangos de Friedman en

los datos y la consiguiente prueba estadísticas de los diseños de medidas repetidas han

sido examinados (por ejemplo, Serlin y Harwell, 1994, 1997; Zimmerman y Zumbo,

1993). Sin embargo, ha habido un menor número de investigaciones sobre Friedman en

el diseño de rangos de parcelas divididas (por ejemplo, Beasley, 2000; Rasmussen,

1989; Rasmussen et al., 1989).

Por otra parte, Bickel (1965) también consideró una prueba para una distribución

asintóticamente libre en una forma cuadrática que involucra la prueba de Wilcoxon

(1949).

Dentro de esta perspectiva, Román Montaña (2007), analizó cinco técnicas para

el análisis de interacciones en experimentos factoriales bajo un diseño completamente al

azar utilizando los valores de la probabilidad y la respuesta en las hipótesis como los

criterios de comparación, planteándose dos situaciones caso paramétrico y no

paramétrico utilizando datos donde se cumplen los supuestos y donde existe

incumplimiento de los supuestos del análisis de la varianza.

En cuanto al análisis de la comparación de los procedimientos GLM y MIXED

del SAS para analizar diseños de parcelas divididas con bloques al azar, Gil José L.

(2001), aplicaron el procedimiento (PROC) GLM del programa estadístico SAS ha sido

comúnmente utilizada para analizar datos provenientes de diseños con parcelas

divididas. Éste diseño es un factorial conducido de tal manera que la unidad

experimental con respecto a uno o más factores es una sub-unidad de la unidad

experimental con respecto a otros factores. Los experimentos con parcelas divididas son

frecuentemente usados por necesidad cuando un factor debe ser aplicado a una gran

unidad experimental, mientras que otros factores son más apropiados aplicarlos a las

subunidades. También este diseño es utilizado por la conveniencia o facilidad de aplicar

diferentes factores a diferentes unidades con tamaños distintos.

Sin embargo, este procedimiento fue desarrollado para evaluar modelos de

componentes fijos y no considera que en realidad este tipo de diseño corresponda a un

modelo mixto con factores fijos y aleatorios, por lo que se hace necesario evaluar

rutinas que consideren los modelos mixtos. El PROC MIXED del SAS fue desarrollado

explícitamente para evaluar datos provenientes de modelos mixtos, eliminándose los

problemas que presenta el PROC GLM para este tipo de análisis. Se concluye que el

PROC MIXED proporciona los errores estándares adecuados a cada nivel de análisis,

realizando las comparaciones de media en la forma correcta, por lo que se recomienda

su utilización ampliamente en sustitución del PROC GLM para análisis de parcelas

divididas.

Por otra parte,

4. METODOLOGÍA

A objeto de ilustrar las técnicas propuestas en este trabajo se utilizaron una

matriz de datos reales provenientes de un experimento de diferentes variedades de

cultivo de avena y de abonos (nitrógeno), con tres bloques de tres parcelas cada uno, y

en cada una de las parcelas de cada bloque una de las tres variedades de avena

seleccionadas para el experimento. Cada parcela dividida en cuatro sub-parcelas en cada

una de las cuales se asignó aleatoriamente un nivel del factor nitrógeno. Estos cuatro

niveles eran: sin abono, 0.01, 0.02 y 0.03 toneladas de acre. En los cuales se midieron

variables cuantitativas que cumplieron con los supuestos del análisis de la varianza,

utilizándose estos datos paramétrico (situación estudiada uno) y variables cuantitativas

que no cumplieron con uno o más supuestos del análisis de la varianza, utilizándose

estos datos para el caso no paramétrico (situación estudiada dos).

4.1. Pruebas no Paramétricos

Existe una amplia diversidad de pruebas no paramétricos, las cuales pueden ser

utilizadas dependiendo de los objetivos y los juegos de hipótesis planteadas en un

estudio específico para establecer conclusiones sobre el comportamiento de variables

bajo estudio. Estas pruebas ofrecen algunas de las ventajas con respecto a sus

contrapartes paramétricas, destacándose la rapidez del análisis y facilidad de

interpretación del mismo (Berenson and Levine, 1992).

La aplicación de las pruebas no paramétricas tienen un costo: en estudios en que

un parámetro de prueba sea más apropiado para su comprobación, pruebas no

paramétricas tienen menos poder. En otras palabras, un mayor tamaño de la muestra

puede ser necesario para extraer conclusiones con el mismo grado de confianza que las

pruebas paramétricas.

4.2. Prueba de Wilcoxón

http://209.85.133.132/translate_c?hl=es&sl=en&u=http://dic.academic.ru/dic.nsf/enwiki/150111&prev=/search%3Fq%3Drobust%2Bnonparametric%2Bmethods%26num%3D100%26hl%3Des&usg=ALkJrhiN2M9IZAsz8s2nodomXFRteb7i9A

La prueba de Wilcoxon fue desarrollada inicialmente por el bioquímico irlandés

Frank Wilcoxon (1892-1965) publicando sus resultados en la revista “Biometrika” en

1945, proponiendo la prueba conocida como prueba de las sumas de rangos de

Wilcoxon. Posteriormente, un resultado similar para el análisis de la misma situación en

que se desean comparar dos muestras que no siguen una distribución normal fue

publicado por el matemático americano Donald Ansom Whitney conjuntamente con el

matemático austriaco Henry Berthold Mann (discípulo de Abraham Wald) en la revista

“Annals of Mathematics and Statistics” en 1947.

La prueba de los signos de Wilcoxon es un método no paramétrico, alternativo a

la prueba t de Student, que compara la media de dos muestras relacionadas para

determinar si existen diferencias entre ellas. La prueba de Wilcoxon se aplica al caso de

las distribuciones continuas simétricas. Bajo esta condición, la media es igual a la

mediana y el procedimiento puede emplearse en probar la hipótesis nula que U=Uo.

Planteamiento:

Supongamos que tenemos dos muestras de n pares de observaciones. Sea x i una

observación inicial e yi otra final.

Suposiciones

1. Sea Zi = Yi − Xi para 'i=1,...,n'. Las diferencias Zi se presuponen independientes.

2. Cada Zi proviene de una población continua (no tienen por qué ser idénticas) y

simétricas con respecto a una mediana común θ.

Método

La hipótesis nula es H0: θ = 0. El estadístico W + es calculado tras ordenar los

valores absolutos | Z1 | ,..., | Zn | . El orden de cada | Z i | viene dado por Ri. Representado

por φi = I(Zi > 0) donde I(.) es un indicador de función. El estadístico de la prueba de los

signos de Wilcoxon, W +, se define como,

http://es.wikipedia.org/wiki/Hip%C3%B3tesis_nula

http://es.wikipedia.org/wiki/Estad%C3%ADstico_muestral#Test_t-Student

http://es.wikipedia.org/wiki/Estad%C3%ADstica_no_param%C3%A9trica

Se suele usar para comparar las diferencias entre dos muestras de datos tomados

antes y después del tratamiento, cuyo valor central se espera que sea cero. Las

diferencias iguales a cero son eliminadas y el valor absoluto de las desviaciones con

respecto al valor central son ordenadas de menor a mayor. A los datos idénticos se les

asigna el lugar medio en la serie. La suma de los rangos se hace por separado para los

signos positivos y los negativos. S representa la menor de esas dos sumas. Comparamos

S con el valor proporcionado por las tablas estadísticas al efecto para determinar si

rechazamos o no la hipótesis nula, según el nivel de significación elegido.

Las pruebas para comparar dos grupos o tratamientos son ampliamente

utilizadas en Estadística. En función de la distribución de ambas poblaciones, se utilizan

las diferentes pruebas disponibles. Cuando no se cumple la condición de normalidad es

habitual realizar la prueba de Wilcoxon, aunque también puede servir para contrastar

datos normales. Esta prueba también puede ser utilizada para comparar dos muestras

con datos categóricos ordinales.

Se supone que se tienen dos variables, una de ellas cuantitativa no normal u

ordinal, considerada como variable respuesta (Rta) y la otra dicotómica, considerada

como variable explicativa (Exp). Para establecer si hay diferencias en la variable

respuesta con relación a los grupos formados por la variable explicativa se utiliza la

prueba W de Wilcoxon. Dicha prueba es equivalente entre sí y en el contraste que se

realiza es:

H0: Las medianas son iguales

H1: Las medianas son diferentes (caso bilateral)

H1: La mediana del grupo 1 es superior / inferior a la mediana del grupo 2 (caso

unilateral).

Cuando se desconoce en qué sentido serán las diferencias (caso habitual) se

suele optar por contrastes bilaterales. Por otro lado, en algunos casos particulares

cuando las diferencias en uno de los dos sentidos no tienen significado, no son posibles

o ya está comprobado que no existen, se suele optar por contrastes unilaterales cuya

hipótesis alternativa sólo contiene la desigualdad en el sentido de interés.

El contraste de Wilcoxon es la técnica no paramétrica paralela a la t de Student

para muestras apareadas. Igualmente dispondríamos de n parejas de valores (xi, yi) que

podemos considerar como una variable medida en cada sujeto en dos momentos

diferentes.

i = 1, . . . , n, i–´esima observación ≡ (xi, yi) ! diferencia ≡ di = xi−yi

El test de Wilcoxon, al igual que los otros contrastes no paramétricos puede

realizarse siempre que lo sea su homólogo paramétrico, con el inconveniente

Bioestadística: Métodos y Aplicaciones de que este último detecta diferencias

significativas en un 95% de casos que el de la t de Student. Sin embargo a veces las

hipótesis necesarias para el test paramétrico (normalidad de las diferencias apareadas,

di) no se verifican y es estrictamente necesario realizar el contraste que presentamos

aquí. Un caso muy claro de no normalidad es cuando los datos pertenecen a una escala

ordinal.

El procedimiento consiste en:

1. Ordenar las cantidades |di| de menor a mayor y obtener sus rangos.

2. Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor

frecuencia (no consideramos las cantidades di = 0) y calculamos su suma, T = 8> < >: P

di>0 y si los signos positivos de di son menos frecuentes; P di<0 i si los signos

negativos de di son menos frecuentes. Del mismo modo es necesario calcular la

cantidad T0, suma de los rangos de las observaciones con signo de di de mayor

frecuencia, pero si hemos ya calculado T la siguiente expresión de T0 es más sencilla de

usar: T` = m(n + 1) – T

Donde m es el número de rangos con signo de di de menor frecuencia.

3. Si T ó T´ es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon

(tabla número 10), se rechaza la hipótesis nula del contraste:

H0 : No hay diferencia entre las observaciones apareadas

H1 : Si la hay

4.3. Observaciones Pareadas Prueba De Wilcoxón

En el caso de dos muestras recolectadas como observaciones apareadas, la

prueba de Wilcoxon descrita en la sección anterior puede usarse para probar la hipótesis

nula de que las dos medianas de la población son iguales. Dado que la prueba considera

la magnitud de las diferencias entre los valores de cada par asociado, y no sólo la

dirección o signo de la diferencia, es una prueba más sensible que la prueba de los

signos. Sin embargo, los valores muestrales deben hallarse en la escala de intervalo. No

se requiere de ningún supuesto acerca de las formas de las dos distribuciones.

Se determina la diferencia entre cada par de valores, la cual, junto con el signo

aritmético asociado, se designa como d. Si alguna diferencia es igual a cero, ese par de

observaciones se excluye del análisis, con lo que el tamaño de muestra efectivo se

reduce. Después, los valores absolutos de las diferencias se clasifican de menor a

mayor, asignando el rango de 1 a la diferencia absoluta menor. Cuando las diferencias

absolutas son iguales, se asigna el rango medio a los valores así relacionados.

Finalmente, se obtiene por separado la suma de los rangos de las diferencias positivas y

de las negativas. La menor de estas dos sumas es la estadística T de Wilcoxon para una

prueba de dos extremos. En el caso de una prueba de un extremo, la suma menor debe

asociarse con la direccionalidad de la hipótesis nula.

4.3.1 Prueba de Wilcoxón para muestras grandes

Las muestras grandes que deben ser mayores a 25 se les deben transformar en valor Z.

La fórmula es:

Donde:

ZT = valor Z de la T de Wilcoxon.

T = valor estadístico de Wilcoxon.

T = promedio de la T de Wilcoxon.

sT = desviación estándar de la T de Wilcoxon.

http://www.mitecnologico.com/Main/ObservacionesPareadasPruebaDeWilcoxon

Asimismo:

Donde:

N = tamaño de la muestra.

Por otra parte:

Un método alternativo para la comparación de las medias de los rangos es el uso

de la prueba de Wilcoxon.

1. Se calcula la diferencia entre las sumas de rango de los grupos (parcelas

principales), usando la formula |Ra - Rb|

2. Se calcula el estadístico CDf normalizado. Este valor establece que cualquier

diferencia entre la suma de rangos de dos condiciones que sean igual o mayor

que el valor estimado serán significativas.

El test de Wilcoxon

El Test que se combinaría con el Test de Friedman, es un test que utilice la

información entre las parcelas, es decir, las sub-parcelas, este podría ser el test de

Wilcoxon, este test hace uso de la información entre parcelas por la asignación de

rangos a través de valores absolutos a las diferencias entre observaciones aparecidas en

cada bloque. (Iman et al, 1984)

El test estadístico a probar es:

Donde, A y B vienen dados por

Obteniendo a Sj a partir de:

Y finalmente Sij de:

El resultado del FQ es comparado con los cuantiles de la distribución F para (k-

1); (b-1)(k-1) grados de libertad

PROCEDIMIENTO PARA EL CÁLCULO

1. Cada Xij observación es remplazada por su respectivo rango, considerando que el

menor valor se la asigna el rango 1 y a el mayor valor el rango N; a los empates

se le asignara el rango promedio entre ellos. De esta manera R(X ij )es el rango

que va de 1 a c, asociado con el j-esimo grupo (j= 1,2,…,c) en el i –esimo

bloque (i= 1,2,…,r)

2. Una vez asignados los rangos se deben chequear a través de la siguiente

fórmula:

3. Se realiza la suma se los rangos por parcelas (columnas), obteniéndose de esta

forma Sij

4. Se calcula Sj, A y B, a través de la fórmula descrita

5. Se obtiene FQ, y este resultado se compara con F

4.4 Prueba de Friedman

4.4.1. ANAVA no Paramétrico de Dos Vías o Prueba de Friedman.

Esta es la alternativa no paramétrica más recurrida al ANAVA de datos

obtenidos a partir de un diseño de bloques completos al azar. En ella se pretende probar

la igualdad de medias entre los tratamientos (H0: 1=...=n), utilizando observaciones,

tales como el orden o las medianas de los valores, para probar las hipótesis bajo estudio.

Estos valores son seleccionados porque frecuentemente son menos sensibles a la

presencia de variaciones entre las repeticiones de un mismo tratamiento y por lo tanto

son menos afectados por los cambios en la variabilidad interna del experimento. En el

caso de las medianas, la hipótesis a probar análoga al ANAVA sería H0: m1=...=mn,

donde m representa la mediana del tratamiento en cuestión. Algunas condiciones deben

ser satisfechas para poder aplicar la prueba de Friedman a datos experimentales: a) los

tratamientos deben ser independientes entre sí, y b) los valores deben ser seleccionados

aleatoriamente (Berenson and Levine, 1992).

Existen innumerables situaciones bajo las cuales la prueba de Friedman puede

ser de utilidad. A través de los años, se ha hecho una costumbre analizar variables

recogidas en campo directamente con ANAVA, sin determinar primero si las mismas

cumplen con los supuestos que le dan validez al análisis. (Bielinski et. al 2002)

Algunas de esas prácticas comunes es la que tiene que ver con el examen de

valores para abundancia de malezas o para índices de severidad de enfermedades. En el

primer caso, las poblaciones de malezas rara vez cumplen con el supuesto de

normalidad, ya que las mismas no colonizan un terreno aleatoriamente, más bien éstas

crecen sin patrón definido por lo que el ANAVA no sería la prueba que refleje con

mayor potencia las diferencias que tiendan a rechazar la Ho planteada. El segundo caso

pretende convertir variables claramente categóricas, como son los índices de severidad,

en variables cuantitativas continuas. (Bielinski et. al 2002).

Es el equivalente a la prueba ANOVA para dos factores en la versión no

paramétrica. El método consiste en ordenar los datos por filas o bloques,



http://es.wikipedia.org/wiki/ANOVA

reemplazándolos por su respectivo orden. Al ordenarlos, debemos considerar la

existencia de datos idénticos.

Método:

1. Sea una tabla de datos, donde m son las filas (bloques) y n las

columnas (tratamientos). Una vez calculado el orden de cada dato en su bloque,

reemplazamos al tabla original con otra donde el valor rij es el orden

de xij en cada bloque i.

2. Cálculo de las varianzas intra e inter grupo:

o ,

o

o

o

3. El estadístico viene dado por .

4. El criterio de decisión es

Es el equivalente no paramétrico de un diseño de medidas repetidas de una

muestra o un análisis de dos vías de la varianza, con una observación por celda.

Comprueba la hipótesis nula de que k variables relacionadas vienen de la misma

población. Para cada caso, las k variables son ordenadas en un rango de 1 a k. El

estadístico de la prueba se basa en estos rangos.

La W de Kendall es una normalización del estadístico de Friedman. Kendall’s W

es interpretable como el coeficiente de concordancia, que es una medida del acuerdo

entre jueces. Cada caso es un juez o evaluador y cada variable es un elemento o persona

siendo juzgada. Se calcula la suma de los rangos para cada variable. Kendall’s W varia

entre 0 (acuerdo nulo) y 1 (acuerdo absoluto).

Cochran’s Q es idéntica al test de Friedman pero se aplica cuando todas las

respuestas son binarias. Es una extensión del test de McNemar a la situación de k-

muestras. Cochran’s Q comprueba la hipótesis de que varias variables dicotómicas

relacionadas tienen la misma media. Las variables se miden sobre el mismo individuo o

sobre individuos emparejados.

Esta es la alternativa no paramétrica más recurrida al ANAVA de datos

obtenidos a partir de un diseño de bloques completos al azar. En ella se pretende probar

la igualdad de medias entre los tratamientos (H0: 1=...=n), utilizando observaciones,

tales como el orden o las medianas de los valores, para probar las hipótesis bajo estudio.

Estos valores son seleccionados porque frecuentemente son menos sensibles a la

presencia de variaciones entre las repeticiones de un mismo tratamiento y por lo tanto

son menos afectados por los cambios en la variabilidad interna del experimento. En el

caso de las medianas, la hipótesis a probar análoga al ANAVA sería H0: m1=...=mn,

donde m representa la mediana del tratamiento en cuestión. Algunas condiciones deben

ser satisfechas para poder aplicar la prueba de Friedman a datos experimentales:

a) los tratamientos deben ser independientes entre sí, y

b) los valores deben ser seleccionados aleatoriamente (Berenson and Levine,

1992).

Existen innumerables situaciones bajo las cuales la prueba de Friedman puede

ser de utilidad. A través de los años, se ha hecho una costumbre analizar variables

recogidas en campo directamente con ANAVA, sin determinar primero si las mismas

cumplen con los supuestos que le dan validez al análisis.

El procedimiento utilizado para compara los efectos de las parcelas principales

es la Prueba de Friedman, considerando que no es necesario cumplir con supuestos tan

exigentes como en el ANOVA (normalidad, igualdad de varianzas) y permite trabajar

con datos ordinales. Según Thompson et.al (1989) un grupo de test son recomendados

cuando no se cumplen los supuestos paramétricos, entre ellos el test de Friedman y el

test de Brown y Mood, basados en la suma de n rangos, estos test dependen solamente

del rango entre bloques (parcelas principales) y disminuyen el potencial de poder de los

resultados de la prueba por no usar la información contenida en intra bloques (sub

parcelas).

4.5. TEST DE FRIEDMAN K MUESTRAS

El test de Friedman para k muestras, es la técnica más utilizada en estos casos,

con la limitante de que solo usa la información dentro de las parcelas principales, es

decir, solo obtendríamos información sobre la comparación de las parcelas principales,

ya que esta prueba solo incluiría en el ANOVA el test de las filas para el arreglo de

datos (ranqueos).

Esta puede ser usada en la prueba de los efectos simples de los elementos por

separados, es decir, consideran las parcelas primero obviando las sub-parcelas y luego

probar las sub-parcelas sin considerar las parcelas.

La finalidad del test es probar que la k medianas entre las parcelas son las

mismas es decir:

Ha: No todas las M.j son iguales, siendo j= 1,2,…,c

Para el desarrollo del test en el arreglo balanceado de parcelas divididas,

debemos recordar que existen dos pruebas; una para las parcelas principales, que

engloban todas la información, y una para las sub parcelas dentro de cada parcela

principal. Es de esta manera, que al considerar el test de Friedman como test estadístico

para compara el efecto entre las parcelas principales (A) podríamos usar el test que se

basa en las siguientes fórmulas:

Donde T, viene dada por

Rj esta dado por

Y R(Xij) representa el rango asignado al j- esimo tratamiento dentro del i- esimo

parcela principal, cuando el ranqueo es realizado enteramente entre las parcelas. El

resultado obtenido en FF es comparado con el valor de la distribución F utilizando (k-1);

(b-1) (k-1) grados de libertad esto propuesto por Iman and Davenport (1980).

Pasos para realizar el Test de Friedman para k muestras

1. En cada uno de los r bloques independientes (parcelas), cada c observación es

remplazada por su respectivo rango, considerando que el menor valor se la

asigna el rango 1 y a el mayor valor el rango c; a los empates se le asignara el

rango promedio entre ellos. De esta manera Rij es el rango que va de 1 a c,

asociado con el j-esimo grupo (j= 1,2,…,c) en el i –esimo bloque (i= 1,2,…,r)

2. Una vez asignados los rangos se deben chequear a través de la siguiente

fórmula:

3. Se realiza la suma se los rangos por parcelas (columnas), obteniéndose de esta

forma Rj

4. Se calcula T, a través de la fórmula descrita

5. Se obtiene FF, y este resultado se compara con F

El procedimiento anteriormente descrito causa que la información dentro de las

parcelas sea perdida, es decir, la información de las sub-parcelas no es considerada,

existiendo la potencial perdida de poder de la prueba.

El procedimiento más utilizado para el análisis de los efectos principales

(parcelas principales) es la utilización del procedimiento de alineación por rangos, el

cual es condicionado a una distribución libre dada la asignación de rangos a los bloques

(Parcelas) (Hodges and Lehmann, 1962 citado por Hora and Conover, 1984)

Según Conover (1980) citado por Hora et.al (1984), como la prueba de Friedman

usa para el test los rangos entre bloques solo evalúa el efecto principal del un factor

(parcela principal). Este procedimiento causa que la información acerca de las

diferencias ínter bloques se pierdan, existiendo de esta manera una disminución en

poder de la prueba (Mehra et al, 1969).

Un acercamiento más general al análisis de los efectos principales es el

disponible es a través de procedimientos robustos de alineación de rangos,

condicionados a una distribución libre dado la asignación de lineal de los bloques

(Hodges et al, 1962 citado por Stephen et al 1984)

Quade, 1979 citado por Iman et al, 1984 propone una forma de disminuir este

problema y a través de una prueba no paramétrica que puede ser usada con bloques

completos llamada prueba de Friedman modificada, de esta forma se calcula el

estadístico:

Los Wi representan el rango asignado al rango de la muestra para el bloque i

cuando se compara con el rango de la muestra de otro bloque. Y se remplaza usual

rango de Friedman entre bloques (R(Xij)), por la cuenta Sij.(Iman, 1984)

El estadístico FQ que se obtiene a través de la siguiente formula:

Donde:

El resultado de la prueba se compara con lo cuantiles de la distribución F, con

grados de libertad (k-1) y (b-1)(k-1) para k 2.

Si el resultado al compara el valor calculado para el análisis de varianza por

rangos de Friedman, con el valor tabulado es significativo, es indicación de que existen

evidencias significativas entre por lo menos dos medianas muestrales de las k medianas

estudiadas.

Hipótesis

H0: 1 = 2 = 3

Esta hipótesis denota la igualdad de las medianas entre los grupos estudiados.

Con respecto a las muestras, cuando la hipótesis nula es verdadera la suma de los rangos

para todas las k condiciones son iguales.

H1: i ≠ j i = 1, 2 y 3; j = 2 y 3

La hipótesis alternativa indica que existe al menos diferencias entre dos de las

tres medianas estudiadas, de ser esta hipótesis cierta, la suma de los rangos de al menos

dos de las k condiciones evaluadas pueden no ser iguales.

Seguidamente, se expone la modelización desarrollada en el ámbito de los

diseños parcelas divididas. Para ello, se desarrollara el caso en que las q (k,…, q)

respuestas recogidas a partir de las n (i,…, n) unidades muéstrales independientes estén

agrupadas de acuerdo con los p (j,…, p) niveles de una variable de clasificación. Para

una situación como la descrita, el modelo lineal general con N unidades experimentales

puede escribirse como sigue:

Y= =XB+ +E

Donde Y será una matriz de respuestas de orden N x q, X es la matriz de diseño

de rango pleno de orden N x p, B es una matriz de parámetros no aleatorios de orden P

x q y el error E es una matriz de errores aleatorios de orden N x q. Si denotamos por

i’(i j1,…ijk) el vector de errores aleatorios correspondiente a la unidad ith, se asume

que cada sub-vector de errores es Nq (0;∑j). El hecho de que la forma de ∑j dependa de

j indica que todos los vectores de errores aleatorios no tienen la misma matriz de

varianzas y covarianzas, S, lo que implica que las matrices no son combinables.

En términos sustantivos las hipótesis de interés del diseño parcelas divididas o

diseño de medidas parcialmente repetidas son las siguientes:

1. ¿Existe interacción entre las variables entre e intra del diseño?

2. ¿Difieren entre sí los diferentes grupos de tratamiento?

3. ¿Tienen todas las respuestas el mismo efecto?

4.6. EXTENSIÓN MULTIVARIADA DE LA PRUEBA DE FRIEDMAN.

La prueba está basada en los rangos intrabloques. El rankeo se hará sobre los K

tratamientos dentro de cada bloque e individualmente para cada variable. Así los

serán los rangos de las observaciones.

Formar la n matriz

i = 1, 2,..., n

Cada fila de será alguna permutación de los números 1, 2,..., k. Definir de

la matriz derivada de permutando las columnas de manera tal que los números 1, 2,...,

k aparezcan en secuencia en la primera fila. Decimos que dos matrices A y B, son

permutacionalmente equivalentes si A puede ser obtenida de B por un número finito de

permutaciones de las columnas de B. Se tiene que es el grupo de matrices las

cuales son permutacionalmente equivalentes a . De allí que contiene k!

elementos.

La distribución de sobre todos sus combinaciones dependerán de la

distribución de origen, bajo Ho. No obstante, dada una combinación particular de , la

distribución de sobre será uniforme bajo Ho. De hecho, si , entonces

.

Finalmente, si , i = 1, 2, ..., n, entonces

porque los rangos intra-bloques son completamente independientes y esto se

asume de bloque a bloque.

Ahora estamos en posición de seleccionar una función de prueba la cual depende

de . Tal prueba será completamente especificada por la ley de

probabilidad condicional y, será similar a una prueba de Ho. Entonces tendremos que

denota la ley de probabilidad.

Se define

Fácilmente se ve que

si definimos

entonces, después de algunas simplificaciones,

finalmente, encontramos que

donde es el delta de Kronecker.

Entonces nuestro estadístico de prueba

,

donde .

Además la distribución de es asintóticamente una con p(k – 1) grados de

libertad.

5. INTERACCION PARCELAS x SUBPARCELAS

Este procedimiento esta basado en la matriz de rangos dada las diferentes

medidas dentro de cada combinación (parcela x sub-parcela) para este cálculo es

necesario usar el test de W propuesto por Koch and Sen (1968) citado por Koch (1993),

este es apropiado para situaciones donde las medidas en las diferentes sub parcelas en la

parcela no son necesariamente simétricas. Para el cálculo de W se deben calcular por

separado cada combinación parcela x sub parcela, una posibilidad es aplicar el

algoritmo dado para W cuando existen vectores de rangos enteros, al contrastarlos con

la matriz dada:

El resultado estadístico es aproximadamente similar a la distribución X2 con

grados de libertad d (p-1) este test es análogo al de Friedman multivariado cuando el

supuesto de simetría no se aplica sobre las sub-parcelas.

PROCEDIMIENTO:

A.1. La asunción básica: La distribución de cualquier grupo de contraste

linealmente independiente sobre la observación de cualquier sujeto es diagonalmente

simétrica.

A.2. La aditividad de los efectos de los sujetos.

A.3. La simetría compuesta de los errores.

De cualquier forma, se tienen cuatro casos de interés, que pueden ser descritos en la

siguiente tabla:

No A.2 A.2

No A.3 Caso I Caso III

A.3 Caso II Caso IV

En cada uno de los casos, la hipótesis de no efecto de tratamiento es:

Ho: T1 = T2 =…Tp = 0

6. ANALISIS NO PARAMÈTRICO DEL CASO I.

Supóngase que Ui está definido por Ui = Ci Yi , i = 1,2, … ,ni y m i por

; se tiene , donde los están definidos por

. Finalmente, se tiene que es un vector (p –

1)*1 definido por donde esta definido por

C = donde

Entonces A.1 plantea que para cada tienen la

misma distribución. Bajo Ho, , A.1 implica que tienen la misma

distribución. Se puede notar que esto es menos restrictivo que la asunción usual de

multinormalidad de los Ui .

Para probar Ho puede procederse de la siguiente manera:

Se tiene que

Donde los empates se obtienen por el método de los rangos promedios.

Se tiene que

Se puede observar que si entonces

Los son contrastes, bajo Ho, los vectores

tienen la misma distribución por A.1.

Esto genera un grupo de realizaciones igualmente probables, y como

resultado, el vector de rangos

son igualmente probables

(condicionalmente), cada uno probabilidad condicional ½ para Bajo esta

ley de probabilidad condicional ( ),

Se define la matriz . Los satisface el contraste

Vn es esencialmente singular y de rango p – 1.

Entonces definida C, el estadístico de prueba es .

Al mismo tiempo, Sen y Puri (1967), se puede demostrar que tiene una

distribución asintóticamente multi-normal (bajo de rango p – 1. Entonces, bajo

tiene una distribución asintóticamente Chi – cuadrada de rango p – 1. De aquí el

siguiente procedimiento de prueba:

Rechazar Ho si y solo si

está basado en los rangos intra-bloques, claramente no es afectado por la no

aditividad de los efectos de los sujetos. También siendo un estadístico de rango, es

menos vulnerable a errores grandes o valores atípicos (outliers). Finalmente, la

multinormalidad no es requerida para . Esto claramente indica su robustez.

6.1. ANALISIS NO PARAMETRICO DEL CASO II

Bajo esta condición esta compuesto de p variables

aleatorias para todo i = 1, 2, ,..., n . De allí se generan un grupo permutaciones

igualmente probables y el modelo permutacional asociado está denotado por . En

este caso, también trabajaremos con el estadístico pero bajo

. Entonces tenemos

es el delta de Kronecker.

De este modo podemos usar el estadístico de prueba

La distribución asintótica de (bajo ) es multi-

normal, y tiene asintóticamente una distribución chi – cuadrada con p – 1 grados de

libertad.

6.2. ANÁLISIS NO PARAMETRICO DEL CASO III.

Se define un grupo de variables aleatorias

Donde se debe notar que es idénticamente 0. Bajo Ho cada está

simétricamente distribuido alrededor de 0 y es

diagonalmente simétrico alrededor de 0 (la distribución es singular y de rango p – 1. Se

tiene

Donde

.En esta

definición los empates son sustituidos por el rango promedio y el cero (0) es asignado

con el valor de cero (0). También es el estadístico de rango de Wilcoxón (1949); al

mismo tiempo .

De la definición de sigue que , y al menos p – 1 de los son

linealmente independientes. Si se definen las puntuaciones por

entonces pueden alternativamente ser escritos como

Bajo el modelo permutacional de simetría diagonal tenemos

Si una prueba de Ho puede estar basada en:

Donde:

Para tamaños de muestras grandes tiene una distribución con p – 1 grados

de libertad. cuando no existe efecto de la condición dentro de cada i grupo.

es una forma cuadrática en el estadístico de rango de Wilcoxón, menos

vulnerable a errores grandes u observaciones atípicas e insensible a la no normalidad.

Mas aún los resultados de Sen (1968) indican que es también robusto a no aditividad de

los efectos de los sujetos así también como a posible heteroscedasticidad.

6.3. ANÁLISIS NO PARAMETRICO DEL CASO IV.

Se tiene que

, entonces una prueba para Ho puede estar

basada en

Para tamaños de muestra grandes sigue una distribución con p – 1 grados

de libertad. Como las otras pruebas no paramétricas anteriores, es menos vulnerable

a errores grandes o a valores atípicos y no es sensible a la no normalidad.

7. DESARROLLO DE LAS HIPOTESIS

Las hipótesis expuestas anteriormente serán expresadas todas mediante una

adecuada elección de la matriz de contrastes R y también en términos de los parámetros

de la matriz B que sigue:

La hipótesis nula afirma que las diferencias entre los niveles de la variable de

tratamiento no dependen de los niveles de la variable intra considerados, es decir, que

no existe interacción y viene dada por

O bien,

Donde R= C’ A’ es una matriz de orden (p-1)(q-1) x pq, C’ es una matriz de

coeficientes de orden (p-1) x p que determina los elementos de μ a incluir en la hipótesis

nula, A es una matriz de orden qx(q-1) propia de las situaciones multivariadas que

permite generar hipótesis entre los diferentes parámetros de respuesta, μ es un vector de

parámetros de orden pq x 1 y 0 es un vector nulo de cuyo orden es pqx1. Las matrices

C’ y A adoptan la forma que sigue:

La H01 se rechaza al nivel a si

De resultar la interacción significativa la hipótesis nula de ausencia de

diferencias entre los grupos viene dada por:

O simplemente:

Donde R= C’ a’ es una matriz de orden (p-1) x pq, C’ es una matriz de

coeficientes de orden (p-1) x p que determina los elementos de μ a incluir en la hipótesis

nula, a’ es un vector de unos de orden q x 1.

8. GENERACIÓN DE LAS MUESTRAS

Se realizó el proceso de simulación, utilizando el módulo de Excel, con el cual se

prepararon 1000 muestras aleatorias con distribución normal, cada una de tamaño t,

según la estructura del modelo no paramétrico de parcelas divididas propuesto.

Con cada muestra aleatoria fueron ejecutados los supuestos, el análisis de la varianza,

el coeficiente de variación prueba de wilcoxón y los cuatros casos anteriormente

mencionados para datos normales originales, los datos alterados y los uniformes.

9. CRITERIOS DE COMPARACIÓN

9.1. MODELOS Y TAMAÑO DE MUESTRA

9.1.1 TASAS DE ERROR Y POTENCIA

Las metodologías estadísticas no paramétricas son comparados en este trabajo en

términos de la tasa de error tipo I y II cometidos en cada uno de los cuatro casos y la

potencia de las pruebas. De acuerdo con la especificación del modelo y el área bajo

estudio, se podrá luego ofrecer recomendaciones acerca del uso de uno u otro método.

La tasa de error tipo I se calcula cuando se rechaza la hipótesis nula siendo que

en realidad es verdadera, respecto al total de ejecuciones de la prueba estadística en

cada uno de los cuatro casos mencionados.

Fue calculado, contando el número de veces en que se rechazó la hipótesis FПG

=D siendo cierta, respecto al total de ejecuciones de la prueba estadística en cada uno de

los casos mencionados.

Para decidir si se está cometiendo el error, debe rechazarse la prueba, una vez

que se ha planteado la hipótesis con los valores determinados. La hipótesis alternativa es

desigual a éstos.

La tasa de error tipo II se calcula cuando no se rechaza la hipótesis nula sabiendo

que en realidad es falsa, respecto al total de ejecuciones de la prueba estadísticas en

cada uno de los cuatros casos mencionados.

Fue calculado, contando el número de veces en que no se rechazó la hipótesis

FПG =D siendo falsa, respecto al total de ejecuciones del estadístico en cada uno de los

casos mencionados.

Para decidir si se está cometiendo el error, debe no rechazarse la prueba, una vez

que se ha planteado la hipótesis con los valores falsos. La hipótesis alternativa es mayor

que éstos.

El criterio para identificar el error tipo II, fue no rechazar la prueba, una vez que

se ha planteado la hipótesis con los valores falsos de П. La hipótesis alternativa es П

mayor que éstos.

Los valores determinados de П, calculados por П=(X′X)¯¹ (X′Y), se obtienen, a

partir de la matriz original de datos³

Los valores falsos de П, se obtienen a partir de la población y los valores de cada

coeficiente de variación o cada elemento de П.

Nótese que todo valor verdadero de П es siempre mayor que su

Resultados y discusión.

Conclusiones.

Recomendaciones.

Rerefencias bibliograficas.

AKRITAS, M., 1991. Limitations of the rank transform procedures: a study of repeated measures designs, Parte I J. Amer. Statist. Assoc. 86, 457-460.

AKRITAS, M., 1993. Limitations of the rank transform procedures: a study of repeated measures designs, Parte II J. Statist. Prob. Lett. 17, 149-156.

AKRITAS. M.G., ARNOLD, S.F., Y BRUNNER, E., 1997. Nonparamctric hypothesis and rank statistics for unbalanced factorial designs. J. Amer. Statist. Assoc. 92, 258-265.

ASCANIO, M., Y MONTAÑA, R (2007). Análisis estadístico no paramétrico para experimentos factoriales 2k y 3k, para K: 2 y 3. Tesis de Maestría. Facultad de Agronomía UCV.

BEASLEY T.M. Y B.D. ZUMBO (2003). Comparison of aligned Friedman rank and parametric methods for testing interactions in split-plot designs. Computational Statistics & Data Analysis. 42. 569 – 593.

BALESTRINI ACUÑA, MIRÍAN (1998) Cómo se elabora el Proyecto de Investigación (2da Edición) Caracas: BL Consultores Asociados, servicio Editorial

BERENSON, M.L. Y D.M. LEVENE. 1992. Basic business statistics: Concepts and applications. 5th Ed. Prentice-Hall, Inc., EE.UU. 953 pp.

BICKEL, P. (1965). On some asymptotically non-parametric competitors of hotelling´s T2. Ann. Math. Statist. 36, 160-173.

BIELINSKI M. SANTOS, JAMES P. GILREATH, RAMÓN ARBONA Y ANGEL R. PIMENTEL. 2002. La Estadística no Paramétrica para el Análisis e Interpretación de Estudios de Plagas: Alternativas al Análisis de Varianza.

BRUNNER Y PURI M. 2000. A class of rank score test in factorial designs. J. Statist. Plann. Inference (to appear).

BRUNNER, E., Y MUNZEL, U. (2000). Nonparametric methods in multivariate factorial designs. Journal of Statistical Planning and Inference 88, 117-132.

BRUNNER E., PURI M., Y SUN S., (1995). Nonparametric methods for stratified two-sample designs whit application to multiclinic trials. J. Amer. Statist. Assoc. 90, 1004-1014.

CALZADILLA, JOSEFINA.1999. Procedimientos de la estadística no paramétrica. Aplicaciones en las Ciencias Agropecuarias. Tesis presentada en opción al título de Master en Matemática Aplicada a las Ciencias Agropecuarias.

CANAVOS, G., (1988). Probabilidad y estadísticas. Mc. Graw-Hill. Mexico, D.F. 651 p

CHACÍN, F., (2000). Diseño y Análisis de experimentos. Ediciones del Vicerrectorado Academico, U.C.V. Caracas-Venezuela.

CONOVER, W.J. Y IMAN, R.L. (1976). In Some Alternative Procedure Using Rank for the Análisis of Experimental Desings. Commum. Statist. Theor. Math. A5(14).1349-1368.

DYKE, G. V., AND H. D. PATTERSON. 1952. Analysis of factorial arrangements when the data are proportions. Biometrics 8: 1_12.

HETTMANSPERGER, T., MCKEAN, J. y SHEATHER, S., (2000). Robust nonparametric methods. J. A. S. A., 95, 452, 1308-1312.

KEPNER J., Y ROBINSON, D. (1988). Nonparametric methods for detecting treatment effects in repeated measures designs. J. Amer. Statist. Assoc. 83, 456-461

KOCH GARY G. 1969. Some aspects of the statistical análisis of ”Split plot” experiments in completely randomized layouts. J. Amer. Statist. Assoc. 485-505

MANN, H. Y WHITNEY, D.(1947). On a test of whether one of two random variables is stochastically larger then the other. Annals of Mathematical Statistics 18, 50-60.

MIÑARRRO, A. 1998. Estimación no paramétrica de la función de densidad. Editorial Barcelona. España. 5p.

MONTGOMERY, D. (1991). Diseño y Análisis de experimentos. Grupo Editorial Iberoamerica México, D.F. 588p.

MOOD, ALEXANDER M. AND GRAYBILL, FRANKLIN A. 1972. Introducción a la teoría de la Estadística. Edición española. Aguilar S.A. de ediciones. Madrid. España. 528p.

OTT, L., M.T. LONGNECKER Y R.L. OTT. 2000. An introduction to statistical methods and data analysis. 5th Ed. Brooks-Cole Publ., EE.UU. 1184 pp.

RUPERT G. MILLAR JR. (1980). Simultaneous Statistical inference. Second Edition.

SHAH, D.A. Y MADDEN, L.V. (2004). Nonparametric Analysis of Ordinal Data in Designed Factorial. The American Phytophatological Society. Vol 94 N1. 33-44

SIEGEL, S., (2000). Estadística no paramétrica aplicada a las ciencias de la conducta. Editorial Trillas, S.A. México, D.F.

STEEL Y TORRIE, J. (1990). Principies and procedures of statistic. Mc Grawhill. Broth Co. Inc. New York.

THOMPSON, G. Y AMMANN, L (1989). Efficacies of rank-transform statistics in two-way models with no interaction. J. Amer. Statistic. Assoc. 84, 325-330.

THOMPSON J Y R. PARMER (1995). A comparison of nonparametric methods with parametric Methods for the cps cati/capi mode effects analysis. Statist. Theor. Math. A4 (11).1300-1315.

T. MARK BEASLEYA, BRUNO D. ZUMBO. 2002. Comparison of aligned Friedman rank and parametric methods for testing interactions in split-plot

VILLEGAS RIVAS, DANNY. 2007. Alternativas de análisis estadístico no paramétrico en experimentos con mediciones repetidas en el tiempo.

G. VALLEJO SECO y J.R. ESCUDERO GARCIA. Algunas soluciones aproximadas para diseños split-plot con matrices de covarianza arbitrarias, Q¨U ESTII´O, vol. 22, 3, p. 443-468, 1998