RevistaColombianadeEstadistia_v34n2

download RevistaColombianadeEstadistia_v34n2

of 173

Transcript of RevistaColombianadeEstadistia_v34n2

  • Numero especial enaplicaciones en la industria y estadstica industrial

    Editor

    B. Piedad Urdinola, Ph.D.Universidad Nacional de Colombia, Bogota, Colombia

    Editor invitado

    Jorge Luis Romeu, Ph.D.Syracuse University, New York, USA

    Comite invitado

    Alberto Lucene, Ph.D.Universidad de Cantabria, Cantabria, Espana

    Jose Alberto Vargas, Ph.D.Universidad Nacional de Colombia, Bogota, Colombia

    Manuel Presedo, Ph.D.Universidade da Coruna, La Coruna, Espana

    Sergio Yanez, Ph.D.(c)Universidad Nacional de Colombia, Medelln, Colombia

    Victor Aguirre, Ph.D.Instituto Tecnologico Autonomo de Mexico, ITAM, Mexico

  • Revista Colombiana de Estadstica Bogota Vol. 34 No 2ISSN 0120 - 1751 COLOMBIA junio-2011 Pags. 211-402

    Contenido

    Javier Tarro & Salvador NayaInfluencia de la adicion de nano y microslice en la estabilidad termica de unaresina epoxi. Aplicaciones del ANOVA funcional . . . . . . . . . . . . . . . . . . . . . . . .211-230

    Sergio Yanez, Hugo Brango, Mario C. Jaramillo & Carlos M. LoperaComparacion entre riesgos competitivos va el estimador copula-grafico . . 231-248

    Carlos M. Lopera, & Eva Cristina ManotasAplicacion del analisis de datos recurrentes sobre interruptores FL245 enInterconexion Electrica S.A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .249-266

    Enrique Raul Villa-Diharce & Pedro Enrique MonjardinAnalisis bivariado de confiabilidad basado en copulas . . . . . . . . . . . . . . . . . . . . 267-285

    Ruben Daro Guevara & Jose Alberto VargasProcess Capability Analysis Plot for a Product with BilateralSpecifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287-301

    John Cook, Jairo Fuquene & Luis PericchiSkeptical and Optimistic Robust Priors for Clinical Trials . . . . . . . . . . . . . . . 333-345

    Carlos G. MateA Multivariate Analysis Approach to Forecasts Combination. Applicationto Foreign Exchange (FX) Markets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347-375

    Jorge Andres Perdomo & Darrell HuethFunciones de produccion, analisis de economas a escala y eficiencia tecnica en eleje cafetero colombiano: una aproximacion con frontera estocastica . . . . . 377-402

  • Editorial

    Nmero especial de la Revista Colombiana de Estadstica enaplicaciones en la industria y estadstica industrial

    Jorge Luis Romeu1,2,a, B. Piedad Urdinola3,b

    1Department of Mechanical and Aerospace Engineering, Syracuse University, NewYork, United States

    2Proyecto Jurez Lincoln Mart,3Departamento de Estadstica, Facultad de Ciencias, Universidad Nacional de

    Colombia, Bogot, Colombia

    Durante 2010, escribimos en los Boletines Electrnicos del Proyecto Jurez LincolnMart de Educacin Internacional (http://web.cortland.edu/matresearch), variosartculos sobre la necesidad de tener, en Iberoamrica, ms publicaciones que tra-taran sobre estadstica aplicada en espaol. La Revista Colombiana de Estadstica,a travs de su editora ejecutiva de ese momento, recogi este llamado. Y as naciel Nmero especial de aplicaciones en la industria y estadstica industrial, que hoyponemos en sus manos.

    La importancia de la estadstica en el mundo moderno es indiscutible. Se uti-liza en la agricultura, en la industria, el comercio y las ciencias sociales, entreotras reas de importancia econmica, que tanto necesitan desarrollarse en nues-tra regin. Por este motivo, es necesario reforzar el estudio de las aplicaciones,adems del estudio terico de la estadstica, en donde todava tenemos un grandficit. Similar a este dficit, es el bajo dominio en la lengua predominante en lasciencias de nuestro tiempo, -el ingls-, por parte de la mayora de los estudianteslatinoamericanos.

    El presente Nmero especial de la RCE pretende ayudar a llenar este vaco,presentando ocho excelentes trabajos de estadstica aplicada, escritos en espaol,o con un extenso resumen en espaol, para los dos trabajos escritos en ingls.Recibimos 20 trabajos, de autores de ms de ocho pases de Iberoamrica, algunosde los cuales fueron pasados al nmero regular de RCE, dado su carcter terico. Seescogieron los presentes, por su rea de inters, y por su aplicacin a la resolucinde problemas prcticos en esas reas.

    Pensamos que muchos profesores de estadstica aplicada (ingeniera, cienciascomerciales y agropecuarias, econometra, etc.) podrn utilizar este material ensus clases, y aun animar a alumnos a convertir sus tesis de maestra en artculos,y someterlos a futuros nmeros de la RCE.

    aEditor invitado nmero especial de la Revista Colombiana de Estadstica.Profesor e investigador. E-mail: [email protected]

    bEditora nmero especial de la Revista Colombiana de Estadstica.Profesora asociada. E-mail: [email protected]

  • Pensamos tambin que con la publicacin de trabajos aplicados en espaol seincremente el nmero potencial de autores y lectores, logrando as que los depar-tamentos de estadstica que actualmente prefieren que sus profesores publiquen eningls, tambin consideren aceptables los trabajos publicados en espaol.

    Por ultimo, este nmero no habra salido sin la constante participacin y elapoyo de los miembros del Comit Invitado, sin el cuidadoso y dedicado trabajode los rbitros, que leyeron y releyeron las distintas versiones de los artculos, y laasistenta editorial de la revista. Gracias,

  • Editorial

    Special Issue of the Colombian Journal of Statistics on IndustrialApplications and Industrial Statistics

    Jorge Luis Romeu1,2,a, B. Piedad Urdinola3,b

    1Department of Mechanical and Aerospace Engineering, Syracuse University, NewYork, United States

    2Proyecto Jurez Lincoln Mart,3Departamento de Estadstica, Facultad de Ciencias, Universidad Nacional de

    Colombia, Bogot, Colombia

    During 2010, we wrote several articles in the Juarez Lincoln Marti InternationalEducation Project Electronic Bulletins, about the need for having, in Iberoameri-ca, more publications and more papers dealing with applied statistics, written inSpanish. The Colombian Journal of Statistics (RCE), through its Executive Editorat the time, responded to this call. And this is how the Special Issue on Applica-tions in Industry and Industrial Statistics that we bring today to our readers, wasborn.

    The importance of statistics in the modern world is unquestionable. It is usedin agriculture, in industry, in business, and social sciences, among many areas ofeconomic importance that are in need, and which require further development, inour region. For these reasons, to underline the study of applications, in additionto the study of theoretical statistics, is necessary. And this is an area where westill have a large deficit. In addition, many -if not most -of our Latin Americanstudents have a low level of English language understanding, which is the languagein which most science articles are written today. Thus, they cannot read them, letalone write them.

    The objective of this Special Issue of RCE is, precisely, to fill such void, bypresenting eight excellent articles in applied statistics, written in Spanish, or withan extended summary in Spanish, for the two articles that are written in English.We received twenty submissions, written by authors from eight Ibero-Americancountries. Some of them were passed to the regular issue of RCE, given theirtheoretical slant. The remaining eight were selected for their areas of interest, andfor their application techniques to solving practical problems in such areas.

    We believe that many applied statistics professors in engineering, business,agriculture and econometrics, among others, may be able to use this material intheir classes. And perhaps to encourage their masters students to convert theirtheses into articles, and to submit them to future issues of RCE.

    aInvited Editor Special Issue of the Colombian Journal of Statistics.Professor and Research. E-mail: [email protected]

    bEditor in Chief Special Issue of the Colombian Journal of Statistics.Associate professor. E-mail: [email protected]

  • We believe that, with the publication of applied papers in Spanish, we will helpincrease the number of potential authors and readers. And with this, to convincesome statistics departments that currently require that their faculty publish inEnglish, to also consider acceptable to have papers published in Spanish.

    Finally, this issue would not exist without the constant participation and sup-port of the members of the guest Committee, without the careful and dedicatedreadings of the reviewers, who went through several versions of each article, andwithout the help of the Editorial Assistant of this journal. Thank you.

  • Revista Colombiana de Estadstica

    Junio 2011, volumen 34, no. 2, pp. 211 a 230

    Influencia de la adicin de nano y microslice en la

    estabilidad trmica de una resina epoxi.

    Aplicaciones del ANOVA funcional

    Influence of Nano and Micro Silica Addition on Thermal Stability of

    an Epoxy Resin. Use of Functional ANOVA

    Javier Tarroa, Salvador Nayab

    Departamento de Matemticas, Escuela Politcnica Superior, Universidad de A

    Corua, Ferrol, Espaa

    Resumen

    El principal objeto de este trabajo ha sido el empleo de una nueva tcnicaque ana el anlisis funcional y el diseo de experimentos: ANOVA funcio-nal para un factor tratamiento. Mediante esta herramienta se ha medido lainfluencia que tiene la adicin de una mezcla de nano y micro partculasde humo de slice, subproducto de la industria del silicio, en la degradacintrmica de una resina epoxi. Para tal fin se ha realizado un diseo de experi-mentos con un factor tratamiento (cantidad de humo de slice) a tres nivelesdiferentes. Los datos se han obtenido mediante el empleo del Anlisis Ter-mogravimtrico (TG), dando como resultado cinco curvas o trayectorias dedegradacin por nivel. El ANOVA funcional aprovecha toda la informacinde cada curva o dato funcional.

    El empleo del ANOVA funcional a partir de los datos TG ha dado comoresultado que la cantidad de humo de slice influye significativamente en laestabilidad trmica del compuesto y de la resina epoxi involucrada en cadamuestra. Estos hechos pueden ser un indicio de la interaccin entre la faseorgnica e inorgnica del material.

    Palabras clave: anlisis de datos funcionales, ANOVA, diseo de experi-mentos.

    Abstract

    The main purpose of this work has been the use of a new technique thatcombines the functional analysis and design of experiments: a one way fun-ctional ANOVA. Using this tool is intended to measure the influence of theaddition of a mixture of nano and micro particles of silica fume, by-product

    aProfesor titular. E-mail: [email protected] titular. E-mail: [email protected]

    211

  • 212 Javier Tarro & Salvador Naya

    of silicon industry, on the thermal degradation of epoxy resin. To achievethis, it has been performed a design of experiments with a treatment factor(amount of fumed silica) at three different levels. The data were obtainedusing thermogravimetric analysis (TG), resulting in five curves or degrada-tion pathways by level. The functional ANOVA uses all information of eachcurve or functional data.

    The use of functional ANOVA from TG data has resulted in the amountof silica fume significantly affect the thermal stability of the compound andthe epoxy resin involved in each sample. These facts may be indicative ofthe interaction between the organic and the inorganic phase.

    Key words: ANOVA, Experimental design, Functional data analysis.

    1. Introduccin

    En los ltimos aos se ha producido un gran avance en tcnicas estadsticasasociadas al incremento y mejora de las aplicaciones informticas. Algunas deestas tcnicas han surgido para dar respuesta al problema que supone el trabajarcon grandes bases de datos, que en ocasiones corresponden a observaciones de unavariable aleatoria tomadas a lo largo de un intervalo continuo. Un ejemplo de estasnuevas tcnicas es lo que se conoce como estadstica o anlisis de datos funcionales(FDA, sus siglas en ingls).

    La estadstica de datos funcionales aborda muchos de los problemas de la es-tadstica clsica: descripcin de variables, modelizacin, clasicacin, inferencia,etc. Habra que mencionar la publicacin del libro de Ramsay & Silverman (1997)como el pionero en la divulgacin de este tipo de estudios, si bien muchas de lasaplicaciones a problemas concretos en reas tan dispares como la medicina o laingeniera se presentan en una segunda obra de los mismos autores (Ramsay &Silverman 2005). Otros dos textos importantes para el acercamiento a este estudioson, por un lado, el libro de de Ferraty & Vieu (2006), obra referencia en el enfo-que no paramtrico del FDA, y el ms reciente y generalista de Ferraty & Romain(2010).

    En este trabajo se propone la aplicacin de algunas de estas nuevas tcnicasdel campo de la estadstica de datos funcionales en el estudio de las propiedadesde un nuevo material compuesto para la industria: las resinas polimricas epoxicon refuerzo de nano y micropartculas de slice. El material en cuestin es unnanocompuesto de matriz polimrica (resina epoxi) y carga inorgnica (partculasde humo de slice).

    Las resinas epoxi son un polmero termoestable ampliamente utilizado. Algu-nas de las ventajas que exhiben las resinas epoxi frente a otros tipos de resinaspolimricas son, entre otras, su baja contraccin de curado, la prctica ausenciade voltiles durante el mismo, resistencia mecnica y durabilidad, adhesin, resis-tencia qumica y aislamiento elctrico. Adems, estas resinas son compatibles conun gran nmero de materiales, por lo que son ampliamente utilizadas como matrizde materiales compuestos. De hecho, aunque su uso est de alguna forma limitadodebido a su alta rigidez, provocada por una densa estructura de entrecruzamien-

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 213

    to, sus propiedades mecnicas pueden mejorarse mediante la adicin de partculasinorgnicas (Harsch, Karger-Kocsis & Holst 2007). La forma, volumen, tamao,caractersticas superciales y dispersin de las partculas dentro de la matriz con-dicionan altamente las propiedades mecnicas del material compuesto resultante(Lee & Lichtenhan 1999, Mehta, Mirabella, Bafna & Rufener 2004, Hsiue, Chen& Liu 2000, Shao-Yun, Xi-Qiao, Bernd & Yiu-Wing 2008). Particularmente el usode nano-partculas provoca un mayor aumento del mdulo de Young que el usode micropartculas, incluso con una menor cantidad de las mismas (Zhang, Zhang,Friedrich & Eger 2006). Los nanocompuestos de matriz orgnica y carga inorgnicahan mostrado ser capaces de proporcionar aumentos simultneos en propiedadestales como la estabilidad trmica, el retardo a la llama, la temperatura de transi-cin vtrea y la estabilidad dimensional, adems de la disminucin de la constantedielctrica (Zhang et al. 2006, Liu, Wei, Hsu & Ho 1999, Preghenella, Pegoretti &Migliaresi 2005, Youse, Laeur & Gauvin 1997). Debido a la mejora de sus pro-piedades mecnicas, el uso de materiales compuestos de matriz epoxdica es una delas opciones ms utilizadas en la construccin de materiales ligeros para aplicacio-nes estructurales en la industria aeronutica (aviones, transbordadores, satlites)y de los vehculos de transporte en general, como por ejemplo en automviles yembarcaciones de altas prestaciones (Petrie 2006). Particularizando en este estu-dio, se ha buscado obtener mejoras en las propiedades de una determinada matrizepoxdica, siendo el primer paso para obtener nuevos materiales compuestos conaplicacin, tanto en las industrias anteriormente mencionadas como en el sectorde la construccin, fabricacin de adhesivos o mismo en la industria elctrica yelectrnica, adems de cumplir con una labor necesaria como es el reciclaje de unimportante desecho industrial como es el humo de slice.

    En este trabajo, los compuestos de humo de slice-resina epoxi fueron prepa-rados y caracterizados mediante el empleo de tcnicas termogravimtricas (TG),usuales en la evaluacin de la estabilidad trmica de un material (Tarrio-Saavedra,Lpez-Beceiro, Naya & Artiaga 2008). Para ello se ha escogido una resina epoxino convencional, basada en el trimetilolpropano, especialmente indicada para lamanufactura de materiales compuestos. Por otro lado, el humo de slice empleadoes un subproducto de la industria del silicio y ferrosilicio. Se forma en lo alto delos hornos de induccin de arco sumergido, siendo su forma de obtencin diferentea los procesos convencionales para SiO2 sinttico (Mohammad & Simon 2006).Por las caractersticas especiales del mtodo de produccin, el humo de slice em-pleado tiene una pureza variable, dependiente de las condiciones de operacin enlos hornos. En todo caso, la proporcin en peso de slice nunca resulta menor del95%.Tambin es variable el tamao de partcula, de hecho el humo de slice cons-ta de nano y micropartculas, teniendo en cuenta el criterio de Schadler (2003)(dimetro menor de 100 nm implica que es una nanopartcula). Esta especial dis-tribucin de tamaos hace esperar una posible combinacin de efectos micro ynano.

    Parte importante de este estudio es la determinacin del grado de interac-cin del humo de slice con la resina epoxi, relacionado con la interfase orgnica-inorgnica. Esta se dene como aquella regin que comienza en el punto de lacarga que diere del resto de la carga y termina en el punto de la matriz en el que

    Revista Colombiana de Estadstica 34 (2011) 211230

  • 214 Javier Tarro & Salvador Naya

    sus propiedades son las mismas que en el resto de la matriz (Schadler 2003). Laexistencia de esta interfase inuye en propiedades tales como la estabilidad trmicao la temperatura de transicin vtrea. De hecho, la variacin de dichas propiedadespuede tomarse como un ndice de su existencia (Tarrio-Saavedra et al. 2008).

    El resto del artculo se ha estructurado del siguiente modo. En la seccin si-guiente se presenta el modelo ANOVA funcional, seguidamente, en una seccindedicada a la parte experimental, se analizan los datos, curvas TG obtenidas en elestudio trmico de los nanomateriales, en otra seccin se realiza un ajuste de losmismos en una base adecuada, con el n de suavizarlos. A continuacin se aplica elmodelo ANOVA funcional a estas curvas termogravimtricas. Finalmente en unaltima seccin se presentan los resultados, las conclusiones y se proponen nuevaslneas de investigacin.

    2. El modelo ANOVA funcional

    Los datos funcionales, llamados tambin datos longitudinales, aparecen aso-ciados a procesos monitorizados continuamente en el tiempo. Es decir, cuando semide una variable en un conjunto discreto y nito de puntos ordenados; conside-rando que esa variable sigue una relacin funcional continua. En este contexto, unavariable aleatoria X se dice una variable funcional si toma valores en un espaciofuncional F (normado o seminormado completo). Un caso particular se producecuando la variable funcional X pertenece a un espacio de Hilbert, como es el casode las funciones continuas en un intervalo (Ramsay & Silverman 1997). Este es elcaso de las curvas de Anlisis Termogravimtrico, conocidas como curvas TGA oTG, que sern las utilizadas en este trabajo, y que cumplen la propiedad de perte-necer al espacio de funciones medibles en un intervalo real, es decir, X L2([0, T ])(Naya, Cao & Artiaga 2003).

    Como la variable de inters, masa de la muestra, se ha evaluado cada segundo,los datos pueden ser considerados funcionales. Dada la naturaleza funcional delos datos se propone la construccin de un ANOVA funcional (Cuevas, Febrero& Fraiman 2004). Una de las ventajas que presenta frente a un ANOVA clsicoconsiste en el aprovechamiento de toda la informacin de la curva en lugar derecurrir a indicadores puntuales sobre la misma.

    Siguiendo la nomenclatura de Cuevas et al. (2004), cada dato funcional se puederepresentar como Xij(t) con t [a, b], extrados de k procesos L2, Xi(t), siendo iel subndice que indica el nivel del factor y j el nmero de rplica (j = 1, 2, . . . , nie i = 1, 2, . . . , k). Como, en este caso, la temperatura es directamente proporcionalal tiempo (10/min), puede considerarse a t como los valores de la propiatemperatura.

    La media correspondiente a cada nivel o muestra independiente tiene la formaE(Xi(t)) = mi(t), mientras la covarianza entre dos instantes determinados dentrode una curva, en el caso ms restrictivo de existencia de heterocedasticidad, se

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 215

    identica como Ki(s, t):

    Ki(s, t) =

    nij=1

    (Xij(s)Xi(s)

    ) (Xij(t)X i(t)

    )ni 1

    (1)

    Por tanto, en este contexto funcional, el objetivo del contraste asociado alANOVA funcional es probar que:

    H0 : m1 = m2 = = mk (2)

    El estadstico implementado por Cuevas et al. (2004) para contratar esta hi-ptesis es el siguiente:

    Vn =i 0 para i = 1, . . . , k, pi =nin .

    b) las observaciones Xij(t) con j = 1, . . . , ni, se corresponden con k muestrasindependientes de tamao ni procedentes de k procesos L2 con media cero ycovarianza Ki(s, t), se puede armar que la distribucin de Vn bajo la hiptesisH0 coincide con la del estadstico:

    V =i V se rechazar la hiptesis H0 siendo el test signicativo, es decir, lasmedias de los distintos niveles del factor seran diferentes.

    3. Experimentacin y obtencin de datos

    3.1. Materiales

    Los materiales empleados en este estudio estn formados por una resina epo-xi, que acta como matriz del material compuesto. Este polmero est basado enel diglicidil eter de trimetilolpropano, Triepox GA, manufacturado por la empre-sa GAIRESA, SA. El agente de curado utilizado es una amina aromtica, 1,3-bencenodimetanamina, suministrada por Aldrich. Triepox GA es una resina alta-mente tixotrpica que posee, adems de una baja densidad, la capacidad de curara temperatura ambiente en ausencia de plasticantes o aditivos.

    Revista Colombiana de Estadstica 34 (2011) 211230

  • 216 Javier Tarro & Salvador Naya

    El humo de slice ha sido proporcionado por Ferroatlntica I+D, Espaa. Seobtiene como un subproducto en la produccin del silicio en hornos de arco elc-trico sumergido. Este proceso implica la reduccin de cuarzo de alta pureza, atemperaturas superiores a 1800. El humo de slice se forma cuando el gas SiO,resultante de la reduccin de cuarzo, se mezcla con el oxgeno en la parte superiordel horno, dando lugar a la produccin de partculas esfricas de slice. Es un polvono de color variable, desde casi negro a ligeramente blanquecino, en funcin de sucontenido en carbono. Su tamao medio de partcula es de 0.15 micras y el 41.9%de las partculas tienen un dimetro inferior a 0.2 micras. El rea supercial sesita en torno a 20 m2g1. En cuanto a la composicin qumica, el humo de sliceconsta de SiO2 amorfo de pureza variable.

    3.2. Obtencin de las muestras

    Las muestras han sido preparadas para contenidos del 0, 10, y 20% en pesode humo de slice. Tanto la resina como el endurecedor se han mezclado en unaproporcin estequiomtrica. Para la obtencin de los compuestos correspondientesal 10 y al 20% en humo de slice, las mezclas de slice y resina se han agitadodurante 15 minutos con el n de obtener una distribucin lo ms uniforme posible.A continuacin, se ha aplicado un tratamiento de ultrasonidos durante 5 minutosy a temperatura ambiente para dispersar a los aglomerados de slice. La pastaas obtenida se ha vertido en un molde de silicona con cavidades de dimensiones0.8430mm. En este emplazamiento, las muestras han sido curadas a tempera-tura ambiente durante 24 horas, aplicando posteriormente un postcurado a 90durante 2 horas.

    Los experimentos TGA se han llevado a cabo por medio de una termo-balanzaSTA 1500, de Rheometric Scientic. Todas las muestras se han sometido a unarampa de calentamiento de 10/min, en un rango de temperaturas comprendidoentre 20 y 600. Todos los experimentos se han realizado bajo atmsfera oxidante,manteniendo un ujo de aire de 50 mLmin1.

    4. Diseo de experimentos

    Con el objeto de evaluar el efecto de la adicin de humo de slice en la degra-dacin trmica del material resultante, se ha realizado un diseo de experimentoscon datos funcionales. Se ha elegido un diseo completamente aleatorizado de unava para probar las posibles diferencias en la respuesta al variar el nivel del factor.Se ha tomado como factor de estudio o variable explicativa el contenido en slice decada muestra, con tres niveles (0%, 10% y 20% en peso de humo de slice). Se hanefectuado entre 5 y 7 experimentos o rplicas por cada nivel con el n de caracte-rizar la inuencia de la cantidad de humo de slice en la estabilidad trmica de losmateriales compuestos resultantes: 7 correspondientes a la resina epoxi sin carga,otros 7 para un 10% en peso de humo de slice y 5 para un 20% (ver gura 1). Elnmero de rplicas elegidas se ha marcado principalmente con el n de llegar a uncompromiso aceptable entre la representacin adecuada de la variabilidad dentro

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 217

    de cada nivel y el tiempo de experimentacin total requerido. Adems, de entre los19 experimentos efectuados en total, 4 han sido realizados variando ligeramentelas condiciones experimentales. Mediante un posterior anlisis de profundidad dedatos funcionales se pretende identicar las curvas TG obtenidas mediante con-diciones experimentales ligeramente diferentes. En el caso de poder identicarlascorrectamente -probndose la utilidad del clculo de profundidad de datos- se pro-cede a eliminarlas para no introducir mayor variabilidad al modelo, con lo quequedaran 5 curvas por nivel (correspondindose con un diseo balanceado).

    Para poder comparar convenientemente todos los datos, se ha expresado lamasa de cada muestra en tanto por ciento de la cantidad inicial. As, todas lascurvas comienzan con un valor del 100% en el eje de ordenadas.

    0 100 200 300 400 500 600

    020

    4060

    8010

    0

    Datos Originales Curvas TG

    Temperatura/ C

    Mas

    a/ %

    Figura 1: Datos experimentales: curvas TG de partida.

    Cada uno de los experimentos se corresponde con un dato funcional dondese representa la masa de la muestra en funcin de la temperatura a la que estsometida. Como ya se ha indicado, cada muestra es calentada a 10/min enun rango de temperaturas que va de 20 a 600. Se observa que al nal de cadaensayo, a 600, se degrada por completo la fase orgnica (resina epoxi), quedandonicamente la masa aadida de humo de slice, mucho ms resistente trmicamente.Es importante sealar que la masa de la muestra se representa en%, es decir, seasigna a la masa inicial el 100% representndose todos los valores siguientes conrespecto a esta. Cada curva consta de un nmero variable de puntos entorno a 3480,uno por segundo, dependiendo de la temperatura ambiente a la que se encuentrela mquina de ensayo.

    Revista Colombiana de Estadstica 34 (2011) 211230

  • 218 Javier Tarro & Salvador Naya

    La variable respuesta o dependiente es una variable funcional donde cada datoes una curva que representa la masa del material en funcin de la temperaturaa la que est sometido. Para su obtencin se ha programado un aumento cons-tante en la temperatura de 10/min. Todas las curvas son decrecientes, pues elmaterial se degrada, es decir, pierde masa, segn aumenta la temperatura a laque est sometido. En s, desde el punto de vista de un estudio de abilidad delos materiales, cada curva representa el camino particular de degradacin de ca-da muestra ensayada. La nalidad de esta experimentacin es dar respuesta a lassiguientes preguntas: son las medias de las curvas TG (caminos de degradacinde cada muestra) diferentes para distintos niveles del factor cantidad de slice? Sila respuesta se responde armativamente, las diferencias en cuanto a estabilidadtrmica observadas en la gura 4 tendran una signicacin estadstica.

    4.1. Suavizacin de los datos mediante bases splines

    La representacin de un dato funcional en una base ortonormal proporcio-na ventajas desde el punto de vista terico y prctico sirviendo de puente entre lainevitable discretizacin del dato funcional para su tratamiento y su verdadera for-ma funcional. En este caso se representa cada dato funcional discretizado segn unabase nita, de modo que se obtiene una forma explcita para la funcin (Ramsay& Silverman 1997, Ferraty & Vieu 2006, Cuevas, Febrero & Fraiman 2006):

    X(t)

    Kk=1

    ckk(t) (5)

    Donde la base {k}, con k N, es un conjunto de funciones conocidas eindependientes tales que cualquier funcin puede ser aproximada, mediante lacombinacin lineal de K de ellas (elementos de la base) y siendo ck constantes.

    Eligiendo una base apropiada se obtiene una forma ms suave del dato funcio-nal. Adems, presenta la ventaja de poder ser derivable. De entre todos los tiposde base disponibles, se ha elegido ensayar una bases de b-splines y b-splines pena-lizados. Esto es debido a las caractersticas de los datos de partida. Ambas basesproporcionan la estructura exible requerida. Las bases de Fourier, sin embargo,no seran tan apropiadas, ya que los datos no presentan una aparente trayectoriaperidica. Adems, dada la ya de por s suavidad de los datos de partida, no pare-ce tampoco adecuado ensayar bases wavelets. El ajuste segn una base b-splinestiene la expresin:

    S(t)

    m+L1k=1

    ckBk(t, ) (6)

    Donde m corresponde al orden del polinomio, son los valores de los L puntosde corte de los subintervalos (nodos) y k es el nmero de elementos de la base.Mientras que la suma de residuos del ajuste segn una base b-spline penalizadaresponden a la expresin:

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 219

    PRSS = Y X2+

    (f (x))

    2dx (7)

    Donde Y son los datos a ajustar, X es el ajuste segn la base b-spline, f (x)es la derivada segunda de dicho ajuste y es el parmetro de suavizacin (que pe-naliza la derivada segunda, es decir, restringe la varianza interna que pueda tener elajuste). Ms informacin al respecto se puede encontrar en los trabajos de Ferraty& Vieu (2006), adems de los ya mencionados de Ramsay & Silverman(1997, 2005).

    Para elegir el nmero ptimo de elementos de la base se ha implementado elcriterio de Validacin Cruzada Generalizada (GCV, por sus siglas en ingls). Seha ensayado un nmero de elementos de la base que oscila entre 4 y 480. Se haelegido el nmero de elementos que se corresponde con el GCV mnimo en cadadato funcional. Acto seguido se ha elegido el nmero de elementos de la basemnimos de entre todos los mnimos 19 GCV (uno por dato funcional). De estaforma se disminuye el riesgo de sobresuavizado. El resultado de la minimizacinde la expresin anterior puede verse en la gura 2 y en la tabla 1.

    Tabla 1: Nmero de elementos de las bases ptimos segn el criterio GCV.

    Profundidad GCV ptimo N de elementos GCV (80)

    b-splines 2.0e 07 375 3.1e 03

    b-splines penal ( = 0.5) 3.1e 04 182 6.4e 03

    0 100 200 300 400

    020

    4060

    8010

    012

    014

    0

    Criterio GCVB Splines Penalizados

    Nmero de elementos de la base

    GCV

    Figura 2: Para un dato funcional determinado, GCV frente al nmero de bases parauna base b-spline penalizada.

    Revista Colombiana de Estadstica 34 (2011) 211230

  • 220 Javier Tarro & Salvador Naya

    En cuanto a los b-splines, el GCV ptimo resulta demasiado pequeo y elnmero de bases demasiado grande, con lo cual se corre el riesgo de interpolar losdatos. En cambio se obtiene un GCV aceptable para una base de 80 elementos. Seconsigue un ajuste ms suave sin apartarse de la trayectoria de los datos originales.

    Empleando b-splines penalizados se obtiene un valor para GCV mayor, conun nmero de elementos en la base tambin menor. Pero se observa que para 80elementos se obtiene un GCV aceptable. La prueba est en la gura 2: para unnmero de elementos de la base de 80 se consigue seguir elmente la trayectoria delos datos, suavizando adems las discontinuidades experimentales. Asimismo, enla gura 2 se observa que el GCV cae abruptamente hasta estancarse para un valordeterminado del nmero de elementos de la base. Este hecho apoya la decisin deoptar por una base ms pequea, correspondiente a un nmero de elementos de labase ms cercano al comienzo de ese estancamiento.

    Si se disminuyera todava ms el nmero de elementos de la base, se incurriraen un error inaceptable. Los ajustes se alejan de los datos all donde es crtico quelos reproduzcan elmente: en los cambios de pendiente de los escalones.

    Se ha elegido una base b-spline penalizada de orden cuatro, con 80 elementos,como base de ajuste. El ajuste es muy bueno y, muy ligeramente, ms suave queen una base de b-splines. Adems, el nmero reducido de datos no origina un costecomputacional muy grande.

    0 100 200 300 400 500 600

    020

    4060

    8010

    0

    Temperatura/ C

    Mas

    a/ %

    Datos experimentalesAjuste con bsplines penalizados

    Figura 3: Curva TGA de resina epoxi y ajuste con una base b-spline penalizada con 80elementos.

    Ya de por s, los datos presentan una forma muy suave, sin grandes discon-tinuidades. Se observa que los dos ajustes de la gura 3 reproducen elmente la

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 221

    trayectoria de los datos reales, obviando las pocas discontinuidades debidas al errorexperimental.

    0 100 200 300 400 500 600

    020

    4060

    8010

    0

    Datos en Funcin de Base Spline penalizada Curvas TG

    Temperatura/ C

    Mas

    a/ %

    0% en peso de humo de slice10% en peso de humo de slice20% en peso de humo de slice

    Figura 4: Dato experimental (curva TGA de resina epoxi) y ajuste con una baseb-spline penalizada con 80 elementos.

    4.2. Estudio de la profundidad de los datos

    El concepto de profundidad, aplicado al anlisis de datos funcionales, indica qutan central es una curva o dato funcional particular en relacin con un conjunto decurvas pertenecientes a una poblacin. Siguiendo este criterio, pueden ordenarse losdiferentes datos funcionales pertenecientes a una muestra de una poblacin dada:se identican como ms profundos aquellas curvas ms cercanas al centro (dato msprofundo denido como mediana), mientras que se identica como datos atpicosaquellas curvas que se generan por un proceso estocstico diferente al resto (Cuevaset al. 2006). En el presente estudio se ha calculado la profundidad asociada a cadadato funcional por tres mtodos referenciados cuando se tratan datos de dimensininnita (FDA Cuevas, Febrero & Fraiman (2007)). El resultado obtenido nos dauna idea completa de la profundidad de cada curva TG con respecto al total.

    El primer mtodo utilizado es la profundidad de Fraiman & Muniz (2001), queest basado en la idea de profundidad funcional integrada:

    Ii =

    10

    Di(t)dt (8)

    donde Di(t) = 1 |1

    2 Fn,t(xi(t))| es la profundidad univariante correspondien-

    te a la curva xi(t) con t [0, 1] y Fn,t la distribucin emprica de la muestra

    Revista Colombiana de Estadstica 34 (2011) 211230

  • 222 Javier Tarro & Salvador Naya

    x1(t), . . . , xn(t). Los datos funcionales xi(t) se ordenan segn el valor Ii corres-pondiente.

    El mtodo de la profundidad moda es una alternativa al uso de la profundidadde Fraiman y Muniz en el contexto del FDA. Segn este procedimiento, se denela poblacin de profundidades moda relativas a un dato z mediante la expresin:

    fh(z) = E(Kh(||z X ||) (9)

    para el caso de dimensin innita y

    fh(z) =1

    n

    ni=1

    Kh(||z Xi||) (10)

    para el caso de una muestra compuesta de n curvas donde X es el elemento alea-torio que describe la poblacin, ||.|| es, por lo general, la norma L2 y Kh un kernelreescalado que presenta la forma Kh =

    1

    hK(th ), siendo K(t) una funcin kernel (el

    kernel gausiano es el ms utilizado) y h un parmetro de ajuste. La profundidadasignada a cada dato funcional z coincide con la moda de X , que es el productode la maximizacin, en z, de la funcin fh(z).

    Por ltimo, a continuacin se muestra el mtodo de proyecciones aleatoriasque consiste en, a partir de una muestra X1, X2, . . . , Xn, tomar una direccinaleatoria a independiente de Xi y proyectar los datos a lo largo de esa direccin.De este modo, la profundidad de cada dato funcional Xi es denida como laprofundidad univariante correspondiente a su proyeccin unidimensional. En elcaso particular de datos funcionales, suponiendo que Xi pertenece a un espacio deHilbert, las proyecciones de cada dato se obtienen mediante el producto interior

    a, S = 10a(t)X(t) dt. Para ms informacin, consultar Cuevas et al. (2007).

    Cada nivel del factor aparece, en la gura 4, relativamente bien diferenciadode los restantes. Las diferencias se observan sobre todo a altas temperaturas. Laresina se va degradando paulatinamente de forma que al nal slo va quedandoel humo de slice aadido. La resina sin humo de slice se degrada completamente(en tono gris claro y trazo continuo) mientras que todava queda un entorno a un10% y un 20% de la masa para los grupos que tienen un 10 y un 20% en cargade humo de slice.

    A simple vista se pueden observar tres escalones en las curvas. El primero, nosiempre perceptible, se corresponde a la prdida de sustancias voltiles y humedad(se localiza a temperaturas alrededor de 100).

    Es singularmente importante el segundo escaln de las grcas, ya que indica enrealidad el primer proceso de degradacin. Es aqu donde la resina epoxi empiezaa perder masa, y lo hace de forma abrupta. Se observa que cuando se pasa de0% a 10% en humo de slice, la masa remanente al comienzo de este escaln esligeramente mayor a una temperatura dada (por ejemplo, en torno a 320). Estoquiere decir que se ha conseguido aumentar aparentemente la estabilidad trmicadel material compuesto resultante. En cambio, cuando se pasa de 10% a 20% dehumo de slice, este aumento es mucho ms ligero.

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 223

    0 100 200 300 400 500 600

    020

    4060

    8010

    0

    Grfico de medias con bandas de confianza

    nivel de significacin del 5%Temperatura/ C

    Mas

    a/ %

    Media resina epoxiMedia epoxi10% SliceMedia epoxi20% Slice

    Figura 5: Datos funcionales suavizados con una base b-spline penalizada de 80 elemen-tos.

    El tercer escaln se corresponde con la desaparicin del residuo carbonoso resul-tante de la reaccin anterior. Se observa que aqu las diferencias son muy evidentes,debido principalmente a que el humo de slice no se degrada a esas temperaturas:queda patente, al comparar las muestras, las diferencias que existen de contenidoen slice.

    Para mayor sencillez de clculo del estadstico de contraste, se pretende realizarun diseo balanceado. Por consiguiente, habra que desestimar dos datos funcio-nales correspondientes al nivel del 0% y otros dos del 10%. De hecho, existenalgunas diferencias de experimentacin en algunos datos, con lo cual sera intere-sante detectarlos como atpicos o estudiar simplemente su profundidad.

    5. Resultados

    5.1. Clculo de medidas de profundidad

    Se han calculado las profundidades de Fraiman & Muniz (2001), llamada pro-fundidad mediana, la profundidad moda (el punto ms profundo sera el equiva-lente a la moda de los datos) (Cuevas et al. 2006) y la profundidad de proyeccionesaleatorias (Cuevas et al. 2007) para los grupos de 0% y de 10% por separado. Esen estos grupos donde interesa reducir el nmero de datos. Los resultados aparecenen las tablas 2 y 3. En estas tablas se presentan la profundidad mediana (F-M),la profundidad moda y la de proyecciones aleatorias (P-A) para las 14 muestrasanalizadas (M1, M2,. . ., M14).

    Revista Colombiana de Estadstica 34 (2011) 211230

  • 224 Javier Tarro & Salvador Naya

    Todos los criterios coinciden en indicar los datos menos profundos tanto parael 0% como para el grupo de 10% de humo de slice: para el 0% es la muestra 7 lamenos profunda por unanimidad, mientras que para el 10% es la muestra 12 condiferencia (obsrvense los nmeros en negrita dentro de las tablas).

    Tabla 2: Profundidades para las 7 muestras de resina epoxi sin humo de slice segn los3 criterios.

    Prof. M1 M2 M3 M4 M5 M6 M7

    F-M 0.766 0.757 0.746 0.766 0.718 0.799 0.661

    Moda 0.645 0.345 0.480 1.000 0.725 0.910 0.000

    P-A 0.258 0.234 0.200 0.287 0.247 0.287 0.202

    Tabla 3: Profundidades para las 7 muestras de 10% en peso de humo de slice segnlos 3 criterios.

    Prof. M8 M9 M10 M11 M12 M13 M14

    F-M 0.751 0.721 0.814 0.755 0.577 0.764 0.833

    Moda 0.705 0.751 0.745 0.942 0.000 0.565 1.000

    P-A 0.232 0.271 0.260 0.280 0.190 0.198 0.284

    Es necesario todava eliminar otro punto dentro de estos dos grupos pero launanimidad en los tres mtodos ya no existe. As, en el caso de 0% se elige comoposible atpico una solucin de compromiso: la muestra 3, que coincide con elsegundo dato menos profundo para las proyecciones aleatorias y con el terceromenos profundo segn FM y la profundidad moda. Para el caso de 10%, se haelegido el segundo dato menos profundo segn la profundidad de proyeccionesaleatorias y segn la profundidad moda, la muestra 13.

    Es de destacar que en el caso de 0% en humo de slice, se ha identicado comomenos profundo aquel cuyas condiciones experimentales eran ms especiales: seensay muy poca masa de material con respecto a las dems muestras y, adems,partida en dos trozos. La identicacin de la muestra 3 puede deberse a que, eneste caso, no se efectu una calibracin adicional en peso.

    En cuanto a la de 10%, se ha sealado como dato menos profundo aquel cuyamasa en humo de slice se aparta ms de 10% especicado. La dispersin de lacarga sobre la matriz puede ser no del todo homognea debido a la formacinde aglomerados de partculas. Por lo tanto, dependiendo del trozo de muestraelegido puede haber ms o menos cantidad de slice. En denitiva, los puntos menosprofundos han resultado ser los correspondientes a las condiciones ms extremasde ensayo.

    Una vez estudiada la profundidad de los datos, cabra la posibilidad que aque-llos menos profundos pudieran clasicarse como atpicos. Para localizarlos se utilizael siguiente procedimiento (Febrero, Galeano & Gonzlez-Manteiga 2008):

    Se obtienen las medidas de profundidad por uno de los tres mtodos.

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 225

    Si las profundidadesD(xik) C con k = 1, . . . ,K, siendo C una profundidadprejada, los datos funcionales xik se toman como datos atpicos.

    Se ha de elegir C de forma tal que el nmero de observaciones no atpicasclasicadas como atpicas sea aproximadamente igual al 1%.

    Para calcular C se realizan B remuestras bootstrap (suavizado) a partir dela muestra inicial (una vez descartadas las menos profundas): yib, donde i =1, . . . , n y b = 1, . . . , B. Acto seguido se obtiene el cuantil Cb correspondiente al1% de la distribucin de las profundidades D(yib). El valor C es la mediana de losvalores de Cb.

    Se ha realizado, por tanto, un bootstrap suavizado basado en el recorte (Cuevaset al. 2006) con B = 200 y = 0.05. Se ha empleado la profundidad basada enFraiman y Muniz dando como resultado la no existencia de atpicos. Hay queindicar que en este resultado pesa el hecho de disponer slo de 5 datos funcionalespor nivel.

    Finalmente, se ha optado por prescindir de aquellos datos elegidos como menosprofundos, as para el 0% en humo de slice prescindiremos de las muestra 3 y 7;mientras que para el 10% en humo de slice, se eliminarn las muestras 12 y 13.Con los 15 datos funcionales restantes, 5 por nivel, se calculan la media, medianay varianza de los datos funcionales (ver gura 4, gura 5 y gura 6).

    0 100 200 300 400 500 600

    020

    4060

    8010

    0

    Grfico de mediana Bandas de confianza

    nivel de significacin del 5%Temperatura/ C

    Mas

    a/ %

    Mediana resina epoxiMediana epoxi10% SliceMediana epoxi20% Slice

    Figura 6: Medias para los distintos grupos con bandas de confianza bootstrap.

    Mediante bootstrap simple (en el caso de la media) y bootstrap suavizado deparmetro h = 0.07 (en los dems casos), se construyen bandas de conanza paracada uno de los estadsticos. Se ha empleado bootstrap suavizado en aquellos casos

    Revista Colombiana de Estadstica 34 (2011) 211230

  • 226 Javier Tarro & Salvador Naya

    donde el bootstrap simple no ofrece una idea clara de cmo puede ser el intervalode conanza, siendo necesaria la adicin de una componente aleatoria adicional.

    Al realizar un bootstrap suavizado se est perturbando la muestra originalsumndole un proceso gausiano multiplicado por un factor de suavizado h (Cuevaset al. 2006): xi = xj(t) + hz(t) donde z(t) es un proceso gausiano de media cero ymatriz de covarianzas . As se combate en cierta forma la existencia de tan pocosdatos para elaborar las bandas.

    Se calculan la media y las medianas (Fraiman & Muniz 2001), tanto en lamedia como en la mediana se observa que las curvas correspondientes al 20% enhumo de slice se sitan por encima de las curvas correspondientes 10%, que a suvez se sitan por encima de las que no tienen humo de slice. Esto es un indicadordel aumento de la estabilidad trmica. Se observa que es mayor la diferencia entrelos estadsticos de 0% y de 10% que entre 10 y 20%, sobre todo en el escalnprincipal.

    0 100 200 300 400 500 600

    02

    46

    8

    Grfica de varianzas

    Temperatura/ C

    Varia

    nza

    Varianza resina epoxiVarianza epoxi10% SliceVarianza epoxi20% Slice

    Figura 7: Varianza para los distintos grupos.

    Se observa una mayor variabilidad general en los datos correspondientes a laresina epoxi sola. La variabilidad disminuye ligeramente para 10% y, nalmente, esmucho menor para 20% (esto se puede observar en media y mediana, adems de enla varianza de la gura 6). Dicha tendencia puede deberse a la heterogeneidad delas propias muestras o al efecto aprendizaje del operador. De hecho, las primerasmuestras que se realizaron corresponden a 0% y las ltimas a 20% (aquellas quetienen menor variabilidad). Otra posible causa a tener en cuenta es el ensayo demuestras con diferentes contenidos de humedad, para el caso de 0%.

    La grca de las varianzas (gura 6) es en particular interesante porque resaltaque all donde dieren las sucesivas muestras es, principalmente, en los dos escalo-

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 227

    nes principales asociados a los dos primordiales procesos de degradacin. Adems,se observa que, contrariamente a lo que se haba enunciado antes, la varianza parauna temperatura cercana a los 600 aumenta en la secuencia: resina epoxi10%humo de slice20% humo de slice. Esto se debe a que se forman aglomeradosde partculas con lo que la distribucin no es del todo uniforme. As, para un 10%terico, unas muestras tendrn un 8% en slice, otras un 9% y otras un 11%(gura 5). La varianza es un indicador de la heterogeneidad de la muestra.

    5.2. Aplicacin del ANOVA funcional

    Para construir el contraste, se han seguido los pasos marcados por Cuevas et al.(2004), teniendo en cuenta que la hiptesis nula a contrastar de igualdad de mediasentre las curvas (7), donde mi es la media de los datos funcionales dentro de cadauno de los tres niveles estudiados del factor cantidad de humo de slice.

    En primer lugar se construye el estadstico Vn, donde los tres niveles se co-rresponden con la adicin del 0%, del 10% y del 20% en humo de slice mientrasque la respuesta est representada por la media de los datos funcionales para cadanivel. Con el n de aproximar por Monte Carlo la distribucin del estadstico Vn,se procede del modo siguiente:

    a) Se calcula la matriz de varianzas covarianzas de los datos muestrales. Si sesupone que la estructura de covarianzas es diferente segn el nivel del factor,nos encontramos en el caso heterocedstico; ms restrictivo que el homoce-dstico. Suponiendo heterocedasticidad, se calcula una matriz de covarianzasdiferente por nivel, siendo su estimador el siguiente:

    Ki(s, t) =

    nij=1

    (Xij(s)Xi(s)

    ) (Xij(t)Xi(t)

    )ni 1

    Siendo s y t dos instantes dados dentro de cada dato funcional.

    b) Bajo la hiptesis nula, el estadstico V sigue una distribucin dependientede k procesos gausianos (Cuevas et al. 2004) difcil de conseguir. Pero dichadistribucin se puede aproximar por Monte Carlo. Para ello se lleva a caboel siguiente procedimiento bootstrap paramtrico:

    b.1) partiendo de la muestra original, se calculan las matrices Ki(sp, tq)1p,qny se generan B = 2000 remuestras bootstrap por nivel, generadas se-gn una distribucin normal de media cero y matriz de covarianzasKi(sp, tq)1p,qn.

    b.2) se consiguen 2000 valores Zil = (Zil(t1), . . . , Z

    il(tm)) por nivel, con

    l = 1, . . . , 2000 e i = 1, 2, 3. Estos valores aproximan las trayectoriascontinuas de Zi(t) por versiones escalonadas evaluadas en una rejillaa t1, . . . , tm b.

    b.3) se construyen 2000 rplicas de la forma Vl =

    i

  • 228 Javier Tarro & Salvador Naya

    Mediante el proceso anterior se puede calcular V tal que P (V > V) = bajola hiptesis nula. Si Vn > V, el contraste resulta signicativo.

    El resultado de la implementacin de este proceso al caso de las curvas TG sinreescalar ha proporcionado los siguientes valores Vn = 570315.1 y V = V0.95 =1.402.292.

    Por lo tanto, como Vn >> V (siendo el P valor = 5e 6 < 0.05), el testresulta signicativo para un nivel de signicacin del 0.05, al menos una de lasmedias funcionales por factor es diferente a las dems. Desde el punto de vistaingeniril podra armarse que la adicin de humo de slice provoca cambios en lasmedias funcionales de las curvas TG. Se podra concluir que aumenta signicati-vamente la estabilidad trmica del material compuesto al aumentar la cantidad deslice.

    6. Conclusiones y lneas futuras

    Como una primera conclusin de este estudio, podra decirse que la aplicacinde tcnicas de estadstica funcional resulta determinante para el estudio de estetipo de datos. Adems, el concepto de profundidad resulta muy adecuado paraidenticar ligeros cambios en las condiciones experimentales, posibilitando eliminarmuestras anmalas.

    Por otra parte el contraste ANOVA funcional empleado ha resultado signi-cativo, lo cual avala el resultado del anlisis realizado mediante el estudio de laprofundidad de los datos. Es decir, el aumento en la estabilidad trmica del ma-terial compuesto, observado en el anlisis descriptivo o, lo que en este caso es lomismo, las diferencias provocadas en la respuesta funcional al aumentar la cantidadde humo de slice, tienen signicacin estadstica.

    La variabilidad observada en el ltimo tramo de las curvas, creciente conformese aumenta la cantidad de humo de slice, ha resultado ser un buen indicador delgrado de dispersin de esta carga inorgnica dentro de la matriz polimrica.

    Como lnea de futura investigacin sera interesante realizar un anlisis simi-lar con los datos de las curvas TGA realizando una sustraccin matemtica de lacantidad de humo de slice aadida y el posterior reescalado con objeto de carac-terizar el camino de degradacin de la resina epoxi pura, dentro de cada muestrade material compuesto.

    Tambin resultara de gran inters la realizacin de un estudio similar con lasderivadas de estas curvas TGA, las denominadas DTG, ya que permitir analizarsi la velocidad de degradacin trmica es diferente en funcin del humo de sliceaadido. Adems, podran plantearse estudios de interaccin entre los factoresestudiados.

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Aplicaciones de datos funcionales al anlisis trmico 229

    Agradecimientos

    Este trabajo ha sido nanciado por el Ministerio de Educacin y CienciaMTM2008-00166. Los autores quieren expresar su especial agradecimiento a Ma-nuel Febrero Bande por sus interesantes aportaciones para la aplicacin de losprogramas en R utilizados (fda.usc), as como a Aldana Gonzlez Montoro, porsus valiosos comentarios. Adems, tambin agradecen a los rbitros que revisaronel trabajo sus interesantes sugerencias.

    [Recibido: abril de 2010 Aceptado: febrero de 2011

    ]

    Referencias

    Cuevas, A., Febrero, M. & Fraiman, R. (2004), An anova test for functional data,Computational Statistics and Data Analysis 47, 111122.

    Cuevas, A., Febrero, M. & Fraiman, R. (2006), On the use of the bootstrap forestimating functions with functional data, Computational Statistics and DataAnalysis 51, 10631074.

    Cuevas, A., Febrero, M. & Fraiman, R. (2007), Robust estimation and classica-tion for functional data via projection-based depth notions, ComputationalStatistics 22(3), 481496.

    Febrero, M., Galeano, P. & Gonzlez-Manteiga, W. (2008), Outlier detection infunctional data by depth measures, with application to identify abnormalNOx levels, Environmetrics 19, 331345.

    Ferraty, F. & Romain, Y. (2010), The Oxford Handbook of Functional Data Analy-sis, Oxford University Press, Oxford, England.

    Ferraty, F. & Vieu, P. (2006), Nonparametric Functional Data Analysis: Theoryand Practice, Series in Statistics, Springer, Berlin, Alemania.

    Fraiman, R. & Muniz, G. (2001), Trimmed means for functional data, Test10(2), 419440.

    Harsch, M., Karger-Kocsis, J. & Holst, M. (2007), Inuence of llers and additiveson the cure kinetics of an epoxy/anhydride resin, European Polymer Journal43, 11681178.

    Hsiue, G. H., Chen, J. K. & Liu, Y. L. (2000), Synthesis and characterization ofnanocomposite of polyimide-silica hybrid lm nanoaqueous sol-gel process,Journal of Applied Polymer Science 76, 16091618.

    Lee, A. & Lichtenhan, J. D. (1999), Thermal and viscoelastic property of epoxy-clay and hybrid inorganic-organic epoxy nanocomposites, Journal of AppliedPolymer Science 73, 19932001.

    Revista Colombiana de Estadstica 34 (2011) 211230

  • 230 Javier Tarro & Salvador Naya

    Liu, Y. L., Wei, W. L., Hsu, K. Y. & Ho, W. H. (1999), Thermal stability ofepoxy-silica hybrid materials by thermogravimetric analysis, ThermochimicaActa 412, 139147.

    Mehta, S., Mirabella, F. M., Bafna, A. & Rufener, K. (2004), Thermoplastic ole-n/clay nano-composites: morphology and mechanical properties, Journal ofApplied Polymer Science 92, 928936.

    Mohammad, A. & Simon, G. P. (2006), Rubber-clay nanocomposites, in M. Yiu-Wing & Y. Zhong-Zhen, eds, Polymer Nanocomposites, Woodhead Publis-hing Limited.

    Naya, S., Cao, R. & Artiaga, R. (2003), Local polynomial estimation of TGA deri-vatives using logistic regression for pilot bandwidth selection, ThermochimicaActa 6, 319322.

    Petrie, E. M. (2006), Epoxy Adhesive Formulations, McGraw-Hill.

    Preghenella, M., Pegoretti, A. & Migliaresi, C. (2005), Thermo-mechanical charac-terization of fumed silica-epoxy nanocomposites, Polymer 46, 1206512072.

    Ramsay, J. O. & Silverman, B. W. (1997), Functional Data Analysis, Springer.

    Ramsay, J. O. & Silverman, B. W. (2005), Applied Functional Data Analysis,Springer.

    Schadler, L. S. (2003), Polymer-based and polymer-lled nanocomposites, in P. M.Ajayan, L. S. Schadler & P. V. Braun, eds, Nanocomposite Science and Te-chnology, Wiley-VCH, Weinheim, pp. 77135.

    Shao-Yun, F., Xi-Qiao, F., Bernd, L. & Yiu-Wing, M. (2008), Eects of particlesize, particle/matrix interface adhesion and particle loading on mechanicalproperties of particulate-polymer composites, Composites: Part B 39, 933961.

    Tarrio-Saavedra, J., Lpez-Beceiro, J., Naya, S. & Artiaga, R. (2008), Eect ofsilica content on thermal stability of fumed silica/epoxy composites, PolymerDegradation and Stability 93, 21332137.

    Youse, A., Laeur, P. G. & Gauvin, R. (1997), Kinetic studies of thermoset curereactions: a review, Polymer Composites 18, 157168.

    Zhang, H., Zhang, Z., Friedrich, K. & Eger, C. (2006), Property improvementsof in situ epoxy nanocomposites with reduced interparticle distance at highnanosilica content, Acta Materials 54, 18331842.

    Revista Colombiana de Estadstica 34 (2011) 211230

  • Revista Colombiana de Estadstica

    Junio 2011, volumen 34, no. 2, pp. 231 a 248

    Comparacin entre riesgos competitivos va el

    estimador cpula-grfico

    Comparison between Competing Risks via the Copula-Graphic

    Estimator

    Sergio Yez1,a, Hugo Brango2,b, Mario C. Jaramillo1,c,

    Carlos M. Lopera1,d

    1Escuela de Estadstica, Facultad de Ciencias, Universidad Nacional de Colombia,

    Medelln, Colombia

    2Departamento de Matemticas y Estadstica, Universidad de Crdoba, Montera,

    Colombia

    Resumen

    En riesgos competitivos, el problema de identificabilidad asociado a ladependencia entre los modos de falla, se puede resolver utilizando el esti-mador cpula-grfico que asume la forma de la cpula conocida. En estetrabajo se compara, mediante simulacin, este estimador para un modelo deriesgos competitivos dependientes con el estimador tradicional que asumeindependencia. Se muestra que ignorar la dependencia puede causar subesti-macin significativa de la funcin de confiabilidad. Se ilustra la temtica conun ejemplo y se visualiza a futuro la posible utilidad del estimador cpula-grfico en confiabilidad industrial para predecir en experimentos acelerados.

    Palabras clave: confiabilidad, cpula, identificabilidad, riesgos competiti-vos.

    Abstract

    The identifiability problem in competing risks associated to the depen-dence measure between the failure modes, can be solved by means of thecopula-graphic estimator which assumes the copula function known. Thispaper compares, through a simulation study, the copula-graphic estimatorfor a dependent competing risks model with the traditional one under theassumption of independence. It is shown that a significant subestimation ofthe reliability function can be made when the dependence is not taken intoaccount. An example ilustrates this point and as a future work it is seenthe possibility of using copula-graphic in industrial reliability to predict inaccelerated life tests.

    Key words: Competing risks, Copula, Identifiability, Reliability.

    aProfesor asociado. E-mail: [email protected] asistente. E-mail: [email protected] asociado. E-mail: [email protected] asistente. E-mail: [email protected]

    231

  • 232 Sergio Yez, Hugo Brango, Mario C. Jaramillo & Carlos M. Lopera

    1. Introduccin

    Las causas o las diferentes maneras en que puede fallar un sistema o compo-nente, reciben el nombre de modos de falla. Existen muchos sistemas, subsistemasy componentes que tienen ms de un modo de falla; en ciertas aplicaciones y paraalgunos propsitos es importante distinguir entre esos diferentes modos de falla,con el objeto de mejorar la confiabilidad (Meeker & Escobar 1998). El tiempo defalla de un sistema con varios modos de falla puede ser modelado considerando unsistema en serie o un modelo de riesgos competitivos (competing risks), dondecada modo de falla es una componente del sistema en serie, y cada componentetiene un tiempo de vida aleatorio; por lo tanto, el sistema fallar cuando el modode falla con el tiempo de vida ms corto falle de manera que censura as a los otrosmodos de falla.

    Muchas son las aplicaciones de riesgos competitivos en confiabilidad. Basu &Klein (1982) obtuvieron algunos resultados en la teora de riesgos competitivos;Nelson (1990) presenta datos para el tiempo de falla en horas de calentadores indus-triales, los cuales tienen dos modos de falla; Bedford & Lindqvist (2004) trataronel problema de la identificabilidad en sistemas reparables cuando se presentan losriesgos competitivos; Bedford (2005) muestra como modelar la confiabilidad enpresencia de riesgos competitivos; Manotas, Yez, Lopera & Jaramillo (2008),estudiaron el efecto en la estimacin de la confiabilidad, cuando se asume el su-puesto de independencia entre los tiempos de falla que compiten, que realmenteson dependientes; Meeker, Escobar & Hong (2009) usaron pruebas de vida acele-radas para predecir la distribucin del tiempo de falla de un nuevo producto condos modos de falla.

    En el caso no-paramtrico, la distribucin conjunta en un problema con mlti-ples modos de falla no puede ser completamente identificada en la situacin usualcuando slo se conocen los tiempos mnimos de falla (Tsiatis 1975). Inclusive en elcaso paramtrico, los datos pueden contener poca informacin sobre el coeficientede asociacin entre las variables y es necesario hacer algunos supuestos al respecto(Meeker et al. 2009). Para el caso no-paramtrico el estimador cpula-grfico deZheng & Klein (1995) resuelve el problema bajo el supuesto del conocimiento dela forma funcional de la cpula que da cuenta de la estructura de asociacin en-tre los riesgos competitivos. Es de anotar que bajo independencia el problema deidentificabilidad no existe.

    Yez, Manotas & Lopera (2006) y Manotas et al. (2008), estudiaron, parael caso Weibull y lognormal, el efecto en la estimacin de la sobrevivencia cuan-do se asume el supuesto de independencia entre tiempos de falla que realmenteson dependientes. Encontraron que bajo el supuesto de independencia, que es lametodologa tradicional utilizada en muchos campos de la ciencia (Pintilie 2006),no genera errores significativos en la estimacin de la funcin de confiabilidaddel tiempo mnimo. Puesto que la literatura reciente reporta que el supuesto deindependencia en riesgos competitivos generalmente da una visin pesimista delcomportamiento del sistema, ellos comentan la importancia de estudiar en msdetalle la temtica.

    Revista Colombiana de Estadstica 34 (2011) 231248

  • Comparacin entre riesgos competitivos va el estimador cpula-grfico 233

    En este trabajo se estima la funcin de confiabilidad bajo dependencia medianteel estimador cpula-grfico propuesto en Zheng & Klein (1995). Se hace un estudiode simulacin para comparar este estimador que permite incorporar la dependenciacon el que considera independencia entre los modos de falla.

    En la seccin 2 se presentan los conceptos bsicos de riesgos competitivos y sedetalla el ejemplo que se usar como ilustracin. El estimador cpula-grfico sediscute en la seccin 3, con una ilustracin que determina la cpula a usar en esteartculo. En la seccin 4 se presenta el esquema de simulacin utilizado. El anlisisde resultados se hace en la seccin 5. Finalmente, en la seccin 6 se presentan lasconclusiones y posible trabajo futuro, donde se muestra que ignorar la dependenciapuede causar una subestimacin representativa de la funcin de confiabilidad.

    2. Riesgos competitivos

    En este artculo se trabaja con dos modos de falla. El tiempo de falla de unsistema con dos modos de falla puede ser modelado como un sistema en serie o unmodelo de riesgos competitivos, como se ilustra en la figura 1. Cada unidad tieneun tiempo potencial de falla. El tiempo de falla observado es el mnimo de esostiempos potenciales individuales.

    Figura 1: Sistema con dos componentes en serie.

    As por ejemplo, para un sistema con dos modos de falla, sean X y Y losrespectivos tiempos potenciales, entonces lo que se observa en la prctica sonparejas de la forma (T, ), donde T = mn(X,Y ) y es una variable discreta quetoma valores de 0 cuando se presenta una censura a derecha, 1 cuando falla debidoal primer modo de falla y 2 cuando falla debido al segundo modo de falla.

    Para estudiar este modelo de riegos competitivos, es necesario presentar algunasfunciones bsicas. La funcin de subdistribucin o funcin de incidencia acumulada(FIA), para el modo de falla i, i = 1, 2, est dada por:

    Gi(t) = P (T t, = i) (1)

    La funcin de distribucin total es la probabilidad que un evento de cualquiertipo ocurra en, o antes del tiempo t, es decir es igual a la suma de las FIA paralos dos tipos de eventos, as:

    F (t) = P (T t) =

    2i=1

    P (T t, = i) =

    2i=1

    Gi(t) (2)

    Revista Colombiana de Estadstica 34 (2011) 231248

  • 234 Sergio Yez, Hugo Brango, Mario C. Jaramillo & Carlos M. Lopera

    Ntese que cuando no hay riesgos competitivos la funcin de distribucin totalse encuentra en el intervalo [0, 1]. En contraste, en presencia de riesgos competitivosla FIA slo puede tomar valores hasta P ( = i) debido a que

    lmt

    Gi(t) = P ( = i) (3)

    Por lo tanto, la funcin Gi(t) no es una funcin de distribucin propia.

    La funcin de subsobrevivencia es la probabilidad que el modo de falla i noocurra antes del tiempo t

    Gi(t) = P (T > t, = i) (4)

    La funcin de subdensidad para el modo de falla i y T continuo, se define como

    gi(t) =dGi(t)

    dt=

    dGi(t)

    dt(5)

    2.1. El problema de identificabilidad

    La aproximacin tradicional para especificar el modelo de riesgos competitivoses va tiempos de falla latentes. En este contexto surge el denominado problemade identificabilidad. Para el caso bivariado tenemos dos tiempos de falla poten-ciales X , Y asociados a dos modos de falla, de manera que si ocurre el primero,el segundo no puede ser observado. En este sentido, se dice que los tiempos sonlatentes. Se supone que la pareja (X,Y ) tiene una distribucin multivariada de laforma F (x, y) = P (X x, Y y). As T = mn(X,Y ) determina el tiempo defalla del sistema completo. De manera que una vez que el sistema haya fallado, elotro tiempo de falla no puede ser observado. Las funciones de distribucin mar-ginales para los dos modos de falla son F1(t) = P (X t) y F2(t) = P (Y t),respectivamente.

    El problema de identificabilidad (Tsiatis 1975) establece que para el caso demodelos de tiempos de falla latentes, dada una funcin de distribucin conjuntacon dependencia arbitraria entre las componentes, existe siempre una funcin dedistribucin conjunta en la cual las variables son independientes, y la cual repro-duce las subdensidades gi(t) de manera precisa. As, uno no puede conocer a partirsolamente de los datos observados (T, ), cul de los dos modelos es correcto, pues-to que ambos se ajustan muy bien a los datos. Crowder (2001) da detalles tcnicossobre este problema que l denomina El impase de Cox-Tsiatis. En resumen,podemos decir que en la prctica se pueden encontrar las subdistribuciones mar-ginales, asociados con datos de riesgos competitivos, y ese conjunto es consistentecon un nmero infinito de distribuciones conjuntas de tiempos de falla potenciales.Esto quiere decir que es imposible identificar las distribuciones marginales a partirsolamente de los datos de riesgos competitivos.

    Supongamos que se tienen datos de la forma (T, ) y es necesario identificarel modelo conjunto F (x, y). Algunas posibles soluciones son: i) Asuma indepen-dencia, lo cual es frecuentemente no realista (ver subseccin 2.2.1); ii) Asuma una

    Revista Colombiana de Estadstica 34 (2011) 231248

  • Comparacin entre riesgos competitivos va el estimador cpula-grfico 235

    estructura de dependencia conocida usando una cpula especfica para la distri-bucin conjunta de los modos de falla; Zheng & Klein (1995) proponen el llamadoestimador cpula-grfico, el cual es un estimador mximo verosmil y trabaja muybien independiente de la cpula escogida (ver seccin 3); iii) Especifique un mo-delo paramtrico. En este ltimo caso, a pesar del fuerte supuesto, los datos deconfiabilidad pueden contener poca informacin acerca de la asociacin entre ries-gos competitivos debido, a veces, a la alta censura y a la cantidad limitada dedatos. Meeker et al. (2009) muestran un caso de este tipo donde el problema deidentificabilidad prevalece.

    En este artculo se van a comparar las soluciones i) y ii). Tambin, como trabajofuturo se propone en la seccin 6 incorporar los resultados de este artculo a lasolucin iii).

    2.2. Metodologa tradicional: un ejemplo en ingeniera

    Se ilustra con un ejemplo de Meeker & Escobar (1998), la metodologa tradi-cional en el anlisis de modelos de riesgos competitivos, que supone independenciaentre los dos modos de falla.

    Se tienen tiempos de falla de un cierto tipo de equipos, los cuales de debenprincipalmente a dos modos o causas de falla, una asociada a fallas por descargaspor acumulacin de daos producidos por altos picos de voltaje durante tormentaselctricas (se denota S), y la otra falla debida al desgaste normal de los equipos (sedenota W ). La tabla 1 presenta los tiempos y los modos de falla de 30 unidadesque fueron instaladas en un ambiente de servicio estndar. Los tiempos de fallaasociados al modo de falla S ocurren de forma temprana en la vida de los equipos.El modo de falla W empieza a aparecer despus de los 100 kilociclos de uso.

    Tabla 1: Tiempos de falla y modos de falla para los datos del ejemplo.Kilociclos Modo de falla Kilociclos Modo de falla Kilociclos Modo de falla

    275 W 106 S 88 S

    13 S 300 247 S

    147 W 300 28 S

    23 S 212 W 143 S

    181 W 300 300

    30 S 300 23 S

    65 S 300 300

    10 S 2 S 80 S

    300 261 S 245 W

    173 S 293 W 266 W

    En la figura 2 se muestran los estimadores de Kaplan Meier, para cada modo defalla, considerando el otro modo de falla como censura. Se debe aclarar que cuandohay dependencia entre los modos de falla, los estimadores de Kaplan Meier no sonestimadores consistentes de las distribuciones marginales.

    En la figura 3 se muestra el estimador de Kaplan Meier, para el tiempo mnimode los dos modos de falla.

    Este ejemplo se usa ms adelante en la subseccin 5.4, bajo el supuesto dedependencia entre los dos modos de falla.

    Revista Colombiana de Estadstica 34 (2011) 231248

  • 236 Sergio Yez, Hugo Brango, Mario C. Jaramillo & Carlos M. Lopera

    0 50 100 150 200 250 300

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    Kilociclos

    Prop

    orci

    n de

    uni

    dade

    s qu

    e no

    han

    falla

    do

    0 50 100 150 200 250 300

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    Kilociclos

    Prop

    orci

    n de

    uni

    dade

    s qu

    e no

    han

    falla

    do

    Figura 2: Estimacin de la funcin de sobrevivencia de cada modo de falla.

    0 50 100 150 200 250 300

    0.2

    0.4

    0.6

    0.8

    1.0

    Kilociclos

    Prop

    orci

    n de

    uni

    dade

    s qu

    e no

    han

    falla

    do

    Figura 3: Estimacin de la funcin de sobrevivencia del tiempo mnimo ignorando losmodos de falla.

    2.2.1. Estimador bajo independencia

    Una estructura en serie con s componentes funciona, si y slo si todas las com-ponentes funcionan. Para un sistema en serie con dos componentes independientesen serie, la funcin de distribucin es

    F (t) = P (T t) = 1 P (T > t)

    = 1 P (X > t, Y > t)

    = 1 P (X > t)P (Y > t)

    = 1 [1 F1(t)][1 F2(t)] = F1(t) + F2(t) F1(t)F2(t)

    (6)

    Revista Colombiana de Estadstica 34 (2011) 231248

  • Comparacin entre riesgos competitivos va el estimador cpula-grfico 237

    donde (X,Y ) son los tiempos de vida asociados a las dos componentes y Fi, i =1, 2 son, respectivamente, las funciones de distribucin para las componentes, yT = mn(X,Y ) es el tiempo de falla observado del sistema.

    La funcin de confiabilidad S(t) = 1 F (t) para el caso de independencia es

    S(t) = P (T > t) = P (X > t, Y > t)

    = S1(t)S2(t)(7)

    donde Si(t), i = 1, 2 son las funciones de confiabilidad para las dos componentes.

    Para un sistema con dos componentes en serie y tiempos de falla dependientes,

    F (t) = P (T t) = 1 P (T > t)

    = 1 P (X > t, Y > t)(8)

    En este caso, la evaluacin debe hacerse con respecto a la distribucin conjuntade X y Y , que incluye los parmetros de dependencia.

    La funcin de confiabilidad para este caso es

    S(t) = P (T > t) = P (X > t, Y > t) (9)

    Para dos modos de falla en riesgos competitivos, se sabe que (Barlow & Proschan1975)

    S(t) = P (X > t, Y > t) P (X > t)P (Y > t)

    = S(t) = S1(t)S2(t)(10)

    donde S(t) es la funcin de confiabilidad asumiendo independencia. Por lo tan-to S(t) es pesimista en relacin con S(t), esto es para un mismo tiempo t, laprobabilidad de sobrevivencia bajo el supuesto de independencia est siempre pordebajo de la probabilidad conjunta que incluye la dependencia.

    El estimador de S(t) se denotar S(t), que es un estimador de la confiabilidaddel tiempo mnimo de falla de un sistema con dos modos de falla que compiten.ste se obtiene como el producto de las funciones de confiabilidad estimadas bajouna distribucin especfica, donde para cada funcin marginal se estiman los par-metros, considerando los tiempos del otro modo de falla como tiempos de censura,as:

    S(t) = S1(t)S2(t) (11)

    donde S1(t) y S2(t) se suponen son las funciones de confiabilidad marginales esti-madas para cada modo de falla.

    3. Estimador cpula-grfico

    Zheng & Klein (1995) proponen un estimador no paramtrico para las distribu-ciones marginales, al cual denominan estimador cpula-grfico, como una solucinal problema de identificabilidad, descrito en la subseccin 2.1. Para ello utilizan

    Revista Colombiana de Estadstica 34 (2011) 231248

  • 238 Sergio Yez, Hugo Brango, Mario C. Jaramillo & Carlos M. Lopera

    cpulas como una funcin no paramtrica que captura la dependencia entre dosvariables aleatorias. Bajo el supuesto que la cpula entre X y Y con su parme-tro de asociacin conocido y con los datos de riesgos competitivos disponibles, seresuelve el problema de identificabilidad.

    Siguiendo a Zheng & Klein (1995), suponga que se tiene, en el contexto de ries-gos competitivos, una muestra de tamao n de tiempos de vida Tj = mn(Xj , Yj).Si F1(t) y F2(t) son las distribuciones marginales de X y Y , respectivamente,entonces, para cualquier cpula, tenemos

    c(At) = P (X > t, Y > t) (12)

    donde

    c(At) =

    I2

    1Et{F11 (x), F

    12 (y)

    }dC(x, y)

    con Et = {(x, y) : x > t, y > t} y At = {(x, y) : F1(t) < x 1, F2(t) < y 1}

    c(Bt) = P (X t,X < Y ) (13)

    donde

    c(Bt) =

    I2

    1Dt{F11 (x), F

    12 (y)

    }dC(x, y)

    con Dt = {(x, y) : x < y, 0 < x < t} y Bt ={(x, y) : 0 < x F1(t), F2F

    11 (x) t) =1

    n

    1(Tj > t)

    est. P(X t,X < Y ) =1

    n

    1(Tj t, = 1)

    las estimaciones empricas de P (X > t, Y > t) y P (X t,X < Y ) respectivamen-te.

    F1(ti) y F2(ti) son la soluciones simultneas de (14) y (15), siendo F1 y F2lneas rectas en cada intervalo (ti, ti+1).

    c(Ati) est. P(X > ti, Y > ti) = 0 (14)

    c(Bti) est. P(X ti, X < Y ) = 0 (15)

    Revista Colombiana de Estadstica 34 (2011) 231248

  • Comparacin entre riesgos competitivos va el estimador cpula-grfico 239

    El estimador cpula-grfico es de mxima verosimilitud y adems bajo con-diciones de independencia, coincide con el estimador de Kaplan Meier (Zheng &Klein 1995).

    El algoritmo cpula-grfico para la construccin de F1 y F2, basado en unalgoritmo de biseccin para encontrar races, se puede ver en detalle en Zheng &Klein (1995).

    3.1. Ilustracin

    Se estimar S(t) asumiendo la cpula Gama, la cual se muestra a continuacin

    C(F1(x), F2(y)) = F1(x) + F2(y) 1

    +

    {(1

    1 F1(x)

    )1+

    (1

    1 F2(y)

    )1 1

    } 11

    , > 1

    donde F1(t) y F2(t) son las funciones de distribucin marginales para los tiemposde falla X y Y , respectivamente, es el parmetro de dependencia de la cpulaque mide el grado de asociacin entre los tiempos de falla X y Y . Este parmetrose relaciona con el coeficiente de correlacin de Kendall de la siguiente forma: = 11 . Para estimar F1(t) y F2(t), se aplica el algoritmo cpula-grfico.

    A partir de la ecuacin de la cpula, se puede encontrar la funcin de confia-bilidad,

    S(t) =

    {(1

    1 F1(t)

    )1+

    (1

    1 F2(t)

    )1 1

    } 11

    (16)

    Remplazando los estimadores F1(t) y F2(t) obtenidos del algoritmo cpula-

    grfico se obtiene S(t)cpula. Este ltimo estimador es el que se utilizar en elestudio comparativo de la siguiente seccin, puesto que la cpula Gama permitevariables con rango (0,) como es el caso de la Weibull que es de amplio usoen confiabilidad. Adems, Zheng & Klein (1995) muestran que este estimador esrazonablemente robusto a la escogencia de la cpula.

    La programacin del algoritmo cpula-grfico se realiz usando el paquete es-tadstico R (R Development Core Team 2010). El cdigo utilizado se suministrabajo pedido a los autores.

    4. Estudio comparativo entre S(t) y S(t)cpula

    Yez et al. (2006) y Manotas et al. (2008) estudiaron, para el caso Weibull ylognormal, el efecto en la estimacin de la confiabilidad S(t), cuando se asume elsupuesto de independencia entre los tiempos de falla que compiten, que realmenteson dependientes. Ellos encontraron que el estimador S(t) bajo el supuesto deindependencia, que es la metodologa tradicional, no genera errores significativosen la estimacin de la funcin de confiabilidad del tiempo mnimo. Puesto que la

    Revista Colombiana de Estadstica 34 (2011) 231248

  • 240 Sergio Yez, Hugo Brango, Mario C. Jaramillo & Carlos M. Lopera

    literatura reciente reporta que el supuesto de independencia en riesgos competi-tivos generalmente da una visin pesimista del comportamiento del sistema, elloscomentan la importancia de estudiar en ms detalle las propiedades del estimadorS(t).

    En este trabajo se estima S(t) bajo dependencia mediante el estimador cpula-

    grfico, denotado por S(t)cpula propuesto en Zheng & Klein (1995). Se hace unestudio de simulacin para comparar este estimador con el estimador de la confia-bilidad S(t).

    4.1. Esquema de simulacin

    Puesto que el estimador cpula-grfico estima las funciones de distribucinmarginales, haremos el estudio comparativo entre las funciones de distribucin, locual es equivalente a trabajar con las funciones de sobrevivencia.

    En el estudio de simulacin se utiliza la distribucin Weibull bivariada parados variables X y Y , la cual se puede visualizar en varios contextos, tales como lostiempos hasta la primera y segunda falla de un equipo reparable, los tiempos defalla breakdown de generadores duales en una planta de energa, o los tiemposde sobrevivencia en un sistema de dos rganos tal como los pulmones o riones,en el cuerpo humano (Lu & Bhattacharyya 1990).

    Para simular los tiempos de falla Weibull bivariados se us un algoritmo cpula(Frees & Valdez 1998, Jaramillo, Lopera, Manotas & Yaez 2008). La funcin deconfiabilidad conjunta de la Weibull bivariada utilizada es (Lu & Bhattacharyya1990)

    S(x, y) = exp

    ( x

    1

    ) 11

    +

    (y

    2

    ) 21

    1 (17)

    donde x > 0 y y > 0 son los tiempos de falla Weibull con funciones de distribucinF1(x) y F2(y), 1 > 0 y 2 > 0 son los parmetros de forma, 1 > 0 y 2 > 0son los parmetros de escala asociados a X y Y respectivamente, y 0 < 1 esel parmetro de dependencia entre X y Y . Cuando el parmetro de dependencia es 0, entonces hay independencia entre X y Y . A medida que aumenta, ladependencia entre X y Y aumenta.

    Se consideran 24 escenarios con tiempos de falla Weibull, cada uno de los cualescorresponde a la llamada funcin de confiabilidad del tiempo mnimo de falla delsistema S(t), donde T = mn(X,Y ). Los parmetros de escala de la distribucinWeibull bivariada se fijan en 1 = 2 = 1 ya que el parmetro de dependencia nodepende de los parmetros de escala (Lu & Bhattacharyya 1990). Los escenariospresentan situaciones donde compiten distribuciones Weibull con tasas de falladecrecientes y crecientes. Cuando el parmetro < 1, la tasa de falla es decreciente,y cuando > 1, la tasa de falla es creciente. Los escenarios toman como base lasdistintas combinaciones posibles de dicha tasa.

    Revista Colombiana de Estadstica 34 (2011) 231248

  • Comparacin entre riesgos competitivos va el estimador cpula-grfico 241

    Los casos de tiempos Weibull a estudiar son:

    1. Tiempos de falla con parmetros de forma i diferentes. Modo de falla contasa de falla decreciente versus Modo de falla con tasa de falla creciente:1 = 0.5 y 2 = 2.

    2. Tiempos de falla con parmetros de forma i diferentes. Modo de falla contasa de falla decreciente versus Modo de falla con tasa de falla constante:1 = 0.5 y 2 = 1.

    3. Tiempos de falla con parmetros de forma i iguales. Modo de falla contasa de falla decreciente versus Modo de falla con tasa de falla decreciente:1 = 0.5 y 2 = 0.5.

    4. Tiempos de falla con parmetros de forma i diferentes. Modo de falla contasa de falla creciente versus Modo de falla con tasa de falla constante: 1 = 2y 2 = 1.

    En cada uno de estos casos se toman valores del parmetro de dependencia: =0.0, 0.2, 0.4, 0.6, 0.8, 0.9. De manera que en total se tienen 24 escenarios distintospara la distribucin Weibull bivariada.

    Para efectos de comparacin se obtienen los intervalos de confianza empri-cos basados en simulacin montecarlo para S(t), usando los estimadores S(t) y

    S(t)cpula. El procedimiento se resume como sigue:

    Para cada uno de los escenarios descritos, se generaron 1000 muestras detamao n = 50, de tiempos bivariados Weibull. Se elige este tamao mues-tral, ya que en general en experimentos de confiabilidad se manejan basesde datos no muy grandes, estos estudios son costosos y los datos de falla sondifciles de obtener.

    Luego, en cada escenario se obtienen 1000 estimaciones de S(tp) usando

    ambos estimadores S(tp) y S(tp)cpula en cada percentil tp con p = 0.05,0.25, 0.50, 0.75, 0.95. De esta forma se obtiene la distribucin emprica delas estimaciones de S(tp) en cada uno de los percentiles considerados.

    Finalmente, de estas distribuciones se obtienen los lmites puntuales de con-fianza empricos aproximados del 95%.

    5. Anlisis de resultados

    En aplicaciones de confiabilidad generalmente se tienen pocas fallas y muchosdatos censurados. Bajo estas caractersticas, las pruebas formales de bondad deajuste no son tiles (Meeker et al. 2009). En lugar de ello se realizaron pruebasde hiptesis empricas en cada percentil, utilizando como regin de aceptacin losintervalos de confianza empricos, descritos en la seccin anterior.

    Revista Colombiana de Estadstica 34 (2011) 231248

  • 242 Sergio Yez, Hugo Brango, Mario C. Jaramillo & Carlos M. Lopera

    5.1. Intervalos de confianza para S(t)

    Note que en la generacin de la Weibull bivariada, el parmetro es una medidade dependencia entre los tiempos de falla.

    La figura 4 muestra los lmites de confianza aproximados para los casos Wei-bull en que los parmetros de forma son 1 = 0.5; 2 = 2.0, y parmetros dedependencia = 0.6 y 0.9.

    0.0 0.5 1.0 1.5 2.0 2.5

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    = 0.6

    Percentil del tiempo mnimo

    Prop

    orci

    n de

    uni

    dade

    s qu

    e no

    han

    falla

    do S(t)LI.S(t)CopulaLS.S(t)CopulaLI.Sx(t)LS.Sx(t)

    0.0 0.5 1.0 1.5 2.0 2.5 3.0

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    = 0.9

    Percentil del tiempo mnimo

    Prop

    orci

    n de

    uni

    dade

    s qu

    e no

    han

    falla

    do S(t)LI.S(t)CopulaLS.S(t)CopulaLI.Sx(t)LS.Sx(t)

    Figura 4: Intervalos de confianza empricos aproximados del 95% para S(tp) en el casoWeibull 1 = 0.5 y 2 = 2 en los percentiles tp con p = 0.05, 0.25, 0.50, 0.75 y0.95 para = 0.6 y 0.9.

    En estas figuras, en cada percentil tp se tiene el valor verdadero de S(tp), loslmites inferior y superior de confianza aproximados para S(tp) calculados conS(tp) (denotados como LI.S

    (tp) y LS.S(tp), respectivamente), y calculados con

    S(t)cpula (denotados LI.S(t)cpula y LS.S(t)cpula, respectivamente). Note que lasescalas en el eje de las abscisas son distintas.

    Observe que los intervalos para S(t) basados en S(tp) son ms amplios que

    aquellos basados en S(tp)cpula, indicando que el estimador S(t)cpula tiene mayorprecisin a la hora de estimar S(t). La amplitud de estos intervalos se hace msevidente a medida que aumenta la dependencia . Al ser tan amplios los lmitesde confianza, la estimacin de S(t) con S(t) puede tomar diferentes comporta-mientos, sobreestimando o subestimado la confiabilidad verdadera.

    5.2. Estimacin marginal

    Se compara la funcin de distribucin marginal para el tiempo X , S1(t), con

    las funciones de distribucin marginales estimadas, S1(t)cpula y S1(t).

    La figura 5 muestra los intervalos de confianza puntuales empricos de la dis-tribucin marginal S1(t), basados en el mtodo de simulacin montecarlo, paratiempos de falla bivariados Weibull con parmetros de forma 1 = 0.5; 2 = 2 y

    Revista Colombiana de Estadstica 34 (2011) 231248

  • Comparacin entre riesgos competitivos va el estimador cpula-grfico 243

    dependencia = 0.6 estimados mediante el algoritmo cpula-grfico (a la izquier-da) y mediante la distribucin marginal estimada S1(t), que asume independenciaentre los tiempos de falla X y Y (a la derecha).

    0 2 4 6 8 10

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    = 0.6

    Percentil del tiempo mnimo

    Prop

    orci

    n de

    uni

    dade

    s qu

    e no

    han

    falla

    do S(t)LS.S(t)CopulaLI.S(t)Copula

    0 2 4 6 8 10

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    = 0.6

    Percentil del tiempo mnimo Pr

    opor

    cin

    de u

    nida

    des

    que

    no h

    an fa

    llado S(t)LS.Sx(t)

    LI.Sx(t)

    Figura 5: Intervalos de confianza empricos aproximados del 95% para la distribucinmarginal S1(t) en el caso Weibull 1 = 0.5; 2 = 2.0 y = 0.6 en lospercentiles tp con p = 0.05, 0.25, 0.50, 0.75 y 0.95.

    Se observa como el estimador que emplea el algoritmo cpula-grfico estima lamarginal ya que S1(tp) cae dentro de los lmites del intervalo emprico, mientrasque el otro estimador realmente no estima marginales puesto que los lmites delintervalo construido no contiene la distribucin marginal S1(t) como era de espe-rarse, ya que el algoritmo cpula-grfico resuelve el problema de identificabilidadal asumir una cpula y la dependencia.

    5.3. Prediccin

    En problemas de ingeniera donde se estudia la confiabilidad de algn sistema,es de inters evaluar el efecto sobre la sobrevivencia debido a un cambio en unamarginal. En esta seccin se realizan cambios en uno de los parmetros de forma dela distribucin Weibull y el mismo cambio se le hace al estimador de ese parmetroen S(t), y se estima el cambio porcentual con relacin a la confiabilidad verdaderaen los percentiles p = 0.05, 0.25, 0.50, 0.75, 0.95.

    Meeker et al. (2009) sealan: Los ingenieros de diseo tienen herramientasque les permiten obtener predicciones razonables acerca de los efectos de un sim-ple cambio geomtrico o cambios de tamao que una pieza de un producto me-cnico tendr sobre la confiabilidad, y esto se puede traducir en cambios en losparmetros de las marginales.

    Se realiz un estudio de simulacin para mostrar el efecto de un cambio enel parmetro 2 de la distribucin Weibull para predecir la nueva confiabilidadde acuerdo a dicho cambio. El esquema de simulacin se dise como una rpli-

    Revista Colombiana de Estadstica 34 (2011) 231248

  • 244 Sergio Yez, Hugo Brango, Mario C. Jaramillo & Carlos M. Lopera

    ca de lo realizado por Meeker et al. (2009). La funcin de confiabilidad conjuntade la Weibull S(t) depende de los parmetros (1, 2, ) (con 1 = 2 = 1, deacuerdo a lo fijado en la subseccin 4.1) y se realiza un cambio en 2 multiplicn-dolo por 0.3, obteniendo una funcin de confiabilidad nueva que denotamos porS(t)nuevo = S(t;1, 0.32, ). Ahora bien, el estimador bajo independencia nuevo

    (i.e. con el cambio en 0.32) se obtiene de S(t)nuevo = S1(t)S2(t)nuevo(t; 2, 0.32),

    donde S2(t)nuevo se obtiene al reemplazar el estimador 2 por 0.32, donde 2 es

    obtenido d