Download - Estadistica Basica 1

Transcript

Estad stica Bsica a con R y RCommander

Estad stica Bsica a con R y RCommander(Versin Febrero 2008) o Autores: A. J. Arriaza Gmez o F. Fernndez Palac a n M. A. Lpez Snchez o a M. Muoz Mrquez n a S. Prez Plaza e A. Snchez Navas a

Copyright c 2008 Universidad de Cdiz. Se concede permiso para copiar, distribuir y/o a modicar este documento bajo los trminos de la Licencia de Documentacin Libre de e o GNU, Versin 1.2 o cualquier otra versin posterior publicada por la Free Software Founo o dation. Una traduccin de la licencia est incluida en la seccin titulada Licencia de o a o Documentacin Libre de GNU. o

Copyright c 2008 Universidad de Cdiz. Permission is granted to copy, distribute and/or a modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation. A copy of the license is included in the section entitled GNU Free Documentation License.

Edita: Servicio de Publicaciones de la Universidad de Cdiz a C/ Dr. Maraon, 3 n 11002 Cdiz a http://www.uca.es/publicaciones

ISBN: Depsito legal: o

Indice general

Prlogo o 1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . o 2. History (Histrico) o

V V

. . . . . . . . . . . . . . . . . . . . . . VIII

3. Licencia de Documentacin Libre de GNU . . . . . . . . . IX o 4. GNU Free Documentation License . . . . . . . . . . . . . . XIX

1

Comenzando con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . o 2. Instalacin de R y RCommander . . . . . . . . . . . . . . o 3. Ejecucin de Rcmdr . . . . . . . . . . . . . . . . . . . . . . o

1 1 3 4

2

Anlisis Exploratorio de Datos Unidimensional . . . . a 1. La organizacin de la informacin . . . . . . . . . . . . . . o o

5 6

II

Indice general 2. Naturaleza de los caracteres: Atributos y Variables . . . . 8

3. Anlisis de atributos . . . . . . . . . . . . . . . . . . . . . 11 a 4. Anlisis de variables ordenadas . . . . . . . . . . . . . . . . 13 a 5. Anlisis de variables de escala . . . . . . . . . . . . . . . . 17 a 6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3

Anlisis Exploratorio de Datos multidimensional . . . 23 a 1. Tipos de relaciones entre caracteres . . . . . . . . . . . . . 24 2. Anlisis de relaciones entre dos atributos . . . . . . . . . . 25 a 3. Anlisis de relaciones entre dos variables . . . . . . . . . . 31 a 4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4

Distribuciones de Probabilidad . . . . . . . . . . . . . . . . . . . . 55 1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . 58 2. Distribuciones continuas . . . . . . . . . . . . . . . . . . . 64 3. Generacin de valores aleatorios . . . . . . . . . . . . . . . 73 o 4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5

Inferencia clsica en poblaciones Normales . . . . . . . . . 81 a 1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . 81

III 2. Inferencias sobre una poblacin . . . . . . . . . . . . . . . 85 o 3. Inferencias sobre dos poblaciones . . . . . . . . . . . . . . 88

4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6

Inferencia no paramtrica. Diagnosis del modelo . . . 97 e 1. Pruebas de aleatoriedad . . . . . . . . . . . . . . . . . . . . 97 2. Pruebas de bondad de ajuste . . . . . . . . . . . . . . . . . 99 3. Contrastes de localizacin y escala . . . . . . . . . . . . . . 106 o 4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

7

Introduccin al Anlisis de la Varianza . . . . . . . . . . . . 113 o a 1. Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . 113 a 2. Diagnosis del modelo . . . . . . . . . . . . . . . . . . . . . 114 3. Test de la F . . . . . . . . . . . . . . . . . . . . . . . . . . 116 4. Alternativa no paramtrica. Test de Kruskal Wallis . . . . 119 e 5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

A

Ficheros de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

B

Tabla de medidas estad sticas . . . . . . . . . . . . . . . . . . . . . 125

C

Tabla de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

IV

Estad stica Bsica con R y R-commander a (Versin Febrero 2008) o Autores: A. J. Arriaza Gmez, F. Fernndez Palac o a n, M. A. Lpez Snchez, M. Muoz Mrquez, S. Prez Plaza, o a n a e A. Snchez Navas a c 2008 Servicio de Publicaciones de la Universidad de Cdiz a http://knuth.uca.es/ebrcmdr

Prlogo o1. Introduccin o

La Universidad de Cdiz es pionera en Espaa en la bsqueda de a n u soluciones de conocimiento abierto, consciente de que es la forma ms a eciente de lograr sus objetivos institucionales relacionados con la docencia y la investigacin. En concreto, el Punto 1 del Art o culo 2 de sus Estatutos, que describe los nes esenciales de la institucin, establece coo mo objetivo fundamental: La creacin, desarrollo, transmisin y cr o o tica de la ciencia, la tcnica y la cultura y su integracin en el patrimonio e o intelectual heredado. Mientras que en el Punto 6 del mismo art culo dice: Acoger, defender y promover los valores sociales e individuales que le son propios, tales como la libertad, el pluralismo, el respeto de las ideas y el esp ritu cr tico, as como la bsqueda de la verdad. u La creacin de la Ocina de Software Libre (OSLUCA) el 15 de o marzo de 2004, la aprobacin de la Normativa para el intercambio de o informacin institucional el 27 de septiembre de 2004 y la utilizacin o o de herramientas de formato abierto en las aplicaciones de comunicacin o y gestin de la Universidad, son actuaciones que ponen de maniesto o el decidido apoyo del Equipo de Gobierno de la UCA a las soluciones basadas en formatos abiertos. Desde un plano mucho ms modesto, bajo el auspicio del Vicea rrectorado de Tecnolog de la Informacin e Innovacin Docente y as o o a travs de la Oficina de Software Libre de la Universidad de e

VI Cdiz (OSLUCA), nace el Proyecto R UCA. Dicho proyecto, cuyas l a neas principales de actuacin pueden consultarse en la pgina web del proyeco a to http://knuth.uca.es/R, contempla, entre otras acciones, la elaboracin de material para la docencia y la investigacin, siendo en el primero o o de estos aspectos, el docente, en el que se enmarca este manual. En la misma l nea que nuestros rganos de gobierno, pensamos que o una institucin como la Universidad debe preocuparse por proveer a sus o miembros de las mejores herramientas para desarrollar su tarea, en aras de la mejora global del conocimiento. Pero la creacin de conocimiento se o ver muy mermada si se emplean soluciones tecnolgicas que se ofrecen a o como cajas negras, es decir que no pueden ser analizadas ni modicadas, y que adems limita fuertemente el uso que se haga de los resultados a que se consigan a partir de ellas. El uso de software propietario en reas como la Estad a stica, donde existen alternativas con igual o mejor calidad con licencia libre, no slo o tiene consecuencias negativas desde un punto de vista econmico, sino o que supone un autntico harakiri intelectual, porque limita el ejercicio e de uno de los aspectos que mejor caracterizan a nuestra institucin: su o esp ritu anal tico y cr tico, cmo se va a fomentar ese esp o ritu con el uso de herramientas absolutamente hermticas?, y si alguien consiguiera e descifrarlas y manipularlas se convertir formalmente en un delincuente. a Centrndonos en los aspectos intr a nsecos de la cuestin, cuando o nos planteamos confeccionar este manual, tuvimos claro que no quer amos ensear a manejar un programa, sino a hacer anlisis estad n a sticos con el apoyo de una herramienta que facilitara el clculo y la aplicacin de los a o procedimientos. De ah el nombre del libro: Estad stica bsica con R y a Rcmdr. La decisin de elegir R fue fcil, ningn otro programa en la actuao a u lidad rene las condiciones de madurez, cantidad de recursos y manejabiu lidad que posee R, adems de ser el que tiene una mayor implantacin a o en la comunidad cient ca. El incorporar la interfaz grca de usuario a (GUI) Rcmdr pretende, en primera instancia, facilitar el manejo de R y, en segundo lugar, servir como generador de instrucciones R. Es posible

0.1 Introduccin o

VII

que muchos de nuestros alumnos no necesiten otro nivel de uso que el que proporciona Rcmdr, pero unos pocos y la mayor del personal a investigador, una vez superado el respeto inicial a la herramienta, se decantarn por manejarse directamente con la consola de R, creando y a editando instrucciones con una evidente econom de recursos y, lo que a es ms importante, con un control total sobre los procedimientos que en a cada momento se van a aplicar. Respecto a los contenidos, el libro pretende abarcar las necesidades prcticas de un programa bsico de estad a a stica, y as salvo el primer , cap tulo, donde se presenta de forma muy sucinta el software, el resto est dedicado a los tpicos habituales de un curso introductorio: Anlisis a o a Exploratorio en una y dos Dimensiones, Distribuciones de Probabilidad, Inferencia Paramtrica y no Paramtrica y Anlisis de la Varianza de e e a un Factor. El esquema de presentacin de los temas incluye una breve o descripcin de los conceptos, la resolucin de una serie de ejemplos con o o la ayuda de R y la propuesta de ejercicios para evaluar los conocimientos adquiridos. Al objeto de facilitar el uso del software, los primeros cap tulos estn soportados bsicamente sobre la interfaz Rcmdr. A partir del a a cap tulo 5 aumenta el uso de funciones construidas directamente en el indicador de mandatos, en parte por necesidad y en parte por motivos estratgicos, puesto que para entonces consideramos que nuestros e alumnos estn bien familiarizados con la sintaxis de las funciones de R. a Esperamos que este manual sea de utilidad y, en cualquier caso y con ms motivos, dado que se trata de la primera versin, ponemos a o nuestro trabajo a disposicin de la comunidad cient o ca para que se hagan las mejoras, ampliaciones y adaptaciones que se deseen. Los autores,

VIII 2. History (Histrico) o

Este libro surge como material de apoyo a un curso de estad stica bsica con R. La gnesis est en la creacin del proyecto R UCA en mayo a e a o del 2007 y su primera versin ve la luz en enero de ese mismo ao. Los o n autores en orden alfabtico inverso son Antonio Snchez Navas, Sonia e a Prez Plaza, Manuel Muoz Mrquez, Mara Auxiliadora Lpez Snchez, e n a o a Fernando Fernndez Palacn y Antonio Jess Arriaza Gmez. a u o Una versin electrnica de este documento se encuentra en: o ohttp://knuth.uca.es/ebrcmdr

IX3. Licencia de Documentacin Libre de GNU o

This is an unocial translation of the GNU Free Documentation License (Version 1.2, Noviembre 2002) into Spanish. It was not published by the Free Software Foundation, and does not legally state the distribution terms for documentation that uses the GNU FDL only the original English text of the GNU FDL does that. However, we hope that this translation will help Spanish speakers understand the GNU FDL better. Esta es una traduccin no ocial de la GNU Free Document License o (Versin 1.2, Noviembre 2002) a Espa ol (Castellano). No ha sido publicao n da por la Free Software Foundation y no establece legalmente los trminos e de distribucin para trabajos que usen la GFDL (slo el texto de la vero o sin original en Ingls de la GFDL lo hace). Sin embargo, esperamos que o e esta traduccin ayude los hispanohablantes a entender mejor la GFDL. La o versin original de la GFDL esta disponible en la Free Software Foundation. o http://www.gnu.org/copyleft/fdl.html Esta traduccin est basada en una o a de la versin 1.1 de Igor Tmara y Pablo Reyes. Sin embargo la responsabilidad o a de su interpretacin es de Joaqu Seoane. o n Copyright (C) 2000, 2001, 2002 Free Software Foundation, Inc. 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA. Se permite la copia y distribucin de copias literales de este documento de licencia, pero no se permiten o cambios1 .

Prembulo aEl propsito de esta Licencia es permitir que un manual, libro de texto, u o otro documento escrito sea libre en el sentido de libertad: asegurar a todo el mundo la libertad efectiva de copiarlo y redistribuirlo, con o sin modicaciones, de manera comercial o no. En segundo trmino, esta Licencia proporciona al e autor y al editor2 una manera de obtener reconocimiento por su trabajo, sin que se le considere responsable de las modicaciones realizadas por otros. Esta Licencia es de tipo copyleft, lo que signica que los trabajos derivados del documento deben a su vez ser libres en el mismo sentido. Complementa la Licencia P blica General de GNU, que es una licencia tipo copyleft u dise ada para el software libre. nEsta es la traduccin del Copyright de la Licencia, no es el Copyright de esta o traduccin no autorizada. o 2 La licencia original dice publisher, que es, estrictamente, quien publica, diferente de editor, que es ms bien quien prepara un texto para publicar. En castellano a editor se usa para ambas cosas.1

XHemos dise ado esta Licencia para usarla en manuales de software libre, n ya que el software libre necesita documentacin libre: un programa libre debe o venir con manuales que ofrezcan la mismas libertades que el software. Pero esta licencia no se limita a manuales de software; puede usarse para cualquier texto, sin tener en cuenta su temtica o si se publica como libro impreso o no. a Recomendamos esta licencia principalmente para trabajos cuyo n sea instructivo o de referencia.

1. Aplicabilidad y denicionesEsta Licencia se aplica a cualquier manual u otro trabajo, en cualquier soporte, que contenga una nota del propietario de los derechos de autor que indique que puede ser distribuido bajo los trminos de esta Licencia. Tal nota e garantiza en cualquier lugar del mundo, sin pago de derechos y sin l mite de tiempo, el uso de dicho trabajo seg n las condiciones aqu estipuladas. En u adelante la palabra Documento se referir a cualquiera de dichos manuales a o trabajos. Cualquier persona es un licenciatario y ser referido como Usted. a Usted acepta la licencia si copia. modica o distribuye el trabajo de cualquier modo que requiera permiso seg n la ley de propiedad intelectual. u Una Versin Modicada del Documento signica cualquier trabajo o que contenga el Documento o una porcin del mismo, ya sea una copia literal o o con modicaciones y/o traducciones a otro idioma. Una Seccin Secundaria es un apndice con t o e tulo o una seccin o preliminar del Documento que trata exclusivamente de la relacin entre los o autores o editores y el tema general del Documento (o temas relacionados) pero que no contiene nada que entre directamente en dicho tema general (por ejemplo, si el Documento es en parte un texto de matemticas, una Seccin a o Secundaria puede no explicar nada de matemticas). La relacin puede ser a o una conexin histrica con el tema o temas relacionados, o una opinin legal, o o o comercial, losca, tica o pol o e tica acerca de ellos. Las Secciones Invariantes son ciertas Secciones Secundarias cuyos t tulos son designados como Secciones Invariantes en la nota que indica que el documento es liberado bajo esta Licencia. Si una seccin no entra en la denio cin de Secundaria, no puede designarse como Invariante. El documento puede o no tener Secciones Invariantes. Si el Documento no identica las Secciones Invariantes, es que no las tiene. Los Textos de Cubierta son ciertos pasajes cortos de texto que se listan como Textos de Cubierta Delantera o Textos de Cubierta Trasera en la nota que indica que el documento es liberado bajo esta Licencia. Un Texto de

XICubierta Delantera puede tener como mucho 5 palabras, y uno de Cubierta Trasera puede tener hasta 25 palabras. Una copia Transparente del Documento, signica una copia para lectura en mquina, representada en un formato cuya especicacin est disa o a ponible al p blico en general, apto para que los contenidos puedan ser vistos u y editados directamente con editores de texto genricos o (para imgenes come a puestas por puntos) con programas genricos de manipulacin de imgenes o e o a (para dibujos) con alg n editor de dibujos ampliamente disponible, y que sea u adecuado como entrada para formateadores de texto o para su traduccin auo tomtica a formatos adecuados para formateadores de texto. Una copia hecha a en un formato denido como Transparente, pero cuyo marcaje o ausencia de l haya sido dise ado para impedir o dicultar modicaciones posteriores por e n parte de los lectores no es Transparente. Un formato de imagen no es Transparente si se usa para una cantidad de texto sustancial. Una copia que no es Transparente se denomina Opaca. Como ejemplos de formatos adecuados para copias Transparentes estn a ASCII puro sin marcaje, formato de entrada de Texinfo, formato de entrada A de L TEX, SGML o XML usando una DTD disponible p blicamente, y HTML, u PostScript o PDF simples, que sigan los estndares y diseados para que los a n modiquen personas. Ejemplos de formatos de imagen transparentes son PNG, XCF y JPG. Los formatos Opacos incluyen formatos propietarios que pueden ser le dos y editados unicamente en procesadores de palabras propietarios, SGML o XML para los cules las DTD y/o herramientas de procesamiento a no estn ampliamente disponibles, y HTML, PostScript o PDF generados por e algunos procesadores de palabras slo como salida. o La Portada signica, en un libro impreso, la pgina de t a tulo, ms las a pginas siguientes que sean necesarias para mantener legiblemente el material a que esta Licencia requiere en la portada. Para trabajos en formatos que no tienen pgina de portada como tal, Portada signica el texto cercano a la a aparicin ms prominente del t o a tulo del trabajo, precediendo el comienzo del cuerpo del texto. Una seccin Titulada XYZ signica una parte del Documento cuyo o t tulo es precisamente XYZ o contiene XYZ entre parntesis, a continuacin e o de texto que traduce XYZ a otro idioma (aqu XYZ se reere a nombres de seccin espec o cos mencionados ms abajo, como Agradecimientos, Dea dicatorias, Aprobaciones o Historia. Conservar el T tulo de tal seccin cuando se modica el Documento signica que permanece una seccin o o Titulada XYZ seg n esta denicin3 . u oEn sentido estricto esta licencia parece exigir que los t tulos sean exactamente Acknowledgements, Dedications, Endorsements e History, en3

XIIEl Documento puede incluir Limitaciones de Garant cercanas a la nota a donde se declara que al Documento se le aplica esta Licencia. Se considera que estas Limitaciones de Garant estn incluidas, por referencia, en la Licencia, a a pero slo en cuanto a limitaciones de garant cualquier otra implicacin que o a: o estas Limitaciones de Garant puedan tener es nula y no tiene efecto en el a signicado de esta Licencia.

2. Copia literalUsted puede copiar y distribuir el Documento en cualquier soporte, sea en forma comercial o no, siempre y cuando esta Licencia, las notas de copyright y la nota que indica que esta Licencia se aplica al Documento se reproduzcan en todas las copias y que usted no a ada ninguna otra condicin a las expuestas en n o esta Licencia. Usted no puede usar medidas tcnicas para obstruir o controlar la e lectura o copia posterior de las copias que usted haga o distribuya. Sin embargo, usted puede aceptar compensacin a cambio de las copias. Si distribuye un o n mero sucientemente grande de copias tambin deber seguir las condiciones u e a de la seccin 3. o Usted tambin puede prestar copias, bajo las mismas condiciones estae blecidas anteriormente, y puede exhibir copias p blicamente. u

3. Copiado en cantidadSi publica copias impresas del Documento (o copias en soportes que tengan normalmente cubiertas impresas) que sobrepasen las 100, y la nota de licencia del Documento exige Textos de Cubierta, debe incluir las copias con cubiertas que lleven en forma clara y legible todos esos Textos de Cubierta: Textos de Cubierta Delantera en la cubierta delantera y Textos de Cubierta Trasera en la cubierta trasera. Ambas cubiertas deben identicarlo a Usted clara y legiblemente como editor de tales copias. La cubierta debe mostrar el t tulo completo con todas las palabras igualmente prominentes y visibles. Adems puede a adir otro material en las cubiertas. Las copias con cambios a n limitados a las cubiertas, siempre que conserven el t tulo del Documento y satisfagan estas condiciones, pueden considerarse como copias literales. Si los textos requeridos para la cubierta son muy voluminosos para que ajusten legiblemente, debe colocar los primeros (tantos como sea razonable colocar) en la verdadera cubierta y situar el resto en pginas adyacentes. a Si Usted publica o distribuye copias Opacas del Documento cuya cantidad exceda las 100, debe incluir una copia Transparente, que pueda ser le daingls. e

XIIIpor una mquina, con cada copia Opaca, o bien mostrar, en cada copia Opaca, a una direccin de red donde cualquier usuario de la misma tenga acceso por o medio de protocolos p blicos y estandarizados a una copia Transparente del u Documento completa, sin material adicional. Si usted hace uso de la ultima opcin, deber tomar las medidas necesarias, cuando comience la distribucin o a o de las copias Opacas en cantidad, para asegurar que esta copia Transparente permanecer accesible en el sitio establecido por lo menos un a o despus de a n e la ultima vez que distribuya una copia Opaca de esa edicin al p blico (direc o u tamente o a travs de sus agentes o distribuidores). e Se solicita, aunque no es requisito, que se ponga en contacto con los autores del Documento antes de redistribuir gran n mero de copias, para darles u la oportunidad de que le proporcionen una versin actualizada del Documento. o

4. ModicacionesPuede copiar y distribuir una Versin Modicada del Documento bajo las o condiciones de las secciones 2 y 3 anteriores, siempre que usted libere la Versin o Modicada bajo esta misma Licencia, con la Versin Modicada haciendo el o rol del Documento, por lo tanto dando licencia de distribucin y modicacin o o de la Versin Modicada a quienquiera posea una copia de la misma. Adems, o a debe hacer lo siguiente en la Versin Modicada: o A. Usar en la Portada (y en las cubiertas, si hay alguna) un t tulo distinto al del Documento y de sus versiones anteriores (que debern, si hay alguna, a estar listadas en la seccin de Historia del Documento). Puede usar el o mismo t tulo de versiones anteriores al original siempre y cuando quien las public originalmente otorgue permiso. o B. Listar en la Portada, como autores, una o ms personas o entidades a responsables de la autor de las modicaciones de la Versin Modicada, a o junto con por lo menos cinco de los autores principales del Documento (todos sus autores principales, si hay menos de cinco), a menos que le eximan de tal requisito. C. Mostrar en la Portada como editor el nombre del editor de la Versin o Modicada. D. Conservar todas las notas de copyright del Documento. E. A adir una nota de copyright apropiada a sus modicaciones, adyacente n a las otras notas de copyright.

XIVF. Incluir, inmediatamente despus de las notas de copyright, una nota de e licencia dando el permiso para usar la Versin Modicada bajo los trmio e nos de esta Licencia, como se muestra en la Adenda al nal de este documento. G. Conservar en esa nota de licencia el listado completo de las Secciones Invariantes y de los Textos de Cubierta que sean requeridos en la nota de Licencia del Documento original. H. Incluir una copia sin modicacin de esta Licencia. o I. Conservar la seccin Titulada Historia, conservar su T o tulo y a adirle n un elemento que declare al menos el t tulo, el a o, los nuevos autores y n el editor de la Versin Modicada, tal como guran en la Portada. Si o no hay una seccin Titulada Historia en el Documento, crear una o estableciendo el t tulo, el a o, los autores y el editor del Documento, tal n como guran en su Portada, a adiendo adems un elemento describiendo n a la Versin Modicada, como se estableci en la oracin anterior. o o o J. Conservar la direccin en red, si la hay, dada en el Documento para el o acceso p blico a una copia Transparente del mismo, as como las otras u direcciones de red dadas en el Documento para versiones anteriores en las que estuviese basado. Pueden ubicarse en la seccin Historia. Se o puede omitir la ubicacin en red de un trabajo que haya sido publicado o por lo menos cuatro a os antes que el Documento mismo, o si el editor n original de dicha versin da permiso. o K. En cualquier seccin Titulada Agradecimientos o Dedicatorias, o Conservar el T tulo de la seccin y conservar en ella toda la sustancia o y el tono de los agradecimientos y/o dedicatorias incluidas por cada contribuyente. L. Conservar todas las Secciones Invariantes del Documento, sin alterar su texto ni sus t tulos. N meros de seccin o el equivalente no son consideu o rados parte de los t tulos de la seccin. o M. Borrar cualquier seccin titulada Aprobaciones. Tales secciones no o pueden estar incluidas en las Versiones Modicadas. N. No cambiar el t tulo de ninguna seccin existente a Aprobaciones ni o a uno que entre en conicto con el de alguna Seccin Invariante. o O. Conservar todas las Limitaciones de Garant a. Si la Versin Modicada incluye secciones o apndices nuevos que cao e liquen como Secciones Secundarias y contienen material no copiado del Documento, puede opcionalmente designar algunas o todas esas secciones como

XVinvariantes. Para hacerlo, a ada sus t n tulos a la lista de Secciones Invariantes en la nota de licencia de la Versin Modicada. Tales t o tulos deben ser distintos de cualquier otro t tulo de seccin. o Puede a adir una seccin titulada Aprobaciones, siempre que conn o tenga unicamente aprobaciones de su Versin Modicada por otras fuentes o por ejemplo, observaciones de peritos o que el texto ha sido aprobado por una organizacin como la denicin ocial de un estndar. o o a Puede a adir un pasaje de hasta cinco palabras como Texto de Cubierta n Delantera y un pasaje de hasta 25 palabras como Texto de Cubierta Trasera en la Versin Modicada. Una entidad solo puede a adir (o hacer que se a ada) o n n un pasaje al Texto de Cubierta Delantera y uno al de Cubierta Trasera. Si el Documento ya incluye textos de cubiertas a adidos previamente por usted o n por la misma entidad que usted representa, usted no puede aadir otro; pero n puede reemplazar el anterior, con permiso expl cito del editor que agreg el o texto anterior. Con esta Licencia ni los autores ni los editores del Documento dan permiso para usar sus nombres para publicidad ni para asegurar o implicar aprobacin o de cualquier Versin Modicada. o

5. Combinacin de documentos oUsted puede combinar el Documento con otros documentos liberados bajo esta Licencia, bajo los trminos denidos en la seccin 4 anterior para e o versiones modicadas, siempre que incluya en la combinacin todas las Seco ciones Invariantes de todos los documentos originales, sin modicar, listadas todas como Secciones Invariantes del trabajo combinado en su nota de licencia. As mismo debe incluir la Limitacin de Garant o a. El trabajo combinado necesita contener solamente una copia de esta Licencia, y puede reemplazar varias Secciones Invariantes idnticas por una sola e copia. Si hay varias Secciones Invariantes con el mismo nombre pero con contenidos diferentes, haga el t tulo de cada una de estas secciones unico a adindole n e al nal del mismo, entre parntesis, el nombre del autor o editor original de esa e seccin, si es conocido, o si no, un n mero unico. Haga el mismo ajuste a los o u t tulos de seccin en la lista de Secciones Invariantes de la nota de licencia del o trabajo combinado. En la combinacin, debe combinar cualquier seccin Titulada Histoo o ria de los documentos originales, formando una seccin Titulada Historia; o de la misma forma combine cualquier seccin Titulada Agradecimientos, o y cualquier seccin Titulada Dedicatorias. Debe borrar todas las secciones o tituladas Aprobaciones.

XVI

6. Colecciones de documentosPuede hacer una coleccin que conste del Documento y de otros docuo mentos liberados bajo esta Licencia, y reemplazar las copias individuales de esta Licencia en todos los documentos por una sola copia que est incluida en e la coleccin, siempre que siga las reglas de esta Licencia para cada copia literal o de cada uno de los documentos en cualquiera de los dems aspectos. a Puede extraer un solo documento de una de tales colecciones y distribuirlo individualmente bajo esta Licencia, siempre que inserte una copia de esta Licencia en el documento extra y siga esta Licencia en todos los dems do, a aspectos relativos a la copia literal de dicho documento.

7. Agregacin con trabajos independientes oUna recopilacin que conste del Documento o sus derivados y de otros o documentos o trabajos separados e independientes, en cualquier soporte de almacenamiento o distribucin, se denomina un agregado si el copyright o resultante de la compilacin no se usa para limitar los derechos de los usuarios o de la misma ms all de lo que los de los trabajos individuales permiten. Cuando a a el Documento se incluye en un agregado, esta Licencia no se aplica a otros trabajos del agregado que no sean en s mismos derivados del Documento. Si el requisito de la seccin 3 sobre el Texto de Cubierta es aplicable a o estas copias del Documento y el Documento es menor que la mitad del agregado entero, los Textos de Cubierta del Documento pueden colocarse en cubiertas que enmarquen solamente el Documento dentro del agregado, o el equivalente electrnico de las cubiertas si el documento est en forma electrnica. En caso o a o contrario deben aparecer en cubiertas impresas enmarcando todo el agregado.

8. Traduccin oLa Traduccin es considerada como un tipo de modicacin, por lo que o o usted puede distribuir traducciones del Documento bajo los trminos de la e seccin 4. El reemplazo de las Secciones Invariantes con traducciones requiere o permiso especial de los due os de derecho de autor, pero usted puede a adir n n traducciones de algunas o todas las Secciones Invariantes a las versiones originales de las mismas. Puede incluir una traduccin de esta Licencia, de todas o las notas de licencia del documento, as como de las Limitaciones de Garant a, siempre que incluya tambin la versin en Ingls de esta Licencia y las vere o e siones originales de las notas de licencia y Limitaciones de Garant En caso a.

XVIIde desacuerdo entre la traduccin y la versin original en Ingls de esta Liceno o e cia, la nota de licencia o la limitacin de garant la versin original en Ingls o a, o e prevalecer. a Si una seccin del Documento est Titulada Agradecimientos, Deo a dicatorias o Historia el requisito (seccin 4) de Conservar su T o tulo (Seccin 1) requerir, t o a picamente, cambiar su t tulo.

9. Terminacin oUsted no puede copiar, modicar, sublicenciar o distribuir el Documento salvo por lo permitido expresamente por esta Licencia. Cualquier otro intento de copia, modicacin, sublicenciamiento o distribucin del Documento es nulo, o o y dar por terminados automticamente sus derechos bajo esa Licencia. Sin a a embargo, los terceros que hayan recibido copias, o derechos, de usted bajo esta Licencia no vern terminadas sus licencias, siempre que permanezcan en total a conformidad con ella.

10. Revisiones futuras de esta licenciaDe vez en cuando la Free Software Foundation puede publicar versiones nuevas y revisadas de la Licencia de Documentacin Libre GNU. Tales versiones o nuevas sern similares en esp a ritu a la presente versin, pero pueden diferir en o detalles para solucionar nuevos problemas o intereses. Vea http://www.gnu.org/copyleft/. Cada versin de la Licencia tiene un n mero de versin que la distingue. o u o Si el Documento especica que se aplica una versin numerada en particular o de esta licencia o cualquier versin posterior, usted tiene la opcin de o o seguir los trminos y codiciones de la versin especicada o cualquiera posterior e o que haya sido publicada (no como borrador) por la Free Software Foundation. Si el Documento no especica un n mero de versin de esta Licencia, puede u o escoger cualquier versin que haya sido publicada (no como borrador) por la o Free Software Foundation.

ADENDA: Cmo usar esta Licencia en sus documentos oPara usar esta licencia en un documento que usted haya escrito, incluya una copia de la Licencia en el documento y ponga el siguiente copyright y nota de licencia justo despus de la pgina de t e a tulo:

XVIII Copyright (c) ANO SU NOMBRE. Se concede permiso para copiar, distribuir y/o modicar este documento bajo los trminos de e la Licencia de Documentacin Libre de GNU, Versin 1.2 o cualo o quier otra versin posterior publicada por la Free Software Foundao tion; sin Secciones Invariantes ni Textos de Cubierta Delantera ni Textos de Cubierta Trasera. Una copia de la licencia est incluida a en la seccin titulada GNU Free Documentation License. o Si tiene Secciones Invariantes, Textos de Cubierta Delantera y Textos de Cubierta Trasera, reemplace la frase sin ... Trasera por esto: siendo las Secciones Invariantes LISTE SUS T ITULOS, siendo los Textos de Cubierta Delantera LISTAR, y siendo sus Textos de Cubierta Trasera LISTAR. Si tiene Secciones Invariantes sin Textos de Cubierta o cualquier otra combinacin de los tres, mezcle ambas alternativas para adaptarse a la situao cin. o Si su documento contiene ejemplos de cdigo de programa no triviales, o recomendamos liberar estos ejemplos en paralelo bajo la licencia de software libre que usted elija, como la Licencia P blica General de GNU (GNU Geu neral Public License), para permitir su uso en software libre.

XIX4. GNU Free Documentation License Version 1.2, November 2002 Copyright c 2000,2001,2002 Free Software Foundation, Inc. 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA Everyone is permitted to copy and distribute verbatim copies of this license document, but changing it is not allowed.

PreambleThe purpose of this License is to make a manual, textbook, or other functional and useful document freein the sense of freedom: to assure everyone the eective freedom to copy and redistribute it, with or without modifying it, either commercially or noncommercially. Secondarily, this License preserves for the author and publisher a way to get credit for their work, while not being considered responsible for modications made by others. This License is a kind of copyleft, which means that derivative works of the document must themselves be free in the same sense. It complements the GNU General Public License, which is a copyleft license designed for free software. We have designed this License in order to use it for manuals for free software, because free software needs free documentation: a free program should come with manuals providing the same freedoms that the software does. But this License is not limited to software manuals; it can be used for any textual work, regardless of subject matter or whether it is published as a printed book. We recommend this License principally for works whose purpose is instruction or reference.

1. APPLICABILITY AND DEFINITIONSThis License applies to any manual or other work, in any medium, that contains a notice placed by the copyright holder saying it can be distributed under the terms of this License. Such a notice grants a world-wide, royalty-free license, unlimited in duration, to use that work under the conditions stated herein. The Document, below, refers to any such manual or work. Any member of the public is a licensee, and is addressed as you. You accept the

XXlicense if you copy, modify or distribute the work in a way requiring permission under copyright law. A Modied Version of the Document means any work containing the Document or a portion of it, either copied verbatim, or with modications and/or translated into another language. A Secondary Section is a named appendix or a front-matter section of the Document that deals exclusively with the relationship of the publishers or authors of the Document to the Documents overall subject (or to related matters) and contains nothing that could fall directly within that overall subject. (Thus, if the Document is in part a textbook of mathematics, a Secondary Section may not explain any mathematics.) The relationship could be a matter of historical connection with the subject or with related matters, or of legal, commercial, philosophical, ethical or political position regarding them. The Invariant Sections are certain Secondary Sections whose titles are designated, as being those of Invariant Sections, in the notice that says that the Document is released under this License. If a section does not t the above denition of Secondary then it is not allowed to be designated as Invariant. The Document may contain zero Invariant Sections. If the Document does not identify any Invariant Sections then there are none. The Cover Texts are certain short passages of text that are listed, as Front-Cover Texts or Back-Cover Texts, in the notice that says that the Document is released under this License. A Front-Cover Text may be at most 5 words, and a Back-Cover Text may be at most 25 words. A Transparent copy of the Document means a machine-readable copy, represented in a format whose specication is available to the general public, that is suitable for revising the document straightforwardly with generic text editors or (for images composed of pixels) generic paint programs or (for drawings) some widely available drawing editor, and that is suitable for input to text formatters or for automatic translation to a variety of formats suitable for input to text formatters. A copy made in an otherwise Transparent le format whose markup, or absence of markup, has been arranged to thwart or discourage subsequent modication by readers is not Transparent. An image format is not Transparent if used for any substantial amount of text. A copy that is not Transparentis called Opaque. Examples of suitable formats for Transparent copies include plain ASCII without markup, Texinfo input format, LaTeX input format, SGML or XML using a publicly available DTD, and standard-conforming simple HTML, PostScript or PDF designed for human modication. Examples of transparent image formats include PNG, XCF and JPG. Opaque formats include proprie-

XXItary formats that can be read and edited only by proprietary word processors, SGML or XML for which the DTD and/or processing tools are not generally available, and the machine-generated HTML, PostScript or PDF produced by some word processors for output purposes only. The Title Page means, for a printed book, the title page itself, plus such following pages as are needed to hold, legibly, the material this License requires to appear in the title page. For works in formats which do not have any title page as such, Title Pagemeans the text near the most prominent appearance of the works title, preceding the beginning of the body of the text. A section Entitled XYZ means a named subunit of the Document whose title either is precisely XYZ or contains XYZ in parentheses following text that translates XYZ in another language. (Here XYZ stands for a specic section name mentioned below, such as Acknowledgements, Dedications, Endorsements, or History.) To Preserve the Title of such a section when you modify the Document means that it remains a section Entitled XYZ.according to this denition. The Document may include Warranty Disclaimers next to the notice which states that this License applies to the Document. These Warranty Disclaimers are considered to be included by reference in this License, but only as regards disclaiming warranties: any other implication that these Warranty Disclaimers may have is void and has no eect on the meaning of this License.

2. VERBATIM COPYINGYou may copy and distribute the Document in any medium, either commercially or noncommercially, provided that this License, the copyright notices, and the license notice saying this License applies to the Document are reproduced in all copies, and that you add no other conditions whatsoever to those of this License. You may not use technical measures to obstruct or control the reading or further copying of the copies you make or distribute. However, you may accept compensation in exchange for copies. If you distribute a large enough number of copies you must also follow the conditions in section 3. You may also lend copies, under the same conditions stated above, and you may publicly display copies.

3. COPYING IN QUANTITYIf you publish printed copies (or copies in media that commonly have printed covers) of the Document, numbering more than 100, and the Docu-

XXIIments license notice requires Cover Texts, you must enclose the copies in covers that carry, clearly and legibly, all these Cover Texts: Front-Cover Texts on the front cover, and Back-Cover Texts on the back cover. Both covers must also clearly and legibly identify you as the publisher of these copies. The front cover must present the full title with all words of the title equally prominent and visible. You may add other material on the covers in addition. Copying with changes limited to the covers, as long as they preserve the title of the Document and satisfy these conditions, can be treated as verbatim copying in other respects. If the required texts for either cover are too voluminous to t legibly, you should put the rst ones listed (as many as t reasonably) on the actual cover, and continue the rest onto adjacent pages. If you publish or distribute Opaque copies of the Document numbering more than 100, you must either include a machine-readable Transparent copy along with each Opaque copy, or state in or with each Opaque copy a computer-network location from which the general network-using public has access to download using public-standard network protocols a complete Transparent copy of the Document, free of added material. If you use the latter option, you must take reasonably prudent steps, when you begin distribution of Opaque copies in quantity, to ensure that this Transparent copy will remain thus accessible at the stated location until at least one year after the last time you distribute an Opaque copy (directly or through your agents or retailers) of that edition to the public. It is requested, but not required, that you contact the authors of the Document well before redistributing any large number of copies, to give them a chance to provide you with an updated version of the Document.

4. MODIFICATIONSYou may copy and distribute a Modied Version of the Document under the conditions of sections 2 and 3 above, provided that you release the Modied Version under precisely this License, with the Modied Version lling the role of the Document, thus licensing distribution and modication of the Modied Version to whoever possesses a copy of it. In addition, you must do these things in the Modied Version: A. Use in the Title Page (and on the covers, if any) a title distinct from that of the Document, and from those of previous versions (which should, if there were any, be listed in the History section of the Document). You may use the same title as a previous version if the original publisher of that version gives permission.

XXIIIB. List on the Title Page, as authors, one or more persons or entities responsible for authorship of the modications in the Modied Version, together with at least ve of the principal authors of the Document (all of its principal authors, if it has fewer than ve), unless they release you from this requirement. C. State on the Title page the name of the publisher of the Modied Version, as the publisher. D. Preserve all the copyright notices of the Document. E. Add an appropriate copyright notice for your modications adjacent to the other copyright notices. F. Include, immediately after the copyright notices, a license notice giving the public permission to use the Modied Version under the terms of this License, in the form shown in the Addendum below. G. Preserve in that license notice the full lists of Invariant Sections and required Cover Texts given in the Documents license notice. H. Include an unaltered copy of this License. I. Preserve the section Entitled History, Preserve its Title, and add to it an item stating at least the title, year, new authors, and publisher of the Modied Version as given on the Title Page. If there is no section Entitled Historyin the Document, create one stating the title, year, authors, and publisher of the Document as given on its Title Page, then add an item describing the Modied Version as stated in the previous sentence. J. Preserve the network location, if any, given in the Document for public access to a Transparent copy of the Document, and likewise the network locations given in the Document for previous versions it was based on. These may be placed in the Historysection. You may omit a network location for a work that was published at least four years before the Document itself, or if the original publisher of the version it refers to gives permission. K. For any section Entitled Acknowledgements.or Dedications, Preserve the Title of the section, and preserve in the section all the substance and tone of each of the contributor acknowledgements and/or dedications given therein. L. Preserve all the Invariant Sections of the Document, unaltered in their text and in their titles. Section numbers or the equivalent are not considered part of the section titles.

XXIVM. Delete any section Entitled Endorsements. Such a section may not be included in the Modied Version. N. Do not retitle any existing section to be Entitled Endorsements.or to conict in title with any Invariant Section. O. Preserve any Warranty Disclaimers. If the Modied Version includes new front-matter sections or appendices that qualify as Secondary Sections and contain no material copied from the Document, you may at your option designate some or all of these sections as invariant. To do this, add their titles to the list of Invariant Sections in the Modied Versions license notice. These titles must be distinct from any other section titles. You may add a section Entitled Endorsements, provided it contains nothing but endorsements of your Modied Version by various partiesfor example, statements of peer review or that the text has been approved by an organization as the authoritative denition of a standard. You may add a passage of up to ve words as a Front-Cover Text, and a passage of up to 25 words as a Back-Cover Text, to the end of the list of Cover Texts in the Modied Version. Only one passage of Front-Cover Text and one of Back-Cover Text may be added by (or through arrangements made by) any one entity. If the Document already includes a cover text for the same cover, previously added by you or by arrangement made by the same entity you are acting on behalf of, you may not add another; but you may replace the old one, on explicit permission from the previous publisher that added the old one. The author(s) and publisher(s) of the Document do not by this License give permission to use their names for publicity for or to assert or imply endorsement of any Modied Version.

5. COMBINING DOCUMENTSYou may combine the Document with other documents released under this License, under the terms dened in section 4 above for modied versions, provided that you include in the combination all of the Invariant Sections of all of the original documents, unmodied, and list them all as Invariant Sections of your combined work in its license notice, and that you preserve all their Warranty Disclaimers. The combined work need only contain one copy of this License, and multiple identical Invariant Sections may be replaced with a single copy. If there are multiple Invariant Sections with the same name but dierent contents, make

XXVthe title of each such section unique by adding at the end of it, in parentheses, the name of the original author or publisher of that section if known, or else a unique number. Make the same adjustment to the section titles in the list of Invariant Sections in the license notice of the combined work. In the combination, you must combine any sections Entitled Historyin the various original documents, forming one section Entitled History; likewise combine any sections Entitled Acknowledgements, and any sections Entitled Dedications. You must delete all sections Entitled Endorsements.

6. COLLECTIONS OF DOCUMENTS

You may make a collection consisting of the Document and other documents released under this License, and replace the individual copies of this License in the various documents with a single copy that is included in the collection, provided that you follow the rules of this License for verbatim copying of each of the documents in all other respects. You may extract a single document from such a collection, and distribute it individually under this License, provided you insert a copy of this License into the extracted document, and follow this License in all other respects regarding verbatim copying of that document.

7. AGGREGATION WITH INDEPENDENT WORKS

A compilation of the Document or its derivatives with other separate and independent documents or works, in or on a volume of a storage or distribution medium, is called an aggregateif the copyright resulting from the compilation is not used to limit the legal rights of the compilations users beyond what the individual works permit. When the Document is included in an aggregate, this License does not apply to the other works in the aggregate which are not themselves derivative works of the Document. If the Cover Text requirement of section 3 is applicable to these copies of the Document, then if the Document is less than one half of the entire aggregate, the Documents Cover Texts may be placed on covers that bracket the Document within the aggregate, or the electronic equivalent of covers if the Document is in electronic form. Otherwise they must appear on printed covers that bracket the whole aggregate.

XXVI

8. TRANSLATIONTranslation is considered a kind of modication, so you may distribute translations of the Document under the terms of section 4. Replacing Invariant Sections with translations requires special permission from their copyright holders, but you may include translations of some or all Invariant Sections in addition to the original versions of these Invariant Sections. You may include a translation of this License, and all the license notices in the Document, and any Warranty Disclaimers, provided that you also include the original English version of this License and the original versions of those notices and disclaimers. In case of a disagreement between the translation and the original version of this License or a notice or disclaimer, the original version will prevail. If a section in the Document is Entitled Acknowledgements, Dedications, or History, the requirement (section 4) to Preserve its Title (section 1) will typically require changing the actual title.

9. TERMINATIONYou may not copy, modify, sublicense, or distribute the Document except as expressly provided for under this License. Any other attempt to copy, modify, sublicense or distribute the Document is void, and will automatically terminate your rights under this License. However, parties who have received copies, or rights, from you under this License will not have their licenses terminated so long as such parties remain in full compliance.

10. FUTURE REVISIONS OF THIS LICENSEThe Free Software Foundation may publish new, revised versions of the GNU Free Documentation License from time to time. Such new versions will be similar in spirit to the present version, but may dier in detail to address new problems or concerns. See http://www.gnu.org/copyleft/. Each version of the License is given a distinguishing version number. If the Document species that a particular numbered version of this License or any later version.applies to it, you have the option of following the terms and conditions either of that specied version or of any later version that has been published (not as a draft) by the Free Software Foundation. If the Document does not specify a version number of this License, you may choose any version ever published (not as a draft) by the Free Software Foundation.

XXVII

ADDENDUM: How to use this License for your documentsTo use this License in a document you have written, include a copy of the License in the document and put the following copyright and license notices just after the title page: Copyright c YEAR YOUR NAME. Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled GNU Free Documentation License. If you have Invariant Sections, Front-Cover Texts and Back-Cover Texts, replace the with...Texts.line with this: with the Invariant Sections being LIST THEIR TITLES, with the Front-Cover Texts being LIST, and with the Back-Cover Texts being LIST. If you have Invariant Sections without Cover Texts, or some other combination of the three, merge those two alternatives to suit the situation. If your document contains nontrivial examples of program code, we recommend releasing these examples in parallel under your choice of free software license, such as the GNU General Public License, to permit their use in free software.

XXVIII

Estad stica Bsica con R y R-commander a (Versin Febrero 2008) o Autores: A. J. Arriaza Gmez, F. Fernndez Palac o a n, M. A. Lpez Snchez, M. Muoz Mrquez, S. Prez Plaza, o a n a e A. Snchez Navas a c 2008 Servicio de Publicaciones de la Universidad de Cdiz a http://knuth.uca.es/ebrcmdr

Cap tulo 1 Comenzando con R

1.

Introduccin o

El que un libro que pretende incidir sobre los aspectos prcticos de a la Estad stica, comience con un cap tulo dedicado al software, no deber a sorprender, aun cuando en el Prlogo se haya dejado claro que no es un o objetivo fundamental ensear a manejar un programa informtico. De n a hecho, este manual seguir teniendo utilidad aun cuando se usara otra a interfaz grca distinta a la que se propone o, incluso, otro software; a bastar en ese caso con acomodar los mens y/o la sintaxis. No obstante, a u el que existan varias soluciones informticas, no quiere decir que optar a por una de ellas no tenga un inters determinante y, por tanto, deben e emplearse para su eleccin criterios objetivos de eciencia, no solo de o carcter estad a stico, sino que atiendan tambin a su facilidad de uso. e Para la eleccin de R se han evaluado pues distintos aspectos, sieno do especialmente destacables sus bondades en lo que se reere a calidad, a la cantidad de tcnicas y funciones implementadas, a que es libre y a e la gran comunidad cient ca que lo usa como estndar para el anlisis a a de datos. Dicha comunidad ha desarrollado y desarrolla herramientas integradas en paquetesen la actualidad ms de 800, que dan solucin a o a una gran variedad de problemas estad sticos.

2 Cap tulo 1. Comenzando con R R es un lenguaje de programacin y un entorno para anlisis eso a tad stico y la realizacin de grcos. Debido a su naturaleza es fcilmente o a a adaptable a una gran variedad de tareas. Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estadstica de la Universidad de Auckland en Nueva Zelanda. R actualmente es el resultado de un esfuerzo de colaboracin de personas del todo el mundo. Desde o mediados de 1997 se form lo que se conoce como ncleo de desarrollo de o u R, que actualmente es el que tiene la posibilidad de modicacin directa o del cdigo fuente. Por otra parte, R es un proyecto GNU similar a S, o desarrollado ste por los Laboratorios Bell. Las diferencias entre R y S e son importantes, pero la mayor del cdigo escrito para S corre bajo R a o sin modicaciones. R abarca una amplia gama de tcnicas estad e sticas que van desde los modelos lineales a las ms modernas tcnicas de clasicacin pasana e o do por los test clsicos y el anlisis de series temporales. Proporciona a a una amplia gama de grcos que adems son fcilmente adaptables y a a a extensibles. La calidad de los grcos producidos y la posibilidad de ina cluir en ellos s mbolos y frmulas matemticas, posibilitan su inclusin o a o en publicaciones que suelen requerir grcos de alta calidad. a El cdigo de R est disponible como software libre bajo las condio a ciones de la licencia GNU-GPL. Adems est disponible precompilado a a para una multitud de plataformas. La pgina principal del proyecto es a http://www.r-project.org. Una diferencia importante entre R, y tambin S, con el resto del e software estad stico es el uso del objeto como entidad bsica. Cualquier a expresin evaluada por R tiene como resultado un objeto. Cada objeto o pertenece a una clase, de forma que las funciones pueden tener comportamientos diferentes en funcin de la clase a la que pertenece su objeto o argumento. Por ejemplo, el resultado de la funcin print evaluada soo bre un vector da como resultado la impresin de todos los elementos o del vector mientras que la misma funcin evaluada sobre una funcin o o muestra informacin sobre ella. De la misma manera, la funcin plot o o no se comporta igual cuando su argumento es un vector que cuando es un chero de datos o una funcin. o

1.2 Instalacin de R y RCommander 3 o A continuacin se dan unas breves instrucciones que permitirn o a comenzar a usar R y su interfaz grca R-Commander, que se dea notar abreviadamente como Rcmdr. Instrucciones ms detalladas y a a actualizadas pueden encontrarse en http://knuth.uca.es/R en la seccin R Wiki. Por ultimo, existen multitud de documentos que ilustran o sobre el manejo de R, algunos de ellos pueden descargarse desde http: //knuth.uca.es/R en la seccin Documentacin. Los autores de este o o manual han redactado un somero documento tcnico sobre el uso de R, e a cuyo repositorio puede accederse en la direccin http://knuth.uca. o es/R-basico. 2. 2.1. Instalacin de R y RCommander o Instalacin en GNU/Linux o

Para la instalacin, distribuciones derivadas de debian (Ubuntu, o Guadalinex,. . . ), en una consola se introduce en una sola l nea: sudo apt-get install r-base-html r-cran-rcmdr r-cran-rodbc r-doc-html r-recommended Otra opcin es utilizar el gestor de paquetes de la propia distribuo cin e instalar los paquetes r-base-html, r-cran-rcmdr, r-cran-rodbc, o r-doc-html y r-recommended. 2.2. Instalacin en Windows o

La descarga de R en el equipo se efectua desde: http://cran.es.r-project.org/bin/windows/base/release.htm Luego se procede con la ejecucin, siguiendo las instrucciones. Pao ra la instalacin de Rcmdr, se arranca R desde InicioTodos los o programas R. A continuacin, PaquetesInstalar Paquete(s) y o elegido el mirror desde el cual se quiere instalar el paquete, por ejemplo Spain (Madrid), se selecciona Rcmdr.

4 Cap tulo 1. Comenzando con R RNota 1.1 Harn falta ms paquetes para la instalacin completa de Rcmdr, pero a a o se instalarn automticamente la primera vez que se ejecute. a a

3.

Ejecucin de Rcmdr o

En ambos sistemas operativos, la carga de la librer se efeca tuar mediante la instruccin library("Rcmdr"). a o

RNota 1.2 Si se cierra Rcmdr (sin cerrar R), para volver a cargarlo se debe ejecutar la instruccin Commander(). o

Estad stica Bsica con R y R-commander a (Versin Febrero 2008) o Autores: A. J. Arriaza Gmez, F. Fernndez Palac o a n, M. A. Lpez Snchez, M. Muoz Mrquez, S. Prez Plaza, o a n a e A. Snchez Navas a c 2008 Servicio de Publicaciones de la Universidad de Cdiz a http://knuth.uca.es/ebrcmdr

Cap tulo 2 Anlisis Exploratorio de Datos Unidimensional a

En este mdulo, a travs de una serie de medidas, grcos y modeo e a los descriptivos, se caracterizar a un conjunto de individuos, intentando a descubrir regularidades y singularidades de los mismos y, si procede, comparar los resultados con los de otros grupos, patrones o con estudios previos. Se podr considerar que este estudio es una primera entrega de a un estudio ms completo o, por contra, tener un carcter nalista; en a a cualquier caso, se trata de un anlisis calicable como de exploratorio, a y de ah el nombre del cap tulo. Las conclusiones obtenidas sern aplicables exclusivamente a los a individuos considerados expl citamente en el estudio, sin que puedan hacerse extrapolaciones con validez cient ca fuera de ese contexto. Los resultados del Anlisis Exploratorio de Datos (AED) s que podr a an emplearse para establecer hiptesis sobre individuos no considerados o expl citamente en dicho anlisis, que deber ser posteriormente cona an trastadas. Formalmente, se podr denir el AED como un conjunto de tcnia e cas estad sticas cuya nalidad es conseguir un entendimiento bsico de a los datos y de las relaciones existentes entre las variables analizadas; aunque esta primera entrega se centrar en un anlisis de tipo unidia a mensional.

6 Cap tulo 2. Anlisis Exploratorio de Datos Unidimensional a 1. La organizacin de la informacin o o

Al conjunto de individuos f sicos considerados en un anlisis se a le denominar Colectivo o Poblacin, aunque tambin se utilizarn esos a o e a mismos trminos para referirse a la(s) caracter e stica(s) de esos individuos que son objeto de estudio. De hecho, desde un punto de vista estad stico, los individuos slo interesan como portadores de rasgos que son suscepo tibles de marcar diferencias entre ellos. La obtencin y materializacin o o en formato analgico o digital de las caracter o sticas consideradas constituir el conjunto de datos que ser estad a a sticamente analizado. Los datos constituyen pues la materia prima de la Estad stica, pudindose establecer distintas clasicaciones en funcin de la forma e o en que stos vengan dados. Se obtienen datos al realizar cualquier tipo e de prueba, experimento, valoracin, medicin, observacin, . . . , depeno o o diendo de la naturaleza de los mismos y del mtodo empleado para su e obtencin. Una vez obtenidos los datos por los procedimientos que se o consideren pertinentes, pueden generarse nuevos datos mediante transformacin y/o combinacin de las variables originales. Al conjunto de o o datos convenientemente organizados se le llamar modelo de datos. a 1.1. La matriz de datos

En una primera instancia se supondr que, sobre un conjunto de n a individuos f sicos, se obtienen una serie de k caracteres u observaciones de igual o distinta naturaleza. Es importante tener en cuenta, ya desde este momento, que la calidad del anlisis que se realice, va a depender a de la habilidad que se tenga a la hora de seleccionar los caracteres que se obtendrn del conjunto de individuos seleccionados. a Los datos obtenidos se organizarn en una matriz n k, donde a cada la representa a un individuo o registro y las columnas a las caracter sticas observadas. Las columnas tendrn naturaleza homognea, a e pudiendo tratarse de caracteres nominales, dicotmicos o politmicos, o o presenciasausencias, ordenaciones, conteos, escalas de intervalo, razones,. . . ; tambin se podr tener variables compuestas como ratios, dene an sidades,. . . En ocasiones se aade una columna que se suele colocar en n

2.1 La organizacin de la informacin o o

7

primer lugar y que asigna un nombre a cada individuo; dicha columna recibe el nombre de variable etiqueta. F sicamente, la estructura de una matriz de datos se corresponde con el esquema de una base de datos o una hoja de clculo. Al igual que pasa a con los editores de los programas de tratamiento de datos, las dos dimensiones de una pantalla se acomodan perfectamente al tanden individuovariable. Si se consideran los individuos identicados por los trminos I1 , I2 , . . . , In y los caracteres por e C1 , C2 , . . . , Ck , la casilla xij representa el comportamiento del individuo Ii respecto al carcter Cj . En la gura se muestra la matriz de datos del a chero Iris del paquete datasets de R. R se reere a este tipo de estructura de datos como data.frame. Este es el formato que requiere el programa para aplicar la mayor de a los procedimientos estad sticos. 1.1.1. Anomal de la matriz de datos as Hay veces en que por distintos motivos la matriz de datos presenta casillas vac ello se debe a que no se ha podido medir un dato o a que as, se ha perdido la observacin. En otras ocasiones un dato presente en o la matriz ha sido depurado por presentar algn tipo de anomal como u a, haber sido mal medido, mal transcrito a la matriz de datos, pertenecer a un colectivo distinto del que se est analizando, etc. . . La identicacin a o de estos elementos anmalos se realiza mediante un proceso de deteccin o o de inconsistencias o de evaluacin de valores extremos, muy grandes o o muy pequeos, que determinar si razonablemente pueden pertenecer n a al colectivo bajo estudio. A veces se sustituye el valor depurado de un

8 Cap tulo 2. Anlisis Exploratorio de Datos Unidimensional a individuo por uno que sea congruente con el resto de caracteres del mismo, mediante tcnicas que se conocen como de imputacin. Los huecos e o que denitivamente queden en la matriz se referirn como valores omia tidos o, ms comunmente, como valores missing. En R estos valores se a representan con NA (Not Available). En funcin del tipo de anlisis que o a se est realizando, el procedimiento desestimar slo el dato o todo el e a o registro completo. En este mdulo se analizarn salvo excepciones que se indicarn o a a con antelacin de forma independiente cada uno de los caracteres de la o matriz de datos, de forma que cada carcter describir parcialmente al a a conjunto de individuos. La integracin de todos los anlisis deber dar o a a una cierta visin general de la poblacin. En cualquier caso, este enfoque o o est muy lejos de ser eciente, entre otras cosas porque habitualmente a las variables individuales comparten informacin y dicha redundancia o distorsionar las conclusiones del estudio, siendo en general preferible a decantarse por un anlisis global en vez del secuencial. Por tanto, la prea tensin de este cap o tulo es tratar algunos conceptos bsicos y adquirir a destreza en el manejo de medidas estad sticas que sern empleadas maa sivamente cuando se aborden, ms adelante, modelos ms sosticados. a a 2. Naturaleza de los caracteres: Atributos y Variables

Respecto a la cantidad de informacin que porta cada tipo de o carcter, se puede considerar que los caracteres nominales son los ms a a pobres, puesto que ni siquiera poseen orden, mientras que los ms a ricos ser las escalas de intervalos y las razones, que tienen orden, an son cuantitativas y en el caso de las razones el cero lo es en trminos e absolutos, es decir, el 0 representa la ausencia de la caracter stica. En posiciones intermedias se situar el resto en el orden en que se han an introducido en la gura 2.1.

Ejemplo 2.1 El caso ms evidente para apreciar las diferencias entre las escalas de a intervalo y las razones o escalas de cociente, lo ofrece el termmetro. o Un termmetro genera una variable de escala de intervalo, porque la o

2.2 Naturaleza de los caracteres: Atributos y Variables

9

Figura 2.1: Esquema de cantidad de informacin o

diferencia real entre 2 y 3 grados es la misma que entre 40 y 41 grados, pero no se puede decir que cuando el termmetro marca 30 grados hace o el doble de calor que cuando marca 15. Por otra parte, muchas magnitudes f sicas, como el peso, la longitud o la intensidad de corriente, son razones porque, por ejemplo en el caso del peso, un objeto de 20 kilogramos pesa el doble que otro de 10 kilogramos. Es decir existe el cero absoluto.

Como ya se ha comentado, la naturaleza del carcter condicioa nar su tratamiento, aunque en ningn caso hay que confundir la cantia u dad de informacin que porta con su valor intr o nseco para analizar a los individuos del colectivo. En una primera instancia, se distinguir entre los caracteres que a no estn ordenados y los que s lo estn, los primeros jugarn en general a a a un rol de atributos mientras que los segundos habitualmente actuarn a como variables. Los atributos tendrn la misin de establecer clases, a o dividiendo el colectivo global en subgrupos o categor por su parte, las as; variables caracterizarn a dichos subgrupos e intentarn establecer difea a rencias entre unos y otros, para lo que necesariamente se debe considerar algun tipo de mtrica. Pero ello es una regla general que tiene muchas e excepciones y as en ocasiones, un carcter llamado a adoptar el papel , a de variable podr mediante una operacin de punto de corte, actuar a, o como atributo, mientras que es factible denir una medida de asociacin o sobre caracteres intr nsecamente de clase que permita caracterizar a los individuos del colectivo en base a una serie de atributos.

10

Cap tulo 2. Anlisis Exploratorio de Datos Unidimensional a

Ejemplo 2.2 Es habitual que la edad, que es intr nsecamente una variable medida en un soporte temporal se emplee para dividir la poblacin en clases o dando cortes en el intervalo de tiempo, obtenindose por ejemplo grupos e de alevines, adultos y maduros de una comunidad de peces y adoptando por tanto la variable un rol de atributo. En el extremo opuesto, hay investigaciones mdicas que relacionan e el tipo de patolog con el sexo del paciente y con el desenlace de la a enfermedad, caracteres todos ellos intr nsecamente atributos.

Las variables pueden clasicarse segn su conjunto soporte. El sou porte de una variable es el conjunto de todos los posibles valores que toma. Cuando el conjunto soporte es nito o numerable se habla de variable discreta. Por el contrario, cuando el conjunto soporte es no numerable, se habla de variable continua. Si la variable continua no toma valores en puntos aislados se dice absolutamente continua. Esta diferencia tendr relevancia cuando se planteen, ms adelante, estructuras de a a probabilidad para modelizar la poblacin bajo estudio. o

Ejemplo 2.3 El nmero de lunares en la piel de pacientes aquejados de una cierta u patolog el nmero de hijos de las familias de una comunidad o el a, u nmero de meteoritos que surcan una cierta regin estelar en periodos de u o tiempo determinados son variables discretas. La distancia por carretera entre las capitales de provincia peninsulares espaolas, el tiempo de n reaccin de los corredores de una carrera de 100 metros o las longitudes o de los cabellos de una persona son variables continuas.

Una vez identicadas, recolectadas y organizadas, las variables sern tratadas estad a sticamente combinando un anlisis numrico, a a e travs de una serie de medidas estad e sticas, con representaciones grcas. a El software estad stico R ofrece una amplia gama de ambos elementos: numricos y grcos, aunque conviene ser selectivos y tomar aquellos e a

2.3 Anlisis de atributos a

11

Figura 2.2: Ventana de seleccin de datos en paquetes adjuntos o que verdaderamente aportan informacin relevante. A tal efecto, se proo ponen las siguientes opciones:Escala de Medida Atributo Ordenacin o Recuento Intervalo Razn o Medidas centrales Moda Porcentajes Mediana Percentiles Media Media Media geomtrica e Recorrido Intercuart lico Desviacin t o pica Desviacin t o pica Coeciente de variacin o Medidas de dispersin o Representaciones grcas a Diagrama de sectores Diagrama de barras Diagramas de barras Histograma Histograma Diagrama de dispersin o Diagrama de cajas

Tabla 2.1: Medidas y grcos segn tipo de variable a u

En ultima instancia corresponde al investigador el tomar las de cisiones correctas en cada momento, de forma que sin transgredir los principios bsicos, den como resultado un anlisis eciente de los datos. a a 3. Anlisis de atributos a

Los atributos son susceptibles de ser tratados de forma individual o en grupo, para obtener los porcentajes de cada subgrupo en el colectivo global. De hecho, cada carcter o conjunto de ellos establece a una particin o catlogo de la poblacin bajo estudio. Por otra parte, el o a o

12

Cap tulo 2. Anlisis Exploratorio de Datos Unidimensional aSpecies

setosa

versicolor

virginica

Figura 2.3: Diagrama de sectores del chero iris tratamiento grco ms usual que se le dar a un atributo individual a a a ser a travs de un diagrama de sectores o diagrama de tarta. a e Ejemplo 2.4 Se consideran ahora los datos del ejemplo iris del paquete datasets de R que se describe en el apndice A. Se carga el chero en e Rcmdr mediante la seleccin de las opciones del men Datos o u Datos en paquetesLeer datos desde paquete adjunto..., en el cuadro de dilogo se elige el paquete datasets y dentro de ste el juego a e de datos iris,gura 2.2. Del conjunto de variables de la matriz se considera la denominada Species, que es un atributo con los tres tipos de ores de Iris: Setosa, Virginica y Versicolor. Anlisis numrico: Se selecciona EstadsticosResmenes a e u Distribuciones de frecuencias... y en el cuadro de dilogo se elige a el unico atributo, Species. Se observa que los 150 individuos se repar ten a partes iguales entre las tres variedades de ores, 50 para cada una, y que por tanto los porcentajes son iguales a 33, 33. No tiene sentido hablar de moda, puesto que las tres clases lo son.> .Table .Table # counts for Species setosa versicolor virginica 50 50 50 > 100*.Table/sum(.Table) # percentages for Species setosa versicolor virginica 33.33333 33.33333 33.33333

2.4 Anlisis de variables ordenadas a

13

Anlisis grco: A continuacin se selecciona el diagrama de sectores a a o mediante GrficasGrfica de sectores... a a Si el chero de datos activo tiene ms de una variable de clase a se permite seleccionar la que se quiera. En este caso, la unica variable elegible es Species, que el programa da por defecto. Si se pulsa el botn o Aceptar el programa dibuja el grco de sectores que se muestra en a la gura 2.3. Como era de esperar, la tarta se divide en tres trozos exactamente iguales.

4.

Anlisis de variables ordenadas a

Las diferencias que se establecen entre variables de clase pura y ordenada se concretan desde el punto de vista del anlisis numrico en a e que el grupo de medidas recomendables son las de posicin, es decir los o cuantiles en sus distintas versiones. Como medidas de representacin, o pensando que en general se dispondr de pocas clases, se recurrir a los a a cuartiles y como medida de dispersin al recorrido intercuart o lico. En cuanto al anlisis grco, se recomienda el uso del diagrama de barras. a a Este tipo de variables ordenadas suele venir dada en forma de tabla de frecuencias. Por ello, en el ejemplo que ilustra el tratamiento de este tipo de variables, se comenzar explicando como transformar una a tabla de frecuencias en una matriz de datos, al objeto de que puedan ser tratadas por R como un data.frame.

Ejemplo 2.5 Un caso de variable ordenada es la correspondiente a un estudio estad stico sobre el nivel acadmico de la poblacin gaditana en el ao e o n 2001 (Fuente: Instituto Estad stico de Andaluc a). Los valores que toma la variable son: Sin estudios, Elementales (primaria), Medios (secundaria, bachillerato y fp grado medio) y Superiores (fp superior, diplomatura, licenciatura y doctorado).

14

Cap tulo 2. Anlisis Exploratorio de Datos Unidimensional a Los datos se recogen en la tabla: NIVEL DE ESTUDIOS SEXO Hombre Sin estudios 79309 Elementales 107156 Medios 183488 Superiores 70594

Mujer 108051 109591 174961 64858 Debido al gran nmero de individuos que forman esta muestra u puede ser util almacenar la variable estudiada a partir de su tabla de frecuencias, transformndola en base de datos en el momento de realizar a los anlisis. El chero en cuestin se ha guardado bajo el nombre de a o tabla freq niv estudios.dat, conteniendo tres variables: sexo, nivel y frec. En total consta de 8 las que se correponden con los cruces de las clases sexo y nivel. Para cargar en Rcmdr la tabla de frecuencias se selecciona Datos Importar datos desde archivo de texto o portapapeles..., en este ejemplo se ha elegido el nombre Tabla frec para denominar al chero que contendr los a datos de la tabla de frecuencias, como se muestra en la ventana de diloa go. A continuacin se elige el archivo o tabla freq niv estudios.dat. Ahora se tendr que transformar esa ta tabla de frecuencias en un conjunto de datos, data.frame, con el que R pueda trabajar. Para conseguir esto se procede de la siguiente manera:>nivelsexoniv estudios cadiz< data.frame(nivel,sexo)

Es decir, se crean las variables nivel y sexo a partir de la repeticin de cada una de las clases de las respectivas variables, tantas veces o como indique su frecuencia. A partir de ah se construye el data.frame , niv estudios cadiz con las dos variables creadas. Este data.frame se encuentra entre los datos que se facilitan en este libro y se puede cargar directamente sin realizar las operaciones anteriores. Para ello, basta con seleccionar DatosImportar datos desde archivo de texto o portapapeles..., eligiendo ahora el ar-

2.4 Anlisis de variables ordenadas a chivo niv estudios cadiz.dat.

15

Anlisis numrico: En variables de tipo ordenado es aconsejable utia e lizar, como medida de posicin, los cuartiles. o Para realizar este anlisis a la variable nivel debe ser codicada numricamente. e Se crear una a nueva variable en la base de datos, que se llamar nivel num a y que representar los valores a numricos de la e variable nivel. Los valores Sin estudios, Elementales, Medios y Superiores han sido codicados mediante los valores 0, 1, 2 y 3, respectivamente. En Rcmdr esto se realizar sea leccionando DatosModificar variables de los datos activos Recodificar variables... , desmarcando la pestaa Convertir n cada nueva variable en factor. Para realizar el anlisis numrico de la variable nivel num se seleca e ciona: EstadsticosResmenesResmenes numricos..., eligien u u e do en la ventana emergente la variable nivel num y marcando la opcin o de cuantiles. Se puede observar entre los cuartiles que la mediana recae sobre el valor 2.> numSummary(Niv estudios[,niv num], statistics=c(quantiles)) 0% 25 % 50 % 75 % 100 % 0 1 2 2 3

16

Cap tulo 2. Anlisis Exploratorio de Datos Unidimensional a

Desde Rcmdr existe otra forma de realizar el anlisis a numrico de una variable ordenae da. Para ello, se reordenan los niveles de la variable factor usando las opciones del men DatosModificar u variables del conjunto de datos activoReordenar niveles de factor..., almacenando la variable nivel como factor de tipo ordenado. A la nueva variable se le ha llamado nivel ord. A continuacin se almacena sta coo e mo variable de tipo numrico, escribindo en la ventana de instrucciones: e eDatos$nivel num< as.numeric(Datos$nivel ord)

siendo ya posible calcular los cuantiles, para la variable numrica e Datos$nivel num. Como medida de dispersin se ha recomendado el recorrido intero cuart lico relativo, denido como el cociente entre la diferencia de los cuartiles tercero y primero, y la mediana. Rcmdr no proporciona directamente este estad stico, pero se puede implementar fcilmente en la a ventana de instrucciones, mediante las rdenes siguientes: o>Q1Q2Q3RIRRIR [1] 0.5

Anlisis grco: Para realizar el anlisis grco de la variable se a a a a utiliza el diagrama de barras. En Rcmdr se selecciona: Grficas a Grfica de barras... y se elige en la ventana de dilogo, la variable a a nivel ord. En R existe una gran variedad de opciones que ayudan a mejorar el aspecto de los grcos. Se puede acceder a ellas escribindolas en la a e ventana de instrucciones. En este ejemplo se ha optado por modicar el

2.5 Anlisis de variables de escala a350000

17

Frequency

0 Sin estudios

50000

150000

250000

Elementales nivel

Medios

Superiores

Figura 2.4: Diagrama de barras de la variable nivel de estudios color, siguiendo una escala de colores clidos. Esto se consigue agregando a col=heat.colors(5) a las opciones de barGraph (gura 2.4).

5.

Anlisis de variables de escala a

Ejemplo 2.6 Se estudiar ahora el tratamiento de una variable continua. Para ello a se considera la base de datos chickwts, del paquete datasets de R. En ella se recogen los pesos nales, en gramos, de 71 polluelos, segn el tipo u de dieta seguida durante un periodo de 6 semanas. Anlisis numrico: Para la variable que da el peso de los polluea e los las medidas bsicas recomendadas son la media y la desviacin a o t pica. Estas medidas se calculan desde EstadsticosResmenes u Resmenes numricos..., seleccionando para la variable weight las u e opciones deseadas.> numSummary(chickwts[,weight], statistics=c(mean, sd)) mean sd n 261.3099 78.0737 71

Aunque se est hablando de la desviacin t a o pica, la funcin sd o calcula en realidad la cuasidesviacin t o pica. Cabe la posibilidad de que

18

Cap tulo 2. Anlisis Exploratorio de Datos Unidimensional a

se necesiten otro tipo de medidas que completen el estudio, como la simetr el apuntamiento, . . . Para ello, en el apndice B, se incluye a, e una tabla de medidas estad sticas. Por ejemplo, si se deseara calcular la simetr y la curtosis de la variable weight, habr en primer lugar a a que instalar y cargar en R, si no lo est ya, el paquete fBasics. Y a a continuacin: o> kurtosis(chickwts$weight) -0.9651994 attr(,method) excess > skewness(chickwts$weight) -0.01136593 attr(,method) moment

Ambos coecientes estn calculados a partir de los momentos y, a en el caso de la curtosis, se le ha restado 3. Se podr concluir que la a distribucin es bastante simtrica y algo aplastada. o e Anlisis grco: Para analizar a a grcamente la variable peso se a comienza con la realizacin del o histograma que se muestra al margen mediante las instrucciones GrficasHistograma... En el a histograma se observa un comportamiento bastante simtrico y la e posibilidad de que existan dos modas. A continuacin, se construye o 100 150 200 250 300 350 400 450 el diagrama de caja (gura 2.5). Se chickwts$weight puede observar en el grco que la a variable no posee valores at picos, es simtrica y est relativamente dise a persa. El data.frame que se est utilizando incluye un factor, Feed, que a se corresponde con las diferentes dietas sumimistradas a los pollos. Ello permite la realizacin de un anlisis por grupo, tanto numrico como o a e grco, que permita evaluar las diferencias de peso en funcin del tia o po de alimentacin seguida. Los valores que toma la variable Feed son: oFrequency 0 5 10 15

2.5 Anlisis de variables de escala a400400

19

350

300

weight

weight

250

200

150

100

150

200

250

300

350

casein

horsebean

linseed

meatmeal feed

soybean

sunflower

100

Figura 2.5: Diagramas de caja de la variable peso

horsebean (habas), linseed (linaza), soybean (soja), sunflower (girasoles), meatmeal (carne) y casein (case na). Es interesante la representacin del diagrama de caja de la variable o peso, segn el tipo de alimentacin (gura 2.5). Se observa que los valores u o de la variable peso estn ms concentrados para la dieta sunflower. a a Tambin ste es el unico grupo en el que se dan valores at e e picos. Por contra la mayor dispersin de los datos se produce con la dieta casein. o Una evaluacin inicial, parece indicar que la dieta que produce pollos o de mayor peso es sunflower, ya que los pesos que consigue estn ms a a concentrados en torno a uno de los valores ms altos. a El anlisis numrico ofrece los siguientes resultados: a e> numSummary(chickwts[,weight], groups=chickwts$feed, statistics=c(mean))

casein horsebeen lindseed meatmeal soybean sunflower

mean 323.5833 160.2000 218.7500 276.9091 246.4286 328.9167

sd 64.43384 38.62584 52.23570 64.90062 54.12907 48.83638

n 12 10 12 11 14 12

20 6.

Cap tulo 2. Anlisis Exploratorio de Datos Unidimensional a Ejercicios

2.1 Al comenzar el curso se pas una encuesta a los alumnos del o primer curso de un colegio, preguntndoles, entre otras cuestiones, por el a nmero de hermanos que ten Se obtuvieron los siguientes resultados: u an. 3, 3, 2, 2, 8, 5, 2, 4, 3, 1, 4, 5, 3, 3, 3, 3, 3, 2, 5 1, 3, 3, 2, 2, 4, 3, 3, 2, 2, 4, 4, 3, 6, 3, 3, 2, 2, 4 3, 4, 3, 2, 2, 4, 4, 3, 3, 4, 2, 5, 4, 1, 2, 8, 2 ,3, 3, 4 a) Represente este conjunto de datos con un diagrama de barras. b) Calcule media, moda y mediana. c) Estudie la dispersin de los datos. o d) Analice la simetr de la distribucin. a o 2.2 Los pesos de un colectivo de nios son: n 60, 56, 54, 48, 99, 65, 58, 55, 74, 52, 53, 58, 67, 62, 65 76, 85, 92, 66, 62, 73, 66, 59, 57, 54, 53, 58, 57, 55, 60 65, 65, 74, 55, 73, 97, 82, 80, 64, 70, 101, 72, 96, 73, 55 59, 67, 49, 90, 58, 63, 96, 100, 70, 53, 67, 60, 54 Obtenga: a) La distribucin de frecuencias agrupando por intervalos. o b) La mediana de la distribucin. o c) La media de la distribucin, indicando su nivel de repreo sentatividad. d) Utilizando la agrupacin en intervalos, el porcentaje de o alumnos que tienen un peso menor de 65 kg y el nmero de alumnos con u un peso mayor de 60 kg dentro del grupo de los que pesan menos de 80 kg. 2.3 En el Consejo de Apuestas del Estado se han ido anotando, durante una temporada, el nmero de premiados de quinielas segn la u u cantidad de aciertos. Los resultados se recogen en la siguiente tabla:

No de aciertos No de personas (miles)

11 52

12 820

13 572

14 215

15 41

2.6 Ejercicios

21

Calcule: a) La mediana, la moda y los cuartiles de la distribucin. o b) La simetr de la distribucin. a o 2.4 En un puerto se controla diariamente la entrada de pesqueros segn su tonelaje, resultando para un cierto d los siguientes datos: u a Peso(Tm.) No de barcos Se pide: a) El peso medio de los barcos que entran en el puerto diariamente, indicando la representatividad de dicha medida. b) El intervalo donde se encuentra el 60 % central de la distribucin. o c) El grado de apuntamiento. d) El tonelaje ms frecuente en este puerto. a 0-25 5 25-50 17 50-70 30 70-100 25 100-500 3

22

Estad stica Bsica con R y R-commander a (Versin Febrero 2008) o Autores: A. J. Arriaza Gmez, F. Fernndez Palac o a n, M. A. Lpez Snchez, M. Muoz Mrquez, S. Prez Plaza, o a n a e A. Snchez Navas a c 2008 Servicio de Publicaciones de la Universidad de Cdiz a http://knuth.uca.es/ebrcmdr

Cap tulo 3 Anlisis Exploratorio de Datos multidimensional a

Una vez estudiados los distintos caracteres de la matriz de datos de forma individual, resulta muy interesante realizar anlisis conjuntos a de grupos de ellos, de hecho, la mayor de los anlisis estad a a sticos tienen carcter multivariable. Los motivos para adoptar este enfoque son variaa dos, aunque de nuevo la cuestin de la naturaleza de los caracteres y los o objetivos del estudio sern determinantes a la hora de jar las tcnicas a e que se emplearn. a Aunque en posteriores entregas se tratarn tcnicas multivariables a e muy potentes, los objetivos en este cap tulo son mucho ms modestos a y se limitarn a un primer acercamiento de naturaleza descriptiva; ema plendose para ello tanto medidas de relacin entre caracteres como a o representaciones grcas. En la mayor de las ocasiones slo se cona a o templarn dos caracteres de forma conjunta, realizndose, por tanto, un a a anlisis bidimensional. a En este cap tulo tambin se har una primera incursin en el tee a o ma de la modelizacin. Un modelo estad o stico relaciona mediante una o varias expresiones matemticas a un grupo de caracteres, que ocasionala mente deben cumplir algunos requisitos. En este caso, se abordar un a modelo de ajuste bidimensional, en el que se tratar de explicar el coma portamiento de una variable causa a partir de otra que se denomina

24

Cap tulo 3. Anlisis Exploratorio de Datos multidimensional a

efecto. Siempre existe un cierto grado de tolerancia para asimilar caracteres de menor nivel de informacin a los de nivel superior, aunque existe o una marca que no se debe transgredir, que es la de la ordenacin. As o , podr justicarse el tratar una variable contada como variable de escala, a pero nunca se podr asimilar un atributo a una variable ordenada. a 1. Tipos de relaciones entre caracteres

En principio se podr establecer tantos tipos de relacin como los an o que resultar de cruzar los diferentes caracteres denidos en el cap an tulo anterior. No obstante, el nmero de cruces ser demasiado elevado y u a muchos de ellos no tendr inters prctico, por lo que se limitar el an e a a estudio a aquellos que habitualmente se encuentran en la prctica, que a bsicamente se corresponden con los que relacionan caracteres de la a misma naturaleza. Se expondrn previamente algunas matizaciones y a precauciones que conviene tener presente.

En general funcionan mejor los cruces entre caracteres de la misma naturaleza. Ello se debe a que para realizar el anlisis se debe a especicar algn tipo de disimilaridad que establezca la diferencia, u en f