Taller Sas

63
Servei d’Estadística Universitat Autònoma de Barcelona Prácticas de estadística y programación en SAS ® Llorenç Badiella Busquets Director Técnico del Servei d’Estadística Universidad Autónoma de Barcelona Anna Espinal Berenguer Asesora estadística del Servei d’Estadística Profesora asociada del departamento de Matemáticas Universidad Autónoma de Barcelona Joan Valls Marsal Asesor estadístico del Servei d’Estadística Profesor asociado del departamento de Matemáticas Universidad Autónoma de Barcelona 1

Transcript of Taller Sas

Page 1: Taller Sas

Servei d’Estadística Universitat Autònoma de Barcelona

Prácticas de estadística y programación en SAS®

Llorenç Badiella Busquets

Director Técnico del Servei d’Estadística Universidad Autónoma de Barcelona

Anna Espinal Berenguer Asesora estadística del Servei d’Estadística

Profesora asociada del departamento de Matemáticas Universidad Autónoma de Barcelona

Joan Valls Marsal

Asesor estadístico del Servei d’Estadística Profesor asociado del departamento de Matemáticas

Universidad Autónoma de Barcelona

1

Page 2: Taller Sas

Publicado por el Servei d’Estadística de la UAB, mayo 2003. Este documento puede ser copiado y libremente distribuido, siempre y cuando sea preservada su integridad y referenciado su origen. No está permitido añadir, borrar o cambiar ninguna de sus partes, o extraer páginas para su uso en otros documentos.

2

Page 3: Taller Sas

1. Índice

1. Índice.................................................................................................................3

2. Presentación .....................................................................................................4

3. Manipulación de datos....................................................................................5

3.1. Ejemplo básico. Ejemplo 1 ...................................................................................... 5 3.1.1. Fichero SAS de Sintaxis: Ejemplo 1.Datos ......................................................... 7 3.2. Homicidios en California 1850-1900 ...................................................................... 9 3.2.1. Fichero SAS de Sintaxis: Homicidios.Datos ..................................................... 13 3.3. Gastos de publicidad a Europa ............................................................................ 14 3.3.1. Fichero SAS de Sintaxis: Publicidad.Datos....................................................... 15 3.4. Peso de bebés ...................................................................................................... 16 3.4.1. Fichero SAS de Sintaxis: Bebes.Datos.............................................................. 17 3.5. Caparazón Palletoida ........................................................................................... 18 3.5.1. Fichero SAS de Sintaxis: Caparazon.Datos ...................................................... 19 3.6. Factores experimentales en la fabricación del plástico .......................................... 20 3.6.1. Fichero SAS de Sintaxis: Plastico.Datos ........................................................... 21

4. Estadística descriptiva...................................................................................22

4.1. Ejemplo básico. Ejemplo1 .................................................................................... 22 4.2. Homicidios en California 1850-1900 .................................................................... 26 4.3. Gastos de publicidad a Europa ............................................................................ 29 4.4. Peso de bebés ...................................................................................................... 33 4.5. Caparazón Palletoida ........................................................................................... 36 4.6. Factores experimentales en la fabricación de plástico ........................................... 38

5. Inferencia estadística básica .........................................................................44

5.1. Ejemplo básico. Ejemplo1 .................................................................................... 44 5.2. Homicidios en California 1850-1900 .................................................................... 45 5.3. Gastos de publicidad a Europa ............................................................................ 46 5.4. Peso de bebés ...................................................................................................... 47 5.5. Caparazón Palletoida ........................................................................................... 48 5.6. Factores experimentales en la fabricación de plástico ........................................... 49 5.7. Capacidad de detección de los murciélagos .......................................................... 50 5.8. Velocidad de reacción .......................................................................................... 53

6. Modelización estadística ...............................................................................55

6.1. Crecimiento del ficus ........................................................................................... 55

7. Programación en lenguaje macro................................................................60

7.1. Validación de una matriz de datos........................................................................ 60 7.2. Exportación de SPSS a SAS. ................................................................................ 61

8. Los datos.........................................................................................................62

9. Bibliografía .....................................................................................................63

3

Page 4: Taller Sas

2. Presentación En este documento se proponen un conjunto de problemas para poder introducirse en la práctica del paquete estadístico SAS®. Están diseñados los en cuatro módulos siguientes:

• Manipulación de datos: SAS/BASE(I) • Estadística descriptiva: SAS/BASE(II), SAS/STAT(I), SAS/GRAPHS • Inferencia estadística básica: SAS/STAT(II), SAS/GRAPHS • Modelización estadística: SAS/STAT(III) • Macros

Los ficheros de datos así como los ficheros con las sintaxis pueden encontrarse en la página web del Servei d’Estadística de la Universidad Autónoma de Barcelona, en la sección de Materiales.

4

Page 5: Taller Sas

3. Manipulación de datos

3.1. Ejemplo básico. Ejemplo 1 1. Introducir la siguiente tabla en un archivo de SAS llamado salario:

Id Etiqueta Sexo Salario anual (en €) 1 Joan Hombre 18.000 2 Sílvia Mujer 15.000 3 Josep Hombre 25.000 4 Pere Hombre 17.000 5 Anna Mujer 19.000 6 David Hombre 30.000 7 Cristina Mujer 22.000 8 Marta Mujer 10.000 9 Magda Mujer 13.000 10 Carles Hombre 21.000

2. Crear una variable nueva que contenga el salario anual en pesetas y otra variable

categórica para el salario con 4 categorías. 3. Añadir los datos para 3 individuos más contenidos en la siguiente tabla:

Id Etiqueta Sexo Salario anual (en €) 11 Oriol Hombre 23.000 12 Ester Mujer 17.000 13 Rosa Mujer 35.000

4. Crear otro archivo SAS (socecon) con las características edad, nivel de estudios,

tipo de transporte para llegar al trabajo y tiempo de recorrido desde la vivienda habitual hasta el trabajo (en minutos) que aparecen en la siguiente tabla:

Id Edad Nivel estudios Transporte Tiempo 1 27 Est. superiores Bus 15 2 20 FP II o equiv. Metro 20 3 35 FP II o equiv. Coche part. 55 4 30 Est. Superiores Coche part. 45 5 25 Est. Medios Moto 30 6 37 Est. Medios Bus 35 7 35 Est. Superiores Bus 15 8 23 Est. medios. Moto 10 9 21 FP II o equiv. Moto 7 10 28 Est. medios Metro 25 11 29 Est. Medios Coche part. 50 12 32 FP II o equiv. Metro 35 13 40 Est. superiores Bus 35

5

Page 6: Taller Sas

5. Fusionar los dos archivos anteriores y crear un archivo de SAS llamado ejemplo1 6. Asignar de forma aleatoria los individuos en dos grupos para poder realizar un

experimento de comparación de medios de transporte

6

Page 7: Taller Sas

3.1.1. Fichero SAS de Sintaxis: Ejemplo 1.Datos

DATA ejemplo1; INPUT id etiqueta $ sexo $ salario; CARDS; 1 Joan Hombre 18000 2 Silvia Mujer 15000 3 Josep Hombre 25000 4 Pere Hombre 17000 5 Anna Mujer 19000 6 David Hombre 30000 7 Cristina Mujer 22000 8 Marta Mujer 10000 9 Magda Mujer 13000 10 Carles Hombre 21000 ; RUN; PROC PRINT DATA=ejemplo1; RUN; * crear una variable categorica para el salario; DATA ej1salca; SET ejemplo1; salpts=salario*166.386; IF salario <= 15000 THEN salca=1; IF salario > 15000 AND salario <= 21000 THEN salca=2; IF salario > 21000 AND salario <= 25000 THEN salca=3; IF salario >25000 THEN salca=4; RUN; * añadimos 3 casos a los datos; DATA ej11; INPUT id etiqueta $ sexo $ salario; CARDS; 11 Oriol Hombre 23000 12 Ester Mujer 17000 13 Rosa Mujer 35000 ; RUN; DATA ej11salc; SET ej11; salpts=salario*166.386; IF salario <= 15000 THEN salca=1; IF salario > 15000 AND salario <= 21000 THEN salca=2; IF salario > 21000 AND salario <= 25000 THEN salca=3; IF salario >25000 THEN salca=4; RUN; PROC APPEND BASE=ej1salca DATA=ej11salc; RUN; * añadimos 4 variables; DATA socecon; INPUT id edad nivest $ transp $ tiempo; CARDS; 1 27 Est_sup Bus 15 2 20 FPII Metro 20 3 35 FPII Coche 55 4 30 Est_sup Coche 45 5 25 Gr_medio Moto 30 6 37 Gr_medio Bus 35 7 35 Est_sup Bus 15 8 23 Gr_medio Moto 10 9 21 FPII Moto 7

7

Page 8: Taller Sas

10 28 Gr_medio Metro 25 11 29 Gr_medio Coche 50 12 32 FPII Metro 35 13 40 Est_sup Bus 35 ; RUN; DATA ejemplo1; MERGE ej1salca socecon; BY id; RUN; * asignacion aleatoria en dos grupos; DATA ej12g; SET ejemplo1; grupo = RANBIN(0,1,0.5); RUN;

8

Page 9: Taller Sas

3.2. Homicidios en California 1850-1900 El fichero homicide.sav (formato SPSS) contiene los datos analizados en el estudio:

Ethnicity and homicide in California, 1850-1900, McKanna, C. (1995)

Los datos han sido obtenidos en la página web del National Archive of Criminal Justice Data de los EUA (http://www.icpsr.umich.edu/NACJD/). Se dispone de variables referentes a 1.317 homicidios producidos en California durante los años 1850 hasta 1900. Se obtuvieron datos sobre el lugar, causa del crimen y arma utilizada así como la relación entre raza, sexo, edad y ocupación de la víctima y el acusado. • Nombre de la víctima (VICTIM) Cadena de caracteres • Nombre del acusado (KILLER) Cadena de caracteres • Año (YEAR) Variable cuantitativa (50-99) • Mes (MONTH) Variable cuantitativa (1-12) • Día dentro del mes (DAY) Variable cuantitativa(1-31) • Hora (HOUR)

Variable categórica 1 12 NOON-3 PM 2 3 PM-6PM 3 6 PM-9 PM 4 9 PM-12 MIDNIGHT 5 12 MIDNIGHT-3 AM 6 3 AM-6 AM 7 6 AM-9 AM 8 9 AM-12 NOON 9 UNKNOWN • Día de la semana (WEEKDAY)

Variable categórica 1 MONDAY 2 TUESDAY 3 WEDNESDAY 4 THURSDAY 5 FRIDAY 6 SATURDAY 7 SUNDAY 9 UNKNOWN • Condado de California (COUNTY)

Variable categórica 1 SAN DIEGO 3 SANTA BARBARA 4 SAN LUIS OBISPO 11 SACRAMENTO 12 SAN JOAQUIN 21 CALAVERAS 22 TUOLUMNE 99 UNKNOWN • Raza de la víctima (VICRACE)

Variable categórica 1 WHITE

2 HISPANIC 3 NATIVE AMERICAN 4 ORIENTAL 5 AFRICAN-AMERICAN 9 UNKNOWN • Sexo de la víctima (VICSEX)

Variable categórica 1 MALE 2 FEMALE 9 UNKNOWN • Edad de la víctima (VICAGE)

Variable cuantitativa • Ocupación de la víctima (VICOCCUP)

Variable categórica 1 LABORER 2 FARMER 3 RANCHER 4 MERCHANT 5 COWBOY 6 SHEEP HERDER 7 SOLDIER 8 SAILOR 9 BARTENDER 10 LAWMAN 12 HOUSEWIFE 13 PROSTITUTE 14 LAWYER 15 COOK 16 BUTCHER 17 TEAMSTER 18 RR WORKER 19 MINER 20 HOTEL KEEPER 21 BAR OWNER 22 CLERICAL 23 TEACHER 24 TRANSIENT 25 FISHERMAN 26 NURSE 27 STUDENT 28 DOMESTIC 29 DRUGGIST 30 DOCTOR 31 STORE CLERK 32 BAKER

9

Page 10: Taller Sas

33 BARBER 34 WAITER 35 LAUNDRY 36 MUSICIAN 37 DENTIST 38 SHOEMAKER 39 MECHANIC 40 BLACKSMITH 41 CARPENTER 42 PREACHER 44 HARNESS MAKER 45 GARDENER 46 SALESMAN 47 TAILOR 48 STEAMBOAT RUNNER 49 DISHWASHER 50 PORTER 51 LEGISLATOR 52 RANCH/FARM HAND 53 OTHER TRADESMAN 54 BOAT HAND 55 GAMBLER 56 PIMP 57 MINISTER 58 EDITOR/PUBLISHER 59 PEDDLER 60 PRISON INMATE 61 WATCHMAN 62 BOOKKEEPER

63 WELLS FARGO GRD 64 ASYLUM INMATE 65 JUDGE/JUSTICE 66 SEAMSTRESS 99 UNKNOWN • Estado de la víctima (VICCOND)

Variable categórica 1 DRINKING 2 OTHER DRUGS 3 CALM 4 AGITATED 5 OTHER 9 UNKNOWN • Raza del acusado (ACCURACE)

Variable categórica 1 WHITE 2 HISPANIC 3 NATIVE AMERICAN 4 ORIENTAL 5 AFRICAN-AMERICAN 9 UNKNOWN • Sexo del acusado (ACCUSEX)

Variable categórica 1 MALE 2 FEMALE 9 UNKNOWN • Edad del acusado (ACCUAGE)

Variable cuantitativa • Ocupación del acusado (ACCUOCCU)

Variable categórica 1 LABORER 2 FARMER

3 RANCHER 4 MERCHANT 5 COWBOY 6 SHEEP HERDER 7 SOLDIER 8 SAILOR 9 BARTENDER 10 LAWMAN 12 HOUSEWIFE 13 PROSTITUTE 14 LAWYER 15 COOK 16 BUTCHER 17 TEAMSTER 18 RR WORKER 19 MINER 20 HOTEL KEEPER 21 BAR OWNER 22 CLERICAL 23 TEACHER 24 TRANSIENT 25 FISHERMAN 26 NURSE 27 STUDENT 28 DOMESTIC 29 DRUGGIST 30 DOCTOR 31 STORE CLERK 32 BAKER 33 BARBER 34 WAITER 35 LAUNDRY 36 MUSICIAN 37 DENTIST 38 SHOEMAKER 39 MECHANIC 40 BLACKSMITH 41 CARPENTER 42 PREACHER 44 HARNESS MAKER 45 GARDENER 46 SALESMAN 47 TAILOR 48 STEAMBOAT RUNNER 49 DISHWASHER 50 PORTER 51 LEGISLATOR 52 RANCH/FARM HAND 53 OTHER TRADESMAN 54 BOAT HAND 55 GAMBLER 56 PIMP 57 MINISTER 58 EDITOR/PUBLISHER 59 PEDDLER 60 PRISON INMATE 61 WATCHMAN 62 BOOKKEEPER 63 WELLS FARGO GRD 64 ASYLUM INMATE 65 JUDGE/JUSTICE 66 SEAMSTRESS

10

Page 11: Taller Sas

99 UNKNOWN • Estado del acusado (ACCUCOND)

Variable categórica 1 DRINKING 2 OTHER DRUGS 3 CALM 4 AGITATED 5 OTHER 9 UNKNOWN • Relación víctima-acusado (RELATION)

Variable categórica 1 MARRIED 2 IN-LAWS 3 FRIENDS 4 STRANGERS 5 ROOMMATES 8 OTHER 9 UNKNOWN • Causa del homicidio (CAUSE)

Variable categórica 1 DOMESTIC DISPUTE 2 QUARREL 3 BRAWL 4 LYNCH MOB 5 KILLED BY POLICE 6 KILLED POLICE 7 ROBBERY 8 OTHER 9 UNKNOWN • Arma utilizada (WEAPON)

Variable categórica 1 HAND GUN 2 RIFLE 3 SHOTGUN 4 GUN UNKNOWN 5 KNIFE 6 AXE 7 HANGING 8 FIRE 9 FALL 10 STRANGLED 11 FISTS 12 BLUNT INSTRUMENT 13 POISON 14 THROWN DOWN 15 SHARP INSTRUMENT 16 DRUGS 17 KICKED 18 DROWNED 99 UNKNOWN • Lugar del homicidio (LOCATION)

Variable categórica 1 VICTIM'S HOME 2 STREET 3 SALOON 4 WORK 5 RANCH 6 FARM 7 COUNTRY ROAD 8 DESERT 9 JAIL

10 WOODS 11 HOTEL 12 WHARF 13 SHIP 14 RAILROAD 15 BEACH 16 MOUNTAINS 17 RIVER 18 OCEAN 19 INDIAN RESERVE 20 ACCUSED HOME 21 CEMETARY 22 CHURCH 23 MISSION 24 COURTHOUSE 25 HOSPITAL 26 MILITARY FORT 27 BANK 28 SAW MILL 29 STORE 30 LAKE 31 HOSPITAL 36 MINE 37 BRIDGE 38 BROTHEL 39 CEMETARY 40 RESTAURANT 41 PRISON 42 ROOMING HOUSE 43 PARK 44 OTHER HOUSE 45 STATE BUILDING 46 BLACKSMITH SHOP 47 OTHER BUSINESS 48 STABLE OR CORRAL 49 STAGE/RR STATION 50 DANCE HALL 51 OTHER BUILDING 52 CABIN (RURAL) 53 ASYLUM 99 UNKNOWN

11

Page 12: Taller Sas

1. Importar la base de datos al sistema SAS. 2. Asignar las etiquetas a las variables categóricas.

12

Page 13: Taller Sas

3.2.1. Fichero SAS de Sintaxis: Homicidios.Datos

LIBNAME HOMI SPSS 'HOMICIDE.por'; DATA HOMICIDE; SET HOMI._FIRST_; RUN; PROC FORMAT; VALUE RACE 1='1-WHITE' 2='2-HISPANIC' 3='3-NATIVE AMERICAN' 4='4-ORIENTAL' 5='5-AFRICAN-AMERICAN' 9='6-UNKNOWN' ; VALUE COND 1='1-DRINKING' 2='2-OTHER DRUGS' 3='3-CALM' 4='4-AGITATED' 5='5-OTHER' 9='6-UNKNOWN' ; VALUE SEX 1='1-MALE' 2='2-FEMALE' 9='3-UNKNOWN' ; VALUE RELATION 1='1-MARRIED' 2='2-IN-LAWS' 3='3-FRIENDS' 4='4-STRANGERS' 5='5-ROOMMATES' 8='6-OTHER' 9='7-UNKNOWN' ; VALUE CAUSE 1='1-DOMESTIC DISPUTE' 2='2-QUARREL' 3='3-BRAWL' 4='4-LYNCH MOB' 5='5-KILLED BY POLICE' 6='6-KILLED POLICE' 7='7-ROBBERY' 8='8-OTHER' 9='9-UNKNOWN' ; RUN; DATA HOMICIDE; SET HOMICIDE; FORMAT VICRACE RACE. ACCURACE RACE. VICCOND COND. ACCUCOND COND.VICSEX SEX. ACCUSEX SEX. RELATION RELATION. CAUSE CAUSE.; RUN; * Para comprobar el formato miramos las 10 primeras observaciones; PROC PRINT DATA=HOMICIDE(OBS=10); RUN; PROC CONTENTS DATA=HOMICIDE POSTITION; RUN;

13

Page 14: Taller Sas

3.3. Gastos de publicidad a Europa En la siguiente tabla se muestra la repartición (en porcentajes) de los gastos publicitarios según el medio de comunicación de 16 países de Europa. Los datos corresponden al año 1990 y se extrajeron de la revista Press Landscape update & Eur. Direct Marketing NTC, 1991.

Newspapers Magazines TV Radio Cinema Outdoor/Transport

Belgium 35.3 20.5 27.5 1.2 1.4 14.2 Denmark 76.1 11.8 9.6 0.8 0.4 1.3 France 28.6 27.5 24.8 6.6 0.8 11.7 Germany 46.0 27.9 15.8 5.1 1.2 3.9 Greece 26.0 28.2 35.3 5.7 0.0 4.8 Ireland 63.7 5.4 19.6 6.2 0.0 5.1 Italy 27.8 24.0 43.02 1.4 0.0 3.6 Netherlands 50.4 27.8 9.0 2.2 0.3 10.4 Portugal 25.1 21.7 37.1 6.7 0.0 9.5 Spain 37.6 15.4 31.3 10.3 0.8 4.7 U.K. 44.1 19.3 30.5 2.2 0.5 3.4 Austria 51.6 18.0 17.7 8.0 0.4 4.4 Finland 67.2 13.5 12.9 4.0 0.1 2.3 Norway 77.2 15.8 2.5 1.0 1.2 2.2 Sweden 78.6 14.3 2.2 0.0 0.6 4.3 Switzerland 61.1 16.8 6.7 1.7 0.9 12.7

Los datos se encuentran en el archivo PublicidadEuropa.dat.

1. Abrir el archivo de texto con el editor de texto. Observar su formato. 2. Exportar los datos a un archivo de datos editable con SAS. 3. Revisar /modificar las etiquetas de las variables.

14

Page 15: Taller Sas

3.3.1. Fichero SAS de Sintaxis: Publicidad.Datos

/* el fichero está separado por tabuladores - utilizaremos DLM='09'X*/ DATA PUB; INFILE 'PublicidadEuropa.dat' DLM='09'x FIRSTOBS=2; INPUT PAIS $ DIARIOS REVISTAS TV RADIO CINE EXTERIOR; RUN; PROC PRINT DATA=PUB; RUN; PROC CONTENTS DATA=PUB; RUN;

15

Page 16: Taller Sas

3.4. Peso de bebés El archivo PesoBebes.sav contiene información de 189 nacimientos, siendo el peso del bebé al nacer la variable principal.

1. Abrir el archivo con SPSS y exportarlo a SAS. 2. Editar las etiquetas de las variables y sus valores. 3. Se considera que un peso inferior a 2500 gramos es demasiado pequeño, pudiendo

afectar problemas en el recién nacido. Crear la variable binaria que discrimine a los bebés según este factor de riesgo.

16

Page 17: Taller Sas

3.4.1. Fichero SAS de Sintaxis: Bebes.Datos

LIBNAME EXP SPSS 'PesoBebes.por'; DATA BEBES; SET EXP._FIRST_; RUN; PROC CONTENTS DATA=BEBES; RUN; PROC FORMAT; VALUE RAZA 1='1-BLANCA' 2='2-NEGRA' 3='3-OTRAS' ; VALUE BINARIA 0='0-NO' 1='1-SI' ; RUN; DATA BEBES; SET BEBES; LABEL V1='Código ID';

LABEL V3='Edad madre'; LABEL V4='Peso de la madre en la ultima menstruacion'; LABEL V5='Raza madre'; LABEL V6='Fumar durante el embarazo'; LABEL V7='Embarazo prematuro'; LABEL V8='Hipertensión'; LABEL V9='Irritabilidad uterina'; LABEL V10='Numero de visitas al medico'; LABEL V11='Peso del bebé en gramos'; FORMAT V5 RAZA. V6 BINARIA. V7 BINARIA. V8 BINARIA. V9 BINARIA.; RUN; PROC CONTENTS DATA=BEBES POSITION; RUN; DATA BEBES; SET BEBES; IF V11<= 2500 THEN POCOPESO=1; IF V11> 2500 THEN POCOPESO=0; RUN;

PROC FORMAT; VALUE POCOPESO 0='SUPERIOR A 2500 G' 1='INFERIOR A 2500 G'; RUN; DATA BEBES; SET BEBES; FORMAT POCOPESO POCOPESO.; RUN; PROC PRINT LABEL DATA=BEBES; RUN; PROC CONTENTS DATA=BEBES POSITION; RUN;

17

Page 18: Taller Sas

3.5. Caparazón Palletoida El archivo CaparazonPalletoida.sav contiene la longitud y la altura medidas en 28 caparazones de la especie Palletoida de moluscos.

1. Importar los datos a un archivo editable con SAS. 2. Editar las etiquetas de las variables. Imprimir el archivo con las etiquetas ‘longitud’ y

‘altura’ de las variables X e Y. 3. Crear la variable que contenga el logaritmo de la longitud.

18

Page 19: Taller Sas

3.5.1. Fichero SAS de Sintaxis: Caparazon.Datos

LIBNAME PALLET SPSS 'caparazonpalletoide.por'; DATA caparaz; SET PALLET._FIRST_; RUN; PROC PRINT data=caparaz; RUN; * INFORMACIÓN CONTENIDA EN EL FICHERO; PROC CONTENTS DATA=caparaz; RUN; PROC PRINT DATA=caparaz LABEL; LABEL X='altura' Y='longitud'; RUN; * LOGARITMO DE LA ALTURA; DATA caparaz; SET caparaz; loglongi = LOG(Y); RUN;

19

Page 20: Taller Sas

3.6. Factores experimentales en la fabricación del plástico Una determinada fábrica desea conocer la mejor manera de producir un tipo de plástico. Para ello, realizan un experimento controlado, tomando como variables experimentales:

Nivel de extrusión. 2 niveles (bajo o alto). Cantidad de aditivo. 2 niveles (bajo o alto).

Creen que una variación en los niveles de estos factores afecta a las características del plástico finalmente fabricado. Concretamente, están interesados en estudiar la resistencia a la ruptura, el brillo y la opacidad de los plásticos generados (valorados en una escala de 0 a 10). Su objetivo es fabricar un tipo de plástico con los máximos valores de estos parámetros. Para resolver esta cuestión, realizan un experimento factorial 22, con cuatro réplicas para cada condición xperimental. Los datos recogidos son los siguientes: e

Nivel de extrusión Cantidad de aditivo Resistencia a la ruptura Brillo Opacidad 1 1 6.5 9.5 4.4 1 1 6.2 9.9 6.4 1 1 5.8 9.6 3.0 1 1 6.5 9.6 4.1 1 1 6.5 9.2 .8 1 2 6.9 9.1 5.7 1 2 7.2 10.0 2.0 1 2 6.9 9.9 3.9 1 2 6.1 9.5 1.9 1 2 6.3 9.4 5.7 2 1 6.7 9.1 2.8 2 1 6.6 9.3 4.1 2 1 7.2 8.3 3.8 2 1 7.1 8.4 1.6 2 1 6.8 8.5 3.4 2 2 7.1 9.2 8.4 2 2 7.0 8.8 5.2 2 2 7.2 9.7 6.9 2 2 7.5 10.1 2.7 2 2 7.6 9.2 1.9

1. Importar los datos del archivo ExperimentoPlastico.sav a un archivo editable con SAS. 2. Revisar la importación de etiquetas.

20

Page 21: Taller Sas

3.6.1. Fichero SAS de Sintaxis: Plastico.Datos

LIBNAME PLAST SPSS 'ExperimentoPlastico.por'; DATA EXP; SET PLAST._FIRST_; RUN; PROC CONTENTS DATA=EXP; RUN; PROC FORMAT; VALUE EXTRUS 1='1-EXTRUSIÓN BAJA' 2='2-EXTRUSIÓN ALTA' ; VALUE ADITIVO 1='1-ADITIVO BAJO' 2='2-ADITIVO ALTO' ; RUN; DATA EXP; SET EXP; FORMAT EXTRUS EXTRUS. ADITIVO ADITIVO.; RUN; PROC CONTENTS DATA=EXP POSTITION; RUN;

21

Page 22: Taller Sas

4. Estadística descriptiva

4.1. Ejemplo básico. Ejemplo1

1. Resumir la variable salario y calcular las medidas de posición y variabilidad para el salario.

PROC UNIVARIATE DATA=ej12g; VAR salario; RUN;

2. Comparar la variable salario para las dos submuestras que define la variable sexo

Antes de realizar un PROC UNIVARIATE para distintas submuestras los datos deben estar ordenados según la variable que define las submuestras

PROC SORT DATA=ej12g; BY sexo; RUN; PROC UNIVARIATE DATA=ej12g; CLASS sexo; VAR salario; RUN;

22

Page 23: Taller Sas

23

Page 24: Taller Sas

3. Dibujar un histograma del salario para cada submuestra

PROC UNIVARIATE DATA=ej12g; CLASS SEXO; VAR salario; HISTOGRAM; RUN;

4. Resumir mediante una tabla de dos entradas las variables nivel de estudios y sexo

PROC FREQ DATA=ej12g; TABLES nivest*sexo; RUN;

5. Dibujar un gráfico de dispersión para las variables salario y edad

PROC GPLOT DATA=ej12g; PLOT salario*edad; RUN; *para editar el grafico como deseamos; AXIS2 LABEL=('SALARIO' justify=right '(en pts)'); AXIS1 LABEL=('EDAD (en años)') ORDER=(20 TO 40 BY 5); PROC GPLOT DATA=ej12g; PLOT salario*edad /haxis=axis1 hminor=1 vaxis=axis2; SYMBOL1 VALUE=DOT COLOR=BLUE ; RUN;

24

Page 25: Taller Sas

25

Page 26: Taller Sas

4.2. Homicidios en California 1850-1900

1. Realizar un listado de las variables de la base de datos creada en el ejercicio 3.2

PROC CONTENTS DATA=HOMICIDE POSTITION; RUN;

2. Distinguir entre variables respuesta y variables explicativas.

3. Realizar tablas de contingencia para analizar bivariantemente pares de variables categóricas.

DATA HOMICIDE; SET HOMICIDE; IF ACCUSEX=9 OR VICSEX=9 THEN DELETE; RUN; PROC FREQ DATA=HOMICIDE; TABLES ACCUSEX*VICSEX/OUT=M OUTPCT; RUN; /* SE PUEDE EMPLEAR LA MISMA SINTAXI PARA CREAR OTRAS TABLAS DE CONTINGENCIA */

26

Page 27: Taller Sas

4. Crear la tabla de perfiles filas e interpretar los resultados.

PROC PRINT DATA=M; RUN;

5. Realizar gráficos de línea para los perfiles fila.

AXIS1 ORDER=(1 TO 2 BY 1); PROC GPLOT DATA=M; PLOT PCT_ROW * VICSEX=ACCUSEX /HAXIS=AXIS1 hminor=0; SYMBOL1 I=J VALUE=DOT COLOR=BLUE; SYMBOL2 I=J; RUN;

27

Page 28: Taller Sas

28

Page 29: Taller Sas

4.3. Gastos de publicidad a Europa

1. Resumir los datos del ejercicio 3.3.

PROC MEANS DATA=pub; RUN;

2. Determinar e interpretar la matriz de correlaciones entre las variables.

PROC CORR DATA=PUB; VAR CINE DIARIOS EXTERIOR RADIO REVISTAS TV; RUN;

29

Page 30: Taller Sas

4. Realizar gráficos de dispersión y evaluar la linealidad de las relaciones.

PROC GPLOT DATA=pub; PLOT TV*DIARIOS; TITLE 'GASTOS EN TV RESPECTO A DIARIOS'; RUN;

30

Page 31: Taller Sas

5. Diferenciar entre los países de la zona mediterránea del resto. Repetir los análisis

*CREAMOS UNA NUEVA VARIABLE PARA DIFERENCIA L0S PAÍSES MEDITERRÁNEOS DEL RESTO; DATA PUB; SET PUB; IF PAIS='France' OR PAIS='Greece' OR PAIS='Italy' OR PAIS='Portugal' OR PAIS='Spain' THEN MEDIT=1; ELSE MEDIT=2; RUN; PROC FORMAT; VALUE MEDIT 1='Países mediterráneos' 2='Países no mediterráneos'; RUN; DATA PUB; SET PUB; FORMAT MEDIT MEDIT.; RUN; PROC PRINT LABEL DATA=PUB; RUN; PROC SORT DATA=PUB; BY MEDIT; RUN; PROC CORR DATA=PUB; VAR CINE DIARIOS EXTERIOR RADIO REVISTAS TV; BY MEDIT; RUN;

31

Page 32: Taller Sas

32

Page 33: Taller Sas

4.4. Peso de bebés

1. Analizar las tablas de contingencia cruzando la variable peso del bebé (superior o inferior a 2500 gramos) con el resto de variables categóricas.

PROC FREQ DATA=BEBES; TABLES V5*POCOPESO; RUN; PROC FREQ DATA=BEBES; TABLES V6*POCOPESO; RUN; PROC FREQ DATA=BEBES; TABLES V7*POCOPESO; RUN; PROC FREQ DATA=BEBES; TABLES V8*POCOPESO; RUN; PROC FREQ DATA=BEBES; TABLES V9*POCOPESO; RUN; * TAMBIEN PODEM OBTENER LAS TABLAS DE CONTINGENCIA CON LA INSTRUCCION; PROC FREQ DATA=BEBES; TABLES (V5 V6 V7 V8 V9)*POCOPESO; RUN;

2. Crear una tabla con los estadísticos descriptivos y gráficos adecuados para analizar la

edad de la madre y el número de visitas al médico.

PROC MEANS DATA=BEBES; VAR V3 V10; RUN; PROC UNIVARIATE DATA=BEBES; VAR V3; HISTOGRAM; RUN; PROC GCHART DATA=BEBES; VBAR V10 /MIDPOINTS=(1 TO 6 BY 1) vminor=0; RUN;

33

Page 34: Taller Sas

34

Page 35: Taller Sas

3. Crear las tablas anteriores separadamente distinguiendo si el bebé ha presentado un peso menor o superior a 2500 gramos.

PROC SORT DATA=BEBES; BY POCOPESO; RUN; PROC MEANS DATA=BEBES; VAR V3 V10; BY POCOPESO; RUN;

35

Page 36: Taller Sas

4.5. Caparazón Palletoida

1. Editar el gráfico de dispersión de la longitud (Y) respecto de la altura.

AXIS2 LABEL=('LONGITUD'); AXIS1 LABEL=('ALTURA') ORDER=(0.9 TO 2.7 BY 0.3); PROC GPLOT DATA=caparaz; PLOT Y*X /haxis=axis1 hminor=0 vaxis=axis2; SYMBOL1 VALUE=DOT COLOR=BLUE ; RUN;

2. Calcular e interpretar el coeficiente de correlación entre las dos variables.

PROC CORR DATA=caparaz; VAR Y X; RUN; *si ademas queremos la covarianza; PROC CORR DATA=caparaz COV OUTP=corcap; VAR Y X; RUN;

36

Page 37: Taller Sas

3. Repetir los apartados anteriores utilizando el logaritmo de la longitud.

PROC CORR DATA=caparaz COV OUTP=corcapl; VAR loglongi X; RUN; AXIS2 LABEL=('LOG-LONGITUD') ORDER=(1.1 TO 1.9 BY 0.1); AXIS1 LABEL=('ALTURA') ORDER=(0.9 TO 2.7 BY 0.3); PROC GPLOT DATA=caparaz; PLOT loglongi*X /haxis=axis1 hminor=0 vaxis=axis2 vminor=0; SYMBOL1 VALUE= COLOR=BLUE ; RUN;

37

Page 38: Taller Sas

4.6. Factores experimentales en la fabricación de plástico

1. Resolver el problema planteado por la industria, utilizando técnicas de estadística descriptiva.

* análisis de los efectos principales*; PROC MEANS DATA=EXP; CLASS EXTRUS; VAR BRILLO; OUTPUT OUT=G1 MEAN(BRILLO)= M1; RUN; GOPTIONS RESET=ALL; AXIS1 ORDER=(1 TO 2 BY 1); AXIS2 ORDER=(9 TO 9.7 BY 0.1); PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; SYMBOL1 I=JOIN VALUE=DOT COLOR=BLUE; RUN; PROC MEANS DATA=EXP; CLASS ADITIVO; VAR BRILLO; OUTPUT OUT=G1 MEAN(BRILLO)= M1; RUN; PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS EXTRUS; VAR OPACIDAD; OUTPUT OUT=G1 MEAN(OPACIDAD)= M1; RUN; AXIS2 ORDER=(3.4 TO 4.5 BY 0.1); PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS ADITIVO; VAR OPACIDAD; OUTPUT OUT=G1 MEAN(OPACIDAD)= M1; RUN; PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS EXTRUS; VAR RESIST; OUTPUT OUT=G1 MEAN(RESIST)= M1; RUN;

38

Page 39: Taller Sas

AXIS2 LABEL=('resistencia' justify=right 'a la ruptura') ORDER=(6.4 TO 7.1 BY 0.1); PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS ADITIVO; VAR RESIST; OUTPUT OUT=G1 MEAN(RESIST)= M1; RUN; PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN;

2. ¿Qué características dependen del nivel de extrusión? ¿Cómo?

39

Page 40: Taller Sas

40

Page 41: Taller Sas

3. ¿Qué características dependen de la cantidad de aditivo? ¿Cómo?

41

Page 42: Taller Sas

4. ¿Existe interacción entre el nivel de extrusión y la cantidad de aditivo?

*analisis de las interacciones ; PROC MEANS DATA=EXP; CLASS EXTRUS ADITIVO; VAR BRILLO; OUTPUT OUT=G4 MEAN(BRILLO)= M4; RUN; AXIS2 ORDER=(8.7 TO 9.7 BY 0.2); PROC GPLOT DATA=G4; WHERE _TYPE_=3; PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; SYMBOL2 I=JOIN VALUE='TRIANGLE'; RUN; PROC MEANS DATA=EXP; CLASS EXTRUS ADITIVO; VAR OPACIDAD; OUTPUT OUT=G4 MEAN(OPACIDAD)= M4; RUN; AXIS2 ORDER=(3 TO 5.3 BY 0.3); PROC GPLOT DATA=G4; WHERE _TYPE_=3; PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS EXTRUS ADITIVO; VAR RESIST; OUTPUT OUT=G4 MEAN(RESIST)= M4; RUN;

42

Page 43: Taller Sas

AXIS2 LABEL=('resistencia' justify=right 'a la ruptura') ORDER=(6.2 TO 7.4 BY 0.3); PROC GPLOT DATA=G4; WHERE _TYPE_=3; PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN;

5. ¿Cuál es el mejor prototipo por lo que se refiere a la resistencia a la ruptura? ¿y respecto al brillo? ¿y respecto la opacidad?

Para la resistencia a la ruptura: un plástico con un nivel de extrusión y aditivo altos Para el brillo: un plástico con un nivel de extrusión bajo y aditivo alto Para la opacidad: un plástico con un nivel de extrusión y aditivo altos

6. ¿Existe algún plástico óptimo? ¿Es robusto?

A la vista de los gráficos el plástico óptimo tendría un nivel de extrusión y aditivo altos

43

Page 44: Taller Sas

5. Inferencia estadística básica

5.1. Ejemplo básico. Ejemplo1

1. Realizar un intervalo de confianza al 90%, 95% y 99% para la media de la variable salario.

PROC TTEST DATA=EJ12G; VAR SALARIO; RUN; PROC TTEST DATA=EJ12G ALPHA=0.1; VAR SALARIO; RUN; PROC TTEST DATA=EJ12G ALPHA=0.01; VAR SALARIO; RUN; The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err salario 13 16260 20385 24509 4894.6 6825.7 11267 1893.1 T-Tests Variable DF t Value Pr > |t|

salario 12 10.77 <.0001 2. Realizar los mismos intervalos distinguiendo para las dos submuestras que define la

variable sexo. 3. Calcular el coeficiente de correlación entre las variables salario y edad. Evaluar su

significación. PROC CORR DATA=EJ12G; VAR SALARIO EDAD;

RUN; Pearson Correlation Coefficients, N = 13 Prob > |r| under H0: Rho=0 salario edad salario 1.00000 0.86315 0.0001 edad 0.86315 1.00000 0.0001

44

Page 45: Taller Sas

5.2. Homicidios en California 1850-1900

1. Analizar el grado de dependencia entre pares de variables categóricas, representadas en una tabla de contingencia.

2. Resolver la prueba de independencia de ji-cuadrado. PROC FREQ DATA=HOMICIDE; RUN;

TABLES ACCUSEX*VICSEX/CHISQ;

The FREQ Procedure Table of ACCUSEX by VICSEX ACCUSEX(SEX OF ACCUSED) VICSEX(SEX OF VICTIM) Frequency ‚ Percent ‚ Row Pct ‚ Col Pct ‚1-MALE ‚2-FEMALE‚ Total ‚ ‚ ‚ ƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1-MALE ‚ 1052 ‚ 87 ‚ 1139 ‚ 90.38 ‚ 7.47 ‚ 97.85 ‚ 92.36 ‚ 7.64 ‚ ‚ 98.23 ‚ 93.55 ‚ ƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2-FEMALE ‚ 19 ‚ 6 ‚ 25 ‚ 1.63 ‚ 0.52 ‚ 2.15 ‚ 76.00 ‚ 24.00 ‚ ‚ 1.77 ‚ 6.45 ‚ ƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 1071 93 1164 92.01 7.99 100.00 Statistics for Table of ACCUSEX by VICSEX Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 1 8.9085 0.0028 Likelihood Ratio Chi-Square 1 6.1284 0.0133 Continuity Adj. Chi-Square 1 6.8218 0.0090 Mantel-Haenszel Chi-Square 1 8.9008 0.0029 Phi Coefficient 0.0875 Contingency Coefficient 0.0872 Cramer's V 0.0875 WARNING: 25% of the cells have expected counts less than 5. Chi-Square may not be a valid test.

45

Page 46: Taller Sas

5.3. Gastos de publicidad a Europa

1. Determinar la matriz de correlaciones entre las variables e avaluar la significación de los coeficientes de correlación.

PROC CORR DATA=PUB; RUN;

VAR CINE DIARIOS EXTERIOR RADIO REVISTAS TV;

The CORR Procedure 6 Variables: CINE DIARIOS EXTERIOR RADIO REVISTAS TV Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum CINE 16 0.53750 0.47170 8.60000 0 1.40000 DIARIOS 16 49.77500 19.00023 796.40000 25.10000 78.60000 EXTERIOR 16 6.15625 4.10186 98.50000 1.30000 14.20000 RADIO 16 3.94375 3.05766 63.10000 0 10.30000 REVISTAS 16 19.24375 6.66033 307.90000 5.40000 28.20000 TV 16 20.35625 12.86489 325.70000 2.20000 43.20000 Pearson Correlation Coefficients, N = 16 Prob > |r| under H0: Rho=0 CINE DIARIOS EXTERIOR RADIO REVISTAS TV CINE 1.00000 0.14338 0.30033 -0.19350 0.10448 -0.35390 0.5963 0.2584 0.4727 0.7002 0.1787 DIARIOS 0.14338 1.00000 -0.41420 -0.46603 -0.68887 -0.88498 0.5963 0.1107 0.0688 0.0032 <.0001 EXTERIOR 0.30033 -0.41420 1.00000 0.00723 0.35120 0.09987 0.2584 0.1107 0.9788 0.1823 0.7129 RADIO -0.19350 -0.46603 0.00723 1.00000 0.06992 0.42136 0.4727 0.0688 0.9788 0.7969 0.1041 REVISTAS 0.10448 -0.68887 0.35120 0.06992 1.00000 0.36761 0.7002 0.0032 0.1823 0.7969 0.1613 TV -0.35390 -0.88498 0.09987 0.42136 0.36761 1.00000 0.1787 <.0001 0.7129 0.1041 0.1613

46

Page 47: Taller Sas

5.4. Peso de bebés

1. Analizar las tablas de contingencia cruzando la variable peso del bebé (superior o inferior a 2500 gramos) con el resto de variables categóricas. Plantear y resolver la prueba de independencia de ji-cuadrado.

2. Comparar las medias de las edades de las madres y el número de visitas distinguiendo si el bebé ha presentado un peso menor o mayor a 2500 gramos.

PROC FREQ DATA=BEBES; TABLES V5*POCOPESO/CHISQ; RUN; PROC FREQ DATA=BEBES; TABLES V6*POCOPESO/CHISQ; RUN; PROC FREQ DATA=BEBES; TABLES V7*POCOPESO/CHISQ; RUN; PROC FREQ DATA=BEBES; TABLES V8*POCOPESO/CHISQ; RUN; PROC FREQ DATA=BEBES; TABLES V9*POCOPESO/CHISQ; RUN; PROC TTEST DATA=BEBES; CLASS POCOPESO; VRUN;

AR V4 V10;

47

Page 48: Taller Sas

5.5. Caparazón Palletoida

1. Editar el gráfico de dispersión de la longitud (Y) respecto la altura. 2. Calcular e interpretar el coeficiente de correlación entre las dos variables. Evaluar el

grado de significación. 3. Repetir los apartados anteriores utilizando el logaritmo de la longitud.

48

Page 49: Taller Sas

5.6. Factores experimentales en la fabricación de plástico

1. Resolver el problema planteado en los ejercicios 3.6 y 4.6 mediante pruebas de hipótesis. Construir intervalos de confianza para los prototipos.

49

Page 50: Taller Sas

5.7. Capacidad de detección de los murciélagos Los murciélagos son capaces de detectar un objeto sólido mediante un sofisticado sistema de localización. Se piensa que este sistema presenta un diámetro máximo de 6 metros. Para confirmar esta hipótesis se seleccionó una muestra aleatoria simple de 16 murciélagos, cada uno de los cuáles fue liberado en una zona grande que presentaba un único obstáculo. Se observó la distancia a la que el murciélago era capaz de detectarlo. Los datos recogidos son los siguientes: 6.2 , 6.8, 6.1, 5.7, 6.1, 6.3, 5.8, 6.3, 5.9, 6.3, 6.4, 6.0, 6.3, 6.2, 5.9, 6.1

1. Describir la muestra mediante una tabla de estadísticos descriptivos y un diagrama de caja.

data MURC; input DISTANCIA; datalines; 6.2 6.8 6.1 5.7 6.1 6.3 5.8 6.3 5.9 6.3 6.4 6.0 6.3 6.2 5.9 6.1 ; RUN; PROC PRINT DATA=MURC; RUN; PROC UNIVARIATE DATA=MURC; RUN; DATA MURC; SET MURC; RUN;

MUESTRA=1;

PROC BOXPLOT DATA=MURC; RUN;

PLOT DISTANCIA*MUESTRA;

50

Page 51: Taller Sas

2. Construir un intervalo de confianza al 95% para el diámetro medio poblacional de

detección de los murciélagos.

DATA MURC; SET MURC; CDIST=DISTANCIA-6; RUN ;PROC PRINT DATA=MURC; RUN; PROC TTEST DATA=MURC; VAR DISTANCIA; RUN;

The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err DISTANCIA 16 6.0083 6.15 6.2917 0.1964 0.2658 0.4114 0.0665 T-Tests Variable DF t Value Pr > |t|

DISTANCIA 15 92.54 <.0001

51

Page 52: Taller Sas

3. Plantear y resolver un contraste de hipótesis que permita analizar la plausibilidad de la hipótesis apuntada inicialmente por los investigadores.

PROC TTEST DATA=MURC; VRUN;

AR CDIST;

The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err CDIST 16 0.0083 0.15 0.2917 0.1964 0.2658 0.4114 0.0665 T-Tests Variable DF t Value Pr > |t|

CDIST 15 2.26 0.0394

52

Page 53: Taller Sas

5.8. Velocidad de reacción Se desea analizar la velocidad de reacción de unas partículas sometidas a una reacción química. Para realizar este procedimiento se dispone de dos instrumentos de medida. Fruto de la experimentación, se obtuvieron dos muestras, con los siguientes resultados: Instrumento A: 25.4, 27.8, 30.4, 15.2, 33.6, 30.2, 28.7, 40.7, 32.5, 36.8 Instrumento B: 35.6, 59.8, 43.2, 32.5, 26.7, 39.5, 63.4, 45.7, 56.8, 43.2

1. Realizar gráficos descriptivos que permitan comparar ambas muestras data REACCION; input VEL MAQ$; datalines; 25.4 A 27.8 A 30.4 A 15.2 A 33.6 A 30.2 A 28.7 A 40.7 A 32.5 A 36.8 A 35.6 B 59.8 B 43.2 B 32.5 B 26.7 B 39.5 B 63.4 B 45.7 B 56.8 B 43.2 B ; RUN ;PROC PRINT DATA=REACCION; RUN; PROC SORT DATA=REACCION; BY MAQ; RUN; PROC BOXPLOT DATA=REACCION; PLOT VEL*MAQ; RUN;

53

Page 54: Taller Sas

2. Plantear un contraste de hipótesis para comparar las medias de velocidad de reacción

según el instrumento. Construir un intervalo de confianza para la diferencia. PROC TTEST DATA=REACCION; CLASS MAQ; VAR VEL; RUN; The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable Class N Mean Mean Mean Std Dev Std Dev Std Dev Std Err VEL A 10 25.204 30.13 35.056 4.7361 6.8856 12.57 2.1774 VEL B 10 36.002 44.64 53.278 8.3057 12.075 22.044 3.8185 VEL Diff (1-2) -23.74 -14.51 -5.275 7.4269 9.829 14.535 4.3957 T-Tests Variable Method Variances DF t Value Pr > |t| VEL Pooled Equal 18 -3.30 0.0040 VEL Satterthwaite Unequal 14.3 -3.30 0.0051 Equality of Variances Variable Method Num DF Den DF F Value Pr > F VEL Folded F 9 9 3.08 0.1096

54

Page 55: Taller Sas

6. Modelización estadística

6.1. Crecimiento del ficus Se desea estudiar el crecimiento de los ficus en función del tiempo. Para ello, se observa el crecimiento, en centímetros, de un conjunto de 30 plantas hasta los 126 días. Los datos se encuentran en el fichero FICUS.SAS7BDAT.

1. Plantear y ajustar modelos que expliquen el crecimiento a partir del tiempo. libname datos 'N:\Material Cursos\Curs SAS - 2003\Fitxers dades'; goptions reset=all ftext=triplex2 fontres=presentation vsize=13cm hsize=16cm device=gif; options formdl ='_ nodate nonumber; im 'axis label=(a=90 r=0); proc tabulate data=datos.ficus; class dias; var altura; table altura,dias,n mean std cv; title2 'Tabla'; run; Tabla ALTURA „ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ† ‚ ‚ N ‚ Mean ‚ Std ‚ CV ‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚DIAS ‚ ‚ ‚ ‚ ‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚ ‚ ‚ ‚ ‚4 ‚ 30.00‚ 3.40‚ 1.53‚ 45.03‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚23 ‚ 30.00‚ 7.21‚ 2.16‚ 29.99‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚39 ‚ 30.00‚ 9.93‚ 1.94‚ 19.53‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚58 ‚ 30.00‚ 12.99‚ 2.04‚ 15.69‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚73 ‚ 30.00‚ 16.92‚ 2.45‚ 14.51‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚90 ‚ 30.00‚ 22.82‚ 2.82‚ 12.34‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚108 ‚ 30.00‚ 31.12‚ 3.48‚ 11.20‚ ‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰ ‚126 ‚ 30.00‚ 37.13‚ 3.53‚ 9.51‚ Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒŒ

55

Page 56: Taller Sas

data ficus; set datos.ficus; larun;

ltura=log(altura);

proc reg data=ficus; model laltura=dias/clb; output out=r student=st p=p; title2 'Regresión del logaritmo de la altura'; run; Regresión del logaritmo de la altura The REG Procedure Model: MODEL1 Dependent Variable: laltura Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 136.89863 136.89863 1919.83 <.0001 Error 238 16.97119 0.07131 Corrected Total 239 153.86982 Root MSE 0.26703 R-Square 0.8897 Dependent Mean 2.60930 Adj R-Sq 0.8892 Coeff Var 10.23396 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits Intercept 1 1.36343 0.03325 41.00 <.0001 1.29792 1.42893 DIAS 1 0.01913 0.00043661 43.82 <.0001 0.01827 0.01999 proc gplot data=r; plot laltura *dias=1 p*dias=2/overlay vaxis=axis name='m21'; plot st*p/vref=-2 0 2 vaxis=axis name='m22'; symbol1 v=plus i=none c=black; symbol2 v=none i=sm c=black; run; quit;

56

Page 57: Taller Sas

proc nlin data=datos.ficus; parameters alfa=3 beta=.02; model altura=alfa*exp(beta*dias); output out=r student=st p=p; tirun;

tle2 'Regresion no lineal';

Regresion no lineal The NLIN Procedure Iterative Phase Dependent Variable ALTURA Method: Gauss-Newton Sum of Iter alfa beta Squares 0 3.0000 0.0200 4347.3 1 5.1391 0.0146 4205.2 2 5.2025 0.0161 1952.9 3 5.2847 0.0158 1927.1 4 5.2759 0.0158 1927.1 5 5.2765 0.0158 1927.1 6 5.2765 0.0158 1927.1 NOTE: Convergence criterion met.

57

Page 58: Taller Sas

Estimation Summary Method Gauss-Newton Iterations 6 R 8.676E-7 PPC(alfa) 4.496E-7 RPC(alfa) 6.927E-6 Object 1.67E-10 Objective 1927.064 Observations Read 240 Observations Used 240 Observations Missing 0 NOTE: An intercept was not specified for this model. Sum of Mean Approx Source DF Squares Square F Value Pr > F Regression 2 104172 52085.8 6432.80 <.0001 Residual 238 1927.1 8.0969 Uncorrected Total 240 106099 Corrected Total 239 30990.4 proc gplot data=r; plot altura *dia =1 p*dias=2/overlay name='m23'; s plot st*p/vref=-2 0 2 name='m24'; symbol1 v=plus i=none c=black; syrun;

mbol2 v=none i=sm c=black;

quit;

58

Page 59: Taller Sas

59

Page 60: Taller Sas

7. Programación en lenguaje macro

7.1. Validación de una matriz de datos. Antes de cualquier análisis estadístico es necesario realizar una validación de los datos disponibles. En este proceso es habitual detectar los valores faltantes y los valores fuera de rango. Los datos se encuentran en el fichero PESOBEBES.POR

1. Detectar todos los casos con valores faltantes y producir un único listado.

2. Detectar todos los casos con valores fuera de rango y producir un único listado. Se pueden tener en cuenta los siguientes rangos: Edad de la Madre: 18-40 Peso de la Madre (en Libras): 90-200 Peso del Bebé (en gramos): 1500-4000 Variables categóricas dentro de las posibles categorías.

3. Detectar todos los casos con posibles errores de inconsistencia y producir un único

listado. Se puede validar la siguiente condición: Irritabilidad Uterina tendría que implicar al menos una visita al médico en el primer trimestre.

4. Producir un informe conjunto de todas las incidencias detectadas para cada individuo.

60

Page 61: Taller Sas

7.2. Exportación de SPSS a SAS. En este ejemplo se utilizará la macro spss2sas para exportar las etiquetas de valores de las variables categóricas. Los datos se encuentran en el fichero PESOBEBES.SAV

1. Utilizar la macro spss2sas para exportar la base de datos PESOBEBES.SAV de SPSS a SAS.

61

Page 62: Taller Sas

8. Los datos En este apartado se enumeran, por orden de aparición, los datos utilizados en estas prácticas así como su precedencia. HOMICIDIOS EN CALIFORNIA. National Archive of Criminal Justice Data de los EUA (http://www.icpsr.umich.edu/NACJD/). GASTOS DE PUBLICIDAD EN EUROPA Press Landscape update & Eur. Direct Marketing NTC, 1991 PESO DE BEBÉ. Hosmer & Lemeshow (2000) CAPARAZÓN PALLETOIDA Fichero base de SPSS. FACTORES EXPERIMENTALES EN LA FABRICACIÓN DEL PLÁSTICO Milton, J. Estadística para Biología y Ciencias de la Salud. McGraw-Hill CAPACIDAD DE DETECCIÓN DE MURCIÉLAGOS Milton, J. Estadística para Biología y Ciencias de la Salud. McGraw-Hill VELOCIDAD DE REACCIÓN Milton, J. Estadística para Biología y Ciencias de la Salud. McGraw-Hill CRECIMIENTO DEL FICUS Utilizado con autorización de la Escola d’Enginyeria Técnica Agrícola de la Universitat Politécnica de Catalunya.

62

Page 63: Taller Sas

9. Bibliografía Delwiche, L. D. & Slaughter, S. J. (2002). The Little SAS Book: A Primer. Second ed. SAS Institute Gilmore, J. (1999). Painless Windows: A Handbook for SAS® users. Second ed. SAS Institute Hosmer, D.W. & Lemeshow, S. (2000). Applied Logistic Regression. Second ed. Willey & Sons

63