Tablas Contin Gencia

18
Tablas de contingencia 1 .Distribuciones condicionadas de Y a los valores de X 2 .Distribuciones condicionadas de X a los valores de Y 3 .Distribuciones marginales 4 .Ejemplo 1 5 .Estudio de la asociación Chi-cuadrado 6 .Analizar Tablas de contingencia 7 .Ejemplo 2 8 .Clasificación múltiple: Análisis de Tablas multidimensionales 9 .Ejemplo 3 10 .Ejemplo 4 11 .FUNCIONES R USADAS EN ANÁLISIS DE TABLAS DE CONTINGENCIA 1

description

Tablas Contin Gencia

Transcript of Tablas Contin Gencia

Tablas de contingencia 1.Distribuciones condicionadas de Y a los valores de X 2.Distribuciones condicionadas de X a los valores de Y 3.Distribuciones marginales 4.Ejemplo 1 5.Estudio de la asociacin Chi-cuadrado 6.Analizar Tablas de contingencia 7.Ejemplo 2 8.Clasificacin mltiple: Anlisis de Tablas multidimensionales 9.Ejemplo 3 10.Ejemplo 4 11.FUNCIONES R USADAS EN ANLISIS DE TABLAS DE CONTINGENCIA Estadstica e Investigacin Operativa 1 Tablas de contingencia Se sabe que la informacin proporcionada por una tabla bidimensional puede expresarse entrminosdiversos:frecuenciasabsolutasconjuntas,relativasconjuntas, condicionadasdeunavariableavaloresdelaotra.Ademspuedederivarseel comportamiento unidimensional de las variables implicadas mediante las distribuciones marginales. Latablabidimensionalrecibeelnombredetabladecontingenciacuandolas caractersticas en estudio no son cuantitativas. Una tabla de doble entrada para las variables X e Y con p filas y k columnas: X1 X2 ...XkY1 n11n12...n1kY2 n21n22...n2k ............ Yp np1np2 npk donde nij expresa la frecuencia absoluta observada en las modalidades Xi e Yj refleja la distribucin conjunta de X e Y. Lamismatablapuedeexpresarseenfrecuenciasrelativasoproporcionessinmsque dividir cada casilla nij por el total N.= ==kjpij in N1 1 1.Distribuciones condicionadas de Y a los valores de X Son distribuciones unidimensionales para la variable Y en distintas condiciones (valores de X).Se obtienen de la tabla anterior dividiendo cada casilla por el total de columna. 2.Distribuciones condicionadas de X a los valores de Y Son distribuciones unidimensionales para la variable X en distintas condiciones (valores de Y).Se obtienen de la tabla anterior dividiendo cada casilla por el total de fila. 3.Distribuciones marginales: Marginal de Y DistribucinunidimensionalformadaporlosvaloresYi(i=1,...,p)cuyafrecuencia asociada se obtiene sumando las casillas correspondientes a la fila i-sima. Marginal de X DistribucinunidimensionalformadaporlosvaloresXj(j=1,...,k)cuyafrecuencia asociada se obtiene sumando las casillas correspondientes a la columna j-sima. Estadstica e Investigacin Operativa 2 4.Ejemplo 1 (archivo en carpeta ARCHIVOS TEMA2) Doceindividuosseclasificaronsegn el sexo (hombre, mujer) y su deseo de ver o no una final de campeonato de ftbol que ser televisada: Dos formas de presentar los datos: a) Tabulados: Tabla de contingencia desea ver partido * SEXORecuento1 6 74 1 55 7 12sinodesea verpartidoTotalhembra varonSEXOTotal b) Sin tabular: SexoFutbol hombresi mujer no hombresi hombreno hombresi mujer no mujer no mujer si hombresi hombresi hombresi mujer no Obtenga: a)Tabla de contingencia b) Exprese la tabla anterior con frecuencias relativas (en porcentajes) c)Determine las condicionadas de Futbol a Sexo d)Marginales e)Test de independencia de sexo y futbol Introduccin de los datos Enlaventanadeleditordedatossedefinendoscolumnasdenombressexoyfutbol, ambas de tipo cadena (medida nominal).Parasexo,seleccionetipocadena.Introduzcalosvaloreshymenvezdehombre mujer.Luego,introduzcalasetiquetasdelasmodalidadeshombreymujer, respectivamente.Demodosimilarintroduzcalasetiquetas:SIyNOdelavariableftbolparalos valores 1 y 2, respectivamente.Luego etiquete los datos. Y guarde el data frame en un archivo de nombre ejemplo1. Estadstica e Investigacin Operativa 3 datos=edit(data.frame()) write.table(datos, file=ejemplo1) Si los archivos estn ya creados.bralos en un data frame de nombre datos. >datos=read.table('ejemplo1.dat', header=T) > datos sexof ut bol1h1 2m2 3h1 4h2 5h1 6m2 7m2 8m1 9h1 10h1 11h1 12m2 datos$sexo=factor(datos$sexo, labels=c("hombre", "mujer")) #Declara factor con etiquetas datos$futbol= factor(datos$futbol, labels=c("si", "no")) #Declara factor con etiquetas > datos sexof ut bol1hombr esi2muj er no 3hombr esi4hombr eno 5hombr esi6muj er no 7muj er no 8muj er si9hombr esi10hombr esi11hombr esi12muj er no Tabla de contingencia: > si no ftable(datos$sexo,datos$futbol) hombr e61 muj er 14 o bien, usando el data frame: > ftable(datos) f ut bol si no sexo hombr e61 muj er 14 Marginales: >td= ftable(datos) > addmargins(td) [ , 1] [ , 2] [ , 3][ 1, ] 617 [ 2, ] 145 [ 3, ] 7512 Estadstica e Investigacin Operativa 4 Mejor presentacin si se usa previamente table en vez de ftable: > td1=table(datos) > addmargins(td1) f ut bolsexosi noSumhombr e617 muj er 145 Sum7512 Expresin en proporciones: Distribucin bidimensional conjunta en frecuencias relativas: > prop.table(td) f ut bol si no sexo hombr e0. 500000000. 08333333 muj er 0. 083333330. 33333333 Expresin en proporciones: Condicionadas de futbol a valores del sexo > prop.table(td1,1) f ut bolsexosi no hombr e0. 85714290. 1428571 muj er 0. 20000000. 8000000 Expresin en proporciones: Condicionadas de sexo a valores del futbol > prop.table(td1,2) f ut bolsexosi no hombr e0. 85714290. 2000000 muj er 0. 14285710. 8000000 5.Estudio de la asociacin SeanXeYdoscaractersticas,cualitativasocuantitativas,coni=1,...,pyj=1,...q modalidades o categoras, respectivamente, presentadas en una tabla pxq. Una de las medidas de asociacin ms usadas en la prctica es: CHI-CUADRADO Medidaresumenquecomparalosvalores(nij)observadosenlatabla,conlosque tericamenteseobtendra(tij),enelsupuestodequelasvariablesXeYfuesen independientes. =piqj ijij ijtt n22) ( Los valores tericos tij se obtienen mediante: Estadstica e Investigacin Operativa 5marginales s frecuencia las n yn siendoj * i** *Nn ntj iij = Este estadstico toma valores comprendidos entre 0 y Nmn{p-1, q-1}, el valor 0 indica que el numerador de la expresin anterior es nulo, por tanto las frecuencias observadas coinciden con las que habra si las variables fuesen independientes; de donde se admite la independencia de X e Y.El hecho de que sus valores dependan tanto del nmero de elementos de la tabla (N), como del n de filas y columnas, hace difcil su interpretacin e impracticable la comparacin entre tablas. El estadstico Chi-cuadrado permite contrastar la hiptesis de independencia de X e Y, basndose en el conocimiento del comportamiento de Chi-cuadrado bajo la hiptesis de independencia:Modelo Chi-cuadrado con (p-1)(q-1) grados de libertad. 6.Analizar Tablas de contingencia(Continuacin con el ejemplo1) Test chi-cuadrado de independencia de factores: ElestadsticoChi-cuadradodePearsonseguirelmodeloChi-cuadradocon(p-1)(q-1) g.l.siNessuficientementegrande.CuandoNespequeoseintentamejorarel comportamientoefectuandounacorreccin,quesuelesercomplicadaparatablas generales pxq, con p y q mayores a 2. Rproporcionalacorreccinporcontinuidadparatablas2x2ylapruebaexactade Fisher, que aporta mejores resultados. El sistema avisa sobre la proporcin de casillas que presentan valores esperados inferiores a 5. Si la proporcin supera al 20% de las celdas, el estadstico Chi-cuadrado nocumplelosrequisitosnecesariosparapoderinterpretarlosinproblemas.Eneste ejemploel100%delascasillaspresentanvaloresinferioresa5,encuyocasola interpretacindesuvalornomerececonfianza.Noobstante,puedenusarseotras pruebas,talescomoelestadsticoexactodeFisher.Cuandolasfrecuenciasesperadas son menores que 5, en tablas 2x2, ser aconsejable el uso del test exacto de Fisher.Si lo que se desea contrastar es la independencia se tomar el p-valor correspondiente a dos colas (significacin bilateral).(vea en el ejemplo: 0,072). LapruebaexactadeFishersebasaenelmodelodeladistribucinhipergeomtrica, paraestimarlaprobabilidaddeobtenerlasfrecuenciasobservadasenlatabla,uotras frecuenciasmenosconsistentesconlahiptesisdeindependencia,correspondientesa situaciones an ms extremas que la observada. Dadoque0,072 chisq.test(table(datos)) Pearson's Chi-squared test with Yates' continuity correction data:table(datos)X-squared = 2.831, df = 1, p-value = 0.09246 Estadstica e Investigacin Operativa 6 Warning message: In chisq.test(table(datos)) : Chi-squared approximation may be incorrect Como es una tabla 2x2 con pocas observaciones, realizaremos tambin el test exacto de Fisher > fisher.test(table(datos))#Realiza el test de independencia exacto de Fisher Fisher's Exact Test for Count Data data:table(datos)p-value = 0.07197 alternative hypothesis: true odds ratio is not equal to 195 percent confidence interval: 0.747344 1351.222783sample estimates: odds ratio15.99491 Valoresesperadosbajoindependencia,observadosyresiduosestandarizados (observado menos esperado entre la raiz cuadrada del valor esperado): > a$expected f ut bolsexosi no hombr e4. 0833332. 916667 muj er 2. 9166672. 083333 > a$observed f ut bolsexosi no hombr e61 muj er 14 > a$residuals f ut bolsexosi no hombr e0. 948504- 1. 122285 muj er - 1. 1222851. 327906 7.Ejemplo 2 Latablasiguienteclasificaaungrupodepersonassegnsuopininsobreun documental televisivo y el nivel de estudios: Tabla de contingencia Nivel de estudios yopinin sobredocumentalRecuento1 10 30 4140 80 60 18025 12 3766 102 90 258bajomedioaltoNivel deestudiosTotalmalo regular buenoopinin sobredocumentalTotal Creeunarchivoconlosdatosanteriores,definiendolasvariablesestudios(nivelde estudios) y opinin (opinin sobre documental). Estadstica e Investigacin Operativa 7 A)Exprese las frecuencias en proporciones a) respecto al total (frecuencias relativas conjuntas)yb)respectoalavariableindependienteniveldeestudios(condicionadas deopininaestudios).Interpretesusvalores.Cmohandeefectuarselas comparacionesentrelasproporcionesparaestablecerlaposibleexistenciade asociacin? B)Contraste la hiptesis de independencia del nivel de estudios y opinin sobre el documental. C)Casoderesultardependienteslasvariables,determinealgunasmedidasdel grado de asociacin. El archivo de datos creado en el editor de R presentar un aspecto similar a: EstudiosOpinionnumper bajomalo1 mediomalo40 altomalo25 bajoregular10 medioregular80 altoregular12 bajobueno30 mediobueno60 altobueno0 Vea el archivo ejemplo2.dat en carpeta ARCHIVOS TEMA2 Lea el archivo: > d=read.table('ejemplo2.dat',header=T) > d est udi osopi ni nnumper1111 22140 33125 41210 52280 63212 71330 82360 Colocaremos etiquetas a los cdigos de las modalidades de los factores: > d$estudios=factor(d$estudios, labels=c("bajo", "medio", "alto")) > d$opinin=factor(d$opinin, labels=c("malo","regular",'bueno')) > d est udi osopi ni nnumper1baj omal o1 2medi omal o40 3al t omal o25 4baj or egul ar 10 5medi or egul ar 80 6al t or egul ar 12 7baj obueno30 8medi obueno60 Antes de comenzar el anlisis de la tabla de contingencia es preciso tener en cuenta que los datos estn tabulados con las frecuencias (numper). Estadstica e Investigacin Operativa 8 > xtabs(numper ~ ., d) opi ni n est udi osmal or egul ar bueno baj o11030 medi o408060 al t o25120 > tabla=xtabs(numper ~ ., d) > tabla opi ni n est udi osmal or egul ar bueno baj o11030 medi o408060 al t o25120 A)Lastablasquesemuestranacontinuacinrepresentanlasproporcioneso frecuenciasrelativasconjuntasylasproporcionescondicionadasdeopininsobre estudios. TABLA1:DistribucinbidimensionaldeEstudiosyOpinin.Frecuencias relativas > #conjunta > prop.table(tabla) opi ni n est udi osmal or egul ar bueno baj o0. 0038759690. 0387596900. 116279070 medi o0. 1550387600. 3100775190. 232558140 al t o0. 0968992250. 0465116280. 000000000 Latablaexpresaelcomportamientoconjuntodelosindividuosatendiendoados dimensiones: estudios y opinin. > round(prop.table(tabla),3) opinin est udi osmal or egul ar bueno baj o0. 0040. 0390. 116 medi o0. 1550. 3100. 233 al t o0. 0970. 0470. 000 Latablapresentaencadacasillalafrecuenciaconjunta(enproporciones)respectoal total.Cadavalorrepresentalaproporcindevecesqueaparececadavalor bidimensionalenlapoblacintotal.Porejemplo,podemosafirmarqueel23,3% (12/258x100)deltotaldeindividuosdelanlisistienenestudiosmediosycalificanel documental como bueno. > tabla2=round(prop.table(tabla),3) > addmargins(tabla2) opi ni n est udi osmal or egul ar buenoSumbaj o0. 0040. 0390. 1160. 159 medi o0. 1550. 3100. 2330. 698 al t o0. 0970. 0470. 0000. 144 Sum0. 2560. 3960. 3491. 001 >La fila y la columna Sum representan las frecuencias marginales.Por ejemplo,la fila de frecuencias relativas Sum indica cmo se distribuye la variable opinin para los 258 individuos,sin tener en cuenta su nivel de estudios. Estadstica e Investigacin Operativa 9 Condicionadas Latabladedistribucionescondicionadasdeopinin/estudiosseobtienedeterminando en vez de proporcin respecto al total, respecto a la suma de cada fila: > prop.table(tabla,1) opi ni n est udi osmal or egul ar bueno baj o0. 024390240. 243902440. 73170732 medi o0. 222222220. 444444440. 33333333 al t o0. 675675680. 324324320. 00000000 Adiferenciadelatabla1,stapresentanoslounadistribucin,sino3.Mientrasla primera tabla es bidimensional (distribucin conjunta de opinin y estudios), aqu slo tenemos conocimiento sobre la distribucin de una dimensin: opinin.Nada sabemos acerca de cmo se distribuye el nivel de estudios. La tabla nos indica cmo se distribuye la opinin en el grupo de individuos con nivel de estudios bajo, con nivel medio y con nivel alto. Silasvariablesopininyestudiosfueranindependientes,losindividuosopinarande modo similar, que es tanto como afirmar que cualquiera que sea su nivel de estudios, la distribucindelaopinineslamisma:distribucionescondicionadasdeopinina estudios son iguales. Enlamedidaenquelasdistribucionescondicionassediferenciennosestaremos alejandodelconceptodeindependenciayhabrqueadmitirquelasvariablesestn asociadas. Observe que en la tabla condicionada anterior, los clculos se han efectuado en sentido horizontal(dividiendocadacasillaentreeltotaldefila);portanto,lalecturadeber efectuarse en sentido vertical: comparando las casillas por columnas. Por ejemplo:0,024 con0,226con0,676.Lasgrandesdiferenciasqueexistenentreestasproporcionesno puedendebersealazar.Cabepensarquelasvariablesestnasociadas.Elnivelde estudios afecta a la opinin. Tabla de condicionadas de estudios a opinin: > prop.table(tabla,2) opi ni n est udi osmal or egul ar bueno baj o0. 015151520. 098039220. 33333333 medi o0. 606060610. 784313730. 66666667 al t o0. 378787880. 117647060. 00000000 B)Pararesponderconciertorigorcientficoalacuestindeexistenciaonode asociacin,efectuaremosuncontrastedehiptesismediantelapruebaChi-cuadrado.Admitamos un nivel de significacin, alfa, igual a 0,05. > a=chisq.test(tabla)> a Pear son' sChi - squar edt est dat a: t abl a X- squar ed= 69. 0831, df = 4, p- val ue= 3. 544e- 14 Estadstica e Investigacin Operativa 10 > a$expected opi ni n est udi osmal or egul ar bueno baj o10. 48837216. 2093014. 30233 medi o46. 04651271. 1627962. 79070 al t o9. 46511614. 6279112. 90698 > a$observed opi ni n est udi osmal or egul ar bueno baj o11030 medi o408060 al t o25120 > a$residuals opi ni n est udi osmal or egul ar bueno baj o- 2. 9297979- 1. 54227084. 1508017 medi o- 0. 89105911. 0475835- 0. 3521804 al t o5. 0494611- 0. 6870983- 3. 5926281 El valor del estadstico chi-cuadrado se obtiene de la expresin: =piqj ijij ijtt n22) ( Las frecuencias tericas tij se obtienen mediante: marginales s frecuencia las n yn siendoj * i** *Nn ntj iij = Por ejemplo: 5 , 1025841 66 1 * * 111== =Nn nt 0 , 46258180 66 2 * * 112== =Nn nt.... 9 , 1225837 90 3 * * 333== =Nn nt De donde: 083 , 699 , 12) 9 , 12 0 (...0 , 46) 0 , 46 40 (5 , 10) 5 , 10 1 (2 2 22=+ ++= Bajo la hiptesis nula: H0: Las variables estudios y opinin son independientes Estadstica e Investigacin Operativa 11 el estadstico Chi-cuadrado sigue un modelo de probabilidad Chi-cuadrado con (p-1)(q-1) grados de libertad. Siendo p=nmero de filas y q=nmero de columnas. El grfico siguiente muestra la funcin de densidad de dicha distribucin. Observemos que los valores ms probables estn comprendidos entre 0 y 9, la cola de la derecha se va estrechando cuanto ms nos alejamos a la derecha. La probabilidad de que la variable tome valores superiores a 69,083 es prcticamente nula 0,000. Ladecisindeaceptarorechazarlahiptesisnulasetomaenfuncindelvalor obtenidoparachi-cuadradoenlatabla.Sistecaeenlazonaderechazosedecide rechazarla; caso contrario, se acepta.El valor crtico que define la frontera de rechazo y aceptacineselpunto9,488,yaquepuedecomprobarsequeP(2>9,488)=0,05.Es evidente que el valor 69,083 cae en la zona de rechazo, pues est a la derecha de 9,488. SiH0escierta,esmuyimprobablequelavariabletomeelvalor69,083.Portanto, decidimos rechazar la hiptesis de independencia. Rproporcionalaprobabilidad:P(2>69,083)=0,000denominadop-valor.Sistees menor que el nivel de significacin elegido para contrastar la hiptesis, es porque cae en la zona de rechazo. En resumen, la decisin se toma comparando el p-valor con el nivel de significacin alfa: Si p-valor < RECHAZO H0Si p-valor > NO RECHAZO H0 Enelejemploelp-valorasociadoa69,083esiguala3.544e-14 d=read.table('eje3.dat',header=T) > d sal ar i oedadnumper so 13521, 5335 27521, 5402 312521, 538 Estadstica e Investigacin Operativa 13435301022 575301429 612530841 735502132 875502427 9125502511 > d$salario=factor(d$salario, labels=c("bajo", "medio", "alto")) > d$edad=factor(d$edad, labels=c("joven","medio",'mayor')) > d sal ar i oedadnumper so 1baj oj oven335 2medi oj oven402 3al t oj oven38 4baj omedi o1022 5medi omedi o1429 6al t omedi o841 7baj omayor 2132 8medi omayor 2427 9al t omayor 2511 > tabla=xtabs(numperso ~ ., d) > tabla edad sal ar i oj ovenmedi omayorbaj o33510222132 medi o40214292427 al t o388412511 La distribucin marginal del salarioest formada por las clases salariales (20-50, 50-100, 100-150) (etiquetadas con bajo medio y alto) y las correspondientes frecuencias en la columna Sum.Ladistribucinmarginalestformadaporlasclasesdelaedad(18-25,25-35, 35-65) (etiquetadas como joven, medio y mayor) y las correspondientes frecuencias en la fila Sum. Distribucin condicional del salario a la edad de 18-25 aos:Est formada por los valores del salario y los porcentajes de la primera columna (18-25 aos): 43,2, 51,9 y 4,9 que representan las frecuencias relativas, multiplicadas por 100, correspondientes a los valores salariales. De modo similar se obtienen las condicionadas del salario a los otros valores de la edad. Observe que las frecuencias se obtienen dividiendo cada casilla por el total de columna. Se rechaza la hiptesis de independencia del salario y la edad. Segn la tabla siguiente el p-valor asociado al estadstico Chi-cuadrado es 0,000 altamente significativo. > a=chisq.test(tabla)> a Pear son' sChi - squar edt est dat a: t abl a X- squar ed= 378. 9477, df = 4, p- val ue< 2. 2e- 16 Clasificacin mltiple: 10.Ejemplo 4 Supongamos que los datos del ejemplo anterior se han clasificado ahora atendiendo a 3 variables.Nos interesa estudiar el salario y su relacin con otros factores que ayuden a Estadstica e Investigacin Operativa 14interpretarlarelacinquesepusodemanifiestoentreedadysalario.Introducimosel factor de control tipo de trabajo (manual e intelectual). manualintelectualSALARIO (Miles)18-2518-25 25-35 18-25 18-2525-3520-50165644 1800 170 37833250-100168672 1763 234 757664100-1501784 187 21 7572234 A)Condicionadas del Salario a la Edad, controlando por tipo de trabajo. B) Estudio de la independencia del Salario y Edad, mediante Chi-cuadrado El archivo de datos contendr las siguientes columnas: SalarioEdadtipotra numperso20-5025-35manual644 50-100 25-35manual672 100-15025-35manual84 20-5035-65manual1800 50-100 35-65manual1763 100-15035-65manual187 20-5018-25intelectual170 50-100 18-25intelectual234 100-15018-25intelectual21 20-5025-35intelectual378 50-100 25-35intelectual757 100-15025-35intelectual757 20-5035-65intelectual332 50-100 35-65intelectual664 100-15035-65intelectual2234 > d=read.table('eje4.dat',header=T) > d sal ar i oedadt i pot r abnumper so 13521, 51165 27521, 51168 312521, 5117 435301644 575301672 612530184 7355011800 8755011763 9125501187 103521, 52170 117521, 52234 1212521, 5221 1335302378 1475302757 15125302757 1635502332 1775502664 181255022234 > d$tipotrab=factor(d$tipotrab, labels=c("manual","intelectual")) Estadstica e Investigacin Operativa 15> d sal ar i oedadt i pot r abnumper so 13521, 5manual 165 27521, 5manual 168 312521, 5manual 17 43530manual 644 57530manual 672 612530manual 84 73550manual 1800 87550manual 1763 912550manual 187 103521, 5i nt el ect ur al 170 117521, 5i nt el ect ur al 234 1212521, 5i nt el ect ur al 21 133530i nt el ect ur al 378 147530i nt el ect ur al 757 1512530i nt el ect ur al 757 163550i nt el ect ur al 332 177550i nt el ect ur al 664 1812550i nt el ect ur al 2234 > tab1=ftable(xtabs(numperso ~ edad+salario, subset=tipotrab==1 ,data = d)) > chisq.test(tab1) Pear son' sChi - squar edt est dat a: t ab1 X- squar ed= 3. 2136, df = 4, p- val ue= 0. 5227 > tab1=ftable(xtabs(numperso ~ edad+salario, subset=tipotrab==2 ,data = d)) > chisq.test(tab1) Pear son' sChi - squar edt est dat a: t ab1 X- squar ed= 882. 5047, df = 4, p- val ue< 2. 2e- 16 Enlascondicionadasdeedadxsalario,dadoeltipodetrabajo,enfrecuencias absolutas, no permiten apreciar directamente la relacin entre las variables: > tabla=xtabs(numperso ~ ., d) > tabla , , t i pot r ab= manual edad sal ar i o21, 53050 351656441800 751686721763 1251784187 , , t i pot r ab= i nt el ect ual edad sal ar i o21, 53050 35170378332 75234757664 125217572234 Estudiaremosparacadatipodetrabajo(manual,intelectual)siexisteonoasociacin entre sexo y salario: > tab1=ftable(xtabs(numperso ~ edad+salario, subset=tipotrab=="manual" ,data = d)) > chisq.test(tab1) Pear son' sChi - squar edt est dat a: t ab1 X- squar ed= 3. 2136, df = 4, p- val ue= 0. 5227 > tab1 sal ar i o3575125 Estadstica e Investigacin Operativa 16edad 21, 516516817 3064467284 5018001763187 Latablaanteriormuestraqueparaelgrupodetrabajadoresmanualnoexiste asociacinentresalarioyedad.Talcomomuestraelp-valorcorrespondienteal contraste de hiptesis de independencia de salario y edad. La relacin entre salario y edad presenta un nivel de significacin igual a 0,523 > 0,05. Nopuederechazarselahiptesisdeindependenciadelsalarioyedadparalos trabajadores de la categora manual. Porelcontrario,sseapreciafuerterelacinentrelasvariablessexoysalarioparael tipo de trabajador intelectual, tal como muestra el resultado siguiente.La relacin es altamente significativa: El nivel de significacin (2.2e-16) permite rechazar la hiptesis de independencia. > tab1=ftable(xtabs(numperso ~ edad+salario, subset=tipotrab=="intelectual" ,data = d)) > chisq.test(tab1) Pear son' sChi - squar edt est dat a: t ab1 X- squar ed= 882. 5047, df = 4, p- val ue< 2. 2e- 16 > t ab1 sal ar i o3575125 edad 21, 517023421 30378757757 503326642234 Paracompletarelanlisismostramoslascondicionadasrelativasasalarioysexo, distinguiendo por tipo de trabajador: 1. Condicionada del salario a la edad, para el grupo de trabajadores intelectuales: Lalecturadelatabladeberealizarseverticalmente,dadoquelosclculossehan realizadodividiendoporlostotalesfila(redondeandoacentsimas,comparamos,por ejemplo,0,40con0,20,con0,10,loquedemuestratalcomodemuestraeltestchi-cuadrado, la fuerte relacin entre las variables en este colectivo) > pr op. t abl e( t ab1, 1)sal ar i o3575125 edad 21, 50. 400000000. 550588240. 04941176 300. 199788580. 400105710. 40010571 500. 102786380. 205572760. 69164087 De modo similar se puede ver la tabla condicionada de salario a edad para el grupo de trabajadores de tipo manual.Aqu la asociacin entre sexo y salario no es importante, tal como muestra la tabla siguiente y el test chi-cuadrado, previamente realizado: > pr op. t abl e( t ab1, 1)sal ar i o3575125 edad 21, 50. 471428570. 480000000. 04857143 300. 460000000. 480000000. 06000000 500. 480000000. 470133330. 04986667 (comparamos,porejemplo,0,47con0,46con0,48;0,48con0,48con0,47;ypor ltimo: 0,05 con 0,06 con 0,05) Enresumen,lascondicionadasdelsalarioalaedadmuestrangrandesdiferenciassiel trabajo es intelectual.No ocurre lo mismo para los trabajadores de la otra categora. Estadstica e Investigacin Operativa 17 11.FUNCIONES R USADAS EN ANLISIS DE TABLAS DE CONTINGENCIA addmargins(); chisq.test();factor();fisher.test();ftable();prop.table();table();xtabs(). Estadstica e Investigacin Operativa 18