1
25 UBA Sociales ANIVERSARIO 1988 – 2013 FACULTAD DE CIENCIAS SOCIALES
CARRERA DE SOCIOLOGÍA – UBA
METODOLOGÍA DE LA INVESTIGACIÓN
CÁTEDRA: COHEN
CUADERNO DE CÁTEDRA Nº 5
“Análisis Descriptivo de los Datos”
Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid
2
Cuaderno de cátedra Nº 5
“Análisis Descriptivo de los Datos”
Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid
1. Introducción
En este Cuaderno de Cátedra se presentarán algunas nociones elementales de
análisis descriptivo de datos producidos con un enfoque cuantitativo. Si bien en
algunos manuales de metodología de la investigación y estadística social la
denominación “estadística descriptiva” alude al análisis univariado, el presente
documento se referirá al análisis que vincula variables entre sí, advirtiendo que
para cumplir cabalmente objetivos descriptivos no es suficiente con conocer la
distribución de cada variable por separado, sino que se requiere complejizar el
análisis introduciéndose en las relaciones entre variables1. Este Cuaderno de
Cátedra se concentrará en la etapa de análisis cuantitativo de datos organizados
en tablas, para objetivos descriptivos, de relaciones bivariadas de cualquier nivel
de medición.
En primer lugar, se presentará un marco general del análisis descriptivo en
investigaciones con abordajes cuantitativos, de modo tal de situar el tema de este
trabajo en el proceso general de investigación social. En los siguientes apartados
se presentarán la prueba de hipótesis de ji cuadrado, los coeficientes de
asociación y la lectura de porcentajes, en tanto herramientas cuyo uso conjunto
permite aprovechar su complementariedad.
El Cuaderno de Cátedra Nº 3 “Elaboración y análisis de distintos tipos de cuadros”
profundiza el proceso de elaboración e interpretación de cuadros, por lo cual se
recomienda su lectura previa. El Cuaderno Nº 1 “La aplicación de técnicas
multivariadas en Ciencias Sociales” avanza sobre el análisis de más de dos
variables simultáneamente, desarrollando contenidos necesarios para comprender
cómo extender al análisis multivariado las herramientas desarrolladas en el
presente cuaderno.
En el anexo del Cuaderno, se presenta el desarrollo de un ejemplo de aplicación
de las herramientas desarrolladas a continuación.
1 El análisis descriptivo requiere del estudio de las relaciones entre variables, dado que el análisis de cada variable por separado no es suficiente a tal fin. Complementariamente con ello, el análisis de las relaciones entre dos variables no implica alcanzar una explicación del fenómeno en estudio. Para tal fin se requiere emprender un análisis multivariado. Ver cuaderno de cátedra número 1.
3
2. Análisis descriptivo de datos cuantitativos
Un proceso de producción de conocimiento puede tener distintos tipos de
objetivos, de acuerdo con los cuales se elaborará un adecuado desarrollo
metodológico de investigación. Los objetivos, en tanto metas que orientan el
avance de una investigación, permiten llevar a cabo la producción de los datos
adecuados para intentar responder a los interrogantes que dieron origen al
proceso (Cohen y Gómez Rojas, 2003). Los objetivos de tipo descriptivo implican
que la meta consiste en llegar a representar el objeto de estudio, delineando sus
principales características, refiriendo sus componentes y dando cuenta del
comportamiento de algunos de sus atributos y relaciones más relevantes. El
aspecto principal de la descripción para la producción de conocimiento científico
reside en poder establecer vínculos entre conceptos.
Los datos, a pesar de su origen etimológico (del latín datum, lo dado), son
construidos siempre desde una perspectiva teórica, para responder a una
determinada problemática, mediante la aplicación de técnicas y procedimientos
que también implican supuestos teóricos. Puede advertirse que expresiones tales
como “recolección de datos” poseen connotaciones que pueden contribuir al error
de pensar los datos sólo en su contenido informativo, olvidando que el mismo
resulta inseparable de la elaboración conceptual y operativa del investigador.
Una vez realizada la etapa de relevamiento, cuando se trabaja con un abordaje
cuantitativo, se elabora una matriz que clasifica cada caso según el valor que
asume en cada variable, constituyéndose una estructura tripartita de los datos
(Galtung, 1973). Esta matriz de datos contiene de manera desagregada toda la
información que ha sido registrada en la etapa de trabajo de campo y a partir de la
cual será posible pasar a la etapa del análisis de los datos. Las variables de una
matriz de datos, cabe destacar, no son sino aquellos conceptos que se ha
decidido que debían ser considerados en el relevamiento a partir de los
interrogantes, los objetivos, las hipótesis y el marco teórico de la investigación.
La matriz vuelve visible la estructura tripartita de los datos -unidades de análisis,
variables y categorías-, lo que resulta ventajoso puesto que “poniendo diferentes
referentes del mismo tipo en sus filas y la misma secuencia de propiedades en sus
columnas, permite relacionar rápida y sistemáticamente un sinnúmero de estados
de los mismos objetos/sujetos en distintas propiedades, controlando así si existe
una relación cualquiera entre esas propiedades” (Marradi, Archenti y Piovani,
2010: 5). Esta ventaja tiene como contracara un costo semántico, derivado del
supuesto atomista, que implica asumir que cada caso puede descomponerse en
propiedades, que los estados en una propiedad pueden separarse de su
4
detentador y que los datos con el mismo valor en la misma variable son
asimilables entre ellos (Op.cit., pp.5-6).
De cualquier manera, con la matriz por sí sola no es posible avanzar en el análisis.
Es necesario retomar los interrogantes, objetivos e hipótesis para determinar qué
es lo que ha de analizarse. Es necesario decidir cuáles son las variables de
estudio cuyo comportamiento merece ser observado individualmente por presentar
interés en sí mismo y cuáles variables interesan para ser observadas en su
relación con otras. En este último caso, el hecho de que haya relaciones entre
variables que se consideren relevantes para analizar obedece a la existencia de
hipótesis, es decir, supuestos acerca de los posibles vínculos entre conceptos
susceptibles de ser confrontados con los datos.
Para comenzar a describir cuantitativamente una población, pueden emplearse
análisis univariados, es decir, del comportamiento de cada una de las variables de
interés por separado, mediante distribuciones de frecuencias absolutas, relativas y
acumuladas, gráficos, medidas de tendencia central, de posición y de dispersión,
como un primer modo de analizar y caracterizar los casos con los que contamos
en un proceso de investigación. Por ejemplo, cuando las unidades de análisis son
personas puede ser interesante describir la distribución de los casos según
variables sociodemográficas como sexo, edad, lugar de residencia, estado civil,
máximo nivel educativo alcanzado, etc. También puede ser relevante observar el
comportamiento de las variables de estudio, aquellas en las que se enfoquen las
preguntas y objetivos, y que en los análisis bivariados frecuentemente pasarán a
ser las variables dependientes, cuya variación se procurará comprender. El
análisis univariado brinda, entonces, un panorama introductorio sobre cómo se
comportan los fenómenos, a partir de la descripción de las distribuciones de cada
variable por separado. Es a partir del análisis bivariado que se vuelve posible
describir las relaciones entre variables del fenómeno en estudio.
Cuando se decide qué es relevante observar de la relación entre dos o más
variables es porque se ha propuesto una hipótesis de trabajo. Si bien estas
hipótesis surgen de nuestro enfoque teórico, a lo largo del proceso de
investigación puede que surjan otras, producto del avance de nuestro
conocimiento en la problemática. En el proceso de construcción de las tablas que
concentran nuestros datos es donde nuestras hipótesis comienzan a verse
reflejadas. Si bien su contrastación permite avanzar en la producción de
conocimiento, generalmente no agotan en sí mismas los objetivos de
investigación, sino que es el conjunto de estas hipótesis de trabajo, contrastadas
en las tablas que se producen, con la articulación teórica y la ilación lógica que le
5
confieren quienes investigan, lo que puede dar respuesta a los interrogantes y
cumplir los objetivos.
Las hipótesis, constituidas por relaciones entre conceptos del marco teórico,
permiten vincular este universo conceptual con los datos. Los datos son producto
de un proceso teórico de construcción y sólo desde la teoría pueden ser
interpretados, siendo las hipótesis las mediaciones imprescindibles que expresan
lo que desde la teoría se espera que ocurra con los datos producidos. En el
momento de planear el análisis, el protagonismo lo tienen las hipótesis, que
permiten avanzar en el procesamiento para obtener las tabulaciones previstas a
fin de cumplir los objetivos y responder los interrogantes. Se deben determinar las
variables que deben ser relacionadas y, preferentemente, tener en claro de qué
modo se espera que se vinculen las categorías de las variables entre sí. El tipo de
hipótesis, el nivel de medición de las variables, los roles que cumplen las variables
en la hipótesis, la cantidad de casos con que se trabaje y la cantidad de categorías
de las variables -y su posible reagrupamiento en otros sistemas de categorías- son
todos aspectos que entran en juego en las posibilidades y restricciones de
tratamiento estadístico de los datos.
El plan de análisis2 implica una labor de previsión y reflexión sobre las estrategias
de análisis y el detalle de procedimientos que deben llevarse a cabo para cumplir
los objetivos. El plan de análisis cuantitativo contiene un plan de cuadros, esto es,
las decisiones relativas a todas las tablas que se confeccionarán, formalizando las
hipótesis que se tengan, en torno a las cuales se han de interpretar los datos
producidos. Cada tabla que se elaborará tiene su razón de ser en que hay un
supuesto teórico acerca de lo que ocurrirá con los datos. Si en lugar de darle
formato de procesamiento a las hipótesis se procediera observando todos los
cruces posibles de variables, esta sería una tarea no sólo innecesaria y engorrosa,
sino ante todo carente de relevancia teórica, que tendría como resultado datos
desconectados de la teoría, que por sí solos no pueden constituir un avance en la
producción de conocimiento científico.
Una vez que se ha procesado y tabulado los datos según el plan de análisis, se
está en condiciones de avanzar en el análisis para cumplir los objetivos. “La
producción de evidencia empírica es una condición necesaria pero no suficiente
para llevar a cabo una investigación; los datos construidos u obtenidos deben ser
2 El plan de análisis expresa aquellos supuestos que nos hemos planteado respecto a las maneras en que las variables van a comportarse en función de las vinculaciones que establezcamos a partir de cómo esperamos que se conecten sus categorías. Esto es, en función de las hipótesis de trabajo que nos hayamos propuesto tendremos como resultado un determinado plan de análisis que expresará luego la manera en que se presentarán en los cuadros nuestras variables.
6
analizados a la luz de la teoría que guía y da sustento al estudio” (Sautu, 2010:
128). Tanto la producción de datos como las decisiones relativas al análisis deben
entenderse en el marco de lo que constituye una estrategia teórico-metodológica
de contrastación del universo de conceptos con el fenómeno de estudio, para la
resolución de los problemas de investigación que se plantean desde una
perspectiva teórica con determinado estado de conocimiento acumulado (Cohen,
1997).
Cuando se trabaja con abordajes cuantitativos, se utilizan habitualmente
herramientas estadísticas para el análisis, pero es necesario no asimilar por
completo análisis cuantitativo y análisis estadístico. “No hay nada más técnico (en
el sentido de conocimiento objetivado, impersonal, basado en procedimientos
normados, recurrentemente aplicables y ampliamente aceptados) en la
investigación estándar que sus herramientas de análisis (estadístico) (…) Esto no
significa que las técnicas estadísticas resuelvan por sí solas los múltiples y
complejos aspectos que encierra la mediación entre un conjunto de informaciones
empíricamente construidas y algún tipo de interpretación de éstas” (Marradi,
Archenti y Piovani, 2010: 264). En el mismo sentido, Blalock (1986) recuerda que
la estadística no comprende problemas como los de medición, sino que las
consideraciones estadísticas intervienen en decisiones relativas a la construcción
de la muestra y a la manipulación de cifras, dando por supuesto el cumplimiento
de requisitos en la medición. El hecho de que la estadística sólo intervenga en
algunas decisiones técnicas del muestreo y análisis no debe entenderse como si
el investigador pudiera llevar a cabo su trabajo sin conocimiento de estadística y
delegar en un especialista el análisis estadístico, sino que los problemas del
análisis han de anticiparse, influyendo las consideraciones estadísticas a lo largo
de todo el proceso de investigación. Teoría, metodología y técnicas deben
articularse reflexivamente, atendiendo a la coherencia y ejerciendo vigilancia
epistemológica.
El clásico concepto de espacio de propiedades, desarrollado por Barton (1973),
resulta elemental para aprehender los fundamentos de la metodología cuantitativa
y el recurso a las técnicas estadísticas. Pensar en términos de un espacio de
propiedades significa que las celdas que devienen de la combinación de dos o
más atributos pueden comprenderse de manera análoga a los puntos establecidos
a partir de un sistema de coordenadas. Cada espacio de propiedades clasifica un
subconjunto de casos que presentan simultáneamente las dos o más propiedades
cuya combinación genera el espacio. A partir de la distribución de los casos en los
espacios de propiedades, con el auxilio del cálculo de porcentajes, es posible
examinar las relaciones entre variables mediante una lectura comparativa de las
frecuencias.
7
3. Tres recursos para el análisis de relaciones entre variables
Siguiendo a García Ferrando (1995: 218), se puede caracterizar la relación entre
dos variables según la existencia de asociación, la fuerza, la dirección y la
naturaleza de la misma.
La existencia de asociación implica que la distribución de una variable difiere de
algún modo entre las categorías de la segunda variable, alejándose de la
independencia estadística3, lo cual puede determinarse a partir del análisis de
diferencias porcentuales y de la comparación de las frecuencias esperadas con las
observadas, mediante la prueba de hipótesis de ji cuadrado, esta última para los
casos en que se trabaje con muestras probabilísticas.
El grado o fuerza de la asociación varía según cuánto se aleje la relación de la
independencia estadística. Como las diferencias porcentuales y la comparación
entre frecuencias observadas y esperadas no varían de una forma
predeterminada, se han establecido algunos coeficientes estandarizados, que
varían de forma fija entre un valor mínimo –cero- y un máximo –uno-, facilitando su
interpretación. Estos coeficientes permiten conocer también, cuando las variables
son como mínimo de nivel de medición ordinal, la dirección de la asociación, que
puede ser positiva, cuando los valores altos de una variable se corresponden con
los valores altos de la otra -y los valores bajos con los valores bajos-, o negativa, -
cuando los valores altos de una variable se corresponden con los bajos de la
segunda -y viceversa-4.
Por último, la naturaleza es la forma general en que se distribuyen los datos en un
cuadro, que puede ser lineal o diagonal, curvilineal o rinconal e irregular; esta
última forma sólo puede ser examinada mediante la lectura analítica del cuadro, ya
que las medidas resumen de asociación no permiten medirla sino que la
presuponen en las operaciones que realizan para calcular la fuerza.
Siguiendo esta lógica, un primer paso en el análisis de los datos5 en función de
una hipótesis puede darse mediante el test de significación estadística de ji
cuadrado (χ2) que permite establecer si existe relación estadísticamente
significativa entre las variables o si hay independencia estadística. El ji cuadrado
3 Entendida como la inexistencia de relación entre las variables analizadas. Ello refiere a que cualquiera sea el valor que asuma una variable en estudio A, la variable B se mantendrá constante. 4 Es importante aclarar que en las asociaciones observadas para variables de nivel de medición nominal, éstas también poseen un sentido en cuanto a su relación, pero este no puede interpretarse a partir de un signo positivo o negativo, sino que se hace observable a partir del modo en que se distribuyen las frecuencias al interior de la tabla. 5 Si bien en este artículo hemos propuesto una secuencia de estas herramientas no implican en sí mismas un orden ni jerarquía preestablecida.
8
nos permite testear si las relaciones entre las variables e hipótesis observadas en
una muestra probabilística puede ser extrapolada al universo con un determinado
nivel de confianza. Esta prueba de hipótesis define el escenario estadístico en que
se trabaja, por eso constituye un buen primer paso en el análisis.
Queda definido así el contexto respecto a la existencia o no de una relación
estadísticamente significativa, e independientemente del resultado del test6, es
posible contar con un panorama de la fuerza y el sentido de la relación entre
variables mediante coeficientes de asociación, los cuales son medidas resúmenes
estandarizadas que permiten conocer grosso modo qué ocurre con una relación
entre variables. En una única medida se sintetiza la intensidad de la relación y, en
algunas de ellas, permite conocer también el sentido. Este sentido o dirección de
la relación puede ser positivo -cuando ambas variables crecen o decrecen
conjuntamente- o negativo -cuando una crece mientras la otra decrece- cuyo nivel
de medición es ordinal o mayor.
Con la prueba de hipótesis y los coeficientes de asociación ya se cuenta con una
primera aproximación global y sintética de la relación estudiada. Con la lectura
analítica de porcentajes es posible conocer en detalle cómo se distribuyen las
unidades de análisis en los espacios de propiedades generados por la tabulación
cruzada de variables de cualquier nivel de medición. Dado que en la mayoría de
los casos las covariaciones no son perfectas ni lineales, la lectura de porcentajes
permite analizar las particularidades de cada cuadro con respecto a la forma de
distribución de unidades de análisis en los espacios de propiedad, visualizando,
por ejemplo, de qué modo una hipótesis puede tender a corroborarse
parcialmente, en distinta medida para algunas categorías de la variable
dependiente que para otras.
En lo que sigue, se presentará cada una de estas tres herramientas de análisis
descriptivo de relaciones bivariadas: ji cuadrado, coeficientes de asociación y
lectura de porcentajes. Este conjunto de recursos usados en combinación
permiten realizar un análisis exhaustivo de lo que ocurre en los datos para cada
hipótesis de trabajo, complementando la información global que proporcionan la
prueba de hipótesis y los coeficientes con la lectura desagregada de las
distribuciones porcentuales en los espacios.
6 Cabe destacar que si en una investigación las relaciones entre variables observadas no pueden ser extrapolables al universo –no son estadísticamente significativas-, pueden igualmente ser teóricamente relevantes para la población a partir de la cual se han construido los datos.
9
Ji cuadrado como prueba de significación estadística
Cuando dos variables están relacionadas varían conjuntamente en algún grado,
existiendo covariación o varianza en común. Cuando la covariación o varianza en
conjunto de ambas variables alcanza su nivel máximo -en que toda la varianza de
una variable coincide con la varianza de otra- existe una asociación perfecta. Por
la complejidad y multicausalidad del mundo social, no es habitual en ciencias
sociales encontrar asociaciones perfectas entre variables. De hecho, cuando se
constata una asociación perfecta, es necesario dilucidar por qué ocurre,
contemplando la posibilidad de que se trate, por ejemplo, de dos indicadores de un
mismo concepto.
No obstante, la asociación perfecta es muy útil en tanto situación extrema con la
cual confrontar los datos con que se dispone en una tabla bivariada. Cuando hay
asociación perfecta cada categoría de una variable se encuentra asociada con una
sola categoría de la otra. En una tabla, los casos se concentran en la diagonal y el
resto de los espacios de propiedades tendrán cero casos, con lo cual las
diferencias porcentuales serán del 100%. El caso opuesto a la asociación perfecta
es el de independencia estadística, en que no hay ninguna covariación entre las
variables, de modo tal que los casos se distribuyen en la tabla bivariada al igual
que lo harían en una distribución univariable, con lo cual las diferencias
porcentuales serán de 0%.
El test de ji cuadrado nos permite saber si la relación observada entre
determinadas variables en nuestra muestra puede ser inferible, bajo determinados
niveles de confianza, al universo de estudio. Para ello pone en relación la hipótesis
nula con la hipótesis de trabajo. Una hipótesis nula es una hipótesis que afirma la
independencia estadística, es decir, la ausencia de asociación entre variables, lo
contrario a lo que afirma la hipótesis de trabajo7. Cuando se trabaja con muestras
aleatorias el test de hipótesis de ji cuadrado8 permite decidir si puede rechazarse
la hipótesis nula para un nivel de confianza dado. Si se rechaza la hipótesis nula,
se está descartando, asumiendo determinado riesgo, que se trate de una situación
de independencia estadística y se está aceptando que hay alguna asociación
estadística entre las variables de la hipótesis de trabajo, con determinado nivel de
confianza. No rechazar la hipótesis nula implica que la hipótesis de trabajo no es
7 Ambas hipótesis se excluyen mutuamente: el rechazo de la hipótesis nula implica que puede aceptarse, con determinados niveles de confianza, la hipótesis de trabajo. En este caso, lo que rechazamos es la hipótesis de independencia estadística y por tanto, implica que la relación entre las variables observadas en la muestra es inferible al universo en estudio. El no rechazo de la hipótesis nula a cierto nivel de confianza, implica que no puede afirmarse que esa relación ocurra también en el universo, lo que no significa que no tenga relevancia teórica. 8 Existen otros tipos de test de hipótesis, aquí sólo tomamos uno de ellos.
10
estadísticamente significativa para determinado nivel de confianza, mas no implica
necesariamente que se acepte la hipótesis nula ni que deba darse por finalizado el
análisis de la relación.
El ji cuadrado no permite analizar las categorías o valores de las variables, sino
cómo las unidades de análisis se distribuyen en los espacios de propiedades, por
lo cual puede ser utilizado con variables de cualquier nivel de medición. Se utiliza
para relaciones entre variables nominales u ordinales, puesto que existen otras
pruebas para variables intervalares.
El ji cuadrado compara frecuencias absolutas, no porcentajes. Opera a partir de la
comparación entre las frecuencias observadas y las frecuencias esperadas. Las
frecuencias observadas son simplemente los casos relevados distribuidos en los
espacios de una tabla. Las frecuencias esperadas son aquellas que cabría esperar
si hubiese independencia estadística. Para cada espacio de propiedad de un
cuadro, la frecuencia esperada se obtiene multiplicando las frecuencias
marginales entre sí y dividiendo el producto por el total de casos. De este modo,
se obtiene una distribución de los casos en el cuadro que mantiene las frecuencias
marginales observadas de cada variable pero distribuye los casos en los espacios
de propiedades, de modo tal que las frecuencias condicionales sean las que
cabría esperar por meras desviaciones en la muestra en ausencia de asociación
en la población.
Es posible elaborar una tabla de frecuencias esperadas o datos teóricos y
compararla con la tabla de frecuencias observadas o datos reales. Si no se
observa diferencia entre las mismas se puede decir que hay una ausencia de
asociación entre las dos variables o independencia estadística. Si hay diferencia
entre las frecuencias observadas y esperadas, es necesario evaluar si los datos
reales se alejan lo suficiente de la independencia estadística como para rechazar
la hipótesis nula con un nivel de confianza razonable. Para ello, se realiza el
cálculo del ji cuadrado. Siendo Fo las frecuencias observadas y Fe las frecuencias
esperadas, la fórmula de ji cuadrado es:
χ2 = ∑(Fo−Fe)2
Fe
El residual o diferencia entre frecuencias observadas y esperadas de cada espacio
se eleva al cuadrado, anulando los signos negativos. Para normalizar los residuos
elevados al cuadrado de cada espacios de propiedad, se divide por la frecuencia
esperada. Al sumar los resultados se obtiene el ji cuadrado empírico (Xe2), que
puede adoptar valores desde cero hasta infinito. Cuanto más pequeño sea el valor
11
de ji cuadrado, más fácil es no estar en condiciones de rechazar la hipótesis nula.
Como el valor de ji cuadrado aumenta con el tamaño de la muestra, no habiendo
un límite superior, para decidir el rechazo o no rechazo de la hipótesis nula, es
necesario compararlo con el ji cuadrado teórico (Xt2). El ji cuadrado teórico, crítico
o de tabla proviene de una distribución estadística que relaciona valores teóricos
de ji cuadrado con sus posibilidades de ocurrencia por el sólo efecto del error
muestral.
La distribución teórica de ji cuadrado permite conocer cuál es el valor con el que
comparar el ji cuadrado empírico, según los grados de libertad de la tabla y el nivel
de confianza con que se decida trabajar. Los grados de libertad de una tabla se
determinan según la mínima cantidad de frecuencias condicionales que necesitan
conocerse para poder calcular las restantes, para frecuencias marginales dadas.
Se calcula multiplicando la cantidad de columnas menos uno por la cantidad de
filas menos uno [GL= (c-1) x (f-1)]. Por ejemplo, una tabla de dos columnas por
dos filas tiene un grado de libertad.
El nivel de confianza es el complemento del riesgo. Este último es la probabilidad
de rechazar la hipótesis nula siendo esta verdadera, o lo que es lo mismo, la
probabilidad de cometer error de tipo I. El error de tipo I consiste en aceptar la
hipótesis de trabajo, cuando en realidad la relación no existe en el universo bajo
estudio. La situación inversa es el error de tipo II, o probabilidad de no rechazar la
hipótesis nula siendo esta falsa. En el error de tipo II se rechaza la hipótesis de
trabajo, cuando sí es estadísticamente significativa. En ambas situaciones no se
trata de errores en tanto decisiones desacertadas por la impericia del investigador,
sino que son errores estadísticos, probabilidades que quienes investigan asumen
como riesgos propios de los instrumentos estadísticos que se utilizan. Por
convención, suele trabajarse con un 95% de confianza en Ciencias Sociales, lo
cual equivale a decir que el riesgo o significación más habitual es de 0.05. El
cálculo del error de tipo II es más complejo porque requiere de la utilización de
supuestos adicionales.
Si al comparar los valores obtenidos, el ji cuadrado teórico es mayor al ji cuadrado
empírico (Xt2 > Xe
2) la hipótesis nula no puede ser rechazada, por lo que la
hipótesis de trabajo no es aceptada. Por el contrario, si el ji cuadrado teórico es
menor o igual al ji cuadrado empírico (Xt2 ≤ Xe
2) la hipótesis nula se rechaza y se
acepta la hipótesis de trabajo, considerando que existe una relación
estadísticamente significativa entre las variables.
En la actualidad, los paquetes estadísticos informáticos como el SPSS -Statistical
Package for the Social Sciences- además de arrojar el valor de ji cuadrado
12
empírico para un cuadro determinado, calculan la significación empírica o p-valor,
que indica la probabilidad de que sea cierta la hipótesis nula en la población para
determinado ji cuadrado empírico. El nivel de significación teórico con el que se
compara habitualmente es 0.05 -eventualmente 0.01-, de modo tal que los niveles
de significación empírica menores indicarán que se está en condiciones de
rechazar la hipótesis nula. La ventaja de utilizar este procedimiento operativo para
hacer la prueba de hipótesis es que se puede conocer con exactitud y sin
necesidad de consultar la tabla de la distribución teórica de ji cuadrado con qué
nivel de confianza se puede rechazar la hipótesis nula. Por ejemplo, si el p-valor
fuera de 0.007, se determina que la hipótesis nula puede rechazarse con 99.3%
de confianza.
Cuando se analiza el valor que asume ji cuadrado, éste está indicando
simplemente si la relación supuesta entre las variables en la hipótesis de trabajo
es estadísticamente significativa o no. Con esto, se define estadísticamente el
contexto en que se trabaja con la hipótesis, de modo tal que si la asociación entre
variables es estadísticamente significativa se puede realizar una inferencia
estadística de la muestra al universo de estudio. Ello quiere decir que se puede
rechazar con determinado nivel de confianza que la hipótesis nula sea cierta en el
universo y que la asociación en los casos analizados se deba solamente a errores
muestrales.
Cuando el ji cuadrado teórico es mayor al ji cuadrado empírico y la hipótesis nula
no puede ser rechazada, la hipótesis de trabajo no puede ser aceptada como
estadísticamente significativa. La ausencia de significación estadística puede
deberse a diversos motivos, tales como el modo de construir las variables, una
insuficiente cantidad de casos, las características de la estrategia de medición,
etc. El hecho de que no haya significación estadística en la relación entre las
variables analizadas, no impide avanzar en la producción de conocimiento y que
no pueda estarse frente a un caso de “significación” teórica y sociológica. A los
fines sociológicos, la situación en que el ji cuadrado no asume significación no
menoscaba la relevancia teórica de una hipótesis y, en contrapartida, el hecho de
que una relación entre variables sea estadísticamente significativa no es suficiente
por sí mismo para producir conocimiento científico. Cabe destacar que este Test
de Hipótesis no es útil para el análisis si es tomado aisladamente de los otros
recursos con los que contamos como lo son los Coeficientes de Asociación y la
Lectura Porcentual que veremos a continuación.
13
Asociación y medidas de asociación
La asociación es una forma de covariación entre variables, medida a partir de
cómo se distribuyen las unidades de análisis en los espacios de propiedades. Las
medidas de asociación, a diferencia de las de correlación, no operan con las
categorías o valores de las variables. Por este motivo, pueden ser utilizadas con
variables de cualquier nivel de medición, a diferencia del coeficiente de correlación
que requiere variables cuantitativas. Los coeficientes de asociación (también
conocidos como coeficientes no paramétricos) no permiten realizar inferencias al
universo, sino que indican la fuerza de la relación en la muestra que se analiza.
Los coeficientes de asociación son medidas resumen de la fuerza de la asociación
entre variables y, algunos de ellos, permiten también conocer la dirección. A
diferencia del ji cuadrado (que como veremos más adelante no tiene límite
superior de variación, puesto que su valor depende de la cantidad de casos) los
coeficientes de asociación son estandarizados, variando entre cero, que indica
independencia estadística y uno, que indica asociación perfecta9.
Phi y V de Cramer (V) son coeficientes derivados de ji cuadrado, con lo cual
operan a partir de las diferencias entre frecuencias observadas y esperadas. El
primero es el resultante de dividir el valor de ji cuadrado por la cantidad de casos
2 / n)], de modo tal que quede un valor estandarizado entre 0 y 1.
Como en tablas de más de dos por dos el valor de Phi puede superar la unidad, V
de Cramer incorpora un factor de corrección en su fórmula para poder ser utilizado
en cuadros de cualquier cantidad de categorías. No obstante, por suponer una
definición exigente de asociación perfecta, V tiende a subestimar el grado de
relación, lo cual debe ser tenido en cuenta en la interpretación del valor de este
coeficiente, de la misma manera que, como se desarrollará, en la interpretación de
los coeficientes rinconales debe tenerse presente que pueden asumir altos valores
por la definición menos restrictiva de asociación (García Ferrando, 1995).
Algunos coeficientes, como Tau-b (b), Q de Yule (Q) y Gamma () operan en
base a la reducción proporcional del error. La relación entre las variables puede
entonces también ser interpretada como la proporción en que se reduce el error de
predicción de las categorías de la variable dependiente cuando se conoce su
distribución en las categorías de la independiente, contra el error de predicción
9 Como veremos más adelante en el documento, en los cuadros con un alto número de casos el ji cuadrado tiende a ser significativo, una de las razones por las cuales es nodal examinar la fuerza de la asociación mediante los coeficientes.
14
cuando sólo se conoce la distribución univariada de la variable dependiente
(García Ferrando, 1995: 233; Roales Riesgo, 1999).
Algunos coeficientes pueden llevar signo positivo o negativo, de modo que varían
entre -1 y 1, pasando por 0, siendo -1 asociación perfecta negativa y 1 asociación
perfecta positiva. El signo indica el sentido de la relación, el cual sólo resulta
pertinente cuando se trabaja con ambas variables de nivel de medición como
mínimo ordinal.
La elección del coeficiente adecuado depende del nivel de medición de las
variables, del tipo de hipótesis y, en algunas situaciones, del tamaño del cuadro.
Las variables que hemos seleccionado, las categorías de éstas que hemos
definido y las relaciones que hemos establecido en nuestras hipótesis son
producto del enfoque teórico a partir del cual hemos abordado el fenómeno de
estudio.
-Nivel de medición de las variables. Si son nominales con cuadros de más de dos
por dos se utiliza V de Cramer; si son nominales u ordinales en cuadros de dos
por dos se utiliza Phi y Q de Yule y si son ordinales en cuadros de más de dos por
dos se utiliza Tau b y Gamma. La elección de Tau-b es recomendable cuando las
tablas son cuadradas, es decir, poseen el mismo número de filas que de
columnas.
-Tipo de hipótesis. Las hipótesis rinconales son aquellas que tienen una sola
condición acerca del modo en que se vinculan las variables, es decir, relacionan
una categoría de la variable dependiente con una categoría de la variable
independiente. Son hipótesis menos exigentes, puesto que para que haya
asociación perfecta en una tabla de dos por dos alcanza con que una sola
frecuencia sea cero. Si la hipótesis es rinconal se utiliza Q o Gamma, que son
coeficientes curvilineales. En la interpretación de los valores de estos coeficientes,
debe tenerse presente que los mismos se basan en una definición menos
restrictiva de asociación perfecta, relativa a una hipótesis rinconal, que puede
cumplirse a la perfección poniendo una sola condición.
Las hipótesis diagonales son más exigentes puesto que para corroborarse, los
casos deben concentrarse en la diagonal de una tabla, y para que exista
asociación perfecta no puede haber ningún caso en los espacios fuera de la
diagonal. Por ejemplo, si la hipótesis es diagonal se utiliza Phi, coeficiente lineal,
que pone dos condiciones para que haya asociación perfecta en tablas de dos por
dos, por lo cual se necesitarían dos espacios de propiedad con cero casos. Para
15
hipótesis diagonales de cuadros de más de 2x2, utilizaremos Tau b, coeficiente
lineal10.
-Tamaño del cuadro. Q y Phi se utilizan para cuadros de dos por dos. Si los
cuadros tienen más categorías, se utiliza Gamma en lugar de Q y Tau-b en lugar
de Phi.
COEFICIENTES DE ASOCIACIÓN11
Hipótesis
Lineal Curvilineal
Tipo de
Variable
Nominal - Más de
2x2 V de Cramer (V)
Nominal/Ordinal
- 2x2 Phi )
Q de Yule
(Q)
Ordinal - Más de
2x2 Tau b (b) Gamma ()
El valor que arroje un coeficiente de asociación ha de ser interpretado según
cuánto se aproxime al 0 y al 1 (o menos 1), independencia estadística y asociación
perfecta positiva o negativa, respectivamente. A medida que los coeficientes
comienzan a alejarse de 0 están expresando algún tipo de relación entre las
variables.
Ahora bien, el valor de un coeficiente de asociación en un análisis determinado no
puede ser interpretado aisladamente, sino en función de las comparaciones que
establezca. Dichas comparaciones12 intentarán mostrar las maneras en que
nuestra variable dependiente se encuentra afectada por diferentes variables
independientes. En este sentido, no existen valores altos, medios o bajos en los
análisis de los coeficientes, sino que el valor que la covariación entre las variables
adopte será interpretado a la luz del valor que adquiera otra covariación. Los
fenómenos que estamos analizando no se explican por la influencia de una sola
variable ni son estáticos.
10 Los coeficientes de asociación y su exigencia para los tipos de variables e hipótesis constituyen modelos ideales. La elección del tipo de variable y la hipótesis propuesta dependerá de la teoría con la que hayamos abordado nuestro fenómeno en estudio. 11 Existen otros coeficientes de asociación, pero estos cinco cubren las alternativas de uso habitual. 12 Para que las comparaciones respecto a la fuerza de incidencia de distintas variables independientes sean correctas, es necesario realizarlas con el mismo coeficiente, preferentemente para variables nominales si hay por lo menos una de dicho nivel de medición.
16
También el conocimiento teórico acumulado sobre el comportamiento del
fenómeno contribuirá a determinar cuán alto o bajo es el resultado, en relación con
expectativas teóricas o derivadas de la experiencia previa.
En consecuencia, el proceso de conocimiento que implica acercarnos a nuestro
fenómeno de estudio compromete el análisis y la comparación de un número
significativo de variables dadas por nuestro marco teórico de análisis. De esta
manera, la comparación se vuelve una instancia nodal de nuestro proceso de
construcción del conocimiento y la selección de variables y su interpretación
posibilita subordinar los recursos técnicos a las decisiones teórico-metodológicas,
contribuyendo a la producción de conocimiento teóricamente relevante.
Lectura analítica de porcentajes
La lectura de tablas de contingencia permite un análisis cuantitativo refinado,
analítico y artesanal. Los cuadros o tablas de contingencia surgen de la tabulación
simultánea de dos o más variables, en función de las hipótesis.
Una vez que se tiene una tabla con las frecuencias absolutas distribuidas en los
espacios de propiedades, es necesario calcular porcentajes para poder realizar
comparaciones válidas con mayor facilidad. Porcentualizar es una manera de
estandarizar las frecuencias condicionales para liberarlas de los efectos de las
diferencias de los marginales y hacer comparable una parte respecto al todo
(Baranger, 1999). No obstante, es necesario saber sobre qué total de casos han
sido calculados los porcentajes, ya sea para poder reporcentualizar agrupando
categorías o, más importante, para tener los debidos recaudos en la interpretación
de porcentajes calculados sobre pocos casos.
Generalmente, los porcentajes pueden presentarse sin decimales o con un
decimal. La cantidad de decimales con la cual pueda trabajarse depende de la
cantidad de casos, lo cual debe tenerse en cuenta para evitar que los porcentajes
aparenten un nivel de exactitud que no pueden tener cuando se trabaja con una
muestra pequeña.
Los porcentajes pueden ser calculados sobre el total (n) de una tabla, sobre los
subtotales de fila -asumiendo que se dispuso allí variable dependiente- o sobre los
subtotales de columna -asumiendo que se trata de la variable independiente-.
Si se procura conocer qué porcentaje de la población puede ser clasificado en dos
o más atributos simultáneamente -por ejemplo, varón y de nivel educativo alto- es
necesario calcular los porcentajes sobre el total de la tabla.
Si se busca describir perfiles de la población y subpoblaciones, en ocasiones
puede ser útil calcular los porcentajes de filas, es decir, aquellos calculados en el
17
sentido de la variable dependiente. Estos porcentajes sólo pueden servir a los
fines descriptivos univariados de las características de distintos subgrupos. La
variable dependiente no opera como tal sino como si fuera una constante, por
ejemplo, qué porcentaje de los que tienen nivel educativo alto son varones,
brindando así una idea de la composición interna o perfil de cierto subgrupo.
Para realizar una lectura en función de las hipótesis es necesario calcular los
porcentajes en el sentido de la variable independiente y leerlos comparando en el
sentido de la variable dependiente (Zeisel, 1974). De este modo, podemos
analizar la influencia de la variable independiente sobre la dependiente. Por
ejemplo, saber qué porcentaje de los varones tiene nivel educativo alto, al
comparar con el porcentaje que tienen las mujeres en dicho nivel educativo,
permite a partir de las diferencias porcentuales aproximarse a la incidencia de la
variable sexo en el nivel educativo alcanzado.
Esta distribución porcentual bivariable pone en relación las distribuciones
condicionales con una distribución global de la variable dependiente. La
distribución de la variable dependiente dentro de las categorías de la variable
independiente permite examinar las condiciones que se supone que influyen en
cómo se distribuye. La variable independiente puede ser entendida como
condición que hace probable cierto resultado, por lo cual es necesario comparar
diferentes condiciones -categorías de la variable independiente- para resultados
equivalentes -de una misma categoría de la variable dependiente-, examinando
qué le ocurre a la variable de estudio cuando se le “aplica” cada una de las
categorías de la variable independiente.
La lectura de un cuadro puede comenzarse por las frecuencias marginales de la
variable dependiente, que no son más que la distribución univariada de esa
variable, es decir, su distribución sin tomar en cuenta las categorías de la variable
independiente. Luego, los marginales pueden ser útiles para comparar con cada
frecuencia condicional, examinando qué ocurre con la distribución de la variable
dependiente cuando está presente la variable independiente. Si las distribuciones
de la variable dependiente en cada categoría de la variable independiente son las
mismas que la distribución univariada, en principio no habría asociación entre las
variables.
Lo central de la lectura de cuadros bivariados es la lectura de las frecuencias
condicionales, comparando en el sentido de la variable dependiente. Según lo que
establezca la hipótesis, se procederá a comparar el porcentaje de casos que
corresponde a una categoría de la variable dependiente entre la subpoblación de
una categoría de la variable independiente, con el porcentaje de casos de otra
18
subpoblación -delimitada por otra categoría de la variable independiente- que
corresponde a la misma categoría de la variable dependiente. Esta es la
comparación básica a partir de la cual se van introduciendo complejizaciones,
según la cantidad de categorías que tenga el cuadro.
Cuando se trata de un cuadro de dos por dos, bastará con comparar dos
porcentajes para leer el cuadro por completo, puesto que habiendo leído los dos
porcentajes de una categoría de la variable dependiente, los de la otra categoría
de la variable dependiente son complementarios. La diferencia entre los dos
porcentajes comparados será la diferencia porcentual o épsilon que sintetiza
todo el cuadro, indicando la fuerza de la relación. A medida que se trate de un
cuadro más grande, se van abriendo las posibilidades de comparaciones.
Probablemente no sea necesario leer todos los porcentajes cuando haya muchas
categorías de las variables, siendo siempre la hipótesis lo que orientará la lectura,
indicando qué espacios de propiedad son los más relevantes según las
expectativas teóricas. En los cuadros de más de dos por dos, ya no habrá una
única diferencia porcentual sino varias y por ende ninguna de ellas sintetizará en
una única medida la fuerza de toda la relación.
Cabe poner de relieve que si bien la lectura porcentual permite analizar
minuciosamente un cuadro, no debe perderse de vista el panorama general del
plan de análisis, de modo que los avances parciales en el conocimiento a partir de
la interpretación de cada cuadro, puedan ser articulados de un modo coherente y
enfocado en dar cumplimiento a los objetivos, confrontando con los datos
producidos el conjunto de supuestos que se decidió someter a contrastación en la
investigación. La lectura de un cuadro no debe ser entendida como un fin en sí
mismo sino como un medio para el análisis e interpretación de los resultados
“enmarcado en un proceso teórico metodológico, evitando así miradas
fragmentadas del proceso de investigación” (Aguilar, Alonso, Kleidermacher y
Vázquez, 2013: 23).
4. Reflexiones finales
El proceso de construcción del dato finaliza al elaborarse los cuadros, a partir de
las variables que se pongan en relación y de la forma en que sean categorizadas.
Las distintas posibilidades de agrupar y reagrupar categorías en distintos sistemas
de categorías implican variaciones en las distribuciones de casos en los espacios
de propiedades generados y, por lo tanto, en la fortaleza de las hipótesis. Al
examinar qué ha ocurrido con cada hipótesis sustantiva y los resultados de un
19
cuadro, se está en la etapa del análisis, en que la teoría y los datos se vinculan y
confrontan mediante las hipótesis.
El análisis de relaciones entre dos variables se sirve de la prueba de hipótesis de ji
cuadrado, de los coeficientes de asociación y de la lectura analítica de los
cuadros, en tanto herramientas que en conjunto permiten analizar y comenzar a
dar respuesta a objetivos descriptivos. La prueba de ji cuadrado, permite
establecer si existe relación estadísticamente significativa entre las variables y
complementada por los coeficientes de asociación, permite examinar la fuerza de
la relación y su sentido. La naturaleza de la relación entre variables, es decir, si se
aproxima a una forma lineal, curvilineal o irregular, sólo puede ser examinada
mediante la lectura porcentual analítica al interior del cuadro. Además, todo tipo de
situaciones intermedias, variaciones sutiles y matices respecto al modo de relación
entre las variables pueden ser descriptos pormenorizadamente mediante la lectura
porcentual, lo cual resulta una gran ventaja para analizar “artesanalmente” datos
sobre fenómenos sociales, los cuales si bien presentan regularidades, conservan
cierta inestabilidad, indeterminación e irregularidad, que también deben ser
analizadas.
Así, todas las herramientas estadísticas presentadas, se utilizan en estrecha
relación con la teoría. En primer lugar, porque ésta condiciona las hipótesis
plateadas, las variables seleccionadas, las categorizaciones realizadas y las
comparaciones establecidas. En segundo lugar, porque el análisis e interpretación
de los resultados obtenidos, se realiza a la luz del marco teórico seleccionado y
las preguntas y objetivos que guían la investigación.
20
5. Anexo: Ejemplo de análisis bivariado
El uso diferencial del tiempo libre. Una aproximación desde género y clase
En el marco del proyecto de investigación “Heterogeneidad de clase social:
profundizando los comportamientos de clase de las parejas”1314, se indagó
respecto del uso diferencial del tiempo libre, concebido como un aspecto del estilo
de vida de las clases sociales. Se analizaron datos cuantitativos sobre la
frecuencia y el placer que producen diferentes actividades de tiempo libre según
clase social y según género. El objetivo del trabajo fue describir el uso del tiempo
libre de varones y mujeres que trabajan, contándose con información sobre la
clase social. Para trabajar el concepto de clase, se utilizó el esquema de
Goldthorpe. Enfocamos al tiempo libre como una de las expresiones de los
consumos y estilos de vida de las personas, cuyas características dependen en
gran medida de la clase y el género.
Así, se indagó sobre las diferencias en torno al uso de este tiempo libre, según
género y clase social, teniendo como hipótesis de trabajo que cuanto más alta es
la clase social es mayor y más variado el tiempo libre, y que el tiempo libre de las
mujeres es contaminado o interrumpido por responsabilidades familiares o tareas
domésticas que pueden incluso ser realizadas simultáneamente a la actividad de
ocio.
A continuación se presenta como ejemplo, el análisis realizado para una de las
variables de interés de la investigación que fue la frecuencia de uso de Internet
como una actividad de tiempo libre. Así, la primera hipótesis de trabajo,
planteaba: “Se espera una mayor frecuencia de uso en cuanto más alta sea la
clase social.”
VD: Frecuencia de uso de Internet en el tiempo libre
Nivel de medición: Ordinal
VI: Clase Social
Nivel de medición: Ordinal
Tamaño de la Tabla: 3x4
Grados de Libertad (gl): 6
13 Proyecto UBACyT de la programación 2010-2012, dirigido por la Dra. Gabriela Gómez Rojas, con sede en el Instituto de Investigaciones Gino Germani de la UBA.
21
Tipo de hipótesis: Diagonal o lineal
En primer lugar se realizó la prueba de Ji Cuadrado para contrastar la hipótesis
nula que plantearía que no existe relación entre la frecuencia de uso de internet y
la clase social. Se eligió trabajar con un nivel de confianza del 95% (que es lo
mismo que decir un nivel de significación de 0.05).
Al buscar en la tabla de Ji Cuadrado, el valor teórico correspondiente a 0.05 de
significación para 6 grados de libertad es de 12.592. Dado que el valor empírico de
Ji cuadrado que arroja la prueba -como se observa en la tabla a continuación
producida con el SPSS- es mayor al valor teórico (regla de decisión: Xe 121,839 >
Xt 12,592), puede entonces rechazarse con un 95% de confianza la hipótesis nula
que plantea que no hay asociación entre las variables, y por lo tanto la hipótesis
de trabajo resulta significativa estadísticamente, lo que quiere decir que en el
universo de estudio, la relación entre las variables también estaría ocurriendo15.
Por otro lado, en la tabla a continuación también puede observarse que bajo la
columna “Sig. Asintótica” se encuentra lo que conocemos como p-valor o
significancia exacta. Dado que en este caso es prácticamente cero, podría
también haberse rechazado la hipótesis nula a un nivel de confianza superior al
99% (regla de decisión: α= 0.05 > p valor= 0.00).
Ambos métodos siempre conducen al mismo resultado del test. Sólo que el
método del p-valor permite conocer la significancia exacta. Esto no implica no
definir siempre a priori cuál es el valor de significancia α con el que se va a
trabajar.
Pruebas de chi-cuadrado
Valor gl
Sig. asintótica
(2 colas)
Chi-cuadrado de Pearson 121,839 6 ,000
Razón de verosimilitud 133,179 6 ,000
Asociación lineal por
lineal
107,252 1 ,000
N de casos válidos 625
Más allá de la significancia estadística hallada, se procedió luego a analizar el
coeficiente de asociación correspondiente para conocer la fuerza y sentido de la
15 Cabe aclarar que la prueba de Ji cuadrado no mide magnitudes. La relación es o no es significativa para el nivel de confianza dado. No es relevante por cuanto supera el valor de Ji empírico al teórico.
22
relación. Al ser dos variables ordinales en una tabla de más de 2 x 2, para
hipótesis diagonal o lineal el coeficiente que correspondiente es el Tau-b.
Coeficientes de Asociación
Valor
Error estándar
asintótico Aprox. S Aprox. Sig.
Nominal por Nominal Phi ,442 ,000
V de Cramer ,312 ,000
Ordinal por ordinal Tau-b de Kendall ,391 ,028 13,119 ,000
Gamma ,639 ,043 13,119 ,000
N de casos válidos 625
En primer lugar el signo positivo del coeficiente indica que la relación se da en el
sentido planteado en la hipótesis, ambas variables se comportan en la misma
dirección (cuando una aumenta, la otra también lo hace, y viceversa).
En cuanto a la magnitud, observamos que es de 0.391. Si bien se aleja del cero
que indica la no asociación, para poder analizar la fuerza de esta magnitud,
debemos hacerlo de modo comparativo, luego de analizar el comportamiento del
fenómeno ante otras variables independientes.
Por último, realizaremos la lectura porcentual, presentada en la siguiente tabla de
contingencia, en la cual, para poder realizar correctamente la lectura, los
porcentajes fueron calculados en el sentido de la variable independiente (clase
social).
Frecuencia de tiempo libre en Internet por Clase Entrevistado. PEA, de 20 a 69 años. Total País, 2007.
% dentro de Clase Entrevistado
Clase Entrevistado
Total
I-III:
Trabajadores
de cuello
blanco
IV: Pequeña
burguesía
V+VI:
Trabajadores
calificados
VII:
Trabajadores
no calificados
Frecuencia de
actividades de
tiempo libre:
Pasar tiempo en
Internet
Hasta Semanal 43% 17% 7% 5% 25%
Mensual o
inferior 17% 12% 13% 5% 13%
Nunca 40% 71% 80% 90% 62%
Total 100% 100% 100% 100% 100%
288 146 61 130 625
Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP.
23
A partir de la lectura porcentual, podemos observar la tendencia decreciente en la
frecuencia de uso a medida que se desciende en la clase social.
La diferencia porcentual observada entre la frecuencia “hasta semanal” entre los
Trabajadores de Cuello Blanco (43%) y entre los Trabajadores no calificados (5%)
es de un 38%. También resulta interesante que al pasar de Trabajadores de
Cuello Blanco, al segmento inmediatamente inferior –Pequeña Burguesía (17%)-,
la diferencia porcentual es de 25 puntos porcentuales y ésta sólo es de a 10
puntos entre esta última y los Trabajadores Calificados (17% vs. 7%).
Es decir que la herramienta de las diferencias porcentuales no limita como muchas
veces aparece el análisis a la comparación entre categorías extremas, sino que
justamente su riqueza consiste en poder analizar pormenorizadamente lo que
ocurre en y entre los distintos espacios de propiedades generados en la tabla de
contingencia.
De igual modo, puede analizarse que en la categoría intermedia de frecuencia
mensual o inferior, el descenso más pronunciado se observa entre las dos clases
inferiores (8 puntos porcentuales entre 13% y 5%), manteniéndose en un rango
similar los porcentajes para las clases intermedias.
Al analizar el comportamiento de las clases para la categoría Nunca, casi en
espejo a lo observado para la mayor frecuencia de uso, se produce un quiebre
más marcado entre los Trabajadores de Cuello Blanco y la Pequeña Burguesía.
Entre los primeros sólo representan al 40%, mientras que para los segundos este
porcentaje asciende a 71%, presentando una diferencia porcentual de 31 puntos
porcentuales. Se registra una tendencia ascendente de aproximadamente 10% en
cada pasaje hacia las siguientes categorías.
La segunda hipótesis de trabajo, plantea la relación entre la misma variable
analizada en el caso anterior, pero en función del género, dado que se espera
como ya se mencionó en el planteo general, que “las mujeres presentan una
frecuencia de uso mensual o inferior, o nunca, mientras que los hombres utilizan
Internet en su tiempo libre de manera semanal o con mayor frecuencia.”
VD: Frecuencia de uso de Internet en el tiempo libre
Nivel de medición: Ordinal
VI: Género
Nivel de medición: Nominal
Tamaño de la Tabla: 3x2
Grados de Libertad (gl): 2
24
Tipo de hipótesis: Diagonal o lineal
Al igual que lo planteado para la relación anterior, realizamos la prueba Ji
Cuadrado, para conocer cuál es el contexto en el que nos encontramos
(significación estadística o no). En este caso, al comparar el valor del Xe=0.937
contra el teórico Xt=5.991 –correspondiente a 95% de confianza y 2 grados de
libertad-, concluimos que no puede rechazarse la hipótesis nula que plantea que
no hay relación entre el género y el uso de internet en el tiempo libre, por lo cual
no podemos descartar la independencia estadística a nivel poblacional. Si
rechazáramos la hipótesis nula correríamos un riesgo del 62,6% de equivocarnos
al tomar esa decisión, como indica el p-valor, (nivel de confianza de 41,4%), por lo
cual al superar el nivel de riesgo o significancia establecido en este caso (5%).
Vemos nuevamente que por el método del p-valor, tampoco podemos rechazar la
hipótesis nula –y por tanto, aceptar la de trabajo-, para el nivel de confianza
establecido.
Pruebas de chi-cuadrado
Valor gl
Sig. asintótica
(2 colas)
Chi-cuadrado de Pearson ,937 2 ,626
Razón de verosimilitud ,942 2 ,625
Asociación lineal por
lineal ,181
1 ,670
N de casos válidos 625
Igualmente, dado que la independencia estadística no implica que la relación no
pueda ser relevante teóricamente, se procedió con el análisis de fuerza y sentido a
través del coeficiente de asociación V de Cramer, correspondiente al cuadro e
hipótesis planteado (ordinal/nominal, más de 2x2, hipótesis diagonal). En este
caso, al ser una de las variables de nivel de medición nominal, el signo del
coeficiente no nos brinda información respecto del sentido de la relación (dado que
no hay una necesariedad lógica en el orden de las categorías en la tabla). Esto lo
analizaremos a partir de la lectura porcentual.
Como se mencionó, luego se compararán los coeficientes de las distintas
relaciones para poder dimensionar la fuerza. En este caso podemos adelantar que
por el valor del V de Cramer de 0.039, matemáticamente muy próximo al valor
cero se encuentra muy cerca de la independencia estadística.
25
Coeficientes de Asociación
Valor
Error estándar
asintótico Aprox. S Aprox. Sig.
Nominal por Nominal Phi ,039 ,626
V de Cramer ,039 ,626
Ordinal por ordinal Tau-b de Kendall -,012 ,039 -,316 ,752
Gamma -,024 ,076 -,316 ,752
N de casos válidos 625
Por último, el análisis de porcentajes, nos muestra que un cuarto de la muestra
presenta una alta frecuencia de uso de internet, y esta proporción prácticamente
se mantiene en el mismo nivel en ambos grupos (24% entre los hombres y 27%
entre las mujeres), con una diferencia sólo de 3% entre ellos. Al analizar lo que
ocurre con la categoría nunca, la diferencia entre hombres y mujeres, es aún
menor, sólo del 1%, siguiendo ambos grupos una distribución prácticamente
idéntica a la del total de la muestra. Estas diferencias porcentuales próximas a 0%,
nos indican también, en línea a lo observado en la prueba de ji cuadrado y al valor
del coeficiente V de Cramer, que no habría relación entre estas variables. El
comportamiento de la variable dependiente, no se modifica ante los distintos
géneros.
Frecuencia de tiempo libre en Internet por Género. PEA, de 20 a 69 años. Total País, 2007.
% dentro de Género
Género
Total Hombre Mujer
Frecuencia de actividades
de tiempo libre: Pasar
tiempo en Internet
Hasta Semanal 24% 27% 25%
Mensual o inferior 14% 12% 13%
Nunca 62% 61% 62%
Total 100% 100% 100%
387 238 625
Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP.
Al avanzar en el análisis, y al observar que en este caso el género no resultaba
una variable relevante para el caso del uso de Internet en el tiempo libre, se
plantea desde los distintos abordajes teóricos sobre Tecnologías de Información y
Comunicación (TICs), que para este tipo de consumo cultural/uso del tiempo libre,
la franja etaria resulta una variable relevante a considerar.
26
Es por esto que se planteó una tercera hipótesis que plantea que “la frecuencia
de uso de internet está influida por la edad de manera tal que entre los de menor
edad la frecuencia de uso es mayor que entre los de más edad”.
VD: Frecuencia de uso de Internet en el tiempo libre
Nivel de medición: Ordinal
VI: Tramo de Edad
Nivel de medición: Intervalar
Tamaño de la Tabla: 3x4
Grados de Libertad (gl): 6
Tipo de hipótesis: Diagonal o lineal
Siguiendo la misma secuencia que para las relaciones anteriores, se realizó la
prueba de Ji Cuadrado, definida a un 95% de confianza. Al igual que en el primer
caso, el tamaño de la tabla define 6 grados de libertad, el valor de Ji empírico
(17.654) supera al teórico, 12.592. Haciendo el análisis a partir del p-valor,
comprobamos que puede rechazarse la hipótesis nula con una confianza del
99.3%, por lo cual podemos descartar para ese nivel la independencia estadística.
Pruebas de chi-cuadrado
Valor gl
Sig. asintótica
(2 colas)
Chi-cuadrado de Pearson 17,654 6 ,007
Razón de verosimilitud 19,064 6 ,004
Asociación lineal por
lineal 10,074
1 ,002
N de casos válidos 625
El coeficiente adecuado para el nivel de medición de las variables, el tipo de
hipótesis y el tamaño de la tabla es el Tau-b, que en este caso confirma el sentido
positivo planteado en la hipótesis y tiene un valor de 0.118.
Si bien como se mencionó el análisis de correlación es la técnica específica para
variables de nivel de medición intervalar, y también existen otras técnicas como el
análisis de varianza (ANOVA) para las relaciones entre variables categóricas e
intervalares, las variables intervalares agrupadas, al utilizarse en tablas de
contingencia, también pueden ser analizadas con análisis de asociación.
27
Coeficientes de Asociación
Valor
Error estándar
asintóticoa Aprox. Sb Aprox. Sig.
Nominal por Nominal Phi -,168 ,007
V de Cramer ,119 ,007
Ordinal por ordinal Tau-b de Kendall -,118 ,035 3,381 ,001
Gamma -,192 ,056 3,381 ,001
N de casos válidos 625
Finalmente, al realizar la lectura porcentual, se destaca entre los del tramo de
edad superior una mayor proporción de quienes nunca usan, alcanzando un 79%,
con una diferencia porcentual de 19% contra la categoría inmediatamente inferior,
y alcanzando los 24 puntos porcentuales de diferencia al comprar con los más
jóvenes.
Al analizar la frecuencia de uso hasta semanal, y mensual o menos, se observan
comportamientos similares entre los tres primeros tramos, produciéndose el
descenso marcado también al pasar a la categoría de 55 a 69 años, entre quienes
solo un 16% presenta frecuencia semanal o mayor, con una diferencia de 9% en
comparación con los de 40 a 54 años, y de 14 puntos con respecto a los más
jóvenes.
Frecuencia de tiempo libre en Internet por Tramos de Edad. PEA, de 20 a 69 años. Total País, 2007.
% dentro de Tramos de Edad
Tramos de Edad
Total
20 a 29
años
30 a 39
años
40 a 54
años
55 a 69
años
Frecuencia de
actividades de
tiempo libre: Pasar
tiempo en Internet
Nunca 55% 57% 60% 79% 62%
Mensual o
inferior 15% 14% 15% 5% 13%
Hasta Semanal 30% 29% 25% 16% 25%
Total 100% 100% 100% 100% 100%
82 185 246 112 625
Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP.
En conclusión, podemos decir que la variable que presenta mayor fuerza de
asociación con la frecuencia de uso de internet en el tiempo libre, es la clase. Su
28
Tau-b era de 0.39 mientras que para edad este coeficiente es inferior (0.118). En
estos casos en particular, los coeficientes fueron directamente comparados dado
que coincidían por el tipo de hipótesis, el tamaño de los cuadros y el tipo de
variables con el que se trabajo. Sin embargo, para la variable independiente sexo,
el coeficiente que habíamos utilizado fue V de Cramer. Para comparar la fuerza de
ésta variable independiente en relación a las otras con las que hemos trabajado
(Edad y Clase Social) es necesario seleccionar un tipo de coeficiente que sea
aplicable a las tres hipótesis planteadas. En dicho caso deberíamos realizar una
comparación a partir de V de Cramer por tener un menor nivel de exigencia. Bajo
estas condiciones el coeficiente asume un valor de 0.312 para la variable
independiente clase social, 0.039 para la variable independiente sexo y un valor
de 0.119 para la variable independiente edad. Podemos afirmar que dentro de las
variables independientes seleccionadas, la variable clase social presenta mayor
fuerza de asociación con la frecuencia de uso de internet en el tiempo libre.
29
6. Referencias bibliográficas
Aguilar, M., Alonso, C., Kleidermacher, G. y Vázquez, N. (2013) Elaboración y
análisis de distintos tipos de cuadros. Cuaderno de Cátedra Nº 3 (mimeo).
Baranger, D. (1999) Construcción y Análisis de Datos. Introducción al uso de
Técnicas Cuantitativas en la Investigación Social. Posadas: Editorial Universitaria
de la Universidad Nacional de Misiones.
Barton, A. H. (1973) “Concepto de Espacio de atributos en Sociología”. En
Boudon, R. y Lazarsfeld, P. Metodología de las Ciencias Sociales. Tomo I.
Barcelona: Ed. Laia.
Blalock, H. (1986) Estadística social. México: Fondo de Cultura Económica.
Cohen, N. (1997) “La teoría y el método en la investigación social: el discurso y la
práctica”. En Luxemburg - Revista de sociología, año 1 N° 2. Buenos Aires.
Cohen, N. y Gómez Rojas, G. (2003): “Los objetivos, el marco conceptual y la
estrategia teórico-metodológica triangulando en torno al problema de
investigación”. En Lago Martínez, G. Gómez Rojas y M. Mauro (coord.) En torno
de las metodologías: abordajes cualitativos y cuantitativos. Buenos Aires: Proa
XXI.
García Ferrando, M. (1995) Socioestadística. Introducción a la estadística en
Sociología. Madrid: Alianza Universidad Textos.
Marradi, A.; Archenti, N. y Piovani, J. (2010) Metodología de las Ciencias Sociales.
Buenos Aires: Cengage Learning.
Roales Riesgo, M. (comp.) (1999) Claves de la Estadística Descriptiva e
Inferencial: Análisis Bivariado y Multivariado. Buenos Aires: Centro de Estudiantes
de Ciencias Sociales UBA.
Sautu, R. (2003) Todo es Teoría. Objetivos y Métodos de Investigación. Buenos
Aires: Editorial Lumiere.
Zeisel, H. (1974) Dígalo con números. Buenos Aires: Fondo de Cultura
Económica.
Top Related