Explicación PAC1

64
El análisis cuantitativo de datos Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset PID_00154075

Transcript of Explicación PAC1

Page 1: Explicación PAC1

El análisiscuantitativo dedatos Antoni Cosculluela MasAlbert Fornieles DeuJaume Turbany Oset PID_00154075

Page 2: Explicación PAC1

© FUOC • PID_00154075 El análisis cuantitativo de datos

Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico,químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escritade los titulares del copyright.

Page 3: Explicación PAC1

© FUOC • PID_00154075 El análisis cuantitativo de datos

Índice

1. Método científico............................................................................... 5

1.1. El modelo general de investigación ............................................ 6

1.1.1. Nivel teórico-conceptual del modelo general de

investigación .................................................................. 7

1.1.2. Nivel técnico-metodológico del modelo general de

investigación .................................................................. 8

1.1.3. Nivel estadístico-analítico del modelo general de

investigación .................................................................. 8

1.2. Tipos de diseños de investigación .............................................. 9

1.2.1. Diseños de investigación transversales .......................... 9

1.2.2. Diseños de investigación longitudinales ....................... 9

1.2.3. Clasificación de las metodologías de investigación ....... 10

1.3. Las variables ................................................................................ 12

1.3.1. Clasificación de las variables desde el punto de vista

metodológico ................................................................. 12

1.3.2. Clasificación de las variables desde el punto de vista

estadístico ....................................................................... 15

1.3.3. Transformación de los datos ......................................... 15

1.3.4. Tipos de escalas de medida ........................................... 16

1.4. Población y muestra ................................................................... 19

1.4.1. Población ....................................................................... 19

1.4.2. Muestra .......................................................................... 20

1.4.3. El muestreo .................................................................... 21

1.4.4. Las técnicas de muestreo ............................................... 22

1.4.5. El tamaño de la muestra ............................................... 25

1.5. Calidad de las investigaciones .................................................... 26

1.6. Presentación de informes científicos .......................................... 28

2. Análisis de los datos.......................................................................... 32

2.1. Descripción de las variables ........................................................ 32

2.1.1. Índice de tendencia central de la distribución de una

variable ........................................................................... 33

2.1.2. Índice de dispersión o variabilidad de la distribución

de una variable .............................................................. 35

2.1.3. Representaciones gráficas .............................................. 37

2.2. Relaciones entre variables ........................................................... 39

2.2.1. Las pruebas de significación o de hipótesis ................... 39

2.2.2. Las pruebas de relación o independencia ...................... 42

2.3. Aproximación al análisis multivariable ...................................... 59

Bibliografía................................................................................................. 63

Page 4: Explicación PAC1
Page 5: Explicación PAC1

© FUOC • PID_00154075 5 El análisis cuantitativo de datos

1. Método científico

Podemos definir la ciencia como la actividad humana que tiene como

propósito la investigación de aproximaciones a los fenómenos obser-

vables, con el fin de describirlos y ver cómo son y de qué manera se

relacionan entre sí. En este sentido, estamos de acuerdo con Sierra Bra-

vo (1985) cuando afirma que la investigación es un conjunto de accio-

nes orientadas a la conceptualización�de�la�realidad. Sus objetivos son

tres: describir,�explicar�y�predecir. La descripción responde a lo que

pasa, la explicación al por qué y la predicción trata de hacer deduccio-

nes de los hechos o fenómenos con el objetivo de poder pronosticar su

comportamiento futuro (qué, cómo o cuándo pasará).

Como señala De Cabo (1996), el método científico trata de proporcionar una

imagen imparcial del mundo, sin tener en cuenta quién lo está observando

(objetividad). Pero, como ya remarcó Heisenberg en 1927, en su principio de

indeterminación, el solo hecho de observar cualquier objeto lo modifica o

perturba. Dado que este principio lo formuló para la ciencia física, es fácil darse

cuenta de que los sujetos humanos todavía modifican más su comportamiento

que perturban los objetos de estudio de la Física cuando se saben (o se sienten)

observados. Estas modificaciones en el comportamiento reciben el nombre de

reactividad, y constituye un sesgo en muchas de las investigaciones realizadas

en seres vivos.

Reactividad

La reactividad se define como los cambios producidos en el comportamiento de los su-jetos cuando saben que están siendo observados.

Así, podríamos definir el método científico como el ciclo completo de la in-

vestigación que nos señala un camino que nos lleva en una dirección, hacia

una finalidad. En definitiva, el método, entendido como una serie de procedi-

mientos generales, se especifica en unas estrategias concretas a las que deno-

minamos diseños�de�investigación, esto es, planes estructurados de acción

(como una especie de receta) que nos indican qué pasos debemos seguir con

el fin de alcanzar una serie de hitos.

Como propone Arnau (1996 a), el diseño incluye aspectos que van desde la

formulación de problemas, la medida de las variables y la obtención de los

datos, hasta su análisis, la interpretación de los resultados y las conclusiones

que podemos extraer.

Page 6: Explicación PAC1

© FUOC • PID_00154075 6 El análisis cuantitativo de datos

1.1. El modelo general de investigación

El método científico se diferencia de otras concepciones del término

método en que tiene que ser objetivo, sistemático, con mecanismos de

control sobre las expectativas del investigador y replicable. La objetivi-

dad implica que los resultados no pueden depender de quien realiza la

investigación. Sistemático significa que siempre procede de la misma

forma. Los mecanismos�de�control�sobre�las�expectativas�del�inves-

tigador son necesarios para garantizar que los resultados obtenidos son

atribuibles a los factores que hemos encontrado en la investigación y no

en la interpretación de quien lo ha llevado a cabo. Por último, para que

sea replicable, es necesario que el informe de la investigación aporte

información suficiente con el objetivo de que otros investigadores la

puedan repetir o replicar.

Siguiendo los criterios propuestos por Arnau (1996 a), el modelo general de

investigación se articula en tres niveles de actuación jerarquizados, tal como

muestra la figura siguiente.

1) Nivel teórico-conceptual.

2) Nivel técnico-metodológico.

3) Nivel analítico-estadístico.

Modelo general de investigación en psicología

Fuente: Arnau (1996). Cuantificación de las observaciones: escalas de medida.

Page 7: Explicación PAC1

© FUOC • PID_00154075 7 El análisis cuantitativo de datos

1.1.1. Nivel teórico-conceptual del modelo general de

investigación

En el nivel teórico-conceptual del modelo general de investigación se elabora

el marco teórico de la misma. Es decir, es el momento de redactar el proble-

ma, entendido como el punto de partida de la investigación. El camino para

especificar el problema consiste en la formulación de las hipótesis, entendidas

como soluciones anticipadas del problema. El problema científico es el punto

de partida de la investigación. Se plantea generalmente en forma de pregunta

sobre el cómo, el cuándo o el porqué de la producción de un fenómeno. Sus

términos han de ser de naturaleza empírica (fenómenos observables) y han de

tener solución con los medios de los que dispone la ciencia.

Este nivel constituye el capítulo de introducción del informe científico. Du-

rante esta fase es imprescindible llevar a cabo una tarea de documentación

(recogida de información publicada previamente sobre el tema de estudio),

que nos permita conocer en qué estado se encuentra el conocimiento sobre el

tema, con el fin de elaborar el marco teórico o conceptual.

Ved también

El subapartado 1.6 de este mó-dulo trata sobre el informecientífico.

Ejemplos de tipo de problemas de investigación

El tipo de problema de investigación determina, en buena parte, el resto de fases de lainvestigación. Meltzoff (1998/2000) distingue los siguientes principales tipos de pregun-tas de investigación.

• Preguntas�de�existencia. Se cuestiona la existencia de alguna cosa. Por ejemplo, haceaños que se cuestiona la existencia del inconsciente o de la comunicación simbólicaen chimpancés. Actualmente, se debate sobre la presencia en los humanos de perio-dos sensibles para aprender determinadas habilidades, como los idiomas.

• Preguntas�de�descripción�y�clasificación. Una vez establecida su existencia, las si-guientes preguntas que se plantean son sobre su descripción y clasificación. Siguien-do con el ejemplo de la comunicación simbólica entre chimpancés, nos plantearía-mos cómo es esta comunicación, cuáles son sus características, si varía o es constante,si es un tipo de comunicación única o pertenece a alguna clase conocida, etc.

• Preguntas�de�relación. Una de las preguntas más frecuentes en cualquier disciplinaes si existe relación entre entidades. Se pueden formular equivalentemente comopreguntas de relación (por ejemplo, la memoria se relaciona con la edad) o comopreguntas comparativas (por ejemplo, ¿tienen los jóvenes más memoria que la gentemayor?).

• Preguntas�de�causalidad. Plantean la influencia o efecto de una variable indepen-diente (causa) sobre una variable dependiente (efecto). Por ejemplo, ¿provoca el tra-tamiento conductual una remisión de la anorexia? Estas preguntas requieren inves-tigación experimental donde el investigador utiliza la aleatorización y manipula lavariable independiente, o investigación cuasi-experimental, que utiliza otras estrate-gias de control de las variables extrañas. Cuando la pregunta es de tipo causal, trata-remos de redactar la hipótesis en términos de implicación. Es decir, "si se manipulala variable independiente de determinada manera, entonces hay que esperar a quese produzcan los siguientes cambios en la variable dependiente".

Ejemplos de hipótesis

Algunos ejemplos de hipótesis son las siguientes:

1) Hipótesis descriptivas

a) ¿Cuál es el porcentaje de hogares en Cataluña que disponen de conexión a Internet?b) ¿Que opinan los catalanes sobre la Ley de Normalización Lingüística?

Ved también

Podéis consultar la unidad devídeo 16 para complementarla información de este suba-partado.

Page 8: Explicación PAC1

© FUOC • PID_00154075 8 El análisis cuantitativo de datos

c) ¿Están los estudiantes satisfechos con los materiales de estudio proporcionados?d) ¿Cuál es la media salarial de un determinado nivel profesional?

2) Hipótesis asociativas

a) Hay diferencias en la intención de voto entre los votantes que viven en medios rurales,semi-urbanos y urbanos.b) Hay relación entre el sexo, la edad y el consumo de alcohol los fines de semana.c) La tasa de paro varía según el nivel de formación.d) Los hombres utilizan Internet con más frecuencia que las mujeres.e) Si aumenta el consumo de alcohol, entonces se incrementará la accidentalidad.

3) Hipótesis predictivas

a) Si los alumnos aprenden con ayuda del ordenador, entonces mejoran su rendimientoacadémico, medido según las notas de los exámenes.b) A partir de los datos recogidos en una encuesta salarial, ¿cuál es el salario de mercadode un director de Recursos Humanos con unas características determinadas?

1.1.2. Nivel técnico-metodológico del modelo general de

investigación

El nivel técnico-metodológico del modelo general de investigación es la fase

de planificación de la misma; corresponde a la estrategia o diseño�de�inves-

tigación.

Entendemos como diseño de investigación el plan que permite dar so-

lución al problema, verificando las hipótesis planteadas al conectar la

teoría y la realidad (mundo empírico).

Dentro del informe científico, el nivel técnico-metodológico se materializa en

el apartado de Método y sus subapartados: Materiales,�participantes�y�pro-

cedimiento. En el caso de diseños de investigación muy complejos, se puede

incluir un subapartado de "Diseño y variables".

Por lo tanto, en esta fase se escogen las variables que queremos registrar y se

operativizan. Se ponen a punto los instrumentos de medida y recogida de

datos (materiales); se decide qué participantes formarán parte de la investiga-

ción (participantes); y cuáles serán las fases por las que pasarán estos sujetos

(procedimiento).

1.1.3. Nivel estadístico-analítico del modelo general de

investigación

El nivel analítico-estadístico del modelo general de investigación es la fase de

obtención de datos para su posterior análisis�estadístico, con el fin de verificar

las hipótesis. La interpretación de los resultados se concreta en los apartados

de Resultados�y�discusión del informe. Por otro lado, hay que señalar que la

discusión conecta con el primer nivel (teórico-conceptual) del modelo general

Ved también

En el subapartado 1.2 hay dife-rentes clasificaciones de los di-seños de investigación.

Page 9: Explicación PAC1

© FUOC • PID_00154075 9 El análisis cuantitativo de datos

de investigación, ya que se verifica el grado de cumplimiento de los supuestos

formulados en las hipótesis, con lo que se cierra de esta manera el ciclo de la

investigación.

1.2. Tipos de diseños de investigación

En este subapartado nos centraremos en unos de los aspectos mes importantes

a la hora de clasificar los diseños: su temporalidad (por ejemplo, Arnau, 1996

b; y León y Montero, 2003, 2009). Así pues, siguiendo este criterio, podemos

decir que los diseños de investigación pueden ser transversales o longitudina-

les.

1.2.1. Diseños de investigación transversales

Los diseños transversales son aquellos que se realizan con la intención

de describir a la población en un momento determinado.

Los diseños transversales también permiten encontrar diferencias entre gru-

pos y relaciones entre variables. Esta estrategia temporal implica que única-

mente se llevará a cabo una sola medida por unidad de análisis (por ejemplo,

se encuestará al sujeto una sola vez). Como veremos en el apartado 2, dedi-

cado al análisis de datos, los índices que más se utilizan son los estadísticos

descriptivos (media, porcentaje...) para describir los datos; los coeficientes de

correlación; el Ji al cuadrado (χ2) para establecer relaciones entre variables, y

las pruebas de diferencias de medias entre grupos.

1.2.2. Diseños de investigación longitudinales

En los diseños longitudinales se toman varias medidas, ya sea a los mis-

mos sujetos o a sujetos diferentes, a lo largo del tiempo.

La intención de estos estudios es estudiar el cambio o la evolución, evaluan-

do los niveles y/o las tendencias; para lo cual se hacen comparaciones entre

periodos diferentes. Por lo tanto, lo más relevante de estos tipos de diseños es

que incorporan la dimensión temporal.

Ved también

En el apartado 2 de este mó-dulo hay una breve explicaciónde los índices estadísticos máshabituales.

Page 10: Explicación PAC1

© FUOC • PID_00154075 10 El análisis cuantitativo de datos

Ejemplos de diseños longitudinales

Los diseños longitudinales estudian cambios de nivel o de tendencia a lo largo del tiempo.

1.2.3. Clasificación de las metodologías de investigación

El método�científico, a pesar de ser único y general para todas las ra-

mas de la ciencia, se puede manifestar en diferentes estrategias que, en

última instancia, se podrían clasificar en metodologías�cuantitativas

(manipulativa-experimental) y cualitativas (de correlación, asociativa-

diferencial), definidas en función del grado de control de la investiga-

ción (Arnau, 1996 b).

A continuación, podemos ver esquemáticamente algunos aspectos de las me-

todologías de investigación según los tipos de hipótesis, la naturaleza de la

información, el grado de control (validez interna), tipo de intervención, etc.

Fuente: J. Arnau (1996). Cuantificación de las observaciones: escalas de medida

Fuente: J. Arnau (1996). Cuantificación de las observaciones: escalas de medida

Page 11: Explicación PAC1

© FUOC • PID_00154075 11 El análisis cuantitativo de datos

Fuente: Ato (1991)

Fuente: Kish (1987)

Fuente: Anguera (1990)

Fuente: Moreno, Martínez y Chacón (2000)

Clasificación adoptada

Experimental Cuasi-experimental Selectiva Observacional

• Hipótesis causales.• Aleatorización.• Manipulación de varia-

bles independientes.• Control experimental.• Máxima validez interna.• Mínima validez externa.

• Hipótesis causales.• Grupos naturales.• Manipulación de varia-

bles independientes.• Control experimental y

estadístico.• Alta validez interna.• Baja validez externa.

• Hipótesis de correlación y estu-dios exploratorios.

• Importancia de la muestra.• Grupos representativos.• Importancia de los instrumen-

tos de medida.• Control estadístico.• Baja validez interna.• Alta validez externa.

• Hipótesis de correlación y estu-dios exploratorios.

• Registro en situaciones naturales.• Importancia del entrenamiento

de observadores.• Mínima validez interna.• Máxima validez externa.

Page 12: Explicación PAC1

© FUOC • PID_00154075 12 El análisis cuantitativo de datos

La elección de la metodología de investigación no viene únicamente

determinada por el tipo de problema de investigación, sino también por

las limitaciones éticas, económicas, humanas, etc.

1.3. Las variables

Al llevar a cabo una investigación, hace falta determinar los aspectos de la

realidad que se quieren estudiar.

Podemos definir una variable como cualquier dimensión de cambio

susceptible de tomar más de un valor (contrariamente a la constante)

que expresa o representa un rasgo o propiedad mesurable de una rea-

lidad (por ejemplo, peso, altura, coeficiente de inteligencia, grado de

satisfacción, sexo...).

Con el fin de utilizar las variables dentro de una investigación, es necesario

operativizar, es decir, ha de estar perfectamente especificado qué hay que ha-

cer y cómo se tiene que medir la variable (instrumentos, escala de medida...).

Las variables suelen clasificarse desde dos puntos de vista:

1) el metodológico, que indica el rol que juega la variable dentro de la inves-

tigación,

2) el estadístico, que depende del tipo de metrización en que la variable ha

sido medida.

1.3.1. Clasificación de las variables desde el punto de vista

metodológico

Desde un punto de vista metodológico, las variables suelen clasificarse, según

el papel que desempeñan dentro del contexto de la investigación, en variables

independientes o predictivas, variables dependientes o criterio y variables ex-

trañas.

La variable�independiente�o predictiva también denominada variable de tra-

tamiento, factor o predictiva, según se trate de una investigación experimen-

tal o no experimental. Hablaremos de variables independientes siempre que la

investigación tenga como objetivo la obtención de una relación causal, como

en el caso de los diseños experimentales, donde estas variables son las que el

investigador manipula con el objeto de comprobar su efecto sobre algunos as-

Page 13: Explicación PAC1

© FUOC • PID_00154075 13 El análisis cuantitativo de datos

pectos de la conducta (variables dependientes). Una investigación puede tener

una sola variable independiente (simple o unifactorial) o más de una (diseño

factorial).

Se puede distinguir entre variables independientes de manipulación directa,

o de selección de valores. Las primeras son las puramente experimentales. En

este caso, el experimentador las manipula escogiendo los valores que le inte-

resan para su investigación (tratamientos). Por el contrario, en las de selección

de valores, el investigador se limita a escoger a los sujetos que, por sus carac-

terísticas, cumplen las condiciones requeridas para formar parte de un deter-

minado grupo experimental (por ejemplo, el sexo, el nivel de inteligencia, el

nivel de ansiedad, la extraversión, el hecho de tener un determinado rendi-

miento académico, la edad, etcétera).

Variables independientes de manipulación directa

Tenemos algunos ejemplos de variables independientes de manipulación directa al apli-car un método de enseñanza interactiva o el método tradicional en la dosis de un fárma-co, al realizar una terapia u otra, al recibir unos estímulos u otros...

Variables independientes de selección de valores

Si queremos encontrar diferencias en la opinión sobre el machismo de hombres y muje-res, escogeremos las respuestas dadas al cuestionario por unos y otras con el fin de com-pararlas.

La variable�dependiente�o�criterio�(o también, respuesta) trata del aspecto

sobre el que se espera observar los cambios producidos por la manipulación

de la variable independiente (por ejemplo, cómo un determinado método de

enseñanza influye en el rendimiento o en el fracaso escolar), o, en un contexto

no experimental, en el que se pretende obtener información (las opiniones,

las actitudes, la intención de voto...), en función de las variables predictivas.

Por lo tanto, se espera que estas variables sean sensibles a las variaciones. Así

pues, éste es el aspecto que se mide en la investigación.

Las variables�extrañas�o de�confusión, al igual que las variables independien-

tes o predictivas, también tienen un efecto potencial sobre las variables depen-

dientes o criterio. Por lo tanto, las variables extrañas se tienen que controlar

para eliminar o neutralizar su posible efecto contaminante sobre las criterio.

El grado de control es máximo en la metodología experimental, es escaso en la

de encuestas y es muy limitado en la observación natural. La falta de control

de las variables extrañas en las metodologías no experimentales, imposibilita

establecer relaciones causales.

Ved también

Podéis consultar las unida-des de vídeo 15, 16 y 18 paracomplementar la informaciónde este subapartado.

Page 14: Explicación PAC1

© FUOC • PID_00154075 14 El análisis cuantitativo de datos

Podemos definir la relación�causal en función de tres criterios (Kenny,

1979, citado por Domènech, 1995). Para considerar una relación entre

dos variables como relación causal, es necesario que se cumplan los tres

requisitos siguientes:

1)�Asociación. Las dos variables tienen que covariar (los cambios en los

valores de una de ellas tienen que reflejarse en los valores de la otra).

2)�Temporalidad. La causa (variable independiente) tiene que ser previa

al efecto (variable dependiente).

3)�Ausencia�de�alteración. La variable independiente (causa) tiene que

ser la única explicación de los cambios apreciados en la variable depen-

diente (efecto).

Ejemplo del rol que desempeñan las variables dentro de la investigación

Si hacemos una encuesta a las empresas con el fin de determinar cuál tiene que ser elsalario de los trabajadores de un determinado nivel profesional (salario de mercado), elsueldo sería la variable de criterio. Por otra parte, las variables predictivas podrían serdeterminados aspectos de las empresas (tamaño de la empresa, sector de actividad, zonageográfica en la que se encuentra...) y del individuo (formación, experiencia, responsa-bilidad...). Ahora bien, si algunas de estas variables predictivas no son contempladas co-mo tal, hay que controlarlas (por ejemplo, manteniendo su valor constante) porque sino pueden ocurrir variables de confusión, como ocurre cuando se compara el salario dediferentes zonas geográficas sin tener en cuenta el tamaño de la empresa.

Esquema del rol de las variables en la investigación

Normalmente, hay un número importante de variables que influyen sobre una variabledependiente. Por lo tanto, el investigador, según sus intereses, escogerá una o unas cuan-tas de estas variables como objetivo de su trabajo. Estas variables pasarán a ser las varia-bles independientes y deben controlar el resto de variables, ya que constituyen posiblesfuentes de variación que producirían error.

Si, en este ejemplo, el investigador decide estudiar el efecto de las variables B y E sobre lavariable dependiente, el esquema quedaría de la siguiente manera.

Page 15: Explicación PAC1

© FUOC • PID_00154075 15 El análisis cuantitativo de datos

1.3.2. Clasificación de las variables desde el punto de vista

estadístico

Desde el punto de vista estadístico, las variables están relacionadas con la es-

cala de medida en que han sido recogidas. Por lo tanto, uniremos el tipo de

variable, desde el punto de vista estadístico, y el correspondiente por cada es-

cala�de�medida.

Lecturas recomendadas

L.�Jáñez (1989). Fundamentos de psicología matemática. Madrid: Pirámide.

F.�Salvador�(1996). Cuantificación de las observaciones: escalas de medida. Barcelona: UOC.

A.�Cosculluela;�A.�Fornieles;�J.�Turbany (2008). Técnicas de análisis de datos cuantitativos.Barcelona: UOC.

Identificar correctamente el tipo de escala en que se ha medido una variable

es crucial, ya que determina el tipo de análisis de datos que se puede llevar

a cabo con ella.

Dado que el objetivo del módulo no es, ni mucho menos, profundizar en la

teoría�de�la�medida, en el subapartado 1.3.4 citaremos únicamente la clasi-

ficación hecha por Stevens en 1951. Esta clasificación se articula en función

de la distinción entre cuatro tipos de escalas: nominal, ordinal, de intervalo

y de razón.

Los conceptos métricos pueden asignar números reales o vectores en las dife-

rentes características. En el caso de las magnitudes escalares, la escala de me-

dida asigna un número real en el objeto. Éste es el caso de la mayoría de va-

riables; por ejemplo, la edad, altura, número de respuestas correctas, etc.

Hablaremos de magnitudes vectoriales en variables en las que es importante,

no sólo el valor numérico, sino también la dirección, como por ejemplo, en

variables físicas como la velocidad o la fuerza... En el caso de las ciencias socia-

les, este concepto se podría aplicar a las actitudes, ya que tienen magnitudes

tanto de fuerza como de dirección (positiva o negativa) hacia el objeto de la

actitud.

En nuestro caso, nos limitamos a las llamadas magnitudes escalares, aunque

se puede generalizar perfectamente a todo tipo de conceptos métricos.

1.3.3. Transformación de los datos

Lectura recomendada

Para una exposición más am-plía de la teoría de la me-dida, podéis consultar, porejemplo, la obra de L.�Jáñez(1989). Fundamentos de psico-logía matemática. Madrid: Pi-rámide.

Formalmente, en el ámbito científico, podemos definir la transformación de

una variable como el resultado de realizar alguna operación matemática idén-

tica sobre todos sus valores, de manera que cada uno de ellos guarde la misma

correspondencia con los datos de la variable original. En este mismo sentido,

Lectura recomendada

F.�Salvador (1996). Cuanti-ficación de las observaciones:escalas de medida. Barcelona:UOC.

Page 16: Explicación PAC1

© FUOC • PID_00154075 16 El análisis cuantitativo de datos

en el Diccionario de la Lengua Catalana (Instituto de Estudios Catalanes), se

define la palabra transformación, en su acepción matemática, como "aplica-

ción biyectiva entre dos subconjuntos de un espacio".

Transformar en el DRAE

Según el Diccionario de la Real Academia de la Lengua Española, transformar es "hacercambiar de forma a alguien o algo. Transmutar algo en otra cosa".

Como señala Salvador (1996), las transformaciones consisten en obtener va-

lores numéricos diferentes de los originales manteniendo la capacidad de re-

presentación de las relaciones empíricas.

Ejemplos de transformaciones de variables

En nuestra sociedad hay numerosos ejemplos de transformaciones de variables, ya seapara facilitar los cálculos, o por motivos culturales. Así, es fácil encontrar reglas con es-calas en centímetros y en pulgadas; balanzas con gramos y libras (1 Kg = 0,45 libras);termómetros con graduación en grados centígrados y Fahrenheit (C = 5/9 F - 160/9), etc.Como veremos más adelante, la mayor parte de estas transformaciones son de tipo linealy suelen consistir en una simple combinación de operaciones aritméticas.

Un buen indicador de la utilidad de las transformaciones lo podemos encon-

trar en el hecho de que prácticamente todos los programas informáticos de

tratamiento de datos tienen implementadas multitud de funciones y utilida-

des destinadas a facilitar su realización. Así, por ejemplo, SPSS tiene diversas

instrucciones exclusivamente dedicadas a las transformaciones.

El objetivo de las transformaciones de los datos es conseguir alguna ventaja

en los análisis, preservando, al mismo tiempo, la información relevante y no

dificultando –mejor dicho, en general, facilitando– la interpretación de los re-

sultados. Algunas transformaciones permiten, además de simplificar los cál-

culos, aumentar el nivel de potencia, mejorar la simetría de la distribución,

comparar valores de distribuciones diferentes, etcétera; lo que facilita la apli-

cabilidad de las pruebas estadísticas con las que usualmente se analizan los

datos. Y, muchas veces, permiten acercar la forma de una relación no lineal a

una recta, al modificar el escalado de la variable.

1.3.4. Tipos de escalas de medida

Medir es el proceso de atribuir valores numéricos (conceptos métricos) a las

variables de la muestra o población, con la intención de representar los atri-

butos medidos. Este proceso se hace teniendo en cuenta una escala de medi-

da, con unas reglas establecidas en la teoría del tamaño. En función de las ca-

racterísticas de lo que se ha medido y del cómo se ha realizado la medida, se

pueden establecer diferentes tipos de escalas de medida.

Page 17: Explicación PAC1

© FUOC • PID_00154075 17 El análisis cuantitativo de datos

1)�Nominal. Se trata del nivel de lenguaje cualitativo. La clasificación o ta-

xonomía sólo nos permite verificar empíricamente la relación de�igualdad�o

desigualdad. Una clasificación de un grupo determinado de objetos o éxitos

(dominio) en subgrupos representa una partición del conjunto. En términos

estadísticos, se denominan variables cualitativas o categóricas.

Las categorías tienen que estar bien definidas de forma operacional y hace falta

que sean exhaustivas (tienen que cubrir completamente todo el dominio o

posibles valores de la variable) y mutuamente�excluyentes (no puede existir

intersección entre las diferentes categorías); es decir, cada objeto o éxito a la

hora de clasificar tiene que poder ser asignado únicamente a una categoría.

a) Transformaciones posibles: cualquiera. Los valores numéricos son meras

etiquetas de las categorías; por lo tanto, pueden ser sustituidas por cualquier

otra, siempre que los nuevos valores sigan siendo diferentes entre sí.

b) Estadísticos: los propios de variables�cualitativas�o�categóricas; como por

ejemplo, frecuencias, porcentajes, proporciones, moda.

c) Ejemplos: sexo, nacionalidad, color del pelo...

2)�Ordinal. Es el nivel de lenguaje comparativo. Mantiene las características

de las anteriores, pero añade que, además de verificar la igualdad/desigualdad,

incorpora el�orden.

En la clasificación estadística serían cualitativas�ordenadas o simplemente

variables ordinales.

a) Transformaciones: isotónica. Los diferentes valores numéricos nos infor-

man acerca del orden de las categorías; por lo tanto, la transformación tiene

que mantener el orden original.

b) Estadísticas: las de las escalas nominales más la mediana, los centiles y de-

más índices de posición, y la correlación ordinal.

c) Ejemplos: la orden de llegada en una carrera, las calificaciones (suspendido,

aprobado, notable, excelente, matrícula de honor), una gradación del acuerdo

(totalmente de acuerdo, de acuerdo, indiferente, en desacuerdo, totalmente

en desacuerdo), el nivel de estudios (primarios, secundarios, medios, superio-

res...), etc.

3)�Intervalo. Además de verificar la igualdad/desigualdad y el orden, nos in-

dica la�magnitud�de�las�diferencias. El valor�nulo de la escala es designado

arbitrariamente (por convención); es decir, el valor 0 no indica la falta total

del atributo, y, en muchos casos, tiene sentido hablar de valores negativos. En

Page 18: Explicación PAC1

© FUOC • PID_00154075 18 El análisis cuantitativo de datos

la temperatura medida en grados centígrados tiene sentido hablar de –5 °C,

ya que 0 °C no es la mínima temperatura posible. En términos estadísticos se

trata de variables�cuantitativas.

a) Nivel de lenguaje cuantitativo: magnitudes intensivas. Hablamos de mag-

nitudes intensivas cuando la combinación de objetos no es aditiva.

b) Transformación: lineal.

c) Estadísticos: los de las escalas anteriores más la media, la variación y la

desviación tipo, la correlación lineal, etc.

Ejemplo de magnitud intensiva

Si juntamos dos líquidos con diferentes temperaturas, la combinación resultante no ten-drá una temperatura que sea la suma de las dos anteriores.

d) Ejemplos: temperatura en grados centígrados, coeficiente de inteligencia,

etc.

4)�Razón. También llamadas de proporción. Nos permiten verificar todas las

relaciones de las anteriores, añadiendo, respecto a la de intervalo, el hecho de

que en las escalas de razón existe una unidad empírica de medida y, por lo

tanto, un valor nulo (0�absoluto), que indica ausencia de la característica o

variable que medir.

a) El nivel de lenguaje también es cuantitativo: magnitudes extensivas. Se ha-

bla de magnitudes extensivas o aditivas cuando la combinación de objetos

es igual a su sumatorio (por ejemplo, si juntamos dos líquidos con diferentes

volúmenes, la combinación resultante tendrá un volumen igual a la suma de

los dos anteriores). En estadística son también variables�cuantitativas.

b) Transformaciones: subconjunto de las funciones lineales donde la transfor-

mación mantiene el valor 0 absoluto.

c) Estadísticos: los mismos que en las escalas de intervalos.

d) Ejemplos: longitud, peso, tiempo de reacción, número de respuestas, etc.

Por último, hay que señalar que las variables cuantitativas se subdividen en

variables cuantitativas discretas y continuas. Las primeras son aquellas en las

que no es posible insertar ningún valor entre un valor determinado y el si-

guiente, como el número de hijos, el número de sillas que hay en una habita-

ción...; es decir, de alguna manera, no tiene sentido hablar de decimales.

Por el contrario, en las variables cuantitativas continuas es posible intercalar

infinitos valores entre dos valores cualesquiera. El número de decimales que

incorporaremos dependerá de la precisión que necesitamos y de la que tenga

Page 19: Explicación PAC1

© FUOC • PID_00154075 19 El análisis cuantitativo de datos

nuestro instrumento de medida, pero no de las características de la variable.

Así, por ejemplo, entre 168 cm y 168 cm podríamos poner infinitos valores en

mm (1.681, 1.682, 1.683, 1.684...), y así sucesivamente.

Escalas Transformación verbal Transformaciónformal

Invariación Ejemplos

Nominal (Pertenencia)Tr. Biunívoca

  Mantiene las categorías. Materiales de construcción, sexo...

Ordinal (Precedencia o preferencia)Tr. Isotónica

Xi < Xj X'i<X'j Mantiene el orden de los valo-res.

Nivel de formación, preferencia deasignaturas...

Intervalo (Diferencia, magnitud)Tr. Funciones lineales

X' = aX + b Mantiene la magnitud de las di-ferencias

Temperatura en °C coeficiente deinteligencia...

Razón (Magnitudes extensivas y0 absoluto)Tr. Funciones lineales de sem-blanza

X' = aX Mantiene la razón entre los va-lores y el 0 absoluto.

Peso, longitud...

1.4. Población y muestra

En algunas ocasiones, cuando el tamaño de la población no es muy grande,

es posible investigar con la población entera, estudiando todas las unidades

de análisis de la población. Pero, en general, resultaría muy costoso y, a ve-

ces, incluso imposible. Por eso lo habitual en las investigaciones es trabajar

con subconjuntos de la población, las llamadas muestras, que son escogidas

siguiendo unas determinadas normas o técnicas de muestreo.

1.4.1. Población

Entendemos por población a todo el colectivo de unidades de análisis

que tiene algún rasgo común y del cual pretendemos obtener alguna

información (León y Montero, 2003; 2009).

Cuando hablamos de unidades de análisis, nos estamos refiriendo a los suje-

tos, empresas, países, comunidades... sobre los que queremos obtener la infor-

mación. En general, la unidad de análisis coincide con el concepto de sujetos,

pero eso, cómo veremos en los ejemplos, no siempre es así.

Ved también

Podéis consultar la unidad devídeo 17 para complementarla información de este suba-partado.

Page 20: Explicación PAC1

© FUOC • PID_00154075 20 El análisis cuantitativo de datos

1.4.2. Muestra

La muestra es un subconjunto de la población. A partir de la muestra

tomamos decisiones sobre el conjunto de la población. Por lo tanto, la

idea fundamental es suponer que si la muestra ha sido bien escogida,

será representativa de la población de referencia, por lo que los resul-

tados obtenidos en la muestra podrán ser extrapolados a la población.

Por ejemplo, para conocer la intención de voto para las próximas elecciones,

las empresas de estudios estadísticos escogen una muestra de unos pocos miles

de sujetos y extrapolan a toda la población de votantes los resultados que han

obtenido de estos sujetos.

El hecho de que una muestra sea representativa implica que las características

del conjunto de los sujetos que la componen sean semejantes al conjunto de

sujetos que forman la población. Es decir, con el fin de predecir cuáles serán

los resultados de las próximas elecciones, será necesario que la muestra esté

formada por personas de todas las características de todos los votantes; por lo

tanto, hará falta que haya hombres y mujeres; jóvenes, adultos y viejos; estu-

diantes, profesionales, campesinos...; habitantes de ciudades grandes, peque-

ñas, de pueblos, etc.

Ejemplos de poblaciones

Los siguientes son algunos ejemplos de poblaciones:

1) poblaciones en que las unidades de análisis son los sujetos,

a) personas con derecho a voto en las próximas elecciones autonómicas,b) estudiantes universitarios en Cataluña,c) mujeres histerotomizadas,d) turistas alemanes en la Costa Brava.

2) Poblaciones en que las unidades de análisis no son los sujetos:

a) empresas en la provincia de Barcelona,b) países africanos,c) organizaciones no gubernamentales.

Ejemplo

En la siguiente figura podemos observar cómo se mantienen las proporciones de cua-dros negros y círculos blancos (afijación proporcional). La muestra es representativa. Si lamuestra, por ejemplo, tuviera quince cuadros negros y cinco círculos blancos, diríamosque está sesgada.

Ved también

Las encuestas forman parte delas metodologías cuantitativas,en concreto, de una categoríallamada "metodologías selec-tivas". La justificación de estecalificativo la veremos poste-riormente. Podéis consultar launidad de vídeo 18 para com-plementar la información deeste subapartado.

Page 21: Explicación PAC1

© FUOC • PID_00154075 21 El análisis cuantitativo de datos

No actuar de esta manera y hacer una muestra, por ejemplo, con la intención de voto enlas próximas elecciones autonómicas de los estudiantes de las universidades de Barcelona,implicaría, muy probablemente, cometer un grave error, al hacer la predicción de losresultados de las elecciones basándonos en los datos obtenidos con nuestra muestra.

Una de las dificultades más grandes que nos encontramos a la hora de trabajar

con muestras, es que muchas veces no son representativas, ya que, aunque

hayamos hecho el muestreo correctamente, se da el problema de la autoselec-

ción. Este problema radica en el hecho de que muchas veces no participan en

nuestra investigación todos los sujetos elegidos para formar parte de la mues-

tra, sino que únicamente lo hacen aquellos que quieren hacerlo, y no tenemos

ninguna garantía de si estos sujetos tienen o no alguna característica diferen-

cial con respecto a los sujetos que no lo hacen, y, por tanto, si son o no repre-

sentativos de todo el colectivo (población).

1.4.3. El muestreo

El muestreo es el proceso por el que algunas de las unidades de la po-

blación pasan a formar parte de la muestra.

El muestreo es un proceso que tiene una importancia fundamental en algu-

nos diseños, como en el caso de los diseños de encuesta, ya que, al no poder

ejercer otros tipos de controles, la falta de rigor en el muestreo podría provo-

car estimaciones�sesgadas de las características de la población (Domènech

y col., 1998).

Este proceso se tiene que llevar a cabo siguiendo una serie de principios que

se enmarcan en la denominación de técnicas de muestreo.

Con el fin de iniciar el proceso, previamente al muestreo, debemos elaborar

un censo de las unidades de la población. El censo consiste en realizar un

recuento e identificación de las unidades de la población. Tenemos que tener

en cuenta que, en poblaciones grandes o dispersas, la elaboración del censo

puede resultar bastante complicada, y un censo sesgado puede representar un

grave problema a la hora de encontrar una muestra representativa.

Page 22: Explicación PAC1

© FUOC • PID_00154075 22 El análisis cuantitativo de datos

Problemas en la elaboración de un censo

Si queremos saber qué piensan los adolescentes sobre el problema del consumo de drogas,puede ser que nos cueste más censar a algunos de los jóvenes que precisamente tieneneste problema por encontrarse en ambientes marginales, por lo que los resultados queobtendríamos de la muestra que hubiéramos podido extraer de este censo no darían unavisión real del problema.

1.4.4. Las técnicas de muestreo

Para realizar el muestreo se tienen que seguir unas técnicas que nos indican

la forma de realizarlo. En general, podemos distinguir dos grandes tipos de

técnicas: las técnicas de muestreo probabilísticas y las no probabilísticas.

Muestreo probabilístico

Las técnicas de muestreo probabilísticas son aquellas en las que la selección�de

las�unidades (sujetos, empresas...) que integrarán la muestra se realiza alea-

toriamente (por sorteo), y, por lo tanto, todas las unidades de la población

tienen las mismas probabilidades de formar parte de la muestra.

Ésta es la forma más segura de garantizar la representatividad de la muestra (de

hecho, prácticamente es la única manera de que la representatividad no quede

comprometida), ya que se espera que el azar distribuya todas las características

de la población entre las unidades que componen la muestra.

Las principales técnicas probabilísticas son el muestreo aleatorio simple, el

aleatorio estratificado y el muestreo por conglomerados.

En el muestreo�aleatorio�simple cada elemento de la población tiene

la misma probabilidad de ser incluido en la muestra. La técnica consiste

sencillamente en un sorteo entre todos los componentes de la pobla-

ción.

Con el fin de realizar el sorteo, el primer paso es enumerar todas las unidades

de la población para, seguidamente, escoger al azar cuáles son las que formarán

la muestra. Para hacer el sorteo se pueden utilizar muchos procedimientos,

como poner los números en un bombo, utilizar un programa informático o a

una calculadora para que nos haga un listado de números aleatorios, utilizar

una tabla de números aleatorios...

Tabla de números aleatorios

Una tabla de números aleatorios es un listado de números que se ha creado al azar y que,por tanto, no sigue ningún patrón sistemático.

Page 23: Explicación PAC1

© FUOC • PID_00154075 23 El análisis cuantitativo de datos

Esta técnica es efectiva cuando la población no es demasiado grande. Si la po-

blación es muy grande (como, por ejemplo, las personas con derecho a voto

en las próximas elecciones autonómicas), es difícil enumerar todas las unida-

des con el fin de realizar el sorteo y es preferible recurrir al muestreo aleatorio

estratificado.

El muestreo�aleatorio�estratificado consiste en la creación de diferen-

tes estratos�uniformes (partes) de la población.

Ejemplo de muestreo aleatorio estratificado

Si, por ejemplo, tomamos el caso de la población de votantes potenciales para las próxi-mas elecciones, podríamos definir tres estratos a partir del tipo de hábitat de los sujetos,por lo que tendríamos un estrato urbano, uno semiurbano y uno rural. Después, haría-mos un sorteo aleatorio dentro de cada uno de los estratos; así podríamos estar lo sufi-cientemente seguros de que en la muestra habría sujetos de todos los estratos.

Ahora bien, a la hora de decidir cuántos sujetos tenemos de cada estrato en la muestra,podemos hacer dos cosas:

1) coger el mismo número de sujetos de cada estrato, con lo que haríamos una afijaciónsimple;

2) hacer una afijación�proporcional y mantener los porcentajes que cada estrato repre-senta en la población de la muestra.

Así, si la población está repartida, por ejemplo, en 50% urbano, 30% semiurbano y 20%de población rural; si decidimos escoger una muestra de 1.200 sujetos, en el caso de laafijación simple, cogeríamos 400 de cada uno de los estratos. Mientras que, si utilizamosuna afijación proporcional, cogemos 600 del hábitat urbano (50%); 360 del semiurbano(30%) y 240 del rural (20%).

Ejemplo de afijación simple

La figura siguiente muestra un ejemplo de afijación simple (50% de cuadrados negrosy círculos blancos). En la figura anterior del subapartado 1.4.2 se podía observar cómose mantenían las proporciones de cuadrados negros y círculos blancos (afijación propor-cional).

En el muestreo�por�conglomerados se varía la estrategia, ya que el sor-

teo no lo haremos con las unidades directamente, sino que cogeremos

grupos�enteros�de�unidades que por alguna causa constituyen grupos

naturales y haremos el sorteo de grupos; así, las unidades que formen

parte de los grupos escogidos serán las que compondrán la muestra.

Page 24: Explicación PAC1

© FUOC • PID_00154075 24 El análisis cuantitativo de datos

En el ejemplo anterior, en vez de sortear a los sujetos individualmente, lo ha-

ríamos por bloques de pisos, encuestando a todos los sujetos que vivieran en

los bloques escogidos.

Este tipo de muestreo se suele realizar cuando las poblaciones son muy grandes

o cuando la población está distribuida en grupos naturales que imposibilitan

o dificultan trabajar con las unidades por separado. Por ejemplo, si queremos

hacer una encuesta a los escolares que están cursando 3.° de ESO, puede ser

más sencillo seleccionar por conglomerados unas cuantas aulas y encuestarlos

en la misma clase, que hacer un sorteo de todos los niños y pasarles la encuesta

fuera del horario escolar.

En este caso, corremos el riesgo de que los sujetos de conglomerados diferentes

tengan también características diferentes.

Por último, no hay que confundir entre conglomerados y estratos, ya que los

primeros pueden ser muy heterogéneos (a veces más que la misma población),

mientras que, cuando estratificamos la población, buscamos encontrar mucha

homogeneidad dentro de cada estrato (Domènech y col., 1998).

Mustreo no probabilístico

En las técnicas de muestreo no probabilísticas no�se�realiza�ningún�sorteo y,

por lo tanto, no todas las unidades de la población tienen las mismas proba-

bilidades de pasar a formar parte de la muestra.

A pesar de lo mucho que se utilizan, este modo de realizar las muestras com-

portan un grave�riesgo�para�la�representatividad de las mismas. Al ser selec-

cionadas por alguna característica concreta, o bien por el propio hecho de que

en muchos casos son participantes voluntarios, no hay ninguna garantía de

que las unidades escogidas sean representativas de toda la población a la que

pertenecen.

Hay diversas técnicas no probabilísticas. Algunas son las siguientes:

1) Las muestras�accidentales son aquellas en las que los sujetos participan

por su propia�voluntad en la encuesta en respuesta a una demanda de quien

organiza la misma. Generalmente, esta demanda se vehicula por algún medio

de comunicación, como un diario o revista, la radio o la televisión. En estas

ocasiones, a menudo responden muchos sujetos que tienen opiniones extre-

mas sobre el tema tratado.

Ejemplo de muestra accidental en la televisión

En muchos programas de televisión se hace una pregunta sobre lo que opinan los oyenteso televidentes y se pide que llamen a un teléfono determinado o escriban diciendo loque opinan sobre un tema.

Page 25: Explicación PAC1

© FUOC • PID_00154075 25 El análisis cuantitativo de datos

Otro tipo de muestreo accidental es cuando se trabaja con las unidades que

están disponibles�para�el�investigador.

Ejemplo de muestra accidental con las unidades disponibles para elinvestigador

Un investigador es profesor de una universidad y hace una encuesta a sus alumnos parasaber cuál es la opinión de los jóvenes sobre el consumo de tabaco.

Estas muestras son sesgadas, y los resultados obtenidos únicamente pueden ser

útiles en algunas ocasiones en que las características particulares de los sujetos

no difieren mucho de las generales de la población.

2) El muestreo�hecho�a�propósito�o�intencional se produce cuando se decide

por razones históricas o teóricas utilizar un determinado�colectivo�de�sujetos

como representación de una población. Con el fin de que sea útil, tiene que

estar apoyado por resultados anteriores que permitan pensar que los datos de

la muestra de aquel colectivo son un buen indicador (son representativas) de

las de la población.

Ejemplo de muestreo intencional

Si, por ejemplo, un investigador de opinión ha constatado que los resultados generales delas elecciones autonómicas siempre coinciden con las votaciones realizadas en un deter-minado municipio, se puede plantear la posibilidad de encuestar a todos los votantes delmunicipio, en vez de hacer un muestreo estratificado, con el fin de predecir el resultadode toda la población.

3)�Muestreo�por�cuotas. Hay que tener un buen conocimiento de las propor-

ciones que representan los estratos en la población. Es parecido al muestreo

estratificado aleatorio, pero sin el carácter probabilístico. Una vez conocidos

los porcentajes, fijaremos las cuotas, es decir, el número de sujetos que cum-

plen las condiciones requeridas.

Ejemplo de muestreo por cuotas

Tenemos treinta sujetos masculinos, de 20 a 30 años, etc. Una vez determinada la cuota,se escogen los primeros participantes que cumplen las condiciones, hasta llenar todaslas cuotas.

4)�Bola�de�nieve. Se escogen unos cuantos sujetos y, cuando han finalizado su

participación, se les pide que convoquen conocidos suyos, y así sucesivamente

hasta tener el número de participantes necesario. Este sistema se utiliza mucho

con poblaciones marginales.

1.4.5. El tamaño de la muestra

Haber realizado correctamente el muestreo no implica que los datos obtenidos

sean extrapolables a la población. Aunque la muestra sea representativa, es

necesario que contenga suficientes elementos como para poder extraer con-

clusiones generales. No hay que olvidar que el�error�de�muestra�está relacio-

nado con el tamaño de la misma.

Page 26: Explicación PAC1

© FUOC • PID_00154075 26 El análisis cuantitativo de datos

Por lo tanto, el tamaño de la muestra está directamente relacionada con la

precisión�de�la�estimación que realizaremos, así como con el grado de segu-

ridad que tendremos. En definitiva, cuanto mayor sea la muestra, más precisa

será nuestra predicción y más seguros estaremos de los resultados. Pero hay

que tener en cuenta que las muestras grandes son más difíciles de conseguir;

por lo que hay que encontrar un punto de equilibrio entre la precisión y el

coste económico y personal. Es más, hay que considerar que, a pesar de lo que

acabamos de decir, una muestra grande no es por sí misma una garantía de su

representatividad. El tamaño de la muestra es una condición necesaria, pero

no suficiente, de representatividad.

Para calcular el tamaño de la muestra requerida para cada caso concreto, hay

una serie de procedimientos estadísticos que dependerán (además de la preci-

sión y de la seguridad) de aspectos como el estadístico ya utilizado.

En general, podemos decir que el tamaño de muestra que necesitaremos de-

penderá de diferentes aspectos, entre los que destacan: el tamaño de la pobla-

ción, el tratamiento estadístico que le queremos dar a los datos, la variabilidad

del tamaño en la población, los márgenes admisibles de nuestras predicciones

y el nivel de seguridad que deseamos tener.

1.5. Calidad de las investigaciones

En este subapartado nos referiremos a un par de cuestiones fundamentales en

toda investigación. La validez se refiere a las posibilidades reales que tenemos

de generalizar nuestros hallazgos y en qué nivel de seguridad lo podemos ha-

cer.

La validez�interna de una investigación representa el grado de segu-

ridad que tenemos de que la relación que hemos establecido entre la

variable independiente y la variable dependiente sea causal; es decir,

el grado de confianza con el que podemos establecer que los cambios

registrados en la variable dependiente se han producido como efecto de

los cambios que hemos introducido en la variable independiente.

Si recordamos la definición de relación causal, en la validez interna estará fuer-

temente implicado el concepto de control de las variables extrañas, ya que

solamente con estos controles podemos garantizar que las variables indepen-

dientes son la única causa de los cambios registrados en la variable dependien-

te.

Lectura recomendada

Podéis encontrar en casi to-dos los manuales de estadísti-ca la información suficientepara poder efectuar los cálcu-los necesarios para encontrarel tamaño de la muestra.

Page 27: Explicación PAC1

© FUOC • PID_00154075 27 El análisis cuantitativo de datos

La validez interna se puede ver afectada por una serie de amenazas que tienen

como problema principal el hecho de que las variables extrañas actúen de for-

ma diferenciada sobre los grupos experimentales. Siguiendo el criterio clásico

(Campbell y Stanley, 1966), podemos decir que estas amenazas son:

1)�La�historia. Se refiere a todo aquello que le sucede a cada sujeto experi-

mental durante su participación en el experimento. Por lo tanto, se trata de

cómo afectan en el sujeto experimental acontecimientos que son externos al

propio sujeto.

2)�La�maduración. Es parecido a la historia. La diferencia principal radica en

que la maduración se refiere a acontecimientos internos del propio sujeto. La

maduración puede ser tanto biológica como psicológica.

3)�Los�pre-tests. Las medidas previas a la aplicación de los tratamientos, es-

pecialmente la medida de la propia variable dependiente, pueden afectar, por

diferentes causas (familiarización, creación de expectativas...) al rendimiento

de los sujetos en la tarea experimental.

4)�La�instrumentación. Se refiere a la precisión y constancia de medida de

los instrumentos.

5)�La�regresión�en�la�media. Esta amenaza puede afectar a las investigaciones

que utilicen como variable independiente valores extremos de algún rasgo de

los sujetos –por ejemplo, coeficiente de inteligencia alto frente a coeficiente

de inteligencia bajo; extrovertidos frente a introvertidos...–. El error se pue-

de producir al obtener la medida para clasificar a los sujetos como extremos,

cuando algunos de ellos quizá no lo son y han obtenido una puntuación más

extrema de lo que sería normal con ellos.

6)�La�selección�diferencial. Hace referencia a un error en la asignación de

los sujetos a los grupos, lo que motiva que estos ya no sean comparables ini-

cialmente. Un caso de selección diferencial sería que uno de los grupos esté

formado por sujetos voluntarios, mientras que el otro lo esté por sujetos no

voluntarios.

7)�La�mortalidad�experimental. Se entiende como mortalidad experimental

el hecho de que, a lo largo de la investigación, algunos sujetos dejan de par-

ticipar en la misma. Por lo tanto, eso puede afectar especialmente a los estu-

dios longitudinales, donde a veces se pueden perder más sujetos de unos gru-

pos que de otros. Esto constituye una mortalidad experimental diferencial que

puede afectar a la validez interna.

Además, hay que decir que estas amenazas pueden interactuar entre ellas, y

aumentan así su efecto sobre la validez interna.

Page 28: Explicación PAC1

© FUOC • PID_00154075 28 El análisis cuantitativo de datos

La validez�externa indica el nivel de representatividad, y, por lo tan-

to, hace referencia al grado en que podemos generalizar los resultados

obtenidos en una investigación (las relaciones encontradas), ya sea a

otras situaciones (también llamadas ecológicas), a otros sujetos o a otras

variables.

Diferencia entre validez interna y externa

La validez interna tiene que ver con el control de las variables extrañas. La validez externacon la representatividad y la generalización de sujetos, situaciones o variables.

¿En qué otras situaciones, sujetos o poblaciones podemos generalizar los efec-

tos obtenidos en nuestra investigación? Como podemos deducir fácilmente,

la validez interna es previa y más importante que la externa, ya que si no po-

demos estar seguros de que la relación entre la variable independiente y la

variable dependiente es la deseada, no servirá de mucho poder generalizarla.

1.6. Presentación de informes científicos

El informe científico se compone de una serie de apartados fijos, que a conti-

nuación señalaremos brevemente.

1)�Título. Tiene que dar una idea precisa del contenido del trabajo.

2)�Autores. Nombre y apellidos de los autores. Hay que poner una dirección,

en general institucional, de contacto (universidad, empresa, institución...), por

si algún lector quiere obtener más información.

3)�Resumen. El trabajo ha de contener un resumen de un máximo de quince

líneas, donde se sinteticen los aspectos más relevantes del marco teórico que

ha promovido el trabajo, los objetivos, los resultados más importantes y las

conclusiones que se pueden extraer de los mismos. El resumen es muy impor-

tante, ya que es una información que se integra en las bases de datos de con-

sultas (CD-ROM, publicaciones de resúmenes o abstracts...) y posibilita que las

personas potencialmente interesadas puedan decidir si desean profundizar en

el trabajo o no.

4)�Palabras�clave�(keywords). Los keywords son cuatro o cinco palabras que

recogen los temas principales de la investigación. Al igual que los apartados

anteriores, esta información es un campo de las bases de datos de consulta.

Mediante estas palabras clave se pueden establecer filtros para obtener única-

mente los trabajos que corresponden a los temas escogidos.

Ejemplo de palabras clave

Si publicamos los resultados de una encuesta salarial realizada para hacer un estudio delas remuneraciones de mercado, las palabras clave podrían ser: encuestas, salarios, remu-neración de mercado...

Lecturas recomendadas

Para profundizar más sobre lavalidez interna y externa, po-déis ver las siguientes obras:O.�León;�I.�Montero�(2003).Métodos de investigación (3.ªedición). Madrid: McGraw-Hill.O.�León;�I.�Montero�(2009).Métodos de investigación cuan-titativa. Barcelona: UOC.

Page 29: Explicación PAC1

© FUOC • PID_00154075 29 El análisis cuantitativo de datos

5)�Introducción. En la introducción se establece el marco�teórico de la inves-

tigación; es decir, se plantea el problema y las hipótesis a partir de los resul-

tados obtenidos en investigaciones anteriores y de los objetivos de los autores.

De aquí que en esta fase sea fundamental la documentación, para establecer

el estado de la investigación en el tema de interés. La documentación es el

proceso de recogida de información proveniente de investigaciones anteriores

sobre el tema; asimismo, se concretan los objetivos de la investigación.

6)�Método. En este apartado se especifican todos los datos metodológicos que

permiten responder al trabajo. Se subdivide en tres subapartados.

a)�Materiales. En este subapartado se especifican todos los materiales: cues-

tionarios, instrumentos, ordenadores y programas utilizados por el tratamien-

to estadístico de los datos... En el caso de los cuestionarios y las entrevistas,

es conveniente adjuntar un ejemplar, en el anexo, de los diferentes tipos de

cuestionarios o del protocolo de la entrevista, ya que éstos acostumbran a ser

herramientas creadas ad hoc, y, por lo tanto, no están estandarizadas.

b)�Participantes. En el subapartado de participantes se especifican las carac-

terísticas relevantes de los sujetos que han contestado a las preguntas de la in-

vestigación (datos demográficos, rasgos distintivos...). Sin embargo, se tienen

que especificar las técnicas de muestreo que se han utilizado, el número total

de sujetos, y, en general, cualquier otra cuestión relacionada con los sujetos.

c)�Procedimiento. En el procedimiento se especifican todos los pasos�de�la

investigación (el cómo se ha hecho), especialmente las que tratan lo que ha-

cen las unidades de análisis (generalmente sujetos) desde el inicio de su parti-

cipación en la investigación hasta el final de la misma. En este subapartado

también nos referiremos a la operatividad y medida de las variables, a la estra-

tegia utilizada para obtener la información (por correo, entrevistas...).

7)�Resultados. En este apartado se presentan y comentan todos los resultados

obtenidos en la investigación. Es necesario que recojan, como mínimo, infor-

mación�descriptiva de cada una de las variables estudiadas. Esta información

se puede presentar mediante tablas�y�gráficas. Este último procedimiento es

bastante recomendable, ya que permite una visión rápida de los rasgos gene-

rales más importantes.

En la mayoría de las investigaciones también será de interés encontrar relacio-

nes�entre�variables. Éstas se pueden presentar de diferentes formas, ya sea con

una mera descripción segmentada (fragmentada) de una variable en función

de otra (por ejemplo, ver por separado la distribución salarial para hombres y

para mujeres), o con los índices estadísticos correspondientes (χ2; correlacio-

nes y regresiones; diferencias entre medias o porcentajes, etcétera).

Page 30: Explicación PAC1

© FUOC • PID_00154075 30 El análisis cuantitativo de datos

Si se trata de un diseño de encuestas, en este apartado, se suele presentar la

ficha técnica de la encuesta, donde se especifican la medida de la muestra,

la precisión obtenida, los márgenes de error y otros aspectos técnicos de la

investigación.

8)�Discusión. En este apartado, se analizan los aspectos más relevantes encon-

trados en los resultados y se extraen las conclusiones más importantes. Por

otra parte, se comparan los hallazgos con los objetivos y, en caso de haberlas,

las hipótesis, con el fin de ver en qué medida se han cumplido ambos aspectos.

Por último, se ponen de manifiesto las posibles repercusiones que se puedan

producir a partir de la información obtenida, las posibles investigaciones fu-

turas que completen o complementen el trabajo, y se indican las posibles ca-

rencias o limitaciones que haya podido tener el trabajo.

9)�Referencias. En este apartado se tienen que incluir todas las referencias

bibliográficas que se hayan utilizado a lo largo del trabajo. Se seguirá el orden

alfabético, a partir del apellido del primer autor que firma el trabajo. Para citar

más de un trabajo del mismo autor, se sigue el criterio cronológico.

Con el fin de nombrar correctamente las referencias bibliográficas, dispone-

mos de una serie de estándares para transcribir las citas. Estos estándares de-

penden de la disciplina científica bajo la que se haya llevado a cabo la inves-

tigación, sin embargo, en general, todos incluyen la siguiente información:

Nombre de los autores e institución que realiza el trabajo, fecha de publica-

ción, título del trabajo, el nombre de la publicación (revista, libro...), numero

y páginas donde se encuentra el trabajo (si se trata de una revista o una colec-

ción), ciudad en donde se ha editado y nombre de la editorial.

Por otra parte, hay que tener en cuenta que cada tipo de trabajo se cita de

forma diferente (tesis, libros, artículos...).

Ejemplos de referencias bibliográficas

A continuación, ponemos el ejemplo de diferentes publicaciones en formato APA (Ame-rican Psicological Association): un libro, un artículo publicado en una revista, el capítulode una compilación de trabajos y una tesis doctoral:

A.�Andrés�Pueyo (1993). La inteligencia como fenómeno natural. Valencia: Promolibro.

J.�J.�Aparicio�y�J.�L.�Zaccagnini (1980). Memoria y adquisición del conocimiento. Estu-dios de Psicología (n.° 2, pp. 78-92).

G.�H.�Bower (1975). Cognitive Psychology: an introduction. En W. K. Estes (Ed.). Hand-book of learning and cognitive process. Nueva York: Wiley.

A.�Cosculluela (1990). Rendimiento escolar, inteligencia y velocidad de procesamiento de lainformación. Barcelona: Universidad de Barcelona. [Tesis doctoral no publicada.]

Lecturas recomendadas

Para profundizar en la pre-sentación de los informescientíficos, podéis consultarlas siguientes obras:O.�León;�I.�Montero�(2003).Métodos de investigación (3.ªedición). Madrid: McGraw-Hill.O.�León;�I.�Montero�(2009).Métodos de investigación cuan-titativa. Barcelona: UOC.

Page 31: Explicación PAC1

© FUOC • PID_00154075 31 El análisis cuantitativo de datos

10)�Anexo. En el anexo se pone toda la información complementaría que los

autores consideran de utilidad para los lectores: un ejemplar de cada cuestio-

nario, listados de resultados o de lugares de interés, tablas...

Page 32: Explicación PAC1

© FUOC • PID_00154075 32 El análisis cuantitativo de datos

2. Análisis de los datos

Como ya hemos comentado en el subapartado 1.3, dedicado a las variables, el

tipo de análisis que podremos hacer con los datos depende no sólo de nuestros

intereses, sino, básicamente, de la escala en que hayan sido medidas. A pesar

de eso, el proceso siempre empezará por la tabulación de los datos, seguirá con

su descripción y representación gráfica y, en el caso de este tipo de diseños,

añadiremos casi siempre la de relaciones entre variables.

2.1. Descripción de las variables

El objetivo de la estadística es reducir�la�información a una serie de índices en

que puedan ser interpretados. Por lo tanto, el primer paso, una vez tabulados

los datos (introducidos en una matriz de datos), consistirá en describir las

variables que hemos estudiado (qué son; cómo son). El siguiente paso, propio

de la estadística inferencial (básicamente paramétrica), será explicar cómo

son las relaciones entre variables o por qué los fenómenos se producen de

una determinada manera (por qué). Por fin, en algunas ocasiones también

nos interesará poder hacer predicciones de cómo o cuándo se producirá un

fenómeno determinado a partir de la información que tenemos.

Dado que nuestra pretensión está lejos de crear un manual de estadística, la

intención de este subapartado es presentar con la ayuda de un ejemplo algunos

de los índices estadísticos necesarios para el análisis de los datos.

Page 33: Explicación PAC1

© FUOC • PID_00154075 33 El análisis cuantitativo de datos

Un investigador quiere estudiar la relación entre la valoración que hacen los alumnos deun aula de 3.° de la ESO de la asignatura de Matemáticas mediante una escala de opinióny las notas que obtienen en esta asignatura. Con el fin de llevar a cabo tal investigación,elaboró un cuestionario donde se reflejaban las valoraciones de diferentes aspectos de lasmatemáticas, que, finalmente quedaban recogidas en una puntuación global que estabaen un intervalo entre 50 y 200.

La tabla que presentamos a continuación nos informa, para cada uno de estos 15 jóvenes,de su sexo, del valor obtenido en esta escala y de la nota final del curso en la asignaturade Matemáticas, recogida cuantitativa y cualitativamente.

Niño Sexo Valoración (x) Nota (y) Nota cualitativa

1 Chica 62 5,09 Aprobado

2 Chica 90 5,16 Aprobado

3 Chico 103 5,22 Aprobado

4 Chica 120 5,14 Aprobado

5 Chico 126 5,75 Aprobado

6 Chico 194 6,86 Notable

7 Chica 193 7,34 Notable

8 Chica 188 7,34 Notable

9 Chico 130 6,47 Aprobado

10 Chica 174 6,47 Aprobado

11 Chico 155 6,22 Aprobado

12 Chico 136 6,23 Aprobado

13 Chica 156 6,26 Aprobado

14 Chico 122 5,16 Aprobado

15 Chica 113 5,16 Aprobado

Total   2.062   89,87

2.1.1. Índice de tendencia central de la distribución de una

variable

Los estadísticos de nivel o tendencia central intentan describir cuál es el

valor representativo del centro de un conjunto de datos de una variable.

Los más utilizados son la moda (valor más frecuente), la mediana (valor

que divide la distribución de los datos en dos partes iguales, una vez

hemos ordenado todos los valores) y la media (valor medio de todos

los datos presentes en la distribución).

Media�de�una�variable

Ved también

Podéis consultar la unidad devídeo 4 para complementar lainformación de este subaparta-do.

Page 34: Explicación PAC1

© FUOC • PID_00154075 34 El análisis cuantitativo de datos

La media del nivel de la escala de valoración x = 2.062/15 = 137,47.

La media de las notas de matemáticas y = 89,87/15 = 5,99.

Mediana�de�la�variable�escala�de�valoración

Primero, ordenamos los valores:

Niño Valoración (x)

1 62

2 90

3 103

15 113

4 120

14 122

5 126

9 130

12 136

11 155

13 156

10 174

8 188

7 193

6 194

En este caso tenemos un número impar de observaciones (quince), por lo tanto

la mediana es el valor que ocupa la posición octava. Si tenemos un número

par de observaciones, la mediana sería el promedio de las dos observaciones

centrales.

La mediana de la escala de valoración es 130.

La mediana de las notas de matemáticas es 6,22.

Moda�de�una�variable

Page 35: Explicación PAC1

© FUOC • PID_00154075 35 El análisis cuantitativo de datos

La moda tiene el problema de su ambigüedad. Podemos tener más de un valor

repetido (muchas modas) o no tener ninguno. En nuestro ejemplo no hay

moda en la variable escala de valoración, mientras que la variable nota de

matemáticas tiene un valor igual a 5,16.

2.1.2. Índice de dispersión o variabilidad de la distribución de

una variable

Los índices descriptivos de variabilidad nos hablan de la dispersión de

los datos de la distribución alrededor de un valor central (normalmente

la media). Los más utilizados son la varianza (media de las distancias

cuadráticas de las puntuaciones con respecto a la media –ved cuadro de

dispersión o variabilidad–) y la desviación típica o desviación estándar

(índice basado en el anterior).

Varianza�de�una�variable

Desviación�típica

La varianza de la escala s2x = 21.287,72/14 = 1.520,55

Ved también

Podéis consultar la unidad devídeo 6 para complementar lainformación de este subaparta-do.

Page 36: Explicación PAC1

© FUOC • PID_00154075 36 El análisis cuantitativo de datos

La desviación típica sx = 38,99

La varianza de y: sy 2 = 9,34/14 = 0,67

La desviación típica de Y: sy =0,82

La varianza es un valor de difícil interpretación dado que su unidad de medi-

da es la original de la variable pero elevada al cuadrado. La desviación típica

conserva las unidades de medida originales.

Tablas�de�frecuencias

Las tablas de frecuencias se pueden utilizar tanto para describir variables de

tipo cualitativo como cuantitativo. En este último caso, habrá que "juntar" los

datos formando intervalos.

Ejemplo de tabla de frecuencias de la variable sexo

Valor Frecuencia Porcentaje Porcentaje acumulado

Chico 7 53,33 53,33

Chica 8 46,67 100

Total 15 100  

Ejemplo de tabla de frecuencias de la variable escala de valoración de las matemáticas

Intervalo Valor central Frecuencia Porcentaje Porcentaje acumulado

50-69 60 1 6,7 6,7

70-89 80 0 0 6,7

90-109 100 2 13,3 20

110-129 120 4 26,7 46,7

130-149 140 2 13,3 60

150-169 160 2 13,3 73,3

170-189 180 2 13,3 86,7

190-209 200 2 13,3 100

Total   15 100  

Dispersión o variabilidad

La dispersión o variabilidad serefiere a lo mucho o poco con-centrados que se encuentranlos datos en torno al valor cen-tral. Las dos series siguientestienen la misma media (= 10),pero la primera es más disper-sa que la segunda.1) 2, 4, 7, 10, 13, 16, 182) 7, 8, 9, 10, 11, 12, 13

Page 37: Explicación PAC1

© FUOC • PID_00154075 37 El análisis cuantitativo de datos

2.1.3. Representaciones gráficas

La representación gráfica de las variables depende del tipo de variables que

queremos representar. Las variables cualitativas se suelen representar en gráfi-

cos de sectores ("pasteles" o "quesos"), o bien en gráficos de barras. Los valores

pueden estar en frecuencia absoluta (el valor del recuento) o en porcentajes.

Representación gráfica de la variable sexo

Las variables cuantitativas pueden ser representadas de muchas formas. Segui-

damente mostraremos dos de las más frecuentes.

Ejemplo�de�histograma�de� frecuencias� (con� la�distribución�de� la� curva

normal)�de�la�variable�escala�de�valoración�de�las�matemáticas

La distribución�normal es un modelo de probabilidad que siguen

determinadas variables cuantitativas continuas.

Ved también

Podéis consultar las unidadesde vídeo 3, 5 y 7 para comple-mentar la información de estesubapartado.

Page 38: Explicación PAC1

© FUOC • PID_00154075 38 El análisis cuantitativo de datos

Como vemos en la figura, esta distribución es simétrica con respecto

al valor central. Este valor central viene representado por la media

(μ) de la distribución.

La distribución de valores teóricos es asintótica con respecto al eje

horizontal, esto es, fluctúa entre -∞ y +∞.

La media (μ) y la varianza (σ2) se conocen como los parámetros de

la distribución.

Ejemplo�de�diagrama�de�caja�(boxplot)�de�la�variable�notas�de�matemáticas.

Es útil para ver la distribución de las variables y permite comparar submuestras.

En el diagrama de caja representamos cinco valores de cálculo muy sencillo, los

valores extremos (el más pequeño y el mayor de la serie de datos), la mediana

(comentado anteriormente) y los cuartiles 1 y 3. Estos valores se calculan de

forma simple: una vez calculada la mediana, ésta nos divide la serie de datos

en dos partes iguales. La mediana de la serie inferior de los datos representa el

cuartil 1, la mediana de la serie superior será el cuartil 3.

Page 39: Explicación PAC1

© FUOC • PID_00154075 39 El análisis cuantitativo de datos

En nuestro ejemplo la comparación de los dos diagramas de caja de la nota de

matemáticas en función del sexo nos permite descubrir diversos aspectos. En

efecto, vemos que la nota mediana de los chicos es superior a la de las chicas,

aunque éstas presentan más dispersión; de hecho, la mejor nota corresponde

a una chica. También podemos ver que los datos no presentan simetría, ya que

en ninguno de los dos casos la mediana se encuentra centrada con respecto

a los cuartiles y a los extremos.

2.2. Relaciones entre variables

2.2.1. Las pruebas de significación o de hipótesis

Cuando tratamos de encontrar relaciones entre variables, estamos llevando a

cabo lo que llamamos una prueba de significación o de hipótesis. A continua-

ción haremos algunas consideraciones generales con respecto a estas pruebas.

Estas pruebas consisten en una serie de procedimientos encaminados a la toma

de decisiones estadísticas. Fundamentalmente, las decisiones se establecerán a

partir de cuestiones que implican encontrar igualdad o diferencia, dependen-

cia o independencia, ajuste o desajuste. Las preguntas que nos haremos serán

aproximadamente las siguientes:

• ¿Hay relación entre la hiperactividad de los niños/as y el sexo?

• ¿Hay diferencia en la cantidad de horas que los niños/as catalanes y los

alemanes ven la televisión?

• ¿Hay diferencias en el conocimiento del idioma inglés según la zona geo-

gráfica del Estado español?

• ¿Estudian más horas las chicas que los chicos en el bachillerato?

• ¿El consumo de alcohol es igual en hombres y mujeres?

Para llevar a cabo una prueba de hipótesis, hay que seguir una serie de pasos

que detallaremos a continuación.

1)�Formular�la�hipótesis�nula. En primer lugar, en estas pruebas estadísticas

partimos de la formulación de una especie de "supuesto de inocencia", al que

llamamos hipótesis nula (H0).

La H0 nos dice que no hay diferencias entre los grupos o relación entre las

variables.

Ved también

Podéis consultar las unidadesde vídeo 20 y 21 para comple-mentar la información de estesubapartado.

Page 40: Explicación PAC1

© FUOC • PID_00154075 40 El análisis cuantitativo de datos

Hipótesis nula

En términos generales, plantearemos: H0: A = B, H1: A ≠ B, H1: A < B, H1: A > B

a) Dado que la H0 suele contradecir la hipótesis de trabajo de la investigación

(por ejemplo, en igualdad de condiciones laborales, los hombres cobran más

que las mujeres), los análisis tratarán de demostrar que, con un cierto riesgo de

error, podemos rechazar la H0 y, por lo tanto, confirmar la hipótesis de trabajo.

Esta hipótesis es complementaria a la H0, y se llama hipótesis alternativa (H1).

Indica diferencia, desajuste o dependencia entre grupos, tratamientos, varia-

bles...

Ejemplos de hipótesis nula

H0: No hay relación entre la hiperactividad y el sexo.

H0: No hay diferencias en las horas de estudio entre chicos y chicas en el bachillerato.

H0: No hay diferencias en el consumo de alcohol entre los hombres y las mujeres.

H0: No hay diferencias en el nivel intelectual entre hombres y mujeres.

H1: Hay diferencia en el consumo de tabaco entre los dos sexos.

H1: Las chicas estudian más horas que los chicos en el bachillerato.

H1: Hay más niños con trastornos de hiperactividad que niñas.

H1: Los alumnos prefieren las ciencias sociales a las matemáticas.

2)�Nivel�de�riesgo. Como toda toma de decisiones, las decisiones estadísticas

comportan una serie de riesgos que habrá que contemplar. Por lo tanto, el

primer paso será ver qué nivel de riesgo estamos dispuestos a asumir. De esta

manera, fijaremos un riesgo que consiste en fijar a priori el nivel de significa-

ción, estableciendo la región crítica. Este riesgo es el que aceptamos al equivo-

carnos cuando rechazamos una H0 (por ejemplo, diciendo que hay diferencia

entre los grupos) cuando es verdadera (en realidad, no hay diferencias). En la

siguiente figura se puede ver cómo se concreta este paso.

Las pruebas de hipótesis pueden ser unilaterales o bilaterales, según la hipó-

tesis que queramos estudiar. Utilizaremos una prueba bilateral para demos-

trar diferencias sin tener una hipótesis del sentido de esta diferencia (μA ≠ μB),

mientras que utilizaremos una prueba unilateral si únicamente nos interesa

saber, por ejemplo, si A es más grande que B (μA > μB). Es más fácil demostrar

diferencias en pruebas unilaterales que en pruebas bilaterales.

Page 41: Explicación PAC1

© FUOC • PID_00154075 41 El análisis cuantitativo de datos

3)�Toma�de�decisión. El test de hipótesis es el procedimiento por el que deci-

dimos entre la hipótesis de nulidad y la alternativa. Esta decisión se toma en

función de si el resultado de la prueba estadística cae en la zona de aceptación

de la H0 o fuera de ella (región crítica).

En toda toma de decisiones estadísticas corremos el riesgo de cometer

errores. Los errores que pueden hacer que nos equivoquemos en la de-

cisión estadística son el error de tipo I y el de tipo II. Cometemos un

error�de�tipo�I, o de primera especie, cuando rechazamos una H0 que

en realidad es verdadera; es decir cuando, por ejemplo, afirmamos que

hay diferencias entre dos grupos, y en realidad no las hay.

Podemos conocer su valor, ya que la probabilidad de cometer este error es el

riesgo, o nivel de significación, que fijamos en la prueba estadística (habitual-

mente, α < 0,05). Actualmente, los paquetes estadísticos proporcionan la pro-

babilidad exacta de cometer un error de tipo I (afirmar que hay diferencias o

relación cuando en realidad no es así), llamada nivel de significación o, sim-

plemente, P. En efecto, el nivel de significación (p-value o valor P) nos informa

de la probabilidad real de que sea cierta la H0. Si esta probabilidad es alta, lo

aceptaremos; por el contrario, si es baja, la podremos rechazar. En ciencias so-

ciales los valores de alfa suelen ser 0,01; 0,05; 0,10; siendo el más utilizado el

del 0,05. Por lo tanto, siempre que:

• P ≥ α → decidiremos aceptar H0

• P < α → decidiremos rechazar H0

Cometemos un error�de�tipo�II�(o de segunda especie) cuando acepta-

mos una H0 que en realidad se falsifica (diremos que son iguales, cuan-

do en realidad son diferentes). El riesgo de cometer este error se deno-

mina β y suele ser desconocido, pero está relacionado con el tamaño

de la muestra y también con el nivel de significación, de manera que

podemos decir que, al disminuir un riesgo, aumentaremos el otro; pero

la manera correcta de disminuir este riesgo es aumentar el tamaño de

la muestra.

Tabla resumen de errores tipos I y II

  H0 verdadera H0 falsa

Rechazamos�H0 Error tipo I Correcto

Aceptamos�H0 Correcto Error tipo II

Consideraciones finales

Cuando tomamos una muestra muy grande, prácticamente podremos rechazar cualquierH0, aunque la diferencia real (tamaño del efecto) sea muy pequeña. Eso se debe a que

Page 42: Explicación PAC1

© FUOC • PID_00154075 42 El análisis cuantitativo de datos

la significación estadística está relacionada, además de con el tamaño del efecto, con eltamaño de la muestra.

2.2.2. Las pruebas de relación o independencia

La prueba de relación que utilizaremos estará en función del tipo de variables

con las que estamos trabajando. En la tabla siguiente podemos ver un resumen

de las principales pruebas de relación entre parejas de variables.

Tabla resumen de los tipos de pruebas de relación más utilizados en los diferentes casos

Tipo de variables Prueba estadística

Dos variables cualitativas Prueba de χ2

Dos variables, una cualitativa y una cuantitativa Dos grupos: t de StudentMás de dos grupos: ANOVA

Dos variables cuantitativas Covarianza y correlación de PearsonModelo de la regresión lineal

Relación entre variables cualitativas

La prueba de χ2 permite estudiar la relación o dependencia entre dos varia-

bles cualitativas a partir de las diferencias encontradas entre sus frecuencias

empíricas y teóricas (las esperadas en el caso de independencia o hipótesis de

nulidad).

Para realizar la prueba, tenemos que construir la tabla de contingencia, la cual

constituye una tabla de doble entrada donde expresaremos las frecuencias que

hemos registrado en la muestra.

Imaginemos un ejemplo donde tenemos una muestra de 150 sujetos; hemos

registrado la variable sexo y la nota que han obtenido en una prueba (aprobado

o notable). Queremos ver si hay relación entre estas dos variables, o sea, si el

sexo de los sujetos puede influir o no en la nota obtenida.

Tabla de contingencia nota x sexo

  Chico Chica Total

Recuento de aprobados 60 60 120

Recuento de notables 10 20 30

Recuento total 70 80 150

En primer lugar, tenemos que calcular la frecuencia (frecuencia esperada o teó-

rica) que tendríamos que haber encontrado en el caso de que no hubiera rela-

ción entre las variables. Para conseguirlo, por cada casilla multiplicaremos los

totales de frecuencia observada de su hilera y su columna y lo dividiremos por

Lectura recomendada

Hay que considerar que, parautilizar todas estas pruebas,se tienen que cumplir una se-rie de condiciones de aplica-ción (por ejemplo, normali-dad de las distribuciones, nú-mero mínimo de casos, ho-mogeneidad de varianzas...).Si estáis interesados en pro-fundizar en este tema, podéisencontrar la información alrespecto en prácticamentecualquier manual de estadís-tica.

Lecturas recomendadas

Para profundizar sobre la re-lación entre variables cualita-tivas, podéis consultar las si-guientes obras.J.�Guardia;�M.�Freixa;�M.Pero;�J.�Turbany (2007).Análisis de datos en psicología.Madrid: Delta.D.�S.�Moore (2004). Estadísti-ca aplicada básica. Barcelona:Antoni Bosch.

Page 43: Explicación PAC1

© FUOC • PID_00154075 43 El análisis cuantitativo de datos

el total de la muestra. Por ejemplo, para la combinación "chico" y "aprobado",

multiplicaremos 120 (número de aprobados) por 70 (número de chicos) y lo

dividiremos por 150 (total de la muestra):

En la tabla siguiente tenemos tanto las frecuencias observadas como las fre-

cuencias esperadas; en negrita están los valores esperados en cada casilla si no

hay relación.

Tabla de contingencia nota x sexo

    Chico Chica Total

Recuento 60 60 120Aprobados

Frecuenciaesperada

56 64 120

Recuento 10 20 30Notables

Frecuenciaesperada

14 16 30

Recuento 70 80 150Recuento total

Frecuenciaesperada

70 80 150

La lógica de la prueba será la siguiente: si las frecuencias observadas son simi-

lares a las esperadas bajo el supuesto de la no relación (frecuencias esperadas),

entonces aceptaremos la H0 (no hay relación). Si las dos frecuencias son dife-

rentes, entonces decidiremos rechazar el H0 y, por lo tanto, concluiremos que

sí existe relación entre las dos variables.

Formalmente, expresamos las hipótesis de la siguiente manera:

• H0: f observadas ≈ f esperadas

• H1: f observadas ≠ f esperadas

El estadístico de contraste que utilizaremos se denomina χ2, ya que se distri-

buye siguiendo esta distribución teórica conocida. Este hecho nos sirve para,

además de calcular un valor con la expresión de cálculo, saber el valor del

grado de significación (p-value) que nos proporciona la probabilidad de que

sea cierta el H0.

La fórmula de cálculo del estadístico de contraste de χ2 es la siguiente:

Page 44: Explicación PAC1

© FUOC • PID_00154075 44 El análisis cuantitativo de datos

Aplicando la fórmula a nuestros datos:

El valor de χ2 es de 2,6786. Para saber si se trata de un valor alto o bajo, nece-

sitamos conocer la probabilidad que acompaña a este valor. La distribución de

χ2 no es única, fluctúa en función de los llamados grados de libertad. Para esta

prueba los calculamos con (k - 1)·(l - 1), donde k y l son las categorías de las dos

variables. En nuestro caso, tenemos dos categorías en cada variable categórica,

por lo tanto, los grados de libertad son (2 - 1) · (2 - 1) = 1.

Con la ayuda del Excel o de cualquier programa estadístico, podemos ver que

la probabilidad (p-value) asociada al valor 2,6786, en una distribución de χ2

con un grado de libertad, es 0,1017.

Este valor representa la probabilidad de que sea cierto el H0, o, dicho de otra

manera, la probabilidad que tenemos de equivocarnos en el caso de rechazar

el H0. Si creemos que esta probabilidad es alta, aceptaremos el H0; si conside-

ramos que es baja, la rechazaremos y diremos que parece que haya relación

entre ambas variables.

En nuestro caso, una probabilidad de 0,1017 (grado de significación) es bas-

tante alta, por lo tanto, aceptaríamos la hipótesis de nulidad y diríamos que

no hay relación entre las dos variables. Tened en cuenta que el valor 0,1017

representa la probabilidad de cometer un error tipo I. Normalmente, el valor

máximo (α) de cometer error tipo I más utilizado es 0,05, por lo tanto, 0,1017

es superior a este 0,05, así que consideramos que es bastante alta la probabili-

dad de que sea cierto el H0, y decidiremos aceptarlo (ved el subapartado 2.2.1).

Relación entre dos variables: cualitativa y cuantitativa. Diferen-cia entre medias

Las pruebas de diferencia de medias permiten establecer a partir de qué dife-

rencia se puede considerar que las medias observadas son significativamente

diferentes. También permiten comparar una media observada con la media de

la población.

Las pruebas se pueden hacer por dos medias, ya sean con las medias obteni-

das por los mismos sujetos (medidas repetidas) o por sujetos diferentes (datos

independientes).

Page 45: Explicación PAC1

© FUOC • PID_00154075 45 El análisis cuantitativo de datos

Por último, señalemos que, cuando comparamos dos medias, utilizamos la

prueba de comparación de medias t de Student, mientras que, si son más de

dos medias, analizaremos los datos con el análisis de la varianza (ANOVA).

Prueba�t�de�Student�para�grupos�independientes

Aplicaremos la prueba t de Student para grupos independientes cuan-

do tengamos dos grupos diferentes de sujetos (o sea, hay una variable

categórica con dos categorías), sobre los que hemos registrado una va-

riable cuantitativa. Para ver si hay o no relación entre las dos variables,

tendremos que observar si existen diferencias estadísticamente signifi-

cativas entre las medias de los dos grupos formados.

H0: media1 media2≈

H1: media1 media2≠

Estandarización

Las unidades de medida siempre nos afectan, en el sentido de que no podemos saber apriori si una diferencia es muy grande o pequeña. La utilización de una estadística quesigue una distribución teórica conocida (sea la normal, la t de Student, la Ji al cuadrado,etcétera) nos estandariza estas diferencias y podremos tomar las decisiones de forma in-dependiente de las unidades originales de las variables.

Suponemos que tenemos los siguientes resultados de la prueba de compara-

ción de medias entre chicos y chicas con respecto a las puntuaciones en la

escala de valoración.

Estadísticas del grupo

  Sexo N Media Desviación Error típico de la media

Chico 7 138,0000 29,2062 11,0389Escala

Chica 8 137,0000 48,0565 16,9905

La estadística de contraste que utilizaremos para estandarizar la diferencia en-

tre las medias se denomina t de Student, ya que se distribuye siguiendo es-

ta distribución teórica conocida. La distribución t es una distribución teórica

muy similar a la distribución normal, pero no es única, sino que fluctúa según

los diferentes grados de libertad. En esta prueba, los grados de libertad son (n1

– 1) + (n2 – 1), o sea, se pierde un grado de libertad en cada uno de los dos

grupos, o, lo que es lo mismo, n – 2.

Es importante tener en cuenta que a la hora de aplicar esta prueba se tienen que

comprobar dos supuestos, sobre todo si la muestra es pequeña, inferior a n = 30.

Supondremos que la variable cuantitativa (en nuestro caso, la variable escala

de valoración) se distribuye normalmente en la población de origen y que las

Page 46: Explicación PAC1

© FUOC • PID_00154075 46 El análisis cuantitativo de datos

varianzas de los dos grupos tienen que ser similares (homocedasticidad). Si no

se cumple una de las dos condiciones, o alguna de los dos, podemos aplicar

una prueba alternativa: la "prueba no paramétrica de la U" de Mann-Whitney.

La fórmula de cálculo de la estadística de contraste t es la siguiente:

donde sp2 es un cálculo de varianza agrupada o ponderada en la que intervie-

nen las varianzas de los dos grupos, según la siguiente fórmula.

Utilizando los valores del ejemplo:

Prueba de muestras independientes

  Prueba T para la igualdad de medias

  t gl Sig.�(bilateral) Diferenciade�medias

Error�típico�de�la�diferencia

Notes -0,018 13 0,986 -7,86 E-03 0,4376

Se observa una pequeña diferencia en el resultado obtenido con el programa

SPSS; sin embargo, ésta es muy pequeña y se debe a los diferentes decimales

utilizados.

También vemos que el valor de t que utilizamos es de signo positivo, mientras

que el valor de t del listado es negativo, según cuál de las dos medias ponemos

en primer lugar. Pero esto no tiene ninguna incidencia, pues la distribución

t de Student, igual que la normal, es simétrica y está centrada en cero. Por lo

tanto, es exactamente lo mismo trabajar en una parte de la distribución (a la

derecha si es positivo) o en la otra (a la izquierda si el valor se negativo).

Page 47: Explicación PAC1

© FUOC • PID_00154075 47 El análisis cuantitativo de datos

Con la ayuda de Excel o de cualquier programa estadístico, podemos ver que

la probabilidad (p-value) asociada al valor t = 0,04 en una distribución con 13

grados de libertad es 0,484. Aquí también vemos una diferencia con el listado:

éste, en realidad, está dando el doble (bilateral) de la probabilidad que repre-

senta el grado de significación.

Este valor representa la probabilidad de que sea cierto el H0. En este caso, ve-

mos que éste es muy alto, por lo tanto, aceptaremos el H0 (lo que significa que

no hay relación entre las dos variables). Podemos decir que las dos medias son

similares y que el sexo de los sujetos parece no influir en las puntuaciones de

la escala de valoración.

Prueba�t�de�Student�para�dos�medidas�repetidas

Aplicaremos la prueba t de Student para dos medidas repetidas en el

caso de que tengamos la medida de una variable cuantitativa realizada

en dos momentos temporales diferentes sobre una misma muestra de

sujetos.

Los diseños de medidas repetidas tienen la ventaja sobre los datos indepen-

dientes, en la comparación del mismo grupo de sujetos con ellos mismos; ade-

más, al no dividir la muestra en dos grupos, maximizamos el número de suje-

tos. Por contra, por el hecho de intervenir el tiempo, puede aparecer lo que se

denomina efecto serial, o sea, la contaminación de la respuesta por la medida

anterior.

Suponemos que tenemos los siguientes resultados de una muestra de quince

chicos/as, que han contestado una encuesta de valoración al principio y al

final de un determinado curso.

Chico Valoración inicial Valoración final Y

1 62 98 –36

2 90 116 –26

3 103 198 –95

4 120 140 –20

5 126 75 51

6 194 186 8

7 193 194 –1

8 188 194 –6

9 130 147 –17

Page 48: Explicación PAC1

© FUOC • PID_00154075 48 El análisis cuantitativo de datos

Chico Valoración inicial Valoración final Y

10 174 174 0

11 155 192 –37

12 136 183 –47

13 156 166 –10

14 122 116 6

15 113 116 –3

La última columna de la tabla representa la diferencia de las dos medidas por

cada sujeto. Para ver si hay o no relación entre la variable cuantitativa y el

momento de medida (variable cualitativa), tendremos que observar si la media

de las diferencias es significativamente diferente de cero.

H0: mediaY ≈ 0

H1: mediaY ≠ 0

La estadística de contraste que utilizaremos para estandarizar la media de las

diferencias es la t de Student, ya que se distribuye siguiendo esta conocida dis-

tribución teórica. En este caso, al tratarse de un sólo grupo de sujetos, única-

mente se pierde un grado de libertad, por lo tanto, aquí los grados de libertad

son n – 1.

Supondremos que la variable cuantitativa Y (diferencia de las puntuaciones)

se distribuye normalmente en la población de origen. Si tenemos evidencias

de que eso no es así, tendremos que aplicar la prueba no paramétrica de la T

de Wilcoxon.

La fórmula de cálculo del estadístico de contraste t es la siguiente:

En nuestro ejemplo, la media de la variable Y es -15,53 y la desviación típica

es 32,17. Utilizando los valores:

Page 49: Explicación PAC1

© FUOC • PID_00154075 49 El análisis cuantitativo de datos

Prueba t para medias de dos muestras emparejadas

  Valoración inicial Valoración final

Media 137,4666667 153

Varianza 1.520,552381 1.637,714286

Observaciones 15 15

Coeficiente�de�correlación�de�Pearson 0,672712441  

Diferencia�hipotética�de�las�medias 0  

Grados�de�libertad 14  

Estadística�t –1,869881748  

P(T£�t)�una�cola 0,0412786  

Valor�crítico�de�t�(una�cola) 1,761310115  

P(T£�t)�dos�colas 0,082557199  

Valor�crítico�de�t�(dos�colas) 2,144786681  

El valor negativo (–1,87) nos indica que la valoración, en conjunto, es más

alta en la segunda medida (al final del curso) que al inicio. De todas maneras,

el símbolo no es importante, ya que podemos haber hecho la diferencia res-

tando la primera columna a la segunda. Como la distribución t de Student es

simétrica, no importa cuál sea el signo que presente el estadístico de contraste;

en todo caso, éste nos puede ayudar a la interpretación de la posible relación.

Estamos, pues, al límite, si hacemos una prueba unilateral concentrando alfa

en un lado, y si éste es del 0,05, tendríamos que rechazar la hipótesis nula, y,

por lo tanto, diríamos que parece que, si hay relación, la valoración es mayor al

final que al inicio. En cambio, si escogemos hacer una prueba bilateral, donde

repartimos alfa a cada lado, tendremos que aceptar la hipótesis nula; no hay

la suficiente diferencia como para determinar que la valoración inicial y final

son diferentes.

Prueba�del�análisis�de�la�varianza�para�grupos�independientes

Page 50: Explicación PAC1

© FUOC • PID_00154075 50 El análisis cuantitativo de datos

Aplicaremos la prueba del análisis de la varianza (AVAR o ANOVA) para

grupos independientes cuando tengamos dos o más grupos diferentes

de sujetos (o sea, hay una variable cualitativa con dos o más categorías),

sobre los que hemos registrado una variable cuantitativa. Para ver si

hay o no relación entre las dos variables, tendremos que observar si

existen diferencias estadísticamente significativas entre las medias de

los diferentes grupos formados.

H0: media1 ≈ media2 ≈ media3 ≈ ... ≈ mediak

H1: media1 ≠ media2 ≠ media3 ≠ ... ≠ mediak

Suponemos que tenemos los siguientes resultados de una muestra de quince

chicos/as en las que tenemos la nota final obtenida en una prueba (con tres

resultados: suspenso, aprobado y notable) y las puntuaciones en una escala de

valoración del curso.

Niño Nota final Valoración final

1 Suspenso 98

2 Aprobado 116

3 Notable 198

4 Suspenso 140

5 Suspenso 75

6 Aprobado 186

7 Notable 194

8 Aprobado 194

9 Aprobado 147

10 Aprobado 174

11 Notable 192

12 Aprobado 183

13 Suspenso 166

14 Suspenso 116

15 Notable 116

Suma   2.295

La variación total que presentan los datos se puede descomponer en dos fuen-

tes de variabilidad: por una parte, la producida por el hecho de pertenecer a

diferentes grupos (los suspensos, los aprobados y los notables), que se llama

suma de cuadrados entre grupos; por otra parte, la producida dentro de cada

Page 51: Explicación PAC1

© FUOC • PID_00154075 51 El análisis cuantitativo de datos

grupo, esto es, la suma de cuadrados intra grupos. A partir de estas variabili-

dades (sumas de cuadrados), se obtienen dos estimaciones independientes de

la varianza de los datos; la razón de estas dos varianzas (llamadas cuadrados

medios) sigue la distribución F de Snedecor.

Los cuadrados medios (varianzas) se calculan haciendo el cociente de las su-

mas de cuadrados entre grupos e intra grupos, con sus respectivos grados de

libertad.

Los grados de libertad, igual que las sumas de cuadrados, presentan una rela-

ción aditiva:

grados de libertadtotal (n - 1) = grados de liber-

tadentre (k - 1) + grados de libertadintra (n - k)

Utilizaremos los datos del ejemplo para presentar las fórmulas más rápidas de

cálculo de las sumas de cuadrados:

Fuente de variación entre grupos (o explicada):

Fuente de variación intra grupos (residual o no explicada):

Fuente de variación total:

Page 52: Explicación PAC1

© FUOC • PID_00154075 52 El análisis cuantitativo de datos

Se suelen presentar los resultados en una tabla resumen del análisis de la va-

rianza. Un ejemplo aplicado a estos mismos datos es la tabla obtenida median-

te el programa Excel.

Resumen del análisis de varianza de un factor

Grupos Cuenta Suma Media varianza

Suspenso 5 595 119 1.259

Aprobado 6 1.000 166,6 879,07

Notable 4 700 175 1.553,3

Análisis de varianza

Origen de lasvariaciones

Suma decuadrados

Grados delibertad

Media de loscuadrados

F Probabilidad Valor crítico para F

Entre grupos 8.836,67 2 4.418,3 3,76 0,053 3,88

Dentro de los grupos 1.4091,33 12 1.174,2      

Total 22.928 14        

Se calculan los cuadrados medios (varianzas) entre e intra relacionando las

respectivas sumas de cuadrados con los grados de libertad correspondientes:

Finalmente, para obtener la estadística de contraste, haremos el cociente entre

las dos estimaciones de las varianzas:

La distribución teórica conocida que sigue la estadística de contraste es la F

de Snedecor. Esta distribución fluctúa en función de dos tipos de grados de

libertad: los llamados grados de libertad del numerador (que corresponden a

la fuente de variación entre sujetos) y los del denominador (corresponden a

la fuente intra sujetos).

Es importante resaltar que, para obtener la distribución teórica de la estadística

de contraste, y, por lo tanto, para poder aplicar correctamente la prueba, es

necesario que se cumplan determinados supuestos, como que la distribución

de la variable cuantitativa (en nuestro caso, la puntuación de valoración) y las

diferentes observaciones sean independientes y las varianzas de los diferentes

Page 53: Explicación PAC1

© FUOC • PID_00154075 53 El análisis cuantitativo de datos

grupos sean homogéneas (similares). Si no se cumple alguna de las condiciones

de aplicación, tendremos que utilizar alguna prueba alternativa del tipo de las

llamadas pruebas no paramétricas.

Con la ayuda de tablas, o bien de un listado de algún programa estadístico,

podremos tomar la decisión. En este caso, vemos que el grado de significación

es 0,053. Si utilizamos como criterio el habitual 0,05, vemos que, en este caso

(por muy poco) es superior; por lo tanto, tenemos que concluir que la decisión

más probable es el H0. Así, según nuestro ejemplo, la nota obtenida no afecta

a la valoración final expresada por los sujetos

Si aplicamos la prueba y llegamos a la conclusión de que rechazamos el H0,

interpretaremos que hay diferencias significativas entre las medias de los di-

ferentes grupos. En este caso, se tendrá que completar con alguna prueba de

contraste para ver cuáles son las medias diferentes entre ellas.

Medida de la covariación o variabilidad conjunta de dos variablescuantitativas

Los índices descriptivos de relación entre dos variables nos indican la variabi-

lidad conjunta que se produce entre los diferentes valores de las variables (có-

mo la modificación de los valores de una de ellas conduce a la modificación

de los valores de la otra).

Tal y como se puede deducir de las fórmulas, la varianza de una variable es

una covarianza de una variable consigo misma (s2x = COVxx).

Ved también

Podéis consultar las unidadesde vídeo 9, 11 y 13 para com-plementar la información deeste subapartado.

Page 54: Explicación PAC1

© FUOC • PID_00154075 54 El análisis cuantitativo de datos

Ejemplo de cálculo de la covarianza

La covarianza entre X e Y es COVxy = 399,58/14 = 28,54

Medida de la correlación entre dos variables

El problema de la covarianza es que se encuentra afectada por la unidad de

medida y no permite la comparación de las diferentes covariaciones entre di-

ferentes parejas de variables. Una solución a esto es el cálculo del coeficiente de

correlación momento-producto de Pearson. Este valor constituye, de hecho,

una covarianza estandarizada.

Los valores del coeficiente de correlación de Pearson fluctúan entre -1 y 1, y

se interpretan de la siguiente manera.

1) Un valor de correlación cero, o próximo a cero, indica ausencia de relación

lineal entre las dos variables.

Page 55: Explicación PAC1

© FUOC • PID_00154075 55 El análisis cuantitativo de datos

Ejemplo de no correlación

2) Un valor de correlación igual o próximo a -1 nos indica una fuerte relación

negativa, o a la inversa (a medida que aumentan los valores de una de las va-

riables, disminuyen los de la otra). El valor -1 es la correlación inversa perfecta.

Ejemplo de correlación negativa

3) Un valor de correlación próximo a 1 nos indica una fuerte relación positiva

o directa (a medida que aumentan los valores de una de las variables, también

aumentan los de la otra). El valor 1 es la correlación perfecta.

En el ejemplo propuesto, el valor del coeficiente de correlación es igual a 0,89.

Este valor indica una fuerte relación positiva entre las dos variables. A medida

que aumenta la valoración de la asignatura de Matemáticas, se detecta un au-

mento de la nota obtenida por los niños en esta asignatura.

Page 56: Explicación PAC1

© FUOC • PID_00154075 56 El análisis cuantitativo de datos

Ejemplo de correlación positiva (notas y valoración)

Representación gráfica de la relación entre la variable escala de valoración de las Matemáticas y lasnotas en Matemáticas mediante un gráfico de dispersión con la recta de regresión.

Regresión lineal

La regresión se fundamenta en la relación que se establece entre las variables

para, mediante una ecuación, poder predecir el valor que esperamos que tome

una variable criterio (Y) en función del valor de la otra variable predictiva (X).

Los parámetros de la ecuación de la recta son su pendiente (b) y la intercepta o

punto de corte del eje de abcisas (a). Por otra parte, el grado de seguridad que

tenemos de que nuestras predicciones son correctas viene determinado por

el cuadrado del índice de correlación, llamado coeficiente de determinación

(corresponde al porcentaje de varianza compartida).

En el ejemplo, los resultados de la regresión son:

Ved también

Podéis consultar la unidad devídeo 12 para complementarla información de este suba-partado.

Page 57: Explicación PAC1

© FUOC • PID_00154075 57 El análisis cuantitativo de datos

Por lo que la ecuación de regresión sería: Nota�=�3,41�+�(0,0188�escala)

Por ejemplo, un niño que haya puntuado 100 en la escala, seguramente tendrá

una nota de 3,41 + 1,88 = 5,29.

La regresión representa un paso adelante dentro del estudio de las posibles

relaciones entre variables. En efecto, al aplicar la técnica de regresión, estamos

ajustando nuestros datos a un modelo: el llamado modelo lineal general. Den-

tro de este modelo lineal se enmarca tanto la técnica de regresión simple que

hemos comentado, como el modelo del análisis de la varianza. Por otra parte,

este modelo lineal general también nos abre las puertas de la estadística multi-

variante. No nos limitaremos a buscar relaciones entre dos variables, sino que

buscaremos modelos de ajuste en conjuntos de variables.

Regresión múltiple

La regresión múltiple es una técnica multivariante, que nos servirá para

predecir los valores de una variable dependiente a partir de dos o más

variables independientes. En el caso más simple de una VD y dos VI, el

modelo vendrá ajustado por la ecuación de un plano:

Y' = b1X1i + b2X2i +a

Supongamos que tenemos una muestra de quince sujetos y que queremos pre-

decir el valor de la nota de matemáticas (VD), a partir de las puntuaciones

obtenidas en una escala determinada (VI) y el cociente de inteligencia (VI).

Sujeto Escala QI Matemáticas

1 62 91 5,09

2 90 93 5,16

3 70 100 5,22

4 65 98 5,14

5 68 103 5,75

Lecturas recomendadas

Para profundizar sobre la re-gresión lineal, ved la siguien-te bibliografía.J.�Guardia;�M.�Freixa;�M.Pero;�J.�Turbany (2007).Análisis de datos en psicología.Madrid: Delta.D.�Peña (2002). Regresión ydiseño de experimentos. Ma-drid: Alianza.

Page 58: Explicación PAC1

© FUOC • PID_00154075 58 El análisis cuantitativo de datos

Sujeto Escala QI Matemáticas

6 122 102 6,86

7 126 110 7,34

8 130 115 7,34

9 122 103 6,47

10 120 105 6,47

11 111 110 6,22

12 100 112 6,23

13 103 108 6,26

14 88 95 5,16

15 80 96 5,16

El listado que produce el programa SPSS:

Variables Entered/Removed (b)

Model Variables entered Variables removed Method

1 QI, Escala (a) . Enter

a) All requested variables entered.b) Dependent Variable: Mates.

Model summary

Model R R Square Adjusted R Square Std. Error of the Estimate

1 ,945(a) ,892 ,874 ,28871

a) Predictors: (Constant), QI, Escala

ANOVA (b)

Model   Sum of Squares Df Mean Square F Sig.

Regression 8,296 2 4,148 49,760 ,000(a)

Residual 1,000 12 ,083    

1

Total 9,296 14      

a) Predictors: (Constant), QI, Escalab) Dependent Variable: Mates

Coefficients

Unstandardi-zed Coefficients

Standardized Coefficients t Sig.Model  

B Std.Error

Beta B Std. Error

1 (Constant) –,663 1,247   –,532 ,604

a) Dependent Variable: Mates

Page 59: Explicación PAC1

© FUOC • PID_00154075 59 El análisis cuantitativo de datos

Escala ,021 ,004 ,622 4,764 ,000

QI ,045 ,015 ,402 3,080 ,010

a) Dependent Variable: Mates

El valor de R representa el indicador de la correlación múltiple entre la variable

dependiente y las otras dos variables independientes. Recordamos que, en el

caso de la regresión simple (1 VD y 1 VI), este valor coincide con el valor de

correlación de Pearson.

El valor de R Square (R2) representa el porcentaje de variabilidad explicada de

la variable dependiente por las dos independientes. En este caso, un 89,2% de

la varianza de la nota de matemáticas está explicado por la variabilidad pro-

ducida entre las otras dos variables. Un valor igual a 1 o el 100% indicaría una

relación perfecta entre las variables. La predicción no produciría ningún error.

Este valor, junto con la tabla del ANOVA, nos indica si el modelo tiene un

buen ajuste o no. Aquí se trata de un buen ajuste: las dos variables indepen-

dientes nos explican una gran parte de la variabilidad presentada por la varia-

ble dependiente. Si nos fijamos en la tabla del ANOVA, vemos que el grado de

significación es próximo a cero, lo que quiere decir que podemos rechazar la

H0, que nos dice que no hay relación entre las variables.

La tabla de coeficientes nos ofrece la estimación de los coeficientes de la ex-

presión de la regresión. En este caso, además de dar un indicador general de

la significación de la regresión (como lo hemos visto con el ANOVA), tam-

bién nos ofrece la significación de los diferentes coeficientes. Vemos que los

dos coeficientes asociados a las dos variables independientes son significati-

vos (próximos a 0); en cambio, el término constante (a) no es significativo

(el grado de significación asociado es superior a 0,05). Si un coeficiente que

afecta a una variable independiente no es significativo, entonces sacaremos la

variable del modelo de regresión. En cambio, el término constante siempre lo

incluiremos en el modelo sea o no sea significativo.

En nuestro caso, la expresión que nos servirá para predecir la nota de mate-

máticas, a partir de la nota de la escala y el coeficiente de inteligencia, será

la siguiente:

Pred_Matemáticas = 0,021 · Escala + 0,045 · QI – 0,663

2.3. Aproximación al análisis multivariable

La regresión múltiple nos ha abierto la puerta de todas las técnicas de análisis

multivariable. La complejidad de los fenómenos que normalmente queremos

estudiar, donde intervienen muchas variables, junto con el gran desarrollo que

se ha producido en la aplicación de los diferentes programas de paquetes es-

Page 60: Explicación PAC1

© FUOC • PID_00154075 60 El análisis cuantitativo de datos

tadísticos, ha permitido un gran uso de las diferentes técnicas multivariables.

En este subapartado nos aproximaremos a los objetivos de algunas de las di-

ferentes técnicas de uso más común.

Se pueden hacer varias clasificaciones según diferentes criterios. Una primera

clasificación podría estar en función de la finalidad que persiguen. En el cua-

dro siguiente vemos una clasificación de las diferentes técnicas que presenta-

mos.

Descriptivas Análisis en componentes principalesAnálisis de correspondenciasAnálisis de conglomerados

Explicativas Análisis de regresión múltipleAnálisis multivariable de la varianzaAnálisis discriminanteAnálisis de ecuaciones estructurales

Las técnicas que llamamos descriptivas se utilizan normalmente en contextos

no experimentales; su finalidad consiste en intentar reducir la cantidad inicial

de variables a un número menor de dimensiones relevantes.

Las técnicas explicativas son propias del contexto experimental; pretenden

ver el impacto de un conjunto de variables independientes (predictivas) sobre

una o varias variables dependientes

En general, las diferentes técnicas intentan buscar un modelo de relación de

todas las variables disponibles, reduciendo las que no sean significativas, y

que, por lo tanto, obtienen un modelo lo más parsimonioso (simple) posible.

Existen diferentes modelos y técnicas. Básicamente son las siguientes:

1)�Modelo�lineal�general

a)�Regresión�múltiple. Nos sirve para predecir una variable dependiente o

criterio, a partir de una o varias variables predictivas o independientes.

b)�Análisis�multivariable�de�la�varianza�(MANOVA). Representa una exten-

sión del análisis de la varianza (ANOVA). En este caso, dispondremos de dos

o más variables independientes o factores. Si nos fijamos en el ejemplo que

hemos visto en la aplicación del ANOVA, donde queríamos ver la valoración

de los sujetos en función de la nota obtenida incorporando el género de los

sujetos, el MANOVA nos permitirá ver si hay diferencias de la valoración en

función de la nota, del sexo y de la interacción de las dos variables.

En la siguiente tabla vemos el tipo de variables sobre las que aplicamos estas

técnicas.

Page 61: Explicación PAC1

© FUOC • PID_00154075 61 El análisis cuantitativo de datos

Técnica Variable dependiente Variable/s independientes

Regresión múltiple Cuantitativa Cuantitativa/s

Análisis de la varianza Cuantitativa Cualitativa/s

2)�Técnicas�factoriales

a)�Análisis�en�componentes�principales. Es una técnica estadística de reduc-

ción de la dimensión de los datos, utilizada para explicar la variabilidad entre

las variables observadas en función de un número menor de variables latentes

(no observadas): componentes o factores.

b)�Análisis�de�correspondencias. Es una técnica similar al análisis en compo-

nentes principales pero aplicados a variables categóricas.

c)�Análisis�discriminante. Se aplica esta técnica cuando disponemos de una

variable dependiente categórica (dos o más grupos) que queremos predecir a

partir de un conjunto de variables cuantitativas. Las variables cuantitativas

se agrupan en combinación lineal, llamada función discriminante, que nos

ayudará a la predicción en la pertenencia de los sujetos a cada uno de los

grupos.

En la siguiente tabla vemos el tipo de variables sobre las que aplicamos estas

técnicas y la reducción que obtenemos.

Técnica Variables Formación de grupos

Análisis en componentes principales Cuantitativas Variables

Análisis de correspondencias Cualitativas Categorías de variables

Análisis discriminante Cuantitativas Categorías de variable (VD)

3)�Técnicas�de�clasificación

a)�Análisis�de�conglomerados�(cluster). Clasifica una muestra (se puede uti-

lizar tanto desde la perspectiva de los sujetos –agrupando éstos– como de las

variables) en un número más pequeño de grupos de forma que, o bien agru-

paremos a los sujetos en función de sus similitudes (similar al discriminante

pero sin saber a priori qué grupos tenemos), o bien agruparemos las diferentes

variables reduciendo la dimensión original de las variables.

La tabla nos muestra el tipo de variables y los grupos formados en la técnica

del análisis cluster.

Page 62: Explicación PAC1

© FUOC • PID_00154075 62 El análisis cuantitativo de datos

Técnica Variables Formación de grupos

Análisis de conglomerados Cuantitativas y/o cualitativas Variables y/o sujetos

4)�Técnicas�estructurales

a)�Análisis�de� ecuaciones� estructurales. Analizan las relaciones existentes

entre un grupo de variables, representadas por sistemas de ecuaciones simul-

táneas, en las que suponemos que algunas de ellas (llamadas constructivas)

se miden (con error) a partir de variables observables, llamadas indicadores.

Los modelos se especifican en dos partes: un modelo estructural que especifica

las relaciones de dependencia entre las constructivas latentes y un modelo de

medida que especifica cómo los indicadores se relacionan con sus correspon-

dientes constructivas.

La siguiente tabla presenta el tipo de variables sobre las que aplicamos el aná-

lisis de las ecuaciones estructurales.

Técnica Variable de-pendiente

Variables independientes

Análisis de ecuaciones estructurales Cuantitativa Cuantitativas y/o cualitativas

En este apartado hemos intentado ofrecer una primera aproximación a las

principales técnicas, no todas, de análisis multivariable. Cualquier manual es-

pecializado nos permitirá profundizar en aquella o aquellas que podemos ne-

cesitar. También hemos de tener en cuenta que todas estas técnicas tienen

unos requisitos (supuestos) de aplicación con los que hemos de ser cuidadosos

a la hora de ver que se cumplen realmente. Esto último es especialmente ade-

cuado, dado que la facilidad que proporciona la aplicación de los programas

estadísticos hace que muchas veces se apliquen estas técnicas sin comprobar

sus supuestos o condiciones de aplicación.

Lectura recomendada

Para profundizar sobre lastécnicas de análisis multiva-riable podéis consultar la si-guiente obra:J.�P.�Lévy;�J.�Varela (Ed.)(2003). Análisis multivariablepara las ciencias sociales. Ma-drid: McGrawHill.

Page 63: Explicación PAC1

© FUOC • PID_00154075 63 El análisis cuantitativo de datos

Bibliografía

Arnau, J. (1996a). Model general d'investigació psicològica. Barcelona: UOC.

Arnau, J. (1996b). Quantificació de les observacions: escales de mesura. Barcelona: UOC.

Cabo, I. de (1996). Metodologia de les ciencies socials i humanes. Barcelona: UOC.

Cook, T. D.; Campbell, D. T. (1979). Quasi-experimentation: design and analysis issues forfield settings. Chicago: Rand McNally.

Cosculluela, A.; Fornieles, A; Turbany, J. (2008). Tècniques d'anàlisi de dades quantitati-ves. Barcelona: UOC.

Doménech, J. M. (1995). "El modelo de investigación científica". En: Métodos estadísticos enciencias de la salud. (4). Barcelona: Signo.

Gómez, J. (1996). Constucció d'instruments de mesura. Barcelona: UOC.

Guàrdia, J.; Freixa, M.; Peró, M.; Turbany, J. (2007). Análisis de datos en psicología.Madrid: Delta.

Jáñez, L. (1989). Fundamentos de psicologia matemática. Madrid: Pirámide.

Kenny, D. A. (1979). Correlation and causality. Nueva York: Wiley.

León, O.; Montero, I. (2003). Métodos de investigación. Madrid: McGraw Hill (3.ª edición).

León, O.; Montero, I. (2009). Mètodes de investigació qualitativa. Barcelona: UOC.

Lévy, J. P.; Varela, J. (ed). (2003). Análisis multivariable para las ciencias sociales. Madrid:McGrawHill.

Morales, P. (1988). Medición de actitudes en psicología y educación. San Sebastián: Ttarttalo.

Peña, D. (2002). Regresión y diseño de experimentos. Madrid: Alianza.

Salvador, F. (1996). Model general d'investigació psicològica. Barcelona: UOC.

Sierra Bravo, R. (1985). Técnicas de investigación social: teoría y ejercicios. Madrid: Paraninfo.

Shuman, H.; Presser, S. (1981). Questions and answers in attitude surveys: experiments inquestion form, wordin and context. Nueva York: Academic Press.

Summers, G. (1982). Medición de actitudes. México, DF: Trillas.

Viladrich, M. C.; Doval, E.; Prat, R.; Vall-Llovera, M. (1997). Psicometria. Terrassa:Cardellach (2.ª edición).

Page 64: Explicación PAC1