3. ANÁLISIS DE CORRESPONDENCIAS SIMPLES
El análisis de correspondencias simples es un procedimiento estadístico multivariado
apropiado para la lectura y síntesis de la información contenida en una tabla de
contingencia. Una tabla léxica agregada es una tabla de contingencia en donde las filas son
las formas gráficas y las columnas los textos. Con las respuestas a preguntas abiertas se
pueden definir textos artificiales utili zando las particiones de las respuestas originadas en
preguntas cerradas.
3.1. Tabla de contingencia
Los elementos del análisis de correspondencias se ilustran a continuación utili zando una
tabla léxica agregada pequeña (tabla 3.1), construida a partir de las respuestas a la pregunta
abierta: “En su opinión porque le ha ido bien con el café?”., de una encuesta a fincas
cafeteras. Los textos se han conformado con la variable: tipología del productor , con las
modalidades:
1. Empresarios tecnificados modernos. Em.Te.Mo.
2. Tecnificados modernos: Te.Mo.
3. Campesinos tecnificados modernos: Ca.Te.Mo.
4. Campesinos tradicionales: Ca.Tr.
Alvaro Montenegro y Campo Elías Pardo
32
Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal ADMINISTRACION 26 14 22 11 73 ADMINISTRADOR 17 6 5 4 32
AGRICULTOR 1 4 6 15 26 CULTIVO 5 8 14 6 33 LABORES 12 10 6 14 42 MANEJO 15 15 20 20 70
PERSONA 5 8 10 18 41 PROPIETARIO 4 14 10 6 34
Marginal 85 79 93 94 351
Tabla 3.1: Tabla de contingencia formas*textos
Las ocho palabras son utili zadas en 351 respuestas. Cada celda representa el número de
utili zaciones de la palabra de la fila por el grupo de cafeteros de la columna. Por ejemplo la
palabra agr icultor fue utili zada cuatro veces por el grupo de cafeteros tecnificados
modernos. La última columna es la marginal de las palabras, es decir el número de veces
que es utili zada cada palabra por todos los cafeteros encuestados. La última fila es la
marginal que representa el número de veces que cada grupo de cafeteros utili zaron las ocho
palabras.
3.2. Tablas de perfiles fila y columna
La lectura más interesante de la información contenida en una tabla de contingencia es la
comparación entre filas y entre columnas. En la tabla de frecuencias relativas las filas y las
columnas están influenciadas por el peso relativo de sus marginales. La comparación se
facilit a obteniendo las distribuciones condicionales o perfiles de cada una de las filas y de
cada una de las columnas. Para obtener la distribución condicional de una fila, se dividen
todas las celdas de esa fila por el valor total de la fila. De manera análoga se obtienen las
condicionales de las columnas. Se llega entonces a dos tablas: una de perfiles fila y otra de
perfiles columna.
La tabla de perfiles fila es la tabla 3.2, en donde se incluye la distribución marginal, es decir
la frecuencia relativa con que fueron utili zadas las ocho palabras en conjunto por los cuatro
Introducción al análisis de datos textuales 33
grupos de cafeteros. En la figura 3.1 aparece la misma información en forma de histograma
de barras.
Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr.
ADMINISTRACION 35.6 19.2 30.1 15.1 100 ADMINISTRADOR 53.1 18.8 15.6 12.5 100
AGRICULTOR 3.8 15.4 23.1 57.7 100 CULTIVO 15.2 24.2 42.4 18.2 100 LABORES 28.6 23.8 14.3 33.3 100 MANEJO 21.4 21.4 28.6 28.6 100
PERSONA 12.2 19.5 24.4 43.9 100 PROPIETARIO 11.8 41.2 29.4 17.6 100
Marginal 24.2 22.5 26.5 26.8 100
Tabla 3.2: Tabla de perfiles fila
PERFILES FILA
0% 20% 40% 60% 80% 100%
ADMINISTRACION
ADMINISTRADOR
AGRICULTOR
CULTIVO
LABORES
MANEJO
PERSONA
PROPIETARIO
Marginal
PA
LAB
RA
S
PORCENTAJE
Ca.Tr.
Ca.Te.Mo.
Te.Mo.
Em.Te.Mo.
Figura 3.1: Perfiles fila
Cada perfil fila representa la distribución de frecuencias con que cada palabra es utili zada
por los cuatro grupos de agricultores. Por ejemplo la palabra propietar io fue utili zada con
Alvaro Montenegro y Campo Elías Pardo
34
mayor frecuencia por los cafeteros técnificados modernos (41.2%) y con menor frecuencia
por los cafeteros empresar ios tecnificados modernos (4.7%). La distribución marginal es
la distribución de la frecuencia de uso de todas las ocho palabras entre los cuatro grupos de
agricultores. Se observa una frecuencia de uso muy similar.
Una primera lectura de esta información es la comparación con el perfil marginal. Se
observa, por ejemplo, que la palabra manejo tiene un perfil muy parecido al marginal. La
palabra agr icultor es mucho más usada por los cafeteros campesinos tradicionales
(57.7%), en comparación con el conjunto global de las palabras (26.8% por campesinos
tradicionales). Otra lectura es la comparación de los perfiles entre palabras. Se observa,
por ejemplo, que los perfiles de agr icultor y administrador son bien diferentes. El hecho
de que dos palabras tengan perfiles similares significa que son usadas con frecuencias
similares por los cuatro grupos de agricultores. Las palabras persona y agr icultor tienen
distribuciones algo parecidas, los campesinos tradicionales las utili zan con mayor
frecuencia (19.1% y 16%) y los empresar ios tecnificados modernos con menor
frecuencia (5.9% y 1.2%). En términos generales se están comparando las frecuencias de
utili zación de las palabras en los diferentes textos.
La tabla 3.3 es la tabla de perfiles columna y la figura 3.2 contiene los respectivos
histogramas, junto con el perfil marginal. Se tiene una distribución de frecuencias de las
ocho palabras para cada uno de los cuatro grupos de agricultores y la distribución marginal,
que es la distribución de frecuencias de utili zación de las ocho palabras por todos los
cafeteros encuestados. La distribución para el caficultor tecnificado moderno se observa
más parecida a la distribución marginal. Los perfiles de los cafeteros empresar io
tecnificado moderno y campesino tradicional parecen ser los más diferentes. En general
la comparación de perfiles columna en una tabla léxica agregada permite describir las
diferencias y semejanzas entre los textos respecto a las palabras utili zadas.
Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal ADMINISTRACION 30.6 17.7 23.7 11.7 20.8
Introducción al análisis de datos textuales 35
ADMINISTRADOR 20.0 7.6 5.4 4.3 9.1 AGRICULTOR 1.2 5.1 6.5 16.0 7.4
CULTIVO 5.9 10.1 15.1 6.4 9.4 LABORES 14.1 12.7 6.5 14.9 12.0 MANEJO 17.6 19.0 21.5 21.3 19.9
PERSONA 5.9 10.1 10.8 19.1 11.7 PROPIETARIO 4.7 17.7 10.8 6.4 9.7
100.0 100.0 100.0 100.0 100.0
Tabla 3.3: Tabla de perfiles columna
PERFILES COLUMNA
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Em
.Te.
Mo.
Te.
Mo.
Ca.
Te.
Mo.
Ca.
Tr.
Mar
gina
l
TIPO DE CAFICULTOR
PO
RC
EN
TA
JE
PROPIETARIO
PERSONA
MANEJO
LABORES
CULTIVO
AGRICULTOR
ADMINISTRADOR
ADMINISTRACION
Figura 3.2: Perfiles columna
En el análisis de correspondencias simples (ACS) se busca una representación más
adecuada para analizar simultáneamente los perfiles fila y columna obtenidos a partir de
una tabla de contingencia. Cuando se tienen tablas de contingencia de gran tamaño es muy
difícil obtener una síntesis apropiada de forma como se hizo en el ejemplo. Para el ACS se
parte de la representación de los perfiles línea en un espacio multidimensional, donde las
columnas son los ejes y simétricamente de otra nube de perfiles columna, donde las líneas
son los ejes. Para ello se requiere del uso de una distancia apropiada: la distancia ji -
cuadrado entre distribuciones. Podemos hacer lecturas fáciles para representaciones
Alvaro Montenegro y Campo Elías Pardo
36
geométricas en dos dimensiones, pero es imposible leer más de tres dimensiones, entonces
es necesario hacer proyecciones sobre planos, buscando que se conserven lo mejor posible
el conjunto de las distancias originales. Este es el principio de funcionamiento de todos los
métodos factoriales. La lectura en proyección es desde luego aproximada pero se tendrá lo
más relevante de la información de la tabla de contingencia. Se requiere de índices para
complementar los gráficos y evitar lecturas erróneas, por ejemplo, un punto mal
representado en la proyección puede aparecer cercano a otro cuando en realidad no lo está.
3.3. Representación geométr ica de los perfiles
A partir de la tabla de contingencia se obtiene la tabla de frecuencias relativas dividiendo
cada celda por el total de la tabla. Esta tabla representa la distribución de frecuencias
conjunta de las palabras y los textos, en el caso de la tabla léxica agregada. Para el ejemplo
esta tabla es la 3.4, que se obtiene dividiendo cada celda de la tabla 3.1 por 351. El valor 7.4
de la celda (1,1) significa que el 7.4% de las formas gráficas corresponden a la palabra
administración y pertenecen al texto de los cafeteros empresar ios técnicos modernos. La
última fila (columna) es la distribución marginal.
Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal
ADMINISTRACION 7.4 4.0 6.3 3.1 20.8 ADMINISTRADOR 4.8 1.7 1.4 1.1 9.1
AGRICULTOR 0.3 1.1 1.7 4.3 7.4 CULTIVO 1.4 2.3 4.0 1.7 9.4 LABORES 3.4 2.8 1.7 4.0 12.0 MANEJO 4.3 4.3 5.7 5.7 19.9
PERSONA 1.4 2.3 2.8 5.1 11.7 PROPIETARIO 1.1 4.0 2.8 1.7 9.7
Marginal 24.2 22.5 26.5 26.8 100.0
Tabla 3.4: Tabla de frecuencias relativas
Una notación generalizada de una tabla de frecuencias relativas es la siguiente:
Introducción al análisis de datos textuales 37
F
f f f
f
f f f
f
f
f
f f
f f f f f f
f f
j p
ij
n nj np
i
n
i ijj
p
j pi
n
ijj
p
i jj
p
i
n
j iji
n
=
→ =
→ = = =
↓
=
=
= = ==
=
∑
∑ ∑ ∑∑
∑
11 1 1
1
1
1
11 1 11
1
1 1
� �
� � �
� � � �
� � �
� �
�
�
� �
.
.
.
.
. . . . . . . . .
. . . . . . . .
. . . . . . . . .
donde n es el número de filas y p el número de columnas; i y j son los índices para las filas
y las columnas, respectivamente; fi. y f.j son las marginales fila y columna,
respectivamente. Las tablas de perfiles también se pueden obtener de la tabla de frecuencias
de la misma forma que de la tabla de contingencia.
3.3.1 Nube de perfiles fila
En el espacio Rp se representan los n perfiles fila, dotados del peso pi = f i.
f
fj p i n con peso p f
ij
ii i.
, , ..... , , ..... .=
= =12 12
3.3.2. Nube de perfiles columna
En el espacio Rn cada punto representa un perfil columna y esta dotado de un peso igual a la
marginal la respectiva columna.
Alvaro Montenegro y Campo Elías Pardo
38
f
fi n j p con peso p f
ij
jj j.
, , ..... , , .....=
= =12 12 $
3.3.3. La distancia ji -cuadrado entre perfiles
La distancia ji -cuadrado entre dos perfiles línea i e i’ viene dada por:
d i if
f
f
f
fj
ij
i
ij
ij
p2
2
1
1( , )
. . .
′ = −
′=∑ (3.1)
Para el caso de dos líneas, esta distancia, es la suma de la diferencia de cada una de las
respectivas componentes de los dos perfiles, ponderadas por el inverso de las frecuencias
marginales de las columnas respectivas (ver figura 3.3).
j i perfil i i’ perfil i’ pesos de columnas f .j
Figura 3.3: Significado de la distancia j i-cuadrado
Con este peso las diferencias se ampli fican cuando se deben a columnas de baja frecuencia,
es decir tiende a destacar los casos raros. De manera simétrica, la distancia entre perfiles
columna es:
d j jf
f
f
f
fi
ij
j
ij
ji
n2
2
1
1( , )
. . .
′ = −
′=∑ (3.2)
Introducción al análisis de datos textuales 39
La distancia ji -cuadrado se puede escribir como una distancia euclidiana convencional, lo
cual se ha ilustrado en el ejemplo:
d i if
f f
f
f f
ij
i j
ij
i jj
p2
2
1
( , ). . . .
′ = −
′=∑ (3.3)
3.3.4. La equivalencia distribucional de la distancia ji -cuadrado
Si &wi y
&wl son dos perfiles idénticos, entonces están representados por el mismo punto en
Rp. Si se reemplazan los dos puntos por un punto común de peso la suma de los pesos (f i. +
f l.), entonces las distancias de los demás puntos, tanto en Rp como en Rn permanecen
inalteradas. Igual resultado se obtiene para dos perfiles idénticos en Rn.. En Crivisqui
[1993] hay una descripción bastante pedagógica de esta propiedad. Con la distancia ji -
cuadrado los resultados son robustos respecto a la arbitrariedad en la determinación del
número de categorías filas y categorías columna, en un análisis. Otra implicación práctica
de la equivalencia distribucional es la de poder agregar filas o columnas de perfiles
similares sin perturbar demasiado la distancia entre puntos.
3.3.5. Centro de gravedad de la nube de perfiles fila (en Rp)
Si se consideran los puntos y sus pesos como un sistema de masas en el espacio, se
encuentra un punto en torno al cual las masas están en el equili brio, que es precisamente el
centro de gravedad. La fuerza necesaria aplicada en el centro de gravedad para mantener
suspendido el sistema de masas es lo que se denomina la inercia y es una medida de la
dispersión de la nube de puntos. La inercia se puede calcular respecto a cualquier otro
punto, pero tal inercia es superior a la inercia respecto al centro de gravedad. Si se tiene un
sistema de ejes ortogonales, entonces la inercia de la nube respecto al centro de gravedad se
Alvaro Montenegro y Campo Elías Pardo
40
puede descomponer como la suma de las inercias a lo largo de cada uno de los ejes. Es por
las razones anteriores que los calculos se hacen respecto al centro de gravedad.
Sea la matriz X, de termino general:
xf
f fi j
ij
i j
=$ $
(3.4)
Las filas de esta matriz son los vectores, wi que se representan en Rp:
&
� �
$ $ $ $′ =
wf
f f
f
f fi
i
i
ip
i p
1
1
(3.5)
Sea &g el vector de p componentes, centro de gravedad de la nube de perfiles fila, la
componente j es:
g pf
ff
f
f ffj i
i
nij
i i
n
i
ij
i j
j=
=
=
= =∑ ∑
1 1..
. .
. (3.6)
es decir que [ ]&� �′ =g f f fj p. . .1 (3.7)
La distancia del centro de gravedad al origen de coordenadas es:
( )d g f jj
p2
2
1
0 1( , )& &
$= ==
∑ (3.8)
Restando el centro de gravedad a todos los vectores se obtiene una matriz de perfiles
centrados, ( )Y yij= , donde:
Introducción al análisis de datos textuales 41
yf
f ff
f f f
f fij
ij
i jj
ij i j
i j
= − =−
$ $$
$ $
$ $ (3.9)
En general para un perfil i el término de la ecuación (3.9) es la j-ésima componente del
vector asociado centrado, Wci.
3.3.6. Inercia de la nube de puntos
La inercia de la nube de puntos respecto al centro de gravedad es:
( )I p w f
f f f
f f
f f f
f f ki cii
n
iij i j
i jj
p
i
nij i j
i jj
p
i
n
= =−
=
−=
= == ==∑ ∑∑ ∑∑2
1 11
2 2
11
2
$$ $
$ $
$ $
$ $
χ (3.10)
donde χ2 es la estadística ji -cuadrado, de la prueba de independencia, calculada para la tabla
de contingencia K y k es el número total de individuos en la tabla. Crivisqui (1993) ilustra
el hecho de que la nube de puntos perfiles es una hiperesfera en el caso de independencia en
la tabla de contingencia. La inercia es un índice de deformación de la nube y se puede
descomponer en los diferentes ejes de la representación.
3.4. Solución del análisis de correspondencias simples - ACS
Lo que se tiene hasta ahora son dos representaciones que contienen la información de la
tabla de contingencia: la nube de perfiles fila y la nube de perfiles columna, con puntos
ponderados, centradas y con una inercia asociada. Esta información es apta para llevar a
cabo dos análisis de componentes principales con ponderación, que consiste en la
proyección de la nube de puntos fila (columna) sobre subespacios de dimensión reducida,
Alvaro Montenegro y Campo Elías Pardo
42
escogidos de forma que la proyección conserve la mayor dispersión posible. La solución
tiene propiedades particulares derivadas de la propiedades de las tablas de perfiles.
Para encontrar el subespacio (plano de proyección, en el caso de dos dimensiones), que se
aproxime lo mejor posible a la nube de n puntos (perfiles fila i), dotados de los pesos fi., se
hace un análisis en componentes principales de la matriz Y, cuyo término general está dado
en la ecuación 3.9, con la métrica N = diag(fi.), es decir la matriz diagonal que contiene las
marginales fila de la tabla de frecuencias, asociada a la tabla de contingencia. La matriz a
diagonalizar es A = Z’Z, donde
Z N Y esdecir z p y zf f f
f fij i ij ij
ij i j
i j
= = ⇒ =−1
2 , $ $
$ $ (3.11)
El vector de coordenadas de todos los individuos sobre el eje α es: & &ψ α α= Yu . Para un
individuo i la coordenada es, entonces:
ψ α αiij i j
i jj
p
j
f f f
f fu=
−
=∑ $ $
$ $1
(3.12)
el vector de coordenadas de los individuos sobre un eje está centrado y tiene como norma el
valor propio asociado:
f y fi ii
n
i ii
n
$ $&
ψ ψ ψ λα α α α= =∑ ∑= = =
1
2 2
1
0 (3.13)
Para todos los perfiles y se verifica:
& &$
$ $
$ $′ =
−=
=∑w g f
f f f
f fi i
ij i j
i jj
p
1
0 (3.14)
Introducción al análisis de datos textuales 43
es decir que el vector centro de gravedad es perpendicular a todos los puntos perfiles
centrados, lo cual indica que la nube de puntos esta en un subespacio de dimensión p-1,
ortogonal a g y que g es un vector propio se A, asociado al valor propio 0. Esta propiedad
permite obtener la solución del problema sin necesidad de centrar los datos, lo cual se
puede estudiar en Lebart et al. (1984). De ese hecho se deriva también que el vector de
coordenadas de las proyecciones se puede obtener mediante:
& &ψ α α= Xu (3.15)
El análisis de los perfiles columna en Rn se obtiene de la misma manera, intercambiando los
papeles de los subíndices i y j. Las coordenadas sobre los ejes factoriales son, entonces:
ϕ α αiij
i jji
f
f fv= ∑
o o
(3.16)
y el vector de coordenadas sobre un eje factorial es:
& &ϕ α α= ′X v (3.17)
3.4.1. Relaciones entre los espacios fila y columna
El análisis tiene propiedades que permiten obtener la solución para la nube de puntos
columna a partir de la solución de la nube de puntos fila o viceversa, mediante las
siguientes relaciones de transición entre los espacios fila y columna:
• Vectores propios de un espacio en función del otro
uf
f fvj
ij
i ji
n
iαα
αλ=
=∑1
1 o o
(3.18)
Alvaro Montenegro y Campo Elías Pardo
44
vf
f fuj
ij
i jj
p
jαα
αλ=
=∑1
1 o o
(3.19)
• Coordenadas en función de los vectores propios del otro espacio
ψ λα α αi
i
if
v= 1
o
(3.20)
ϕ λα α αj
j
jf
u= 1
o
(3.21)
• Relaciones bibar icentr icas
ψλ
ϕαα
αiij
ij
p
j
f
f=
=∑1
1 o
(3.22)
ϕλ
ψαα
αjf
fiij
ji
n
i=
=∑1
1 o
(3.23)
Exceptuando el coeficiente 1 λ , la coordenada de un punto es el baricentro de los puntos
de la otra nube, con pesos iguales a los elementos del perfil . Haciendo la dilatación
apropiada las dos nubes se pueden representar simultáneamente sobre el mismo plano.
3.4.2. Proyección de elementos suplementarios
Introducción al análisis de datos textuales 45
Sobre los ejes factoriales se pueden proyectar filas y columnas que no hayan participando
en el análisis. Los términos con K hacen referencia a la tabla de contingencia y el signo + a
información suplementaria.
• Fila suplementar ia, i+
ψλ
ϕi
ij
ij
p
j
k
k++
+=
=
∑1
1 o
(3.24)
• Columna suplementar ia, j+
ϕλ
ψjk
kiij
ji
n
i+
+
+=
=
∑1
1 o
(3.25)
3.4.3. Índices para ayudar a la interpretación de los ejes y a la lectura de las proyecciones
En un análisis se requiere establecer qué significado se le puede dar a cada uno de los ejes
de interés o en, otras palabras, qué modalidades contribuyen más a la formación del eje,
para ello se utili zan las contribuciones absolutas.
• Contr ibución absoluta del punto i en el eje αα, caαα(i)
( )ca if i i
αα
α
ψλ
= o2
(3.26)
Es la proporción con que cada punto contribuye a la inercia del eje. Los puntos que tengan
contribución absoluta fuerte son los que fijan la posición del eje.
Alvaro Montenegro y Campo Elías Pardo
46
Las proyecciones sobre los ejes y sobre los planos factoriales serán muy buenas para
algunos puntos pero también pueden ser de mala calidad para otros puntos, se requiere
entonces de un índice que ponga en evidencia este hecho.
• Contr ibución relativa del eje αα a la posición de un punto i, crαα(i)
( ) ( )cr id i g
iα
αψ=
2
2 , (3.27)
Estos valores son los cosenos cuadrados y miden la calidad de la representación de los
puntos.
3.5. Resultados del análisis de correspondencia de la tabla léxica agregada del ejemplo
Los planos de proyección se obtienen con dos de los ejes o factores principales obtenidos.
Como los ejes se enumeran según la inercia que retienen, el primer plano principal es la
mejor proyección de las nubes de puntos. En general no es suficiente analizar el primer
plano y una primer decisión en la lectura de los resultados es determinar cuántos ejes vale la
pena interpretar: La herramienta para ello es el histograma de valores propios (figura 3.4).
HISTOGRAMME DES 3 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------+
| 1 | .1145 | 64.01 | 64.01 | ************************************************************************** |
| 2 | .0478 | 26.75 | 90.76 | ********************************** |
| 3 | .0165 | 9.24 | 100.00 | ************ |
+--------+------------+----------+----------+----------------------------------------------------------------------------+
Figura 3.4: Histograma de valores propios para el ACS de la tabla léxica agregada del
ejemplo
Introducción al análisis de datos textuales 47
En el ejemplo la representación completa está en tres dimensiones, por lo cual al leer el
primer plano solo se pierde una dimensión. El porcentaje de inercia (información en el
sentido de dispersión de la nube), retenido por el primer plano es el 91%. Por lo tanto es de
esperarse que en tal plano este prácticamente toda la información relevante (figura 3.5). En
la tabla 3.5 se muestra la información tabulada dada por el SPAD-T.
EDITION DES COORDONNEES ET CONTRIBUTIONS DES COLONNES
----------------------------------------------------------------------------------------------------------------------------------------------------------------------- IDEN LIBELLES MASSES DISTO2 * COORDONNEES * CONTRIBUTIONS ABS* COSINUS CARRES *
********************************************************************************************
* * F1 F2 F3 * F1 F2 F3 * F1 F2 F3 *
********************************************************************************************
TETM Emp.Tec.Mod. .242 .30 * -.51 .20 -.01 *55.54 20.13 .11 * .87 .13 .00 *
TTMO Tec.Mod. .225 .08 * .01 -.21 .21 * .01 19.90 57.58 * .00 .50 .50 *
TCTM Cam.Tec.Mod. .265 .08 * .02 -.24 -.16 * .11 31.12 42.28 * .01 .68 .32 *
TCTR Cam.Trad. .268 .24 * .44 .23 .00 *44.34 28.85 .03 * .79 .21 .00 *
--------------------------------------------------------------------------------------------
EDITION DES COORDONNEES ET CONTRIBUTIONS DES LIGNES
--------------------------------------------------------------------------------------------
MOTS MASSES DISTO2 * COORDONNEES *CONTRIBUTIONS ABSO * COSINUS CARRES *
********************************************************************************************
* F1 F2 F3 * F1 F2 F3 * F1 F2 F3 *
********************************************************************************************
ADMINISTRACION .208 .11 * -.32 -.03 -.10 *18.81 .29 13.31 * .90 .01 .09 *
ADMINISTRADOR .091 .47 * -.63 .27 .06 *31.53 13.74 2.18 * .84 .15 .01 *
AGRICULTOR .074 .56 * .70 .24 -.07 *31.91 8.85 2.05 * .89 .10 .01 *
CULTIVO .094 .16 * .04 -.36 -.16 * .11 25.59 15.39 * .01 .82 .17 *
LABORES .120 .08 * .01 .23 .17 * .01 12.98 20.90 * .00 .64 .36 *
MANEJO .199 .01 * .07 -.02 -.04 * .77 .15 2.15 * .67 .06 .27 *
PERSONA .117 .17 * .40 .12 -.02 *16.35 3.46 .26 * .92 .08 .00 *
PROPIETARIO .097 .25 * .08 -.42 .27 * .51 34.94 43.76 * .02 .68 .29 *
--------------------------------------------------------------------------------------------
Tabla 3.5: coordenadas y contr ibuciones de filas y columnas
El primer eje contrapone el texto campesino tradicional (lado positivo) al texto
empresar io tecnificado moderno (lado negativo). Las palabras AGRICULTOR y
PERSONA aparecen al lado positivo del primer eje contraponiéndose a las palabras
Alvaro Montenegro y Campo Elías Pardo
48
ADMINISTRADOR y ADMINISTRACIÓN. Estos dos hechos ponen de manifiesto una
correspondencia de las palabras AGRICULTOR y PERSONA con el texto campesino
tradicional y de las palabras ADMINISTRADOR y ADMINISTRACIÓN con empresar io
tecnificado moderno.
En el plano se observan como más cercanos los textos de tecnificado moderno y
campesino tecnificado moderno, pero la calidad de la representación no es buena (50% y
69% respectivamente). El hecho de que el texto campesino tradicional aparezca cerca a las
palabras AGRICULTOR, PERSONA y LABORES significa que estas tres palabras son las
de mayor frecuencia en el perfil de este texto. De manera análoga la cercanía entre
AGRICULTOR y campesino tradicional manifiesta que esta palabra es usada con mayor
frecuencia por este grupo, lo cual se puede verificar en la tabla de perfiles.
Introducción al análisis de datos textuales 49
Figura 3.5: Pr imer plano factor ial
Las palabras cercanas (si están bien representadas en el plano) tienen perfiles similares. Las
más cercanas son: CULTIVO y PROPIETARIO, es necesario verificar la calidad de
representación en el plano, es decir la suma de cosenos cuadrados de los dos primeros ejes,
esta son: 83% y 71%, para las dos palabras respectivamente. En parte la cercanía se debe a
la proyección. La palabra más cercana al perfil medio es MANEJO, lo cual es también
cierto en el espacio original pues tiene la menor distancia al origen (0.01), esto se había
observado directamente en los perfiles.
3.6 Aplicación del análisis de correspondencias a datos textuales
Alvaro Montenegro y Campo Elías Pardo
50
3.6.1 Análisis de correspondencia de una tabla léxica: respuestas* formas
“La tabla de contingencia a analizar es una matriz dispersa de grandes dimensiones, la
información significativa está repartida sobre numerosos ejes y la interpretación del análisis
factorial presenta muchas dificultades. Sin embargo, el análisis se la tabla
respuestas* formas podrá ser útil en una primera fase de exploración de los datos. En este
caso solo intervendrán las repeticiones suficientemente numerosas e insistentes. Podremos
ver las grandes ideas presentes en las respuestas y percibir las asociaciones entre formas”
(Bécue, 1991, pág.41).
El análisis se puede enriquecer proyectando como ilustrativos los segmentos repetidos de la
tabla respuestas*segmentos y se pueden detectar asociaciones entre el vocabulario y
características de los individuos proyectando como ilustrativas respuestas a preguntas
cerradas.
3.6.2 Análisis de una tabla léxica agregada: formas*textos
En la sección 3.5 se hace el análisis de una tabla léxica agregada, con lo cual se pueden ver
asociaciones entre el vocabulario utili zado y una variable categórica de la información
cerrada. “Si las respuestas individuales han sido agregadas con un criterio adecuado, el
análisis de estas tablas revela una estructura en los datos textuales que no se hubiera
manifestado mediante la simple lectura.” (Bécue, 1991, pág.41).
Se suelen obtener variables mediante el cruce de otras, por ejemplo sexo*grupos de edad,
grupos de edad*nivel profesional, etc. y utili zar esas variables para hacer análisis de tablas
léxicas agregadas. Cuando se tienen varias variables de un mismo tema no es posible
cruzarlas todas, ya que se tendría una variable con muchas modalidades, algunas de ellas sin
individuos. Una alternativa es la de crear una variable nominal mediante un análisis de
correspondencias múltiples y clasificación.
Introducción al análisis de datos textuales 51
3.6.3 Análisis de tablas léxicas agregadas yuxtapuestas
Se forma una tabla en la cual las filas son las formas gráficas y las columnas son
particiones yuxtapuestas correspondientes a diferentes variables. Las distancias entre
formas son las distancias medias, con la misma importancia para cada una de las
particiones. Para que la interpretación de las proximidades entre formas sea posible es
necesario que las particiones no sean demasiado heterogéneas. (Lebart y Salem, 1994). En
el capítulo 5 se presenta un ejemplo de análisis de tabla léxicas agregadas yuxtapuestas.
Top Related