EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...
Transcript of EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...
EXPLORACIONES METODOLÓGICAS
DE LINGÜÍSTICA DE CORPUS
ORIENTADAS A LA ADQUISICIÓN Y EL
APRENDIZAJE DE VOCABULARIO ANÁLISIS E INVESTIGACIÓN DE DISCURSOS EN JUNTAS
GENERALES DE ACCIONISTAS MEDIANTE SCAP
Aantal woorden: 29.483
Jasper Degraeuwe Studentennummer: 01403367
Promotor: Prof. dr. Patrick Goethals
Masterproef voorgelegd voor het behalen van de graad master in het tolken: talencombinatie Nederlands,
Engels, Spaans
Academiejaar: 2017 – 2018
Declaración sobre derechos de autor
De auteur en de promotor geven de toelating deze studie als geheel voor consultatie
beschikbaar te stellen voor persoonlijk gebruik. Elk ander gebruik valt onder de beperkingen
van het auteursrecht, in het bijzonder met betrekking tot de verplichting de bron uitdrukkelijk
te vermelden bij het aanhalen van gegevens uit deze studie.
Het auteursrecht betreffende de gegevens vermeld in deze studie berust bij de promotor. Het
auteursrecht beperkt zich tot de wijze waarop de auteur de problematiek van het onderwerp
heeft benaderd en neergeschreven. De auteur respecteert daarbij het oorspronkelijke
auteursrecht van de individueel geciteerde studies en eventueel bijhorende documentatie, zoals
tabellen en figuren.
Palabras de agradecimiento
Me gustaría agradecer a todos los que han hecho posible la realización de esta tesina.
Primeramente, le estoy muy agradecido al profesor doctor Patrick Goethals por ofrecerme la
oportunidad de elegir el tema yo mismo, además de guiarme a través de los desafíos que supone
una investigación académica con sus consejos valiosos y su fuente inagotable de conocimiento.
Asimismo, les agradezco a mis padres su apoyo incondicional, que no solo han prestado
durante mi máster y la realización de esta tesina, sino también durante los demás años de mi
carrera escolar, ofreciéndome, por ejemplo, la libertad de estudiar lo que me más me interese.
A Amy de Vet le estoy muy agradecido por estar dispuesta a revisar parte de esta tesina y,
sobre todo, por ser tan buena amiga. Por último, me gustaría agradecer a mis dos hermanos
haber procurado suficiente distracción durante el proceso de escribir, lo cual sin duda ha tenido
un efecto positivo en el resultado final.
Resumen
En esta tesina estudiamos tres dimensiones de la adquisición y el aprendizaje de vocabulario
en L2 (grado de especificidad; competencia activa-pasiva; grado de dificultad), abordando el
tema desde la perspectiva específica de la lingüística de corpus. Concretamente, compilamos
un corpus sobre discursos en juntas generales de accionistas, después de lo cual realizamos dos
exploraciones metodológicas separadas mediante la herramienta informática SCAP.
En la primera exploración metodológica (1) elaboramos de forma prácticamente automática
una lista de palabras clave con el vocabulario supuestamente especializado de nuestro corpus,
basándonos en las medidas %DIFF (Gabrielatos y Marchi, 2011) y DP (Gries, 2008).
Evaluamos los contenidos de la lista al compararlos con el juicio de cuatro profesores expertos.
La segunda exploración (2) se centra en una investigación de la evolución en la competencia
activa-pasiva de estudiantes del segundo bachelor y del máster. Además, elaboramos una
clasificación de niveles de dificultad basándonos en los resultados de la encuesta e
investigamos si podemos predecir esos niveles mediante una serie de criterios niveladores (e.o.
la frecuencia léxica, el percentil de frecuencia y la existencia de un cognado) en un modelo de
aprendizaje automático.
(1) Casi el 75% de los términos se incluiría por al menos tres de los cuatro profesores en un
verdadero glosario (de traducción) acerca del tema de la junta general. (2) Hemos encontrado
una evolución estadísticamente significativa hacia un conocimiento más profundo de los
elementos léxicos en los estudiantes del máster. Asimismo, hemos comprobado que un modelo
de nivelación basado en el aprendizaje automático tiene futuro, dado que los grados de
precisión (accuracy) obtenidos alcanzan hasta el 61,8%.
Número de palabras: 263
Palabras clave: adquisición y aprendizaje de vocabulario; lingüística de corpus; keyness;
competencia activa-pasiva; predecir niveles de dificultad del vocabulario; aprendizaje
automático
Índice
Abreviaturas ............................................................................................................................................ 1
Lista de tablas y figuras .......................................................................................................................... 2
Índice de tablas ................................................................................................................................... 2
Índice de figuras .................................................................................................................................. 3
1 INTRODUCCIÓN ............................................................................................................................. 4
2 INVESTIGACIÓN BIBLIOGRÁFICA ................................................................................................ 7
2.1 Introducción ............................................................................................................................ 7
2.2 Adquisición y aprendizaje de una segunda lengua ................................................................. 7
2.3 Adquisición y aprendizaje de vocabulario .............................................................................. 8
2.3.1 Introducción ......................................................................................................................... 8
2.3.2 Instrucción enfocada en la palabra ................................................................................... 10
2.3.3 Vocabulario activo y pasivo ............................................................................................... 11
2.4 Computer-Assisted Language Learning ................................................................................ 14
2.5 Aprendizaje basado en datos (ABD) ..................................................................................... 16
2.5.1 Efectividad y contribuciones de ABD ................................................................................ 16
2.5.2 Clasificación de los métodos de investigación .................................................................. 17
2.6 Técnicas de lingüística de corpus .......................................................................................... 20
2.6.1 Keyness ............................................................................................................................. 20
2.6.2 Dispersión ......................................................................................................................... 22
3 SCAP ............................................................................................................................................. 25
3.1 Introducción .......................................................................................................................... 25
3.1.1 Información general .......................................................................................................... 25
3.1.2 Grupos meta ...................................................................................................................... 26
3.2 Funcionamiento .................................................................................................................... 27
3.2.1 Tokenización (tokenisation), etiquetado gramatical y lematización .................................. 27
3.2.2 Asignación de grado de dificultad ..................................................................................... 30
3.2.3 Frecuencia de ocurrencia y percentil ................................................................................ 31
3.2.4 Asignación de grado de especificidad .............................................................................. 32
3.3 Funcionalidades .................................................................................................................... 32
3.3.1 Interfaz web ....................................................................................................................... 32
3.3.2 Funcionalidades de investigación ..................................................................................... 38
3.4 Fundamentos teóricos de SCAP ............................................................................................ 39
3.4.1 Adquisición y aprendizaje de vocabulario ......................................................................... 39
3.4.2 Instrucción enfocada en la palabra (word-focused instruction) ........................................ 40
3.4.3 Vocabulario activo y pasivo ............................................................................................... 42
3.5 Conclusión ............................................................................................................................. 44
4 DISEÑO DEL ESTUDIO ................................................................................................................ 46
4.1 Introducción .......................................................................................................................... 46
4.2 Diseño y motivación .............................................................................................................. 46
4.3 Preguntas de investigación ................................................................................................... 48
5 EXPLORACIONES METODOLÓGICAS ....................................................................................... 49
5.1 Compilación del corpus ......................................................................................................... 49
5.1.1 Contexto ............................................................................................................................ 49
5.1.2 Recopilación de los textos ................................................................................................ 50
5.1.3 Introducción del corpus en SCAP ..................................................................................... 51
5.2 Exploración metodológica 1: definir palabras clave ............................................................. 51
5.2.1 Introducción ....................................................................................................................... 51
5.2.2 Aplicación de %DIFF ......................................................................................................... 51
5.2.3 Aplicación de DP ............................................................................................................... 52
5.2.4 Crear listas de palabras clave ........................................................................................... 52
5.2.5 Añadir traducciones a las listas ......................................................................................... 55
5.2.6 Comparación con el juicio de profesores ELE .................................................................. 57
5.2.7 Resultados ........................................................................................................................ 60
5.3 Exploración metodológica 2.1: la encuesta .......................................................................... 68
5.3.1 Organización de la encuesta ............................................................................................. 68
5.3.2 Procesamiento de los resultados ...................................................................................... 70
5.3.3 Resultados ........................................................................................................................ 72
5.3.4 Nivelación en base a los valores medios .......................................................................... 79
5.4 Exploración metodológica 2.2: hacia una nivelación automática ........................................ 84
5.4.1 Limitaciones de una encuesta ........................................................................................... 84
5.4.2 Definición de la variable dependiente ............................................................................... 84
5.4.3 Regresión logística ordinal en SPSS ................................................................................ 88
5.4.4 Conclusión intermedia ....................................................................................................... 96
5.5 Exploración metodológica 2.3: modelo predictivo de aprendizaje automático ................... 96
5.5.1 Introducción ....................................................................................................................... 96
5.5.2 Preparación del experimento ............................................................................................ 97
5.5.3 Método 1: la regresión lineal ............................................................................................. 99
5.5.4 Método 2: el decision tree ............................................................................................... 102
5.5.5 Conclusión ....................................................................................................................... 103
6 CONCLUSIÓN ............................................................................................................................. 105
6.1 Introducción ........................................................................................................................ 105
6.2 Exploración metodológica 1 ................................................................................................ 105
6.3 Exploración metodológica 2.1 ............................................................................................. 106
6.4 Exploraciones metodológicas 2.2 y 2.3 ............................................................................... 107
7 DISCUSIÓN ................................................................................................................................. 109
7.1 Limitaciones del estudio ..................................................................................................... 109
7.2 Observaciones y sugerencias .............................................................................................. 109
Referencias bibliográficas ................................................................................................................... 112
Apéndice ............................................................................................................................................. 116
Apéndice I: Metadatos_corpus ....................................................................................................... 116
Apéndice II: Referencias bibliográficas (enlaces)_corpus ............................................................... 117
Apéndice III: PoS-tagging en SCAP_lista completa de etiquetas .................................................... 120
Apéndice IV: 100 términos idóneos ................................................................................................ 122
Apéndice V: 50 términos no idóneos_lista1 (frecuentes pero no específicos) .............................. 124
Apéndice VI: 50 términos no idóneos_lista2 (específicos pero menos frecuentes) ....................... 125
Apéndice VII: Glosario de traducción extenso ................................................................................ 126
Apéndice VIII: Glosario de traducción breve .................................................................................. 128
Apéndice IX: Encuesta_documento1 .............................................................................................. 132
Apéndice X: Encuesta_documento2 ............................................................................................... 136
Apéndice XI: Encuesta_documento3 .............................................................................................. 140
Apéndice XII: Encuesta_niveles Ba2 ............................................................................................... 144
Apéndice XIII: Encuesta_niveles máster ......................................................................................... 147
Apéndice XIV: Set de datos de prueba ............................................................................................ 150
Apéndice XV: Set de datos de entrenamiento ................................................................................ 152
1
Abreviaturas
ABD aprendizaje basado en datos
Ba2 segundo bachelor
Ba3 tercer bachelor
BNC British National Corpus
CALL Computer-Assisted Language Learning
COCA Corpus of Contemporary American English
CREA Corpus de Referencia del Español Actual
DDL data-driven learning
ELE español lengua extranjera
IATE InterActive Terminology for Europe
L2 segunda lengua
MAE Mean Absolute Error
MCER Marco Común Europeo de Referencia
NBLT Netword-Based Language Learning
PoS Part of Speech
PV PortaVoces
SCAP Spanish Corpus Annotation Project
TELL Technology-Enhanced Language Learning
TT TreeTagger
TWS Thematische Woordenschat
2
Lista de tablas y figuras
Índice de tablas
Tabla 1: Adquisición y aprendizaje de vocabulario ................................................................................. 8 Tabla 2: Instrucción enfocada en la palabra ......................................................................................... 11 Tabla 3: Instrucción enfocada en la palabra_ejemplos ......................................................................... 11 Tabla 4: Vocabulario activo y pasivo ..................................................................................................... 13 Tabla 5: Programas de CALL orientados a la adquisición y el aprendizaje de vocabulario ................. 15 Tabla 6: Categorías de investigaciones de ABD ................................................................................... 17 Tabla 7: %DIFF_ejemplos ..................................................................................................................... 22 Tabla 8: DP_ejemplos ........................................................................................................................... 24 Tabla 9: Tokenización, etiquetado gramatical y lematización ............................................................... 29 Tabla 10: Niveles Thematische Woordenschat ..................................................................................... 30 Tabla 11: Niveles PortaVoces ............................................................................................................... 30 Tabla 12: Número de elementos léxicos en índices Thematische Woordenschat y PortaVoces ......... 31 Tabla 13: Puntuaciones de percentil de frecuencia en SCAP .............................................................. 32 Tabla 14: Interfaz web SCAP (versión beta) ......................................................................................... 33 Tabla 15: Preguntas de investigación ................................................................................................... 48 Tabla 16: Composición del corpus ........................................................................................................ 50 Tabla 17: Criterios lista de palabras clave ............................................................................................ 52 Tabla 18: Lista de 100 palabras clave ................................................................................................... 54 Tabla 19: Criterios términos no idóneos_2 ............................................................................................ 57 Tabla 20: Lista de 50 términos no idóneos_1 ....................................................................................... 58 Tabla 21: Criterios términos no idóneos_2 ............................................................................................ 58 Tabla 22: Lista de 50 términos no idóneos_2 ....................................................................................... 59 Tabla 23: Resultados1 test_%DIFF_DP ............................................................................................... 61 Tabla 24: Resultados2 test_%DIFF_DP ............................................................................................... 62 Tabla 25: Lista de términos aprobados correctamente por al menos 3/4 de los participantes ............. 64 Tabla 26: Lista de términos aprobados erróneamente por al menos 3/4 de los participantes ............. 65 Tabla 27: Lista de términos rechazados erróneamente por al menos 3/4 de los participantes ............ 66 Tabla 28: Explicaciones “grado de conocimiento” encuesta ................................................................. 69 Tabla 29: Número de palabras y participantes encuesta ...................................................................... 70 Tabla 30: Valores encuesta_ejemplos .................................................................................................. 71 Tabla 31: Niveles encuesta_1 ............................................................................................................... 71 Tabla 32: Resultados encuesta_comparación NC/V/ADJ ..................................................................... 72 Tabla 33: Resultados encuesta_resumen evolución Ba2 > máster ...................................................... 75 Tabla 34: Resultados encuesta_cambios en nivel Ba2 > máster ......................................................... 76 Tabla 35: Resultados encuesta_statu quo en nivel............................................................................... 77 Tabla 36: Resultados encuesta_regresión de nivel .............................................................................. 78 Tabla 37: Valores medios encuesta_ejemplos...................................................................................... 79 Tabla 38: Niveles encuesta_2 ............................................................................................................... 80 Tabla 39: Niveles encuesta_Ba2/máster/promedio (Ba3) ..................................................................... 80 Tabla 40: Promedio_nivel 1 ................................................................................................................... 81 Tabla 41: Promedio_nivel 2 ................................................................................................................... 82 Tabla 42: Promedio_nivel 3 ................................................................................................................... 83 Tabla 43: Promedio_nivel 4 ................................................................................................................... 83 Tabla 44: Criterios niveladores .............................................................................................................. 86 Tabla 45: Conceptualización de una nivelación automática ................................................................. 87 Tabla 46: Aplicabilidad 12 criterios niveladores .................................................................................... 92 Tabla 47: Aplicabilidad modelo final SPSS ........................................................................................... 93 Tabla 48: Aplicabilidad criterio 2a.......................................................................................................... 95
3
Tabla 49: Aplicabilidad criterio 3............................................................................................................ 95 Tabla 50: Aplicabilidad criterio 4a.......................................................................................................... 95 Tabla 51: Criterios niveladores experimento de aprendizaje automático ............................................. 97 Tabla 52: Resultados regresión lineal ................................................................................................. 101 Tabla 53: Resultados decision tree ..................................................................................................... 102
Índice de figuras
Figura 1: Interfaz web SCAP (versión beta)_versión original en inglés ................................................ 33 Figura 2: Búsqueda específica_ejemplo1 ............................................................................................. 34 Figura 3: Búsqueda específica_ejemplo1_output ................................................................................. 35 Figura 4: Búsqueda específica_ejemplo2 ............................................................................................. 36 Figura 5: Búsqueda específica_ejemplo2_output ................................................................................. 36 Figura 6: Búsqueda específica_ejemplo3 ............................................................................................. 37 Figura 7: Búsqueda específica_ejemplo3_output ................................................................................. 38 Figura 8: Traducción de listas de palabras clave_glosario extenso...................................................... 56 Figura 9: Traducción de listas de palabras clave_glosario breve ......................................................... 56 Figura 10: Términos aprobados en test_%DIFF_DP ............................................................................ 61 Figura 11: Resultados2 test_%DIFF_DP (gráfico) ................................................................................ 62 Figura 12: Resultados encuesta_comparación NC/V/ADJ (gráfico) ..................................................... 73 Figura 13: Resultados encuesta_resumen evolución Ba2 > máster (gráfico) ...................................... 75 Figura 14: Input regresión logística ordinal SPSS................................................................................. 90 Figura 15: Output regresión logística ordinal SPSS .............................................................................. 94 Figura 16: Datos no preparados experimento de aprendizaje automático ........................................... 97 Figura 17: Fase preparatoria experimento de aprendizaje automático_1 ............................................ 98 Figura 18: Fase preparatoria experimento de aprendizaje automático_2 ............................................ 99 Figura 19: Ilustración de las predicciones en set de datos de entrenamiento (regresión lineal) ........ 100 Figura 20: Análisis efectividad modelo de aprendizaje automático (regresión lineal) ........................ 101
4
1 INTRODUCCIÓN
La investigación sobre la adquisición y el aprendizaje de vocabulario (para la diferencia entre
ambos términos véase el apartado 2.3) ocupa una posición cada vez más céntrica en las teorías
sobre la adquisición y el aprendizaje de una segunda lengua (L2). Así, por ejemplo, Schmitt
(2010) destaca que un vocabulario amplio es una condición sine qua non para desenvolverse en
una lengua. Desde luego, se puede considerar el concepto de la adquisición y el aprendizaje de
vocabulario en L2 desde diferentes perspectivas. Una inmersión lingüística en el extranjero, por
ejemplo, sería un posible contexto para estudiarlo. Sin embargo, en la presente tesina partimos
de la perspectiva de la lingüística de corpus, “una rama de la lingüística que basa sus
investigaciones en datos obtenidos a partir de corpus, esto es, muestras reales de uso de la
lengua” (Centro Virtual Cervantes, s.d. a). Además, el término no se refiere a “una disciplina
lingüística, como lo pueden ser la morfología, la sintaxis o la pragmática”, sino que define “un
enfoque metodológico que es posible adoptar desde disciplinas diversas” (Centro Virtual
Cervantes, s.d. a), lo cual nos permite, pues, partir de la lingüística de corpus para investigar la
adquisición y el aprendizaje de vocabulario en L2.
Ahora bien, el concepto de la adquisición y el aprendizaje de vocabulario en sí no representa
un conjunto monolítico, sino que entran en juego varios criterios que determinan el proceso de
adquisición y aprendizaje. En la presente tesina, nos centramos en tres de esos criterios,
concretamente el grado de especificidad del vocabulario, la competencia activa-pasiva y el
grado de dificultad del vocabulario. El primer criterio tiene que ver con las palabras clave
(keywords), un concepto que comentamos más adelante en el apartado 2.6.1. La competencia
activa-pasiva define, en rigor, la diferencia entre saber entender un elemento léxico
(competencia pasiva) y saber entender así como producir (competencia activa) un elemento
léxico (véase el apartado 2.3.3 para unas explicaciones más detalladas). Por último, con el grado
de dificultad nos referimos sobre todo a la asignación de niveles, como se hace, por ejemplo,
en diccionarios del estudiante o en clasificaciones según los criterios del Marco Común
Europeo de Referencia (MCER).
En concreto, en la presente tesina pretendemos explorar dos metodologías de lingüística de
corpus, enfocándonos en las tres dimensiones de la adquisición y el aprendizaje de vocabulario
mencionadas arriba. Sin embargo, antes de comentar brevemente esas exploraciones
metodológicas, queremos enfatizar que en cuanto a la recuperación del vocabulario nos
5
centramos exclusivamente en los elementos léxicos de una sola palabra. De hecho, la razón por
la cual no se toman en consideración los lexemas multipalabras es puramente metodológica,
dado que las fórmulas que usamos en la tesina (todavía) no son aplicables a lexemas
multipalabras. Nos damos cuenta de que, como consecuencia, va perdida la parte del
vocabulario que consiste en elementos léxicos de más de una palabra, lo cual representa una
limitación del presente estudio. Aun así, opinamos que nuestra investigación sigue siendo
relevante, porque pretendemos abordar nuevas perspectivas de lingüística de corpus.
La primera exploración metodológica (Exploración metodológica 1) se centra en el grado de
especificidad del vocabulario. Adoptamos el punto de vista de un intérprete/estudiante de
interpretación no nativo que quiere prepararse para interpretar en un contexto especializado.
Entre otras actividades preparatorias, le gustaría estudiar una lista con el vocabulario típico del
contexto especializado. En este sentido, pretendemos investigar si la lingüística de corpus puede
servir como medio para alcanzar este fin. De hecho, hemos compilado un corpus incluyendo 74
discursos en castellano pronunciados todos en el marco de la junta general de accionistas de
empresas españolas, que sirve como contexto especializado. Para el procesamiento del corpus
utilizamos Spanish Corpus Annotation Project (SCAP), una herramienta informática
desarrollada en el Departamento de Traducción, Interpretación y Comunicación de la
Universidad de Gante (véase e.o. Goethals et al., 2017).
A continuación, la segunda exploración trata de la competencia activa-pasiva (Exploración
metodológica 2.1) en combinación con el grado de dificultad del vocabulario (Exploración
metodológica 2.2). Aquí, partimos de la perspectiva de un profesor de español como lengua
extranjera (ELE) que, antes de dar una clase de vocabulario sobre un determinado tema, quiere
saber qué términos los estudiantes dominan activamente, qué términos dominan pasivamente y
qué términos no conocen. Basándose en esta información, quiere adaptar los contenidos de la
clase a las necesidades de los estudiantes. Investigamos cómo puede ayudar la lingüística de
corpus en este contexto, partiendo de nuevo del corpus acerca de la junta general de accionistas
procesado mediante la herramienta SCAP.
Por último, también añadimos un apartado (Exploración metodológica 2.3) sobre un
experimento basado en los datos reunidos en la segunda exploración metodológica. En breve,
se trata del desarrollo de un modelo predictivo que va más allá de las descripciones y las
6
correlaciones: un modelo predictivo basado en el aprendizaje automático que asigna
automáticamente un nivel de dificultad a elementos léxicos de una sola palabra.
En resumen, primero llevamos a cabo una investigación bibliográfica, que se comentará
detalladamente en el capítulo 2 y que a la vez constituirá el marco teórico del presente trabajo.
A continuación, presentamos la herramienta informática SCAP (capítulo 3), antes de
profundizar en el diseño del estudio (capítulo 4). En el capítulo 5 ahondamos en las dos
exploraciones metodológicas de lingüística de corpus, que forman el núcleo de la tesina. Por
último, los capítulos 6 y 7 se dedican a las conclusiones que se pueden sacar del presente trabajo
y a la discusión de los resultados, respectivamente.
7
2 INVESTIGACIÓN BIBLIOGRÁFICA
2.1 Introducción
Empezaremos esta tesina sobre dos exploraciones metodológicas de lingüística de corpus
orientadas a la adquisición y el aprendizaje de vocabulario en una segunda lengua (L2) por una
reflexión más general sobre la adquisición y el aprendizaje en L2, seguida de un apartado sobre
la adquisición y el aprendizaje de vocabulario en particular. A continuación, pasamos a la parte
más específica, profundizando en el concepto de CALL (Computer-Assisted Language
Learning), en el aprendizaje basado en datos (ABD) y en unas técnicas de lingüística de corpus.
Así, pretendemos presentar un panorama extenso y completo, que a la vez sirve como el marco
teórico de la tesina.
2.2 Adquisición y aprendizaje de una segunda lengua
Coincidimos con Ellis (2014) cuando expone que con “segunda lengua” se refiere a cualquier
idioma que no sea(n) la(s) lengua(s) materna(s). Sin embargo, para ser completo cabe
mencionar que en Bélgica el español suele ser la cuarta o incluso la quinta lengua, después del
neerlandés, el francés, el inglés y eventualmente el alemán. Asimismo, hacemos una distinción
entre los términos “adquisición de L2”, que refiere al hecho de adquirir una lengua de manera
subconsciente, y “aprendizaje de L2”, que abarca más bien los esfuerzos deliberados a la hora
de estudiar una lengua. De hecho, el proceso de adquisición se realiza en un contexto
comunicativo auténtico, donde los hablantes no se preocupan por la forma de sus expresiones,
sino por los mensajes que intentan transmitir y entender (Krashen, 1981). El proceso de
aprendizaje, en cambio, se sitúa en un contexto más artificial, como por ejemplo el ámbito
escolar, donde la corrección de los errores y la enseñanza de reglas explícitas desempeñan un
papel central (Krashen, 1981).
8
2.3 Adquisición y aprendizaje de vocabulario
2.3.1 Introducción
Opinamos que también en cuanto al vocabulario es pertinente distinguir entre los términos
“adquisición” y “aprendizaje”, si bien nos parece oportuno concretizar las definiciones
anteriormente mencionadas (Krashen, 1981), adecuándolas a esta dimensión específica de la
adquisición y el aprendizaje de L2. En efecto, sostenemos que la adquisición de vocabulario
abarca los conocimientos nuevos sobre un elemento léxico adquiridos mediante actividades de
lectura extensiva y de comunicación auténtica, mientras que el aprendizaje comprende los
conocimientos nuevos sobre un elemento léxico aprendidos mediante actividades didácticas
diseñadas y realizadas con el objetivo de aprender nuevo vocabulario. Así, por ejemplo, el
hecho de leer un libro en L2 o hablar con un nativo – en la vida real o por algún dispositivo
electrónico – pertenece a las actividades de adquisición. En cambio, los ejercicios de rellenar
huecos o enlazar algún elemento léxico con la definición correspondiente, por ejemplo, forman
parte de las actividades de aprendizaje.
En otros términos, la adquisición de vocabulario se realiza de manera implícita, ya que el
objetivo de las actividades correspondientes no es necesariamente el aprendizaje de nuevas
palabras (Ellis, 1994), sino que supone sobre todo la realización de la actividad comunicativa
auténtica. Así, en el caso de los dos ejemplos que acabamos de mencionar, el fin sería la
comprensión de la historia y la realización de los objetivos de la conversación, respectivamente.
El aprendizaje de vocabulario, al contrario, se realiza más bien de manera explícita, dado que
en las actividades correspondientes se presta especial atención a los elementos léxicos, a
menudo con el claro objetivo de memorizarlos. A modo de ilustración, añadimos un resumen
esquemático en la Tabla 1.
Categoría ¿Cómo? Tipo de actividades
Adquisición de
vocabulario implícitamente
lectura extensiva; escuchar a o realizar comunicación auténtica;
etc.
Aprendizaje de
vocabulario explícitamente
ejercicios de vocabulario (rellenar huecos, enlazar el término
con su definición, etc.); la búsqueda de concordancias de una
palabra en un corpus para averiguar su significado y uso; etc.
Tabla 1: Adquisición y aprendizaje de vocabulario
9
Sin embargo, conviene no conceptualizar la adquisición y el aprendizaje de vocabulario como
dos categorías cerradas, sino como un continuo con extremos unívocos y una zona de
solapamiento evidente donde se encuentran, por ejemplo, las actividades de lectura que
consisten en una selección específica de frases sacadas de una fuente auténtica, tales como un
libro o un corpus. Asimismo, las actividades de lectura o de comunicación oral realizadas con
la ayuda de un glosario se podrían colocar en la misma zona de solapamiento.
Dado que en el presente estudio utilizamos una herramienta informática (SCAP) que en primer
lugar ha sido desarrollada para realizar búsquedas específicas sobre elementos léxicos
específicos, sostenemos que la tesina se centra principalmente en el aprendizaje de vocabulario.
Aun así, no significa que sea imposible utilizar el output de la herramienta SCAP para redactar
tareas que incluyen una dimensión de adquisición de vocabulario. Así, por ejemplo, sería
posible basarse en una serie de búsquedas realizadas mediante SCAP para diseñar actividades
de lectura (véase también el apartado 3.4).
A continuación, en el caso de ser necesario determinar si esos casos ambivalentes de la zona de
solapamiento tienden a la adquisición o al aprendizaje de vocabulario, consideramos la
actividad en cuestión desde el punto de vista del aprendiz. De hecho, si la actividad está
diseñada de tal manera que el aprendiz la realice a fin de entender lo que está leyendo o
escuchando o a fin de expresar lo que quiere expresar, opinamos que tiende a la adquisición de
vocabulario, incluso si el objetivo final de los diseñadores es que el aprendiz aprenda nuevo
vocabulario. En cambio, si la actividad es diseñada así como realizada con el objetivo de
aprender nuevo vocabulario, opinamos que tiende al aprendizaje de vocabulario.
Por último, Schmitt (2010) afirma que se necesita un vocabulario amplio para desenvolverse en
una lengua, una apreciación que, hoy en día, es generalmente aceptada en las teorías sobre la
adquisición y el aprendizaje de L2. Sin embargo, la cuestión de cuál es la manera más eficaz
para familiarizarse con nuevo vocabulario es objeto de debates muy intensos. Aun así, la
mayoría de los lingüistas parece sostener que mediante una combinación de la adquisición y el
aprendizaje de vocabulario se consigue el mejor resultado (Chacón-Beltrán et al., 2010). Por
una parte, se puede tratar de conseguir ese equilibrio realizando separadamente actividades de
adquisición y de aprendizaje. No obstante, por otra parte, también es posible combinar las dos
dimensiones en la misma actividad. Efectivamente, volviendo sobre la conceptualización de la
10
adquisición y el aprendizaje como un continuo, concluimos que la intersección en el medio
incluye exactamente este tipo de actividades, al combinar las fortalezas de ambos extremos.
2.3.2 Instrucción enfocada en la palabra
En el contexto que acabamos de esbozar, conviene destacar la instrucción enfocada en la
palabra (del inglés word-focused instruction, Laufer [2010]), que está relacionada con la
instrucción enfocada en la forma (del inglés form-focused instruction). De hecho, Laufer
propone ese tipo específico de instrucción tras haber corroborado empíricamente (véanse
Laufer 2003; 2005a; 2005b) que la mera exposición a mucho input no es suficiente para
familiarizarse con vocabulario nuevo en L2. En concreto, Laufer parte de los dos tipos de la
instrucción enfocada en la forma, más en particular Focus on Form (FonF) y Focus on Forms
(FonFs), para elaborar su instrucción enfocada en la palabra. Aplicando nuestra interpretación
de la adquisición y el aprendizaje de vocabulario, se podrían describir las tareas de FonF como
una forma de adquisición de vocabulario, basada en una tarea lingüística comunicativa
auténtica, a la que se superpone una dimensión de aprendizaje, mediante actividades para
prestar especial atención a una serie de elementos lingüísticos (para unos ejemplos véase la
Tabla 3). Las tareas de FonFs, en cambio, serían unívocamente tareas de aprendizaje, ya que se
refieren a formas de enseñar y practicar elementos léxicos mediante tareas lingüísticas no
comunicativas y/o no auténticas (para unos ejemplos véase la Tabla 3).
En la Tabla 2 presentamos, de acuerdo con Laufer (2010), cómo se puede adquirir y aprender
vocabulario mediante tareas de FonF o FonFs. Como ya hemos mencionado, la Tabla 3 recoge
algunos ejemplos para cada categoría. “Incidental” significa que no se les comunica a los
aprendices que el objetivo de la tarea es la adquisición o el aprendizaje de vocabulario;
“intencional” significa que sí se lo comunica, lo cual suele provocar la reacción de intentar
memorizar los elementos léxicos en cuestión. En este sentido, cabe observar que no se suele
incluir una dimensión intencional en las tareas de FonF, dado que no es esencial memorizar
palabras para realizar una actividad lingüística auténtica (Laufer, 2010). Además, resulta que la
diferencia entre las tareas de FonFs incidentales e intencionales es bastante sutil. En efecto, las
actividades en sí son muy similares, lo cual nos lleva a la conclusión de que la diferencia más
grande radica en el hecho de que las tareas intencionales hagan más hincapié en la
memorización de los elementos léxicos, vinculando, por ejemplo, un test posterior a la tarea.
11
Focus on Form (FonF) Focus on Forms (FonFs)
Incidental + +
Intencional - +
Tabla 2: Instrucción enfocada en la palabra
Focus on Form (FonF) Focus on Forms (FonFs)
Incidental
leer un texto y buscar las palabras
desconocidas en un diccionario a fin de
entender el texto; leer un texto con la
ayuda de un glosario; pedir que se
expliquen palabras desconocidas en
comunicación auténtica; etc.
realizar ejercicios de vocabulario tras leer un
texto; redactar frases con palabras
desconocidas cuyo significado está descrito
en las explicaciones; indicar el significado y
sinónimos de las palabras meta en ejercicios
de selección múltiple; etc.
Intencional /
memorizar una lista de palabras que incluye
su significado, su traducción y algunas
frases de ejemplo; leer un texto y buscar las
palabras desconocidas a fin de
memorizarlas; etc.
Tabla 3: Instrucción enfocada en la palabra_ejemplos
2.3.3 Vocabulario activo y pasivo
Ahondando en la cuestión de lo que significa exactamente conocer una palabra, Henriksen
(1999) y Zhong (2012) consideran el conocimiento de vocabulario como una construcción
multidimensional, de la cual nos interesa sobre todo la dimensión receptiva-productiva. Sin
embargo, no todos los investigadores definen el vocabulario productivo (también llamado
vocabulario activo) y receptivo (también denominado pasivo) de la misma manera (Read,
2000), lo cual ha creado problemas a la hora de comparar estudios entre sí (Zhong, 2012). De
hecho, una posible interpretación determina que la competencia activa incluye el hecho de saber
proporcionar un término equivalente en L2 de una palabra en L1, y que la competencia pasiva
representa el hecho de saber proporcionar una traducción adecuada en L1 de una palabra en L2
(Waring 1997; Laufer et al., 2004). Otra interpretación, en cambio, define la competencia activa
como la capacidad de recordar la forma y el significado de una palabra en L2, y considera la
competencia pasiva como el hecho de saber reconocer la forma de una palabra en L2, además
de saber definirla o dar un sinónimo (Webb, 2008).
12
En la presente tesina definimos los dos conceptos siguiendo a Nation (2001), quien ha elaborado
un esquema que permite evaluar en profundidad la competencia activa y pasiva (véase la Tabla
4). La originalidad de Nation está en aplicar la distinción entre la competencia activa y pasiva
a las tres dimensiones lingüísticas “forma”, “significado” y “uso”. El resultado es un marco
conceptual que invita a una reflexión sutil y matizada sobre lo que significa “conocer una
palabra”.
13
Dimensión Subdimensión Competencia Pregunta
Forma
Hablada
Pasiva ¿El aprendiz sabe reconocer la forma hablada de
la palabra?
Activa ¿El aprendiz sabe pronunciar la palabra
correctamente?
Escrita Pasiva
¿El aprendiz sabe reconocer la forma escrita de la
palabra?
Activa ¿El aprendiz sabe deletrear y escribir la palabra?
Partes de palabra
Pasiva ¿El aprendiz sabe reconocer partes conocidas de
la palabra?
Activa ¿El aprendiz sabe producir formas flexionadas y
derivadas apropiadas de la palabra?
Significado
Forma y significado
Pasiva ¿El aprendiz sabe recordar el significado
apropiado para esta forma de palabra?
Activa ¿El aprendiz sabe producir la forma de palabra
apropiada para expresar este significado?
Concepto y referentes
Pasiva ¿El aprendiz sabe entender una serie de usos de la
palabra y su concepto central?
Activa ¿El aprendiz sabe usar la palabra para referir a una
serie de cosas?
Asociaciones
Pasiva ¿El aprendiz sabe producir asociaciones comunes
para esta palabra?
Activa ¿El aprendiz sabe recordar esta palabra cuando se
la presenta con ideas relacionadas?
Uso
Funciones gramaticales
Pasiva ¿El aprendiz sabe reconocer usos correctos de la
palabra en contexto?
Activa ¿El aprendiz sabe usar esta palabra en los patrones
gramaticales correctos?
Colocaciones
Pasiva ¿El aprendiz sabe reconocer colocaciones
apropiadas?
Activa ¿El aprendiz sabe producir la palabra en
colocaciones apropiadas?
Limitaciones de uso
(registro, frecuencia, ...)
Pasiva ¿El aprendiz sabe si la palabra es común, formal,
infrecuente, etc.?
Activa ¿El aprendiz sabe usar la palabra
apropiadamente?
Tabla 4: Vocabulario activo y pasivo
14
Por último, conviene añadir que volveremos sobre este esquema de Nation (2001) cuando
evaluaremos en el apartado 3.4.3 para cuáles de las dimensiones y subdimensiones mencionadas
SCAP podría ser de ayuda.
2.4 Computer-Assisted Language Learning
Primeramente, cabe explicitar lo que entendemos exactamente por el concepto de CALL,
teniendo en cuenta que existen varias interpretaciones que oscilan entre amplias y más bien
estrictas. En nuestra opinión, es recomendable optar por una interpretación bastante amplia, ya
que nos permite anticiparnos a nuevos avances tecnológicos en el futuro e incluir sin ningún
problema cualquier concepto, teoría y/o método nuevo en el área de investigación acerca de
CALL. Por esta razón, definiríamos el concepto como, por un lado, el conjunto de aportaciones
tecnológicas a la adquisición y el aprendizaje así como a la enseñanza de una (segunda) lengua
y, por otro, el conjunto de estudios que, analizando esas aportaciones, pretenden ampliar los
conocimientos teóricos acerca del tema, además de ir desarrollando y mejorando las
herramientas tecnológicas mismas.
En segundo lugar, observamos que existen distintos términos para el concepto que refieren
esencialmente a lo mismo, aunque cabe mencionar que a veces se enfocan en una dimensión
específica del concepto. Así, por ejemplo, TELL (Technology-Enhanced Language Learning)
se centra en “tecnología”, un término más genérico que computer, además de poner de relieve
que se aumenta la calidad del aprendizaje (enhanced). En cambio, NBLT (Network-Based
Language Learning) se refiere específicamente al uso pedagógico de ordenadores que están
conectados mediante una red local o global y que permiten, por consiguiente, la comunicación
uno a uno, uno a muchos o muchos a muchos (Kern et al., 2008). Sin embargo, en la presente
tesina coincidimos con Levy y Hubbard (2005), quienes abogan por usar el término “CALL”,
señalando que es un término universalmente aceptado que más se utiliza en los nombres y
contenidos de estudios y revistas científicas. Además, observan que el hecho de inventar un
nuevo término cada vez que avanzan las nuevas tecnologías causa mucha confusión, lo cual no
es el caso con CALL, siendo un término bien establecido que ya se lleva usando desde que
surgió el concepto de incluir una dimensión tecnológica a la hora de aprender una lengua.
Por último, se ha de señalar que la adquisición y el aprendizaje de vocabulario siempre ha
desempeñado un papel muy popular en el ámbito de CALL (Pérez Basanta, 2010), por lo cual
15
no es de extrañar que se hayan elaborado clasificaciones que tratan de categorizar los programas
de CALL orientados a este tema. De hecho, partiendo de las clasificaciones de Ma y Kelly
(2006) y de Levy y Stockwell (2008) y aplicando a ellas nuestra interpretación de la adquisición
y el aprendizaje de vocabulario, llegamos al siguiente esquema:
Categoría Subcategoría Detalles
Adquisición
de vocabulario
actividades puramente
auténticas
Incluye, entre otras tareas, la lectura de páginas en
Internet y la comunicación a través de algún dispositivo
electrónico.
programas compuestos
de textos escritos con
glosarios electrónicos
Incluye los programas que ofrecen textos escritos
incluyendo enlaces a un diccionario o un glosario
electrónico.
Aprendizaje
de vocabulario
paquetes multimedia
con un componente de
aprendizaje de
vocabulario
Incluye los productos informáticos (sobre todo
programas comerciales) que se venden para utilizar en,
por ejemplo, el ambiente escolar. No obstante, las
aplicaciones de lenguas en el móvil también pertenecen
a esta categoría.
programas dedicados al
aprendizaje de
vocabulario
Incluye los programas (a menudo desarrollados en base
a fundamentos científicos) que tratan de integrar una
determinada teoría o dimensión del aprendizaje de
vocabulario en su funcionamiento.
Tabla 5: Programas de CALL orientados a la adquisición y el aprendizaje de vocabulario
Sostenemos que la presente tesina pertenece al segundo subgrupo de la segunda categoría
principal, en concreto programas dedicados al aprendizaje de vocabulario, ya que SCAP es un
programa de CALL que ha sido especialmente desarrollado para la extracción y la consulta de
vocabulario (especializado) de un corpus (véase el capítulo 3). Dicho de otro modo, se parte del
vocabulario especializado como dimensión específica y se trata de ayudarle al usuario a la hora
de familiarizarse con el vocabulario típico del corpus introducido.
16
2.5 Aprendizaje basado en datos (ABD)
2.5.1 Efectividad y contribuciones de ABD
ABD (del inglés data-driven learning [DDL], un término acuñado por Johns [1991]) es una
aplicación específica de CALL que se refiere a un enfoque inductivo en el cual los aprendices
actúan como verdaderos investigadores de lenguas, observando y explorando muestras de texto
de un corpus (por lo general concordancias) con el propósito de descubrir ciertos patrones de
uso, de significado, etc. (Montero Perez et al., 2014). Dicho de otro modo, ABD ofrece
considerable autonomía al aprendiz cuando quiere enterarse, por ejemplo, del significado y del
uso de una serie de palabras desconocidas o poco conocidas mediante búsquedas específicas.
En este sentido, la participación activa del aprendiz en el enfoque de ABD puede tener un efecto
positivo en la adquisición y el aprendizaje de L2 (véanse Kennedy y Miceli, 2001; Cheng et al.,
2003; Chambers y O’Sullivan, 2004; Lee y Swales, 2006). Además, Allan (2010) llega a la
conclusión de que la consulta de un corpus mediante un programa de concordancias resulta en
un conocimiento más profundo de las palabras meta en comparación con la consulta de un
diccionario, aunque se debe añadir que solo se observa este resultado en estudiantes de un nivel
B2 y C1 del Marco Común Europeo de Referencia (MCER) y no en los de un nivel B1.
Aun así, todavía no existe ningún consenso sobre la eficacia de ABD como una técnica de
aprendizaje o de instrucción. Así, por ejemplo, a pesar de afirmar que hay indicios para el
optimismo, Boulton (2010b) señala que los 27 estudios empíricos que analizó faltan de
proporcionar pruebas irrefutables sobre la efectividad de ABD. Asimismo, Gilquin y Granger
(2010) sostienen que los conocimientos empíricos sobre la eficacia de ABD son bastante
limitados, y que hacen falta más investigaciones de índole empírica para corroborar o refutar
su efectividad.
Sin embargo, sí se está de acuerdo en que el ABD brinda un gran potencial para contribuir a lo
que ya se sabe de la adquisición y el aprendizaje de L2, tanto con respecto a la dimensión teórica
como a la pedagógica (Asención-Delaney et al., 2015). Por último, por lo que se refiere a la
actitud de los aprendices ante ABD, resulta que, en general, responden de una manera positiva
(Chambers, 2010).
17
2.5.2 Clasificación de los métodos de investigación
Boulton (2008) distingue entre tres categorías principales de investigaciones de ABD: la
primera incluye los estudios que analizan la actitud de los aprendices ante el hecho de trabajar
con materiales sacados de uno o varios corpus; el segundo grupo comprende las investigaciones
que se centran en la evaluación de las prácticas (pratiques) utilizadas; y la tercera categoría
abarca los estudios que pretenden arrojar luz sobre la efectividad de ABD.
Aunque SCAP es en primer lugar una herramienta de CALL orientada a la lingüística de corpus,
el programa también tiene una fuerte conexión con el concepto de ABD (véase el apartado 3.4),
por lo cual la presente tesina también puede considerarse en parte como una investigación de
ABD. De hecho, como nuestro estudio se centra principalmente en dos exploraciones
metodológicas mediante SCAP, opinamos que pertenece a la segunda categoría de Boulton
(2008). Sin embargo, se debe añadir que hemos ampliado ligeramente el alcance del término
“prácticas” en comparación con la interpretación original. Efectivamente, Boulton (2008) se
refiere sobre todo a una evaluación de los programas de ABD con el propósito de averiguar si
son suficientemente accesibles para los no especialistas, mientras que nosotros también
consideramos el funcionamiento de la herramienta misma y el output generado como parte de
estas “prácticas”. En consecuencia, llegamos a la siguiente clasificación:
Categoría Subcategoría
Evaluación de la actitud de los usuarios ante ABD /
Evaluación de las prácticas utilizadas en los
programas de ABD
Prácticas = accesibilidad del programa de ABD
para el usuario
Prácticas = funcionamiento y output del
programa de ABD mismo
Evaluación de la efectividad de ABD /
Tabla 6: Categorías de investigaciones de ABD
En este contexto, merece la pena presentar una concisa taxonomía de las metodologías
utilizadas en estudios anteriores. Sin embargo, dado que la presente tesina se centra
específicamente en la adquisición y el aprendizaje de vocabulario, solo incluimos las
metodologías de investigaciones que pertenecen al ámbito correspondiente. En cuanto a la
primera subcategoría, los métodos de investigación consisten principalmente en la observación
y el análisis de la manera de trabajar de los participantes, es decir, que se averigua qué hacen
18
los aprendices al trabajar con el programa de ABD y si lo hacen bien, además de comprobar
qué decisiones específicas toman y por qué. Como ya se ha mencionado, en base a esta
información los investigadores quieren llegar a una conclusión acerca del grado de accesibilidad
del programa en cuestión para los usuarios no especialistas.
A continuación, como somos nosotros quienes hemos creado la segunda subcategoría, también
hemos tenido que llevar a cabo nosotros mismos una investigación acerca de las metodologías
utilizadas en este tipo de estudios, de la cual presentamos las observaciones más importantes
en lo que sigue. No obstante, volvemos a excluir las investigaciones que no tienen que ver con
la adquisición y el aprendizaje de vocabulario. Así, un primer grupo de estudios pretende
investigar cómo se pueden mejorar los programas informáticos dedicados a la adquisición y el
aprendizaje de vocabulario, enlazándolos con conocimientos teóricos de índole más general,
entre ellos teorías psicolingüísticas (véase Pérez Basanta, 2010). Asimismo, se llevan a cabo
investigaciones centradas en cómo se pueden redactar listas de vocabulario que tienen que
cumplir con determinados criterios, basándose en datos de corpus y aplicando fórmulas
estadísticas (véanse Matsuoka, 2012; Watson Todd, 2017). A continuación, otro tipo de
metodología se ve en investigaciones como García Salido y Alonso Ramos (2018), quienes
pretenden asignar niveles a una serie de colocaciones en español, partiendo de listas de
frecuencia de corpus y una nivelación manual según el MCER. Por último, existen varios
estudios que se centran principalmente en la creación, la refinación, la aplicación y/o la
evaluación de técnicas de lingüística de corpus, como son el keyness y el grado de dispersión
(véanse Lyne, 1985; Gries, 2008; Gabrielatos y Marchi, 2011; Gries, 2013).
En realidad, la relación de los últimos dos tipos de metodología con los programas de ABD está
sobre todo en que pueden ayudar a analizar y clasificar grandes cantidades de datos, facilitando,
por ejemplo, la asignación automática de un nivel de dificultad o de especificidad a elementos
léxicos. En nuestro estudio combinamos varias de las dimensiones metodológicas mencionadas
arriba, lo cual comentaremos en el diseño del estudio (capítulo 4).
Además, llama la atención que la gran mayoría de los estudios de ABD se centra en el inglés
como L2 (Römer, 2011), lo cual se ilustra muy bien en Boulton (2008), donde 33 de los 39
estudios analizados tratan de la lengua inglesa como L2, así como en Boulton (2010b), donde
solo 2 de los 27 estudios revisados se enfocan en otro idioma que el inglés. Si bien es cierto que
entre los corpus que están disponibles públicamente hay muchos más en inglés que en otras
19
lenguas (Römer, 2011), eso no le podría impedir al investigador estudiar otros idiomas como
L2. En efecto, en el mundo digitalizado de hoy uno tiene acceso a una gran cantidad de textos
en línea redactados en muchas lenguas diferentes. Si son de libre uso, el investigador puede
fácilmente descargar los textos que necesite para compilar su corpus, tal y como hemos hecho
nosotros para este trabajo (véase el apartado 5.1). Aun así, es cierto que trabajando de esa
manera quizá sea difícil llegar a una compilación de textos que corresponda a un total de unos
cuantos millones de palabras. Sin embargo, si bien es verdad que los corpus de mediano y gran
tamaño ofrecen muchas ventajas (Gaskell y Cobb, 2004), el tamaño del corpus no influye
necesariamente en el valor potencial del estudio en cuestión (véanse Roe [2000]; O’Sullivan y
Chambers [2006], entre otros).
Por último, el grado de especificidad del corpus también es un aspecto clave en el área de ABD.
Efectivamente, urge distinguir entre los corpus generales, como por ejemplo el Corpus de
Referencia del Español Actual (CREA), el British National Corpus (BNC) y el Corpus of
Contemporary American English (COCA), y los corpus especializados con textos acerca de
unos pocos o incluso un solo campo temático, ya que tiene implicaciones significativas para el
output y, por consiguiente, para la adquisición y el aprendizaje de L2 posterior. A pesar de ello,
resulta que no siempre se tiene en cuenta el grado de especificidad del corpus de estudio en la
investigación de ABD. En efecto, estudiando detenidamente cuatro artículos que presentan una
síntesis de un gran número de estudios de ABD anteriores, hemos podido concluir que solo en
uno de ellos, en concreto Chambers (2007), se comenta brevemente el tipo de corpus de los
estudios analizados. En los demás tres (Boulton [2008]; Boulton [2010b]; Asención Delaney et
al. [2015]) no se menciona el tipo de datos utilizados en los estudios considerados, y menos su
especificidad.
En realidad, en el ámbito específico de la adquisición y el aprendizaje de vocabulario mediante
un programa de ABD, el grado de especificidad del corpus desempeña un papel aún más
decisivo. En este contexto, Chambers (2010) subraya las fortalezas de los corpus especializados
de tamaño pequeño, afirmando que permiten al aprendiz consultar múltiples concordancias
relevantes. Además, los corpus especializados facilitan considerablemente la redacción de
glosarios y la extracción del vocabulario especializado, lo cual resulta muy útil para aprendices
que quieren familiarizarse rápidamente con un discurso especializado, e incluso para profesores
de lengua que quieren tratar un tema específico en clase (Bowker y Pearson, 2002). Asimismo,
los corpus especializados se caracterizan por tener una gran concentración de vocabulario,
20
implicando que son particularmente útiles para la adquisición y el aprendizaje de vocabulario
(Sinclair, 2005).
2.6 Técnicas de lingüística de corpus
2.6.1 Keyness
En opinión de Scott (1996; 1997), una palabra clave (keyword) se caracteriza por tener una
frecuencia inusualmente alta en un corpus de estudio en comparación con la frecuencia que
presenta en un corpus de referencia, por lo cual se podría definir el keyness como un indicador
de la importancia de una palabra clave en un corpus determinado (Biber et al., 2007).
Tradicionalmente, la métrica más común para determinar el keyness ha sido la significación
estadística, es decir, pruebas como log-verosimilitud o de chi cuadrado. Sin embargo,
Gabrielatos y Marchi (2011) señalan que la significación estadística no es la medida más
adecuada para calcularlo, porque no permite distinguir entre el efecto del tamaño del corpus y
la magnitud de la diferencia. Efectivamente, el problema con la prueba de chi cuadrado es que
únicamente averigua si la diferencia entre el corpus de estudio y el corpus de referencia es
significativa o no, y que no indica a qué se debe exactamente la posible significación estadística.
Así, por ejemplo, puede que una diferencia significativa se deba a que se ha analizado una gran
cantidad de datos, aunque en realidad la diferencia es bastante limitada.
Por esta razón, Gabrielatos y Marchi (2011) sugieren dividir el método en dos partes separadas.
Por un lado, miden la magnitud de la diferencia, una medida que averigua si una diferencia o
una relación de frecuencia es débil o fuerte, lo cual les lleva a proponer la siguiente fórmula,
que denominan %DIFF:
%DIFF = (𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑆𝐶−𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑅𝐶) 𝑥 100
𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑅𝐶
NormFreq = frecuencia normalizada
SC = corpus de estudio (study corpus)
RC = corpus de referencia (reference corpus)
Sin embargo, por otro lado, también añaden que solo se han de considerar los valores DIFF%
estadísticamente significativos en comparación con el corpus de referencia. Como consecuencia
21
de este método dual, se llega a un resultado final que facilita considerablemente la
interpretación de las diferencias entre el corpus de estudio y el corpus de referencia. En nuestra
tesina, un corpus de literatura juvenil de aproximadamente 7,5 millones de palabras que se ha
compilado dentro del proyecto de SCAP sirve como corpus de referencia.
A modo de ilustración, aplicamos la fórmula a un ejemplo concreto, más en particular el
sustantivo inversión. Sin embargo, hay que destacar que para determinar la frecuencia
normalizada se usa el número de palabras de contenido (content words) como punto de
referencia, omitiendo palabras funcionales como artículos, preposiciones, etc. El valor
cuantitativo final se debe leer como “a la frecuencia de 23 que tiene el término inversión en el
corpus de referencia, hay que sumar el 46.128,36503% de 23”. Así, obtenemos el valor de
10.632,52396, es decir, la frecuencia normalizada de inversión en el corpus de estudio (74
discursos pronunciados en una junta general de accionistas, véase el apartado 5.1).
Corpus de estudio Corpus de referencia
Total de palabras 235.295 7.528.422
Palabras de contenido 131.049 4.050.528
Número de casos “inversión” 344 23
Frecuencia normalizada 344/131.049 x 4.050.528
= 10.632,52396 23
%DIFF = (10.632,52396 − 23) 𝑥 100
23 = 46.128,36503
Por último, presentamos una serie de ejemplos en la Tabla 7. Por categoría gramatical también
se incluye un ejemplo con un valor negativo de %DIFF, a fin de ilustrar qué términos no serían
típicos del todo de nuestro corpus.
22
POS LEMA FREC %DIFF %DIFF_Sign
NC mundo 184 13 no
NC equilibrio 20 75 < 0,05
NC pérdida 19 103 < 0,01
NC inversión 344 46.128 < 0,001
NC vez 263 -55 < 0,001
V convertir 87 14 no
V seguir 375 11 < 0,05
V acumular 14 147 < 0,01
V alcanzar 304 495 < 0,001
V tener 678 -54 < 0,001
ADJ propio 124 19 no
ADJ inmerso 11 116 < 0,05
ADJ exterior 12 150 < 0,01
ADJ corporativo 205 105.504 < 0,001
ADJ seguro 80 -40 < 0,001
Tabla 7: %DIFF_ejemplos
2.6.2 Dispersión
Otro aspecto clave es el concepto de la dispersión, una medida que indica cómo un elemento
léxico está distribuido por las partes del corpus. Gries (2008) observa que tradicionalmente se
ha prestado poca atención a la dispersión en la literatura y los estudios sobre la lingüística de
corpus, señalando que la estadística prevalente en el ámbito es la frecuencia total en el corpus.
Aun así, el hecho de solo considerar la frecuencia de ocurrencia puede resultar engañoso e
incluso problemático, ya que, por ejemplo, una frecuencia de ocurrencia muy alta de una
determinada palabra se puede deber a una frecuencia altísima en un número limitado de textos,
que en realidad no representan el corpus entero. En este contexto, ya se han propuesto varias
medidas de dispersión, entre ellas D de Juilland et al. (1971), S de Rosengren (1971) y D2 de
Carroll (1970), pero Gries (2008) argumenta que muchas de ellas conllevan problemas. Por esta
razón, sugiere otra medida de dispersión, en concreto DP, una medida sencilla que siempre
genera un resultado entre cero y uno y que, además, evita muchos de los problemas de las otras
medidas de dispersión. A continuación, presentamos, de acuerdo con Gries (2008), cómo se
calcula DP:
23
1) Determinar los tamaños s1-n de las n partes del corpus, que son normalizados con
respecto al tamaño total del corpus y que, por tanto, corresponden a porcentajes
esperados que tienen en cuenta si las partes son de tamaño diferente.
2) Determinar las frecuencias v1-n con las cuales a ocurre en las n partes del corpus, que
son normalizadas con respecto al tamaño total del corpus y que corresponden a un
porcentaje observado.
3) Computar, en pares, todas las n diferencias absolutas de los porcentajes esperados y
observados, sumarlas y dividir el resultado por dos.
Como ya se ha mencionado, el resultado final (DP) es un número entre cero y uno, con valores
cercanos a cero indicando que a está repartido por las n partes del corpus como cabría esperar
dado el tamaño de las n partes, y con valores cercanos a uno indicando que a está repartido por
las n partes del corpus exactamente de la manera opuesta de lo que cabría esperar dado el
tamaño de las n partes. Dicho de otro modo, por una parte, la medida DP permite identificar los
términos que pertenecen al núcleo del género, es decir, los términos que, en el caso de haber
subgéneros, ocurren en todos – o por lo menos en la mayor parte de – esos subgéneros con una
frecuencia normalizada similar. Por otra parte, se pueden filtrar las palabras que por su
frecuencia total pueden considerarse típicas del género, pero que parecen ocurrir sobre todo en
una(s) instancia(s) del género en particular, por lo cual podrían considerarse más bien típicas
para un subgénero.
A continuación, ilustramos en la Tabla 8 la funcionalidad de DP. En efecto, endeudamiento,
consolidar y neto representan un valor relativamente bajo, lo cual significa que están repartidos
uniformemente por el corpus entero. Aerolínea, accionar y petroquímico, en cambio, tienen un
valor mucho más alto de DP, lo cual nos permite concluir que esos términos son más bien
típicos de una de las cinco partes del corpus (cinco sectores económicos).
24
POS LEMA FREC DP
NC endeudamiento 37 0,22
NC aerolínea 72 0,93
V consolidar 101 0,09
V accionar 11 0,72
ADJ neto 185 0,18
ADJ petroquímico 10 0,81
Tabla 8: DP_ejemplos
Por último, presentamos paso por paso cómo se calcula el valor DP de un ejemplo concreto,
más en particular el sustantivo endeudamiento:
Parte Número de palabras Número de ocurrencias “endeudamiento”
Comunicación 61.302 9
Construcción 44.146 15
Energía 54.965 7
Finanzas 58.548 6
Transporte 16.334 0
Total 235.295 37
Parte 1) Porcentaje esperado 2) Porcentaje observado 3) Diferencia absoluta
Comunicación 0,26 0,24 0,02
Construcción 0,19 0,41 0,22
Energía 0,23 0,19 0,04
Finanzas 0,25 0,16 0,09
Transporte 0,07 0 0,07
Después, se suman las diferencias absolutas, lo cual corresponde a una suma de 0,44. Por
último, a fin de llegar a un resultado final entre 0 y 1, todavía se ha de dividir la suma de 0,44
por 2, lo que equivale a un valor DP de 0,22.
25
3 SCAP
3.1 Introducción
3.1.1 Información general
Como ya se ha mencionado en la introducción, para el procesamiento de nuestro corpus de
estudio usamos Spanish Corpus Annotation Project (SCAP) una aplicación desarrollada en el
Departamento de Traducción, Interpretación y Comunicación de la Universidad de Gante
(véase e.o. Goethals et al., 2017). Basándonos en la página web del proyecto
(www.scap.ugent.be), que contiene una descripción detallada del objetivo, el funcionamiento y
las funcionalidades de SCAP y en Goethals et al. (2017), donde se presentan el origen y la
relevancia del proyecto, además de profundizar en el funcionamiento del etiquetador y el
lematizador, la calidad del output y las ventajas que ofrece, en los siguientes párrafos
elaboraremos un resumen extenso sobre SCAP incluyendo toda la información relevante para
la presente tesina, de manera que quede clara cada referencia al funcionamiento y a las
funcionalidades del programa en los capítulos que siguen.
Resumiendo en grandes líneas el funcionamiento de SCAP, se puede decir que, tras introducir
un corpus en ello, el programa etiqueta las palabras, las lematiza, les asigna un grado de
dificultad y de especificidad y computa su frecuencia de ocurrencia (para una descripción
minuciosa de cada uno de estos pasos véase el apartado 3.2). Asimismo, está disponible una
interfaz web, a través de la cual se puede acceder a las funcionalidades más avanzadas del
programa, que permiten realizar búsquedas muy específicas (para una descripción detallada de
esas búsquedas véase el apartado 3.3.1).
Sin embargo, cabe añadir que SCAP es una herramienta en fase de desarrollo, por lo cual de
momento todavía existen dos versiones del programa: una “versión beta” que ya está disponible
en línea, y una “versión reciente” que se lanzará en otoño de 2018 y que incluye, entre otras
nuevas funcionalidades, una interfaz web actualizada.
26
3.1.2 Grupos meta
SCAP es una aplicación desarrollada específicamente para promover “the use of corpus-based
applications among students, researchers, and language professionals who work with Spanish”
(Goethals et al., s.d.). En concreto, a los estudiantes de español como lengua extranjera (ELE)
el output de SCAP les permitirá familiarizarse rápidamente con el vocabulario típico acerca de
un tema de su propio interés, dado que podrán introducir en la aplicación un corpus o una serie
de textos ellos mismos. Asimismo, la interfaz web (véase el apartado 3.3.1 para una descripción
detallada) de la versión beta de SCAP ya les ofrece la posibilidad de realizar búsquedas
específicas en varios corpus reunidos dentro del proyecto. Estas búsquedas permiten, entre otras
cosas, visualizar las palabras en contexto o encontrar, por ejemplo, todos los adjetivos que se
combinan con un determinado sustantivo.
A los profesores ELE la herramienta SCAP les podría facilitar considerablemente la
preparación de sus clases (de vocabulario). En efecto, cuando el profesor introduce en la
aplicación una serie de textos que tratan del tema de la clase, le sale para cada término la
categoría morfológica a la cual pertenece, así como un nivel de especificidad y de dificultad, lo
cual puede ser de gran ayuda a la hora de diseñar ejercicios y actividades relevantes, en primer
lugar para seleccionar los elementos léxicos que podrían ser objeto de estudio. Además, gracias
a la interfaz web, el profesor ELE puede, entre otras cosas, consultar el contexto en que aparecen
las palabras, en base a lo cual puede diseñar ejercicios que dejan claros los diferentes usos de
un determinado término. Asimismo, las funcionalidades de la interfaz web también le permiten
organizar una clase de ABD, en la cual deja a los estudiantes mismos realizar las búsquedas,
invitándoles, por ejemplo, a buscar el significado y el uso de una serie de palabras desconocidas.
De hecho, como hemos visto en la investigación bibliográfica, la participación activa del
aprendiz típica del enfoque de ABD puede tener un efecto positivo en la adquisición y el
aprendizaje de L2 (véanse Kennedy y Miceli, 2001; Cheng et al., 2003; Chambers y O’Sullivan,
2004; Lee y Swales, 2006).
Por último, SCAP también les puede servir a los investigadores y profesionales lingüísticos que
trabajan con la lengua española. Así, por ejemplo, la herramienta les ofrece la libertad de aplicar
técnicas de lingüística de corpus a un corpus de estudio, cuyos resultados se presentan de forma
clara y accesible en el output.
27
3.2 Funcionamiento
3.2.1 Tokenización (tokenisation), etiquetado gramatical y lematización
El primer paso en el procesamiento de los datos es la tokenización, durante la cual, en términos
simples, se separan las palabras de los signos de puntuación (cada elemento separado se llama
un token). Para este proceso se usa SCAP-TT, un conjunto de parámetros elaborado por
Goethals et al. (2017) que parte de Standard-TT, el conjunto de parámetros básico de la
herramienta TreeTagger (TT), un etiquetador desarrollado por Schmid (1994; 1995).
Después, se inicia el etiquetado gramatical, lo cual también es realizado por SCAP-TT. En este
proceso, a los tokens se les asigna una PoS (Part of Speech), es decir, una clase de palabra,
como son los sustantivos (con la etiqueta NC), los adverbios (ADV) y los adjetivos (ADJ). En
total, SCAP-TT distingue entre 110 diferentes etiquetas gramaticales (para la lista completa
véase el Apéndice III). Entre los elementos que (aún) no se incluyen en el etiquetado gramatical
se encuentran, por ejemplo, la información sobre el tiempo y la persona de los verbos.
Asimismo, se lleva a cabo una lematización, al identificar el lema correspondiente de las formas
flexionadas. Así, por ejemplo, SCAP vincula las formas “financiero”, “financiera”, financieros”
y “financieras” al lema “financiero”. Cabe enfatizar que la lematización representa una fase
fundamental en el procesamiento de los datos, dado que se parte del lema en todas las
funcionalidades del programa.
A modo de ilustración, he aquí una frase ejemplar (sacada de JA_ACC_01 [véase el Apéndice
I]) con la tokenización, el etiquetado gramatical y la lematización correspondientes:
En este momento y con la prudencia debida, me atrevo a decir que la perspectiva para el grupo
es optimista, tanto en nuestros negocios principales de Energía e Infraestructuras como en las
otras actividades que, aunque de menor dimensión relativa, también contribuyen de manera
importante a los resultados del grupo.
28
Leyenda:
Abreviatura Explicación Abreviatura Explicación
ADJ adjetivo NC sustantivo
ADJV adjetivo verbal PDEL de + el
ADV adverbio PPX clítico/pronombre personal
ARTDEF artículo definido PREP preposición
CC conjunción coordinante QU cuantificador
CM coma VLINF verbo léxico (infinitivo)
CQUE que (conjunción) VLFIN verbo léxico (conjugado)
CSUB conjunción subordinante VSFIN verbo ser (conjugado)
DM pronombre demostrativo XP nombre propio
FS punto
Tokenización, etiquetado gramatical y lematización:
(leer el cuadro de arriba hacia abajo)
29
Token Etiqueta Lema Token Etiqueta Lema
En PREP en Energía XP Energía
este DM este e CC y
momento NC momento Infraestructuras XP Infraestructuras
y CC y como CSUB como
con PREP con en PREP en
la ARTDEF la las ARTDEF la
prudencia NC prudencia otras QU otro
debida ADJV debido actividades NC actividad
, CM , que CQUE que
me PPX yo , CM ,
atrevo VLFIN atrever aunque CSUB aunque
a PREP a de PREP de
decir VLINF decir menor ADJ menor
que CQUE que dimensión NC dimensión
la ARTDEF la relativa ADJ relativo
perspectiva NC perspectiva , CM ,
para PREP para también ADV también
el ARTDEF el contribuyen VLFIN contribuir
grupo NC grupo de PREP de
es VSFIN ser manera NC manera
optimista ADJ optimista importante ADJ importante
, CM , a PREP a
tanto ADV tanto los ARTDEF el
en PREP en resultados NC resultado
nuestros PPO nuestro del PDEL de
negocios NC negocio grupo NC grupo
principales ADJ principal . FS .
de PREP de
Tabla 9: Tokenización, etiquetado gramatical y lematización
30
3.2.2 Asignación de grado de dificultad
Basándose en los contenidos de los diccionarios ELE Thematische Woordenschat y
PortaVoces, SCAP asigna, dos veces, un nivel de dificultad a los lemas. En la Tabla 10 se
presenta la nivelación según Thematische Woordenschat (TWS), en la Tabla 11 según
PortaVoces (PV).
Grado de dificultad Detalles
básico contiene las palabras anotadas como “nivel 1” en TWS
intermedio contiene las palabras anotadas como “nivel 2” en TWS
nuevo contiene las palabras que no figuran en TWS pero sí en el corpus
Tabla 10: Niveles Thematische Woordenschat
Grado de dificultad Detalles
básico contiene las palabras anotadas como “básico” en PV
avanzado contiene las palabras anotadas como “avanzado” en PV
nuevo contiene las palabras que no figuran en PV pero sí en el corpus
Tabla 11: Niveles PortaVoces
Existen importantes diferencias entre los dos diccionarios, que se deberían tener en cuenta a la
hora de interpretar el output de SCAP. Así, por ejemplo, las categorías de Thematische
Woordenschat y PortaVoces no se solapan enteramente, en primer lugar porque éste es más
extenso (8505 elementos léxicos frente a 6036). En consecuencia, el nivel básico de PortaVoces
incluye un número importante de palabras que están en un nivel superior o ni siquiera están
incluidos en Thematische Woordenschat. Asimismo, el índice de Thematische Woordenschat
recoge ítems de una sola palabra así como lexemas multipalabras (multiwords) y colocaciones.
En cambio, cada ítem en el índice de PortaVoces consiste en una sola palabra, porque los
autores optan por solo indexar la palabra clave de los elementos léxicos multipalabras. Además,
en PortaVoces varias palabras no se incluyen en el índice pero sí figuran en las frases ejemplares
del diccionario. Como SCAP se basa en los índices de los libros para asignar un nivel de
dificultad, las observaciones mencionadas arriba también influyen en el output de la
herramienta. Sin embargo, sostenemos que los diccionarios no dejan de ser fuentes valiosas y
por lo menos pragmáticas para una nivelación rudimentaria del corpus, entre otras razones
porque ambas son obras de referencia en el ámbito ELE en Bélgica.
31
A continuación, la Tabla 12 recoge los datos exactos de los índices de ambos diccionarios. La
columna PV_no (663+1445) y la fila TWS_no (968+3609) incluyen las palabras que no
aparecen en el diccionario en cuestión pero sí en el otro. Como acabamos de comentar, el hecho
de que PV_no sume más de 2000 ítems se explica en gran parte por las diferencias en el sistema
de indexar. Así, como ya hemos expuesto, el índice de PortaVoces no incluye lexemas
multipalabras (p.ej. “a mediados de”; “infarto de corazón”; “resonancia magnética”). Además,
vemos que en la categoría PV_básico el número de términos que solapa con TWS_intermedio
(1217) es más o menos igual al número que solapa con TWS_básico (1311), lo cual sugiere que,
en rigor, PortaVoces tiene un grado de dificultad más alto. Sin embargo, como ya hemos
mencionado, las diferencias se deben en primer lugar a que PortaVoces es más extenso (8505
elementos léxicos versus 6036 en Thematische Woordenschat).
PV_no PV_básico PV_avanzado Total_TWS
TWS_no 0 968 3609 /
TWS_básico 663 1311 370 2344
TWS_intermedio 1445 1217 1030 3692
Total_PV / 3496 5009 6036
8505
Tabla 12: Número de elementos léxicos en índices Thematische Woordenschat y PortaVoces
Es evidente que esta nivelación parte de un criterio pragmático, que es, si las palabras figuran
o no en Thematische Woordenschat y PortaVoces. Por esta razón, los creadores de SCAP están
considerando utilizar otros puntos de referencia, como por ejemplo el Plan curricular del
Instituto Cervantes, que “desarrolla y fija los Niveles de referencia para el español según las
recomendaciones que, en su día, propusiera el Consejo de Europa en su Marco Europeo”
(Centro Virtual Cervantes, s.d. b). Además, una nivelación (semi)automática, como se investiga
en el presente trabajo (véase la Exploración metodológica 2), también podría considerarse.
3.2.3 Frecuencia de ocurrencia y percentil
Asimismo, SCAP computa la frecuencia de ocurrencia de cada lema, además del percentil de
frecuencia. Con respecto al percentil, SCAP otorga una puntuación a cada lema. La razón por
la cual ponemos las palabras con una sola ocurrencia en una categoría aparte es que en los
corpus de tamaño medio este grupo puede representar hasta el 40 o 50% del corpus. De hecho,
32
si entraran directamente en el cálculo de los percentiles, las palabras que solo ocurren una vez
en el corpus podrían ocupar el nivel 1, 2 e incluso parte del nivel 3.
Puntuación Detalles
0 1 ocurrencia en el corpus
1 entre el 0% y el 20% de las palabras con más de una ocurrencia
2 entre el 20% y el 40% de las palabras con más de una ocurrencia
3 entre el 40% y el 60% de las palabras con más de una ocurrencia
4 entre el 60% y el 80% de las palabras con más de una ocurrencia
5 entre el 80% y el 100% de las palabras con más de una ocurrencia
Tabla 13: Puntuaciones de percentil de frecuencia en SCAP
3.2.4 Asignación de grado de especificidad
Por último, la herramienta también es capaz de determinar el grado de especificidad de los
lemas. La versión beta de SCAP parte de un mecanismo que compara los percentiles en que
figura la palabra en el corpus de estudio y en un corpus de referencia, en base a lo cual se da
una nota: “A” para las palabras específicas y frecuentes; “B” para las palabras específicas pero
no frecuentes; “C” para las palabras frecuentes pero no específicas; y “D” para las palabras no
frecuentes ni específicas. Sin embargo, este método tiene el inconveniente de que se basa en
decisiones relativamente arbitrarias sobre a partir de qué nivel una palabra se considera como
específica, por lo cual la versión reciente de la herramienta parte de la medida %DIFF
(Gabrielatos y Marchi, 2011; para más información véase el apartado 2.6.1). Esta fórmula da
como resultado un valor cuantitativo que refleja la proporción entre las frecuencias de una
palabra en el corpus de estudio y un corpus de referencia
3.3 Funcionalidades
3.3.1 Interfaz web
Como ya se ha mencionado arriba, SCAP permite realizar búsquedas precisas a través de la
interfaz web, que ofrece las funcionalidades recogidas en la Tabla 14 (véase la Figura 1 para
la versión original en inglés). No obstante, como el programa todavía está en fase de desarrollo,
puede que en el futuro se incluyan más funcionalidades de este tipo en la herramienta.
33
Tipo de búsqueda Detalles
averiguar frecuencias de
ocurrencia
descargar un resumen de todos los lemas
averiguar la frecuencia de ocurrencia de algún lema en el corpus y
eventuales subcorpus
buscar lemas en contexto
buscar todas las ocurrencias en contexto de uno o varios lemas
buscar una combinación de algún lema con un segundo lema
buscar frases que incluyen diferentes lemas de una lista
buscar combinaciones y
construcciones para lemas
buscar combinaciones de algún lema con una etiqueta específica; por
ejemplo: encontrar todos los adjetivos que se combinan con un
determinado sustantivo
encontrar la primera ocurrencia de una etiqueta a la izquierda o la
derecha de las palabras de búsqueda; por ejemplo: encontrar el primer
verbo a la derecha de un determinado sustantivo
encontrar ngrams
Tabla 14: Interfaz web SCAP (versión beta)
Figura 1: Interfaz web SCAP (versión beta)_versión original en inglés
A continuación, comentamos tres de las búsquedas específicas, a fin de demostrar su utilidad
práctica.
Situación 1: Al leer un artículo de periódico encuentras la expresión “salida a bolsa”, un
elemento léxico desconocido para ti. Sabes deducir el significado del contexto pero te preguntas
si se trata de una expresión fija que no permite otra preposición (¿salida en bolsa?) ni un artículo
determinado antes de bolsa (¿salida a la bolsa?). Para resolver esta duda, realizas la búsqueda
34
buscar lemas en contexto – buscar una combinación de algún lema con un segundo lema, ya
que permite introducir la distancia máxima después del primer lema (aquí 3 palabras; véase la
Figura 2). Como resultado, obtienes un documento que visualiza todos los casos
correspondientes a los criterios de la búsqueda en su contexto original (véase la Figura 3) y que
permite deducir fácilmente que “salida a bolsa” efectivamente es una expresión fija en español.
Figura 2: Búsqueda específica_ejemplo1
35
Figura 3: Búsqueda específica_ejemplo1_output
Situación 2: En el resumen de las frecuencias de ocurrencia notas que “rentabilidad” es un
término muy frecuente en el corpus, pero te gustaría saber con qué adjetivos se puede combinar.
Aquí, la búsqueda idónea sería buscar combinaciones y construcciones para lemas – encontrar
la primera ocurrencia de una etiqueta a la izquierda o la derecha de las palabras de búsqueda.
Como se puede ver en la Figura 4, permite introducir la distancia máxima a la izquierda y la
derecha del lema. Como resultado final, SCAP genera un archivo que visualiza los totales por
adjetivo encontrado (véase la Figura 5), además de presentar los contextos originales en una
segunda hoja.
36
Figura 4: Búsqueda específica_ejemplo2
Figura 5: Búsqueda específica_ejemplo2_output
37
Situación 3: Te gustaría encontrar el (los) equivalente(s) español(es) de la colocación “dividend
uitkeren” en neerlandés. Como el COD suele estar detrás del verbo en español, buscamos el
primer verbo a la izquierda del lema “dividendo”. Para disminuir la probabilidad de que también
se incluyan verbos que no están vinculados con “dividendo”, limitamos la búsqueda a una
distancia máxima de tres. SCAP vuelve a crear un archivo que incluye los totales por verbo
encontrado (véase la Figura 7), así como una hoja con los contextos originales. De los
resultados se desprende que “repartir dividendo” sería la expresión equivalente en español.
Figura 6: Búsqueda específica_ejemplo3
38
Figura 7: Búsqueda específica_ejemplo3_output
3.3.2 Funcionalidades de investigación
También desde una perspectiva de investigación SCAP ofrece una serie de funcionalidades,
concretamente para los estudios de lingüística de corpus que se centran en la lengua española.
En concreto, la herramienta ayuda al investigador a realizar algunos pasos como el etiquetado,
la lematización o el cálculo de medidas cuantitativas esenciales. Son técnicas relativamente
bien conocidas que, sin embargo, siguen planteando problemas prácticos para muchos
investigadores, jóvenes o incluso expertos. Además, se puede utilizar el programa para estudiar
la aplicación de una o varias fórmulas estadísticas a un corpus de estudio, tal y como hemos
hecho nosotros con las medidas %DIFF y DP. En el output el programa visualiza los resultados
en hojas de cálculo (por ejemplo en Microsoft Excel), gracias a lo cual el investigador tiene
acceso a los valores subyacentes del procesamiento de datos. Sin embargo, repetimos que SCAP
es una herramienta que todavía está en fase de desarrollo, por lo cual es posible que en el futuro
se añadan más funcionalidades orientadas a la investigación de lingüística de corpus.
39
3.4 Fundamentos teóricos de SCAP
3.4.1 Adquisición y aprendizaje de vocabulario
Volviendo sobre los contenidos elaborados en la investigación bibliográfica, averiguamos en
qué dimensiones puede ayudar SCAP. Empezamos por comentar la utilidad de la herramienta
en cuanto al continuo de la adquisición y el aprendizaje de vocabulario, para lo cual volvemos
a presentar la Tabla 1.
Categoría ¿Cómo? Tipo de actividades
Adquisición de
vocabulario implícitamente
lectura extensiva; escuchar a o realizar comunicación auténtica;
etc.
Aprendizaje de
vocabulario explícitamente
ejercicios de vocabulario (rellenar huecos, enlazar el término
con su definición, etc.); la búsqueda de concordancias de una
palabra en un corpus para averiguar su significado y uso; etc.
Tabla 1: Adquisición y aprendizaje de vocabulario
Primeramente, SCAP se puede usar para realizar actividades de aprendizaje de vocabulario,
como por ejemplo la búsqueda de concordancias. Además, como acabamos de explicar en el
apartado 3.3.1, la interfaz web también ofrece la oportunidad de realizar búsquedas más
avanzadas, que le permiten al aprendiz explorar en profundidad el uso y el significado de una
determinada palabra en su contexto original. Estas actividades se pueden considerar como
ejercicios de vocabulario sin más o, en caso de que no vayan acompañadas de ninguna
instrucción concreta por parte de un profesor, como verdaderas actividades de ABD.
No obstante, SCAP también podría ser de ayuda en el diseño de otro tipo de ejercicios, más en
particular en actividades que poseen tanto elementos de adquisición como de aprendizaje,
combinando así las fortalezas de ambos extremos del continuo. Así, por ejemplo, se pueden
diseñar actividades de lectura basándose en una serie de contextos originales sacados del corpus
tras haber realizado búsquedas específicas mediante el programa.
40
3.4.2 Instrucción enfocada en la palabra (word-focused instruction)
Focus on Form (FonF) Focus on Forms (FonFs)
Incidental
leer un texto y buscar las palabras
desconocidas en un diccionario a fin de
entender el texto; leer un texto con la
ayuda de un glosario; pedir que se
expliquen palabras desconocidas en
comunicación auténtica; etc.
realizar ejercicios de vocabulario tras leer un
texto; redactar frases con palabras
desconocidas cuyo significado está descrito
en las explicaciones; indicar el significado y
sinónimos de las palabras meta en ejercicios
de selección múltiple; etc.
Intencional /
memorizar una lista de palabras que incluye
su significado, su traducción y algunas
frases de ejemplo; leer un texto y buscar las
palabras desconocidas a fin de
memorizarlas; etc.
Tabla 3: Instrucción enfocada en la palabras_ejemplos
Como hemos explicado en la investigación bibliográfica, la instrucción enfocada en la palabra
es una técnica que ha sido corroborada empíricamente (véanse Laufer 2003; 2005a; 2005b). Se
centra principalmente en la idea de que un profesor da actividades a un grupo de estudiantes
para que adquieran y aprendan nuevos elementos léxicos. De hecho, esas actividades pueden
ser tareas de FonF, tareas de FonFs incidentales o tareas de FonFs intencionales. Relacionando
la instrucción enfocada en la palabra con SCAP, vemos que la herramienta puede, por un lado,
ayudar a diseñar tales tareas y, por otro, funcionar como medio para realizarlas. Para ilustrar
esta doble utilidad, presentamos un ejemplo sencillo y concreto que vamos elaborando según
avanzamos en el tipo de tarea (FonF > FonFs incidental > FonFs intencional).
Focus on Form (FonF): Supongamos que como ejercicio preparatorio de una clase de
vocabulario el profesor ELE ya quiere familiarizarles a los estudiantes con cincuenta palabras
típicas de un tema que se va a tratar en clase, por ejemplo “una visita al médico de cabecera”.
Sin embargo, no quiere darles una lista de términos para estudiar de memoria, sino que prefiere
que encuentren el vocabulario en su contexto original. En este caso puede compilar un corpus
sobre el tema en cuestión descargando una serie de textos en línea e introducir el corpus en
SCAP, después de lo cual – en la versión reciente del programa – puede consultar una lista de
palabras clave, generada mediante las fórmulas %DIFF y DP (véase el apartado 5.2 para la
41
investigación que hemos llevado a cabo a este propósito). En base a esta lista el profesor ELE
puede seleccionar cincuenta palabras típicas y luego, mediante una serie de búsquedas sencillas
en la interfaz web, sacar los párrafos relevantes que contienen una o varias de esas cincuenta
palabras. Después, puede integrar ese input auténtico en una tarea de lectura preparatoria, a la
cual añade una serie de preguntas sobre el contenido y el vocabulario, estimulando a los
estudiantes a prestar atención a determinados elementos léxicos (aquí estaría el foco en la
palabra, pues). Así, el profesor se asegura de que los estudiantes ya están familiarizados con el
vocabulario típico del tema, mientras que para los estudiantes mismos solo supone la realización
de una tarea lingüística comunicativa auténtica, es decir, la comprensión de un texto en L2.
Además, la versión reciente de SCAP también ofrece la posibilidad de que el programa mismo
seleccione el texto en el corpus que contiene el número más alto de target words, que en este
caso serían los cincuenta términos específicos.
Focus on Forms (FonFs) incidental: A continuación, en la clase de vocabulario misma el
profesor ELE puede dar una serie de actividades de FonFs incidentales, implicando que los
estudiantes ya empiezan a prestar especial atención a los elementos léxicos fuera de su contexto
original. Así, por ejemplo, puede pedirles que realicen varias búsquedas específicas mediante
la interfaz web de SCAP para ampliar sus conocimientos sobre, entre otras cosas, el uso y el
significado de una serie de términos típicos. Naturalmente, el profesor ELE puede combinar
ese tipo de actividades con otras tareas, como por ejemplo un ejercicio de selección múltiple
para indicar el significado/los significados correcto(s) de los términos o la redacción de un breve
texto sobre el tema.
Focus on Forms (FonFs) intencional: Como actividad concluyente de esta clase de vocabulario
acerca de “una visita al médico de cabecera”, surge el ejemplo prototípico de una tarea de FonFs
intencional: un test. Efectivamente, el profesor puede elaborar un glosario y organizar un test
sobre ello en la clase siguiente, a fin de que los estudiantes presten especial atención a los
elementos léxicos con el claro objetivo de memorizarlos. Para la creación del glosario el
profesor ELE puede volver a consultar la lista de palabras clave basada en las medidas %DIFF
y DP.
Sin embargo, nosotros sostenemos que, en el caso de SCAP, se puede añadir una segunda
dimensión a la instrucción enfocada en la palabra, concretamente la de un aprendiz autodidacta
en un enfoque de ABD. Obviamente, en este contexto el programa funciona únicamente como
42
medio para realizar actividades lingüísticas, y ya no como herramienta para diseñar ejercicios.
En concreto, el aprendiz no solo puede introducir su propio corpus en la herramienta, sino que
la interfaz web también le permite ir explorando ese corpus de la manera que quiera. No
obstante, hay que destacar dos observaciones en esta dimensión: primero, se pierde
parcialmente la parte de “instrucción”, ya que es el aprendiz quien decide qué actividades
realiza. Además, para poder sacar el máximo provecho de esta dimensión es imprescindible que
el aprendiz posea conocimientos avanzados sobre la lingüística de corpus.
3.4.3 Vocabulario activo y pasivo
Por último, volvemos a presentar el esquema sobre la competencia activa-pasiva elaborado por
Nation (2001) y comentamos las dimensiones en las cuales SCAP puede ayudar (en la versión
beta de la aplicación), basándonos para cada dimensión en la pregunta en la última columna.
1) Pregunta en negrita: se puede utilizar SCAP sin necesitar ninguna intervención por
parte de un profesor ELE = ABD
2) Pregunta en itálica: se puede utilizar SCAP pero hace falta una intervención por parte
de un profesor ELE para diseñar actividades correspondientes
3) Pregunta en texto normal: SCAP (todavía) no puede ayudar
43
Dimensión Subdimensión Competencia Pregunta
Forma
Hablada
Pasiva ¿El aprendiz sabe reconocer la forma hablada de
la palabra?
Activa ¿El aprendiz sabe pronunciar la palabra
correctamente?
Escrita
Pasiva ¿El aprendiz sabe reconocer la forma escrita de
la palabra?
Activa ¿El aprendiz sabe deletrear y escribir la
palabra?
Partes de palabra
Pasiva ¿El aprendiz sabe reconocer partes conocidas
de la palabra?
Activa ¿El aprendiz sabe producir formas flexionadas y
derivadas apropiadas de la palabra?
Significado
Forma y significado
Pasiva ¿El aprendiz sabe recordar el significado
apropiado para esta forma de palabra?
Activa ¿El aprendiz sabe producir la forma de palabra
apropiada para expresar este significado?
Concepto y referentes
Pasiva ¿El aprendiz sabe entender una serie de usos de
la palabra y su concepto central?
Activa ¿El aprendiz sabe usar la palabra para referir a
una serie de cosas?
Asociaciones
Pasiva ¿El aprendiz sabe producir asociaciones
comunes para esta palabra?
Activa ¿El aprendiz sabe recordar esta palabra cuando
se la presenta con ideas relacionadas?
Uso
Funciones gramaticales
Pasiva ¿El aprendiz sabe reconocer usos correctos de
la palabra en contexto?
Activa ¿El aprendiz sabe usar esta palabra en los
patrones gramaticales correctos?
Colocaciones
Pasiva ¿El aprendiz sabe reconocer colocaciones
apropiadas?
Activa ¿El aprendiz sabe producir la palabra en
colocaciones apropiadas?
Limitaciones de uso
(registro, frecuencia, ...)
Pasiva ¿El aprendiz sabe si la palabra es común, formal,
infrecuente, etc.?
Activa ¿El aprendiz sabe usar la palabra apropiadamente?
Tabla 4: Vocabulario activo y pasivo
44
Primeramente, no ha de extrañar que las dimensiones en las cuales SCAP no puede ayudar estén
relacionadas con el lenguaje hablado, ya que el programa únicamente procesa textos escritos.
A continuación, llama la atención que en las demás dimensiones SCAP sí puede ser de ayuda,
aunque cabe añadir que para la gran mayoría de las dimensiones activas se necesita la ayuda de
un profesor ELE para el diseño de actividades adecuadas. Aun así, en la versión reciente del
programa sí existe la posibilidad de dejarle a la herramienta misma diseñar automáticamente
ejercicios de rellenar huecos, lo cual serían actividades orientadas a la competencia pasiva. Sin
embargo, aquí nos limitamos a comentar la pregunta “¿El aprendiz sabe deletrear y escribir
la palabra?”, ya que en todo caso se puede aplicar esta dimensión activa a la versión beta de
SCAP. De hecho, en el supuesto de que el aprendiz lea un texto de su corpus y quiera realizar
búsquedas específicas para enterarse en profundidad de la forma, el significado y el uso de un
determinado término, él mismo tendrá que introducir el lema en la interfaz web, lo cual
representa una actividad activa.
A continuación, para ilustrar una dimensión que requiere una intervención de un profesor ELE
comentamos la pregunta “¿El aprendiz sabe usar esta palabra en los patrones gramaticales
correctos?”. Aquí, el profesor ELE puede basarse en los contextos originales que salen en el
output de SCAP (p.ej. concordancias) para diseñar actividades en las cuales los estudiantes
aprenden a usar los patrones gramaticales correctos.
Para ampliar los conocimientos pasivos mediante SCAP, en cambio, el aprendiz no necesita
necesariamente la ayuda de un profesor ELE, aunque cabe volver a destacar que debería tener
alguna experiencia con la lingüística de corpus para sacar provecho del enfoque de ABD. Así,
por ejemplo, para la pregunta “¿El aprendiz sabe reconocer colocaciones apropiadas?” el
aprendiz podría buscar qué verbo(s) se combina(n) con un determinado sustantivo mediante la
interfaz web de SCAP (véase también el apartado 3.3.1 para el ejemplo concreto de
“dividendo”).
3.5 Conclusión
Sostenemos que la originalidad de SCAP está en que reúne varias técnicas existentes
(tokenización, lematización, identificación de palabras clave, etc.) para llegar a un “producto
final” coherente y polivalente. Además, otra ventaja es que la herramienta está orientada
específicamente al español, lo cual es más bien una excepción en un ámbito donde predomina
45
el inglés. Resumiendo, SCAP brinda posibilidades en el marco de la lingüística de corpus en la
lengua española. En efecto, el programa no solo puede ayudar a diseñar ejercicios de
vocabulario ELE, sino que también ofrece la oportunidad de realizar actividades mediante la
interfaz web, con o sin la ayuda de un profesor ELE. Además, se puede utilizar el programa
para llevar a cabo investigaciones de lingüística de corpus, como también hacemos nosotros en
los capítulos que siguen.
Aun así, como ya hemos mencionado, SCAP es una herramienta en fase de desarrollo, con
muchos aspectos que quedan por mejorar y perfeccionar. Así, por ejemplo, se añadirán más
funcionalidades a la interfaz web, haciéndola, entre otras cosas, más accesible para quienes
todavía no tienen mucha experiencia con la lingüística de corpus. Asimismo, como en la
presente tesina pretendemos explorar varias metodologías de lingüística de corpus,
averiguamos si los resultados de esas exploraciones nos permiten incluir dos dimensiones
adicionales en SCAP, concretamente la extracción del vocabulario especializado en forma de
listas de palabras clave y una nivelación automática del corpus.
46
4 DISEÑO DEL ESTUDIO
4.1 Introducción
Como ya hemos expuesto en la introducción, la parte investigativa de la presente tesina consiste
en dos exploraciones metodológicas separadas, en las cuales partimos de la lingüística de corpus
para investigar tres dimensiones específicas (grado de especificidad; competencia
activa-pasiva; grado de dificultad) de la adquisición y el aprendizaje de vocabulario en L2.
4.2 Diseño y motivación
La primera parte de la investigación se centra en el grado de especificidad del vocabulario, para
lo cual adoptamos el punto de vista de un intérprete/estudiante de interpretación no nativo que
quiere prepararse para interpretar en un contexto especializado. En este sentido, la investigación
bibliográfica nos muestra que ya existen varias técnicas de lingüística de corpus que pretenden
medir el grado de especificidad del vocabulario. Aun así, comprobamos que aún no se ha
intentado combinar varias de esas técnicas y aplicarlas a un corpus concreto para así desarrollar
un método que permita determinar con precisión el grado de especialización del vocabulario.
En este contexto, pretendemos estudiar si %DIFF (Gabrielatos y Marchi, 2011; para determinar
el keyness), y DP (Gries, 2008; para calcular la dispersión) son medidas efectivas para filtrar el
vocabulario especializado de un corpus. De hecho, hemos compilado un corpus incluyendo 74
transcripciones de discursos pronunciados en el mismo contexto especializado, concretamente
el de la junta general de accionistas de empresas españolas. Para el procesamiento del corpus
usamos la herramienta SCAP, que acabamos de presentar en el capítulo 3. Por último, el
objetivo más general de esta parte de la investigación sería desarrollar un método para la
extracción del vocabulario especializado de un corpus que se pueda aplicar también a otros
contextos especializados.
La segunda parte de la investigación se enfoca en la diferencia entre la competencia activa y
pasiva (Exploración metodológica 2.1), además de explorar la asignación automática de un
nivel de dificultad al vocabulario (Exploración metodológica 2.2). De la investigación
bibliográfica se desprende que existen varias interpretaciones de la competencia activa y pasiva,
47
de las cuales nos interesa sobre todo la clasificación de Nation (2001), que invita a una reflexión
sutil y matizada sobre lo que significa “conocer una palabra”. Además, cabe destacar el método
de asignar un nivel a un elemento léxico en base a listas de frecuencia de corpus, comprobando
su validez mediante una comparación con los niveles propuestos en el MCER (García Salido y
Alonso Ramos, 2018).
En este sentido, llevamos a cabo una encuesta acerca de la competencia activa y pasiva que
presenta una lista de palabras generada mediante SCAP a un grupo de estudiantes ELE del
segundo bachelor y del máster. Primero, presentamos e interpretamos los resultados de la
encuesta, analizando si hay una evolución en la competencia activa y pasiva entre los dos
grupos. De hecho, desarrollamos una clasificación incluyendo cuatro niveles de dificultad,
basándonos en el grado de dominio activo y pasivo indicado por los participantes (self-reported
knowledge). A continuación, llevamos a cabo una regresión logística ordinal en el programa
SPSS para investigar si se pueden enlazar esos niveles de dificultad con una serie de datos “más
accesibles” que los datos obtenidos mediante la encuesta, entre ellos, la frecuencia de
ocurrencia en dos corpus de referencia y la existencia de un cognado en la lengua materna (L1),
es decir, el neerlandés.
Asimismo, queremos informar en forma de epílogo (Exploración 2.3) sobre un experimento
prometedor basado en los datos reunidos en las exploraciones 2.1 y 2.2. En concreto,
pretendemos desarrollar un modelo predictivo basado en el aprendizaje automático que asigne
automáticamente un nivel de dificultad a elementos léxicos de una sola palabra.
Por último, también hemos demostrado en la investigación bibliográfica que existen por lo
menos dos aspectos metodológicos problemáticos que se repiten en la mayoría de los estudios
de ABD y de lingüística de corpus, concretamente la posición predominante del inglés como
L2 y el interés limitado por los corpus especializados. Particularmente el último elemento nos
llama la atención, dado que los corpus especializados de tamaño mediano o pequeño ofrecen la
gran ventaja de permitir al aprendiz consultar múltiples concordancias relevantes (Chambers,
2010). En todo caso, en la presente tesina pretendemos ofrecer una respuesta a esos dos
desafíos, centrándonos en el español como L2 y compilando un corpus especializado como
corpus de estudio.
48
4.3 Preguntas de investigación
Pretendemos presentar una respuesta a cuatro preguntas de investigación centrales, repartidas
por las dos exploraciones metodológicas separadas como sigue:
1 / ¿%DIFF (para el keyness) y DP (para la dispersión) son medidas efectivas para filtrar las
palabras clave más relevantes de un corpus especializado?
2
2.1 ¿Se nota una evolución entre estudiantes ELE del segundo bachelor y del máster en el
dominio activo y pasivo en cuanto a términos con cierto grado de especificidad?
2.2 ¿Aparte de la frecuencia léxica, qué criterios niveladores son aptos para incluir en un modelo
que predice el nivel de dificultad de elementos léxicos de una sola palabra?
2.3 ¿Podemos predecir con relativa precisión el nivel de dificultad de elementos léxicos de una
sola palabra mediante un modelo de aprendizaje automático?
Tabla 15: Preguntas de investigación
En líneas generales, para contestar a la primera pregunta de investigación, comparamos los
contenidos de una lista de palabras clave generada automáticamente con el juicio de cuatro
profesores expertos. Por lo que respecta a la segunda pregunta, sugerimos una clasificación
incluyendo cuatro niveles de dificultad que permite evaluar fácilmente la evolución entre los
dos grupos. Para dar una respuesta a la tercera pregunta de investigación, nos servimos de la
técnica de la regresión logística ordinal, que nos permite investigar qué criterios niveladores se
pueden integrar en un modelo de nivelación predictivo. A fin de contestar a la última pregunta
de investigación, llevamos a cabo un experimento de aprendizaje automático basado en los
datos reunidos en las exploraciones metodológicas 2.1 y 2.2.
49
5 EXPLORACIONES METODOLÓGICAS
5.1 Compilación del corpus
5.1.1 Contexto
El corpus reunido en la presente tesina se centra en el ámbito específico de la junta general
(ordinaria) de accionistas, más en particular en los discursos que se pronuncian en este contexto
especializado. Sin embargo, antes de comentar el proceso de la compilación del corpus,
esbozamos brevemente lo que entendemos por el concepto “junta general ordinaria de
accionistas”, basándonos para ello en la Ley de Sociedades de Capital (Agencia Estatal Boletín
Oficial de Estado, 2017). La junta general se celebra una vez al año, dentro de los seis primeros
meses de cada ejercicio, aunque también existe la posibilidad de convocar juntas adicionales,
las llamadas juntas generales extraordinarias. La junta general ordinaria es un órgano de
gobierno que se asocia principalmente con las sociedades capitalistas y que se caracteriza por
su estructura fija, sobre todo en las sociedades anónimas cotizadas en bolsa. En efecto, la
reunión suele organizarse de la siguiente manera (BBVA, s.d.):
1) Convocatoria
2) Establecimiento de la mesa
3) Lista de asistentes
4) Constitución de la junta
5) Desarrollo de la junta
6) Ejercicio del derecho de información de los accionistas
7) Votación
8) Adopción de acuerdos
En este sentido, cabe destacar el punto seis de la lista, ya que representa uno de los principales
objetivos de la junta general desde el punto de vista de los accionistas mismos. Efectivamente,
es una ocasión idónea para informarse de la gestión de la empresa, haciendo preguntas o
pidiendo aclaraciones. Desde el punto de vista de los directores, en cambio, los principales
objetivos de la reunión suelen ser la aprobación de las cuentas anuales, la decisión del destino
de los beneficios (repartir como dividendo y/o guardar como reserva) y la aprobación de
50
eventuales cambios estatutarios, una serie de actos que se incluyen tradicionalmente en el punto
ocho de la lista.
5.1.2 Recopilación de los textos
Con este campo temático como punto de partida hemos llevado a cabo una búsqueda en línea,
con la intención de encontrar la mayor cantidad de transcripciones correspondientes posible,
aun limitándonos al período 2015-2017. Además, el hecho de que haya un marco legal (véase
la Ley de Sociedades de Capital) nos ha llevado a la decisión de limitar el estudio a empresas
españolas.
En la revisión posterior de los datos provisionales hemos clasificado los textos por sector
económico, de lo cual solo se mantienen los 5 sectores con el mayor número de textos,
concretamente comunicación, construcción, energía, finanzas y transporte. Como
consecuencia, llegamos a un corpus definitivo de 74 transcripciones, todas redactadas en el
español peninsular, que corresponden a un total de 235.295 palabras. A continuación, la Tabla
16 recoge la información más relevante sobre la composición del corpus (véase el Apéndice I
para la documentación completa).
Subcorpus Número de palabras Porcentaje Empresas (número de textos)
Comunicación 61.302 26,05 Atresmedia (6); Mediaset España (6); Prisa
(6); Telefónica (2)
Construcción 44.146 18,76 Acciona (3); Grupo ACS (6); Técnicas
Reunidas (4)
Energía 54.965 23,36 Gamesa (4); Gas Natural Fenosa (2); Red
Eléctrica de España (5); Saeta Yield (3)
Finanzas 58.548 24,88 Bankia (2); Bolsas y Mercados Españoles
(12); Mapfre (4); Santander (2)
Transporte 16.334 6,94 Construcciones y Auxiliar de Ferrocarriles
(1); International Airlines Group (6)
Total 235.295 100 17 (74)
Tabla 16: Composición del corpus
51
5.1.3 Introducción del corpus en SCAP
Para los detalles de este paso, véase el apartado 3.2.
5.2 Exploración metodológica 1: definir palabras clave
5.2.1 Introducción
La primera perspectiva metodológica consiste en la generación (mediante SCAP) y el análisis
posterior de una lista incluyendo las palabras supuestamente clave del corpus. Primeramente,
cabe señalar que solo estudiamos tres categorías morfológicas, que son los sustantivos (NC),
los verbos (V) y los adjetivos (ADJ), al ser las clases de palabra más comunes que a la vez
tienen un alto valor semántico. Además, repetimos que en esta parte de la investigación
adoptamos el punto de vista de un intérprete/estudiante de interpretación no nativo que quiere
prepararse para interpretar en el contexto especializado de la junta general de accionistas. Por
último, una de las preguntas más pertinentes a la hora de crear listas de palabras clave es en
base a qué criterios se realiza la selección de palabras. En ente sentido, proponemos un método
que va mucho más allá del criterio de la frecuencia léxica, puesto que incluimos también el
percentil de frecuencia y las medidas %DIFF y DP en la metodología. Además, para evaluar la
efectividad de nuestro método, comparamos la lista de palabras clave “final” con el juicio de
cuatro profesores expertos.
5.2.2 Aplicación de %DIFF
El primer paso comprende la aplicación de la medida %DIFF, que volvemos a presentar aquí
abajo, al corpus entero.
%DIFF = (𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑆𝐶−𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑅𝐶) 𝑥 100
𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑅𝐶
NormFreq = frecuencia normalizada
SC = corpus de estudio (study corpus)
RC = corpus de referencia (reference corpus)
52
Como resultado, obtenemos para cada palabra un valor que indica su grado de especificidad en
nuestro corpus en comparación con el corpus de referencia, un corpus de literatura juvenil de
aproximadamente 7,5 millones de palabras. El valor cuantitativo se debe interpretar como “a la
frecuencia que tiene el elemento en el corpus de referencia, hay que sumar el x%”. Así, por
ejemplo, un elemento que en el corpus de estudio tiene una frecuencia normalizada de 60 y en
el corpus de referencia de 20, tendría un valor %DIFF de 300. Esto se lee como “a la frecuencia
de 20 hay que sumar el 300% de 20, que son 60, y obtenemos 80”.
5.2.3 Aplicación de DP
A continuación, aplicamos la medida DP (Gries, 2008), una fórmula sencilla que mide el grado
de dispersión de cada palabra. Como resultado final, la medida siempre da un número entre
cero y uno, con valores cercanos a cero indicando que la palabra es típica del corpus entero, y
con valores cercanos a uno indicando que la palabra solo ocurre en una parte del corpus. Como
ya se ha mencionado, los cinco sectores económicos (comunicación, construcción, energía,
finanzas y transporte) representan los subgéneros de nuestro corpus de estudio.
5.2.4 Crear listas de palabras clave
En el paso siguiente creamos una lista de las palabras supuestamente clave, aun limitándonos a
las 100 palabras más específicas. Naturalmente, también se puede reducir este número a 50
palabras clave o elaborar una lista más extensa incluyendo 250 términos, por ejemplo. Para
llegar a la lista de 100 palabras, primero excluimos los términos no adecuados según los
siguientes criterios:
Medida Criterio Detalles
percentil ≥ 4 Al manejar este umbral (pertenece a 60-100 de los percentiles del corpus),
solo mantenemos los términos frecuentes.
%DIFF_Sign p = 0,01 Eliminamos cada término cuyo valor %DIFF no es estadísticamente
significativo (p = 0,01) en comparación con el corpus de referencia.
DP ≤ 0,5 Queremos excluir cada palabra que no es típica del corpus entero.
Tabla 17: Criterios lista de palabras clave
Después, ordenamos la lista provisional de mayor a menor valor %DIFF, para poder seleccionar
los términos más específicos. En este sentido, cabe destacar que el proceso de selección se
53
realiza independientemente de las categorías morfológicas. Por último, para evitar que
disminuya la riqueza semántica de la lista, llevamos a cabo una intervención manual: si
aparecen múltiples términos con la misma raíz léxica, solo mantenemos el candidato más
“idóneo”. Así, por ejemplo, dado que accionista figuraba como NC y como ADJ en la lista,
hemos decidido eliminar la forma adjetival, ya que el sustantivo tiene una frecuencia más alta
en el corpus. De esta manera, obtenemos una lista incluyendo 100 candidatos relevantes para
un primer acercamiento al léxico propio de este género (véase la Tabla 18). Excluyendo la fase
en la cual eliminamos manualmente las mismas raíces léxicas, la creación de esta lista de
palabras clave es un proceso completamente automático, que no requiere ninguna intervención
por parte de un ser humano (salvo la fijación de los umbrales, naturalmente). De hecho, SCAP
podría ampliarse al introducir un diccionario que agrupe las palabras en familias de palabras y
que luego permita hacer la selección de forma automática.
54
# POS LEMA # POS LEMA # POS LEMA
1 NC dividendo 35 NC filial 68 NC balance
2 NC ratio 36 NC implantación 69 NC coste
3 ADJ sostenible 37 NC crecimiento 70 NC activo
4 ADJ regulatorio 38 NC integración 71 ADJ organizativo
5 NC diversificación 39 NC incremento 72 ADJ diferencial
6 NC endeudamiento 40 ADJ climático 73 NC comisión
7 ADJ normativo 41 NC solvencia 74 NC bono
8 NC liquidez 42 NC contratación 75 ADJ cualitativo
9 NC capitalización 43 NC financiación 76 ADJ impositivo
10 ADJ macroeconómico 44 NC reducción 77 NC gestión
11 NC digitalización 45 NC accionista 78 ADJ global
12 NC sinergia 46 V maximizar 79 NC ampliación
13 NC adjudicación 47 NC reestructuración 80 NC cumplimiento
14 NC volatilidad 48 NC competitividad 81 ADJ precedente
15 NC revalorización 49 NC liderazgo 82 NC reglamento
16 NC vicepresidente 50 NC inversión 83 NC semestre
17 V optimizar 51 NC remuneración 84 ADJ anual
18 NC discapacidad 52 NC consolidación 85 NC contribución
19 NC internacionalización 53 ADJ atribuible 86 NC posicionamiento
20 NC auditoría 54 NC record 87 NC productividad
21 NC devaluación 55 NC cotización 88 ADJ bursátil
22 NC apalancamiento 56 NC mejora 89 ADJ emergente
23 ADJ sectorial 57 NC segmento 90 NC tasa
24 NC ralentización 58 NC déficit 91 NC consecución
25 NC disrupción 59 NC retribución 92 NC desarrollo
26 NC reelección 60 V priorizar 93 NC asignación
27 ADJ coordinador 61 NC ratificación 94 NC trimestre
28 ADJ crediticio 62 NC vencimiento 95 NC euro
29 ADJ mayorista 63 ADJ institucional 96 NC adquisición
30 ADJ geopolítico 64 NC desempeño 97 NC distribución
31 ADJ porcentual 65 ADJ consejero 98 NC innovación
32 ADJ neto 66 NC proveedor 99 ADJ ejecutivo
33 NC rentabilidad 67 NC eficiencia 100 NC junta
34 ADJ corporativo
Tabla 18: Lista de 100 palabras clave
55
5.2.5 Añadir traducciones a las listas
Antes de seguir, conviene destacar una funcionalidad particular en la versión reciente de SCAP,
más en particular la funcionalidad de traducción. Aunque la metodología actual está orientada
sobre todo al “lenguaje general” y menos a un acercamiento terminológico, la creación de la
lista de 100 palabras clave nos parece una ocasión idónea para demostrar la posible utilidad de
la funcionalidad en cuestión. En concreto, al introducir una lista de palabras, la herramienta
SCAP genera dos archivos: un glosario extenso (que se puede abrir en Microsoft Excel, por
ejemplo) y un glosario breve (que se puede abrir en Microsoft Word, por ejemplo).
El glosario extenso contiene todas las traducciones que la herramienta ha encontrado a través
de Mijnwoordenboek (diccionario de traducción en línea), Vertalen.nu (diccionario de
traducción en línea), DeepL (sistema de traducción automática en línea), Google Translate
(sistema de traducción automática en línea), y ocasionalmente también de Interglot (diccionario
de traducción en línea) e InterActive Terminology for Europe (IATE por sus siglas; la base de
datos terminológica multilingüe de la Unión Europea). Además, para los sustantivos también
se incluye el género. Los resultados van separados en dos columnas:
1) “Traducciones seleccionadas”: aquí se enumeran las traducciones que ocurren en más
de una herramienta
2) “Otras”: aquí se enumeran las demás traducciones encontradas
De hecho, esta funcionalidad nos permite convertir fácilmente una lista de palabras clave en un
glosario de traducción, aunque repetimos que la metodología todavía está orientada al “lenguaje
general”, por lo cual se debe utilizar las traducciones propuestas con cautela. A modo de
ilustración, presentamos una parte del glosario traductivo de nuestra lista de 100 palabras clave
en la Figura 8 (véase el Apéndice VII para el glosario completo):
56
Figura 8: Traducción de listas de palabras clave_glosario extenso
En el glosario breve solo se dan los resultados de la columna “Traducciones seleccionadas” del
glosario extenso. Cuando no hay, se presentan los resultados de la columna “Otras”, precedidos
de [¿]. He aquí la primera parte del glosario breve de nuestra lista de 100 palabras clave:
Figura 9: Traducción de listas de palabras clave_glosario breve
57
5.2.6 Comparación con el juicio de profesores ELE
Desde luego, también queremos saber si un intérprete/estudiante de interpretación no nativo
podría utilizar la lista automática (véase la Tabla 18) como glosario en una situación real. Para
realizar este objetivo, creamos un test que permite comparar los contenidos de la lista con la
opinión de cuatro profesores ELE que están familiarizados con la interpretación y/o el contexto
de la junta general de accionistas.
De hecho, a la lista de 100 términos “idóneos” agregamos otros 100 términos “no idóneos”.
Primero, añadimos una serie de palabras frecuentes pero no específicas, que corresponden a los
siguientes criterios:
Medida Criterio Detalles
percentil ≥ 4 Al manejar este umbral (pertenece a 60-100 de los percentiles del
corpus), solo mantenemos los términos frecuentes.
%DIFF_Sign entre 0,01 y
0,05/no
Solo entran en consideración las palabras cuyo valor %DIFF tiene
una significación estadística menor que en la lista idónea (entre 0,01
y 0,05) y las palabras cuyo valor %DIFF no muestra ninguna
diferencia estadísticamente significativa. Así, solo mantenemos los
términos menos/no específicos.
Tabla 19: Criterios términos no idóneos_2
Después, ordenamos la lista provisional de mayor a menor frecuencia y seleccionamos los 50
primeros términos, recogidos en la Tabla 20.
58
# POS LEMA # POS LEMA
1 V seguir 26 NC entrada
2 ADJ bueno 27 V recibir
3 NC mundo 28 NC papel
4 NC persona 29 NC respuesta
5 NC lugar 30 V apoyar
6 ADJ propio 31 V compartir
7 V conseguir 32 V señalar
8 NC manera 33 V ganar
9 NC caso 34 ADJ enorme
10 ADJ posible 35 V partir
11 ADJ fuerte 36 V confiar
12 V convertir 37 NC orden
13 NC duda 38 NC centro
14 V mostrar 39 NC detalle
15 NC final 40 NC dirección
16 NC historia 41 ADJ real
17 V lograr 42 ADJ profundo
18 ADJ capaz 43 NC peso
19 NC hecho 44 V sufrir
20 NC resto 45 NC estado
21 ADJ claro 46 NC motivo
22 ADJ bajo 47 NC circunstancia
23 ADJ difícil 48 V cubrir
24 NC atención 49 NC cuestión
25 V asegurar 50 V existir
Tabla 20: Lista de 50 términos no idóneos_1
A continuación, añadimos 50 términos específicos (aunque no del corpus entero) pero menos
frecuentes, para lo cual aplicamos los siguientes criterios:
Medida Criterio Detalles
percentil ≤ 3 Al manejar este umbral (< 60% del corpus), solo mantenemos los
términos menos frecuentes.
%DIFF_Sign p = 0,01 Eliminamos cada término cuyo valor %DIFF no es estadísticamente
significativo (p = 0,01) en comparación con el corpus de referencia.
DP > 0,66 Al manejar este umbral, solo mantenemos los términos que son típicos de
un subgénero, y no del corpus entero.
Tabla 21: Criterios términos no idóneos_2
59
Después, ordenamos la lista provisional de mayor a menor valor %DIFF y seleccionamos los
50 primeros términos, presentados en la Tabla 22.
# POS LEMA # POS LEMA
1 NC referéndum 26 ADJ radioeléctrico
2 NC pyme 27 ADJ supervisor
3 NC recompra 28 NC abaratamiento
4 NC fortalecimiento 29 ADJ actuarial
5 NC biodiversidad 30 NC autoconsumo
6 NC certificación 31 ADJ bituminoso
7 ADJ multiplataforma 32 NC brasil
8 ADJ nominal 33 ADJ curricular
9 NC megavatio 34 NC desaladora
10 NC formulación 35 ADJ desfasador
11 ADJ generalista 36 NC exclusivista
12 NC kilovoltio 37 NC gasificación
13 NC multicanalidad 38 ADJ hidroeléctrico
14 NC petrolera 39 NC homologación
15 NC petroquímica 40 ADJ metanero
16 ADJ reasegurador 41 ADJ minorista
17 NC trillón 42 NC negociado
18 NC viabilidad 43 NC otorgamiento
19 ADJ comercializador 44 ADJ poblacional
20 ADJ consultivo 45 NC reforzamiento
21 NC formalización 46 NC repositorio
22 NC hidrocarburo 47 ADJ secuencial
23 ADJ hipotecario 48 ADJ biocombustible
24 NC inconformismo 49 NC cristalización
25 ADJ operacional 50 NC liberalización
Tabla 22: Lista de 50 términos no idóneos_2
Como resultado obtenemos, pues, una lista incluyendo 100 términos supuestamente idóneos y
100 supuestamente no idóneos, que presentamos a los profesores ELE acompañada de las
siguientes instrucciones:
Estamos trabajando en una de las fases preparatorias para generar automáticamente un
glosario traductivo para estudiantes de interpretación. El glosario debería prepararles para
60
traducir fragmentos seleccionados de discursos pronunciados en una junta ordinaria de
accionistas (donde se presentan los resultados de la empresa durante el último ejercicio).
Hemos hecho un corpus de este tipo de discursos y extraído todos los elementos léxicos. No se
trata aún de buscar traducciones sino de seleccionar los mejores candidatos para ser
traducidos (evidentemente, no es pertinente hacer un glosario con todas las palabras que
aparecen en el corpus).
Hemos desarrollado un logaritmo que hace una propuesta para seleccionarlos, pero ahora
queremos comparar la propuesta del logaritmo con lo que haría un profesor. Os presentamos
una selección arbitraria de 200 ítems. Ahora bien, para la primera familiarización nos
queremos limitar a 100 ítems típicos del contexto de la junta general (los fragmentos que
traducirán los estudiantes se seleccionarán en función de selección previa de los conceptos).
La tarea consiste en rechazar los términos que no incluirías en el glosario, hasta que el total
sea de 100. La columna "POS" indica si la palabra es un sustantivo (= NC), un verbo (= V) o
un adjetivo (= ADJ).
De esta manera, pretendemos averiguar si la selección automática de 100 palabras corresponde
a la opinión de profesores ELE. Lo ideal sería, por supuesto, que rechazarían los 100 términos
no idóneos, porque significaría que las medidas y criterios utilizados son capaces de extraer el
vocabulario especializado de una manera que en su conjunto no contradice la intuición de
profesores expertos.
5.2.7 Resultados
5.2.7.1 Análisis de los resultados
En la Tabla 23 presentamos los resultados del test: la columna Rechazados_correctos incluye
el número de términos “no idóneos” (véanse la Tabla 20 y la Tabla 22) rechazados por el
participante, mientras que Rechazados_incorrectos visualiza el número de términos “idóneos”
(véase la Tabla 18) rechazados por el participante. En el caso de haber rechazado 100 términos
los valores en las columnas Aprobados_correctos y Aprobados_incorrectos deben equivaler a
los de las columnas Rechazados_correctos y Rechazados_incorrectos: si se rechaza una palabra
erróneamente (correctamente), significa que también se aprobará una palabra erróneamente
61
(correctamente). Como el participante 2 solo ha rechazado 99 casos, se obtienen valores
ligeramente divergentes. A primera vista, los resultados parecen ser prometedores, con más de
75/100 casos aprobados correctamente de media (véase también la Figura 10).
Rechazados_
correctos
(/100)
Rechazados_
incorrectos
(/100)
Aprobados_
correctos
(/100)
Aprobados_
incorrectos
(/100)
Número de términos
rechazados
P1 81 19 81 19 100
P2 72 27 73 28 99
P3 71 29 71 29 100
P4 81 19 81 19 100
Promedio 76,25 23,5 76,5 23,75 99,75
Tabla 23: Resultados1 test_%DIFF_DP
Figura 10: Términos aprobados en test_%DIFF_DP
Analizando los resultados más en profundidad, estudiamos la medida en la cual el juicio de los
profesores expertos corresponde el uno al otro (véanse la Tabla 24 y la Figura 11): la fila 4/4
presenta el número de casos en que cada uno de los cuatro profesores tiene la misma opinión y
la fila 3/4 visualiza el número de casos en que tres de los cuatro piensan igual. La columna
Rechazados_correctos incluye el número de términos “no idóneos” rechazados;
Rechazados_incorrectos contiene el número de términos “idóneos” rechazados;
Aprobados_correctos incluye el número de términos “idóneos” aprobados (= no rechazados);
y Aprobados_incorrectos recoge el número de términos “no idóneos” aprobados (= no
rechazados). Cabe destacar que aquí los valores de las columnas Rechazados_correctos y
Rechazados_incorrectos no necesariamente deben corresponder a los de Aprobados_correctos
62
y Aprobados_incorrectos: si cuatro de los cuatro profesores rechazan una palabra
correctamente (erróneamente) no significa necesariamente que cuatro de los cuatro también
aprueben una palabra correctamente (erróneamente), por ejemplo.
Rechazados_
correctos
(/100)
Rechazados_
incorrectos
(/100)
Aprobados_
correctos
(/100)
Aprobados_
incorrectos
(/100)
4/4 54 3 50 5
3/4 19 11 23 12
Por lo menos 3/4 73 14 73 17
Tabla 24: Resultados2 test_%DIFF_DP
Figura 11: Resultados2 test_%DIFF_DP (gráfico)
Comprobamos que 54 de los 100 términos no idóneos se identifican unánimemente como no
específicos del contexto de la junta general de accionistas (= 54/100 casos rechazados
correctamente), un número que sube a 73 al agregar los casos en que tres de los cuatro
profesores ELE indican que rechazarían el término. Además, el número de casos rechazados y
aprobados erróneamente es bastante limitado (respectivamente 14/100 y 17/100 casos en que
por lo menos tres de los cuatro participantes comparten la misma opinión).
De cara a la evaluación de la lista creada en el apartado 5.2.4, nos interesa sobre todo la columna
Aprobados_correctos. Resulta que la mitad de los términos idóneos se consideran
unánimemente como adecuados para incluir en un glosario de traducción para estudiantes de
interpretación (= 50/100 casos aprobados correctamente), un número que asciende a 73 (véase
63
la Tabla 25 para la lista completa) cuando añadimos los casos en que tres de los cuatro
profesores indican que no rechazarían el término idóneo. Dicho de otro modo, basándonos en
el juicio de profesores expertos, casi el 75% de la lista de palabras clave generada mediante
%DIFF y DP es (en gran parte) adecuado para incluir en un glosario que recoge el vocabulario
específico del contexto especializado de la junta general.
64
# POS LEMA .../4 # POS LEMA .../4
1 NC accionista 3/4 38 NC internacionalización 3/4
2 NC activo 4/4 39 NC inversión 4/4
3 NC adjudicación 4/4 40 NC junta 4/4
4 NC adquisición 3/4 41 NC liquidez 4/4
5 ADJ atribuible 3/4 42 ADJ macroeconómico 3/4
6 NC auditoría 4/4 43 V maximizar 4/4
7 NC balance 4/4 44 ADJ mayorista 4/4
8 NC bono 4/4 45 NC mejora 3/4
9 ADJ bursátil 4/4 46 ADJ neto 3/4
10 NC capitalización 4/4 47 ADJ normativo 3/4
11 NC comisión 3/4 48 V optimizar 4/4
12 NC competitividad 4/4 49 ADJ organizativo 3/4
13 ADJ consejero 4/4 50 ADJ porcentual 3/4
14 NC consolidación 3/4 51 NC posicionamiento 4/4
15 NC contratación 4/4 52 V priorizar 3/4
16 NC contribución 3/4 53 NC productividad 4/4
17 ADJ corporativo 4/4 54 NC proveedor 4/4
18 NC coste 4/4 55 NC ralentización 3/4
19 NC cotización 4/4 56 NC ratificación 4/4
20 NC crecimiento 3/4 57 NC ratio 4/4
21 ADJ crediticio 4/4 58 NC reducción 4/4
22 NC déficit 4/4 59 NC reestructuración 4/4
23 NC desempeño 3/4 60 ADJ regulatorio 4/4
24 NC devaluación 4/4 61 NC remuneración 4/4
25 ADJ diferencial 3/4 62 NC rentabilidad 4/4
26 NC disrupción 3/4 63 NC retribución 4/4
27 NC distribución 4/4 64 NC revalorización 4/4
28 NC diversificación 4/4 65 ADJ sectorial 3/4
29 NC dividendo 4/4 66 NC sinergia 3/4
30 NC eficiencia 3/4 67 NC solvencia 4/4
31 ADJ ejecutivo 4/4 68 ADJ sostenible 4/4
32 NC endeudamiento 4/4 69 NC tasa 4/4
33 NC filial 4/4 70 NC trimestre 3/4
34 NC financiación 4/4 71 NC vencimiento 4/4
35 NC gestión 4/4 72 NC vicepresidente 4/4
36 ADJ impositivo 4/4 73 NC volatilidad 4/4
37 NC incremento 4/4
Tabla 25: Lista de términos aprobados correctamente por al menos 3/4 de los participantes
Por último, es pertinente analizar más en detalle los casos evaluados de forma errónea por los
profesores ELE. Primero, consideramos en la Tabla 26 los términos no idóneos que se han
65
aprobado (= que no se han rechazado). Llama la atención que solo 2 de los 17 elementos léxicos
(convertir; dirección) vienen de la lista incluyendo palabras frecuentes pero no específicas y
que, además, en ninguno de los dos casos los profesores todos comparten la misma opinión.
Los demás términos de la lista son, pues, palabras específicas (aunque no del corpus entero)
pero menos frecuentes, lo cual significa que una frecuencia de ocurrencia relativamente baja no
impide necesariamente que un determinado término pueda incluirse en una lista de palabras
clave, siempre y cuando el término tenga un valor %DIFF alto y estadísticamente significativo.
Además, nos lleva a concluir que palabras con un valor DP alto (> 0,66) a veces sí pueden
considerarse como típicas del género, y no necesariamente de un determinado subgénero. Sin
embargo, cabe señalar que el valor DP alto de, por ejemplo, minorista, nominal, pyme y
viabilidad también se podría explicar en parte por el tamaño de nuestro corpus (tamaño medio).
Si bien es cierto que en la fórmula DP las frecuencias son normalizadas, en los corpus de tamaño
pequeño o medio formados por varios subcorpus puede que palabras más bien generales con
una frecuencia relativamente baja ocurran por casualidad más en una parte del corpus que en
otra.
# POS LEMA .../4 Lista # POS LEMA .../4 Lista
1 NC certificación 4/4 2 10 ADJ nominal 4/4 2
2 ADJ consultivo 3/4 2 11 ADJ operacional 3/4 2
3 V convertir 3/4 1 12 NC otorgamiento 3/4 2
4 NC dirección 3/4 1 13 NC pyme 4/4 2
5 NC formalización 3/4 2 14 ADJ reasegurador 3/4 2
6 ADJ hipotecario 3/4 2 15 NC recompra 3/4 2
7 NC liberalización 3/4 2 16 ADJ supervisor 3/4 2
8 ADJ minorista 4/4 2 17 NC viabilidad 4/4 2
9 NC negociado 3/4 2
Tabla 26: Lista de términos aprobados erróneamente por al menos 3/4 de los participantes
Leyenda:
Lista 1 = Términos frecuentes pero no específicos
Lista 2 = Términos específicos (aunque no del corpus entero) pero menos frecuentes
La Tabla 27 recoge los términos idóneos que se han rechazado. Primeramente, cabe destacar
que solo 3 de los 14 ítems (climático; geopolítico; precedente) han sido rechazados
unánimemente. Asimismo, la mayoría de las palabras parece ser terminología que se puede
utilizar perfectamente en un contexto económico pero que es demasiado general para incluir en
un glosario sobre la junta general de accionistas (p.ej. anual; cualitativo; desarrollo; euro).
66
Climático, digitalización y geopolítico, en cambio, no son palabras que le surjan a uno
espontáneamente al describir el contexto de la junta general de accionistas, sino que el clima,
la digitalización y la política son más bien factores que pueden influir indirectamente en las
actividades de una empresa. Apalancamiento (leveraging), por último, quizá sea un término
demasiado especializado en opinión de los profesores.
A fin de evitar que se incluyan términos demasiado generales y/o especializados en la lista, se
puede añadir un quinto criterio aparte de las medidas %DIFF y DP, la frecuencia de ocurrencia
y el percentil de frecuencia: el grado de dificultad. Al averiguar si figuran en los diccionarios
ELE Thematische Woordenschat y PortaVoces, comprobamos que varios términos de la Tabla
27 tienen un nivel “básico”:
Thematische Woordenschat: anual; climático; euro; precedente
PortaVoces: desarrollo; euro; global; precedente
Además, apalancamiento no figura en Thematische Woordenschat ni en PortaVoces, lo cual
puede sugerir un nivel de dificultad bastante alto. Teniendo en cuenta esta información, se
podría optar por excluir cada término que tiene un nivel “básico” en ambos diccionarios, por
ejemplo, o por lo menos acompañar cada elemento de la lista de una indicación de su grado de
dificultad.
# POS LEMA .../4 # POS LEMA .../4
1 ADJ anual 3/4 8 NC digitalización 3/4
2 NC apalancamiento 3/4 9 NC discapacidad 3/4
3 ADJ climático 4/4 10 NC euro 3/4
4 NC consecución 3/4 11 ADJ geopolítico 4/4
5 ADJ cualitativo 3/4 12 ADJ global 3/4
6 NC cumplimiento 3/4 13 ADJ precedente 4/4
7 NC desarrollo 3/4 14 NC record 3/4
Tabla 27: Lista de términos rechazados erróneamente por al menos 3/4 de los participantes
5.2.7.2 Interpretación de los resultados
El test ha demostrado que los contenidos de la lista de 100 palabras clave creada prácticamente
de forma automática son adecuados y relevantes. Comparando la lista con el juicio de cuatro
profesores expertos, resulta que incluirían 76,5 de los 100 términos de media en un glosario
67
sobre el contexto especializado de la junta general de accionistas. Además, analizando los
resultados con más profundidad, comprobamos que 73 de los 100 términos han sido aprobados
correctamente por al menos tres de los cuatro profesores, mientras que solo 17 de los 100 han
sido rechazados erróneamente por al menos tres de los cuatro.
Sin embargo, la metodología aplicada sigue siendo susceptible de mejoras. Así, por ejemplo,
se puede incluir el criterio del grado de dificultad en el proceso de selección, basándose en los
niveles propuestos en diccionarios ELE como Thematische Woordenschat y PortaVoces o en
un modelo de nivelación automática, como pretendemos desarrollar en la Exploración
metodológica 2.3.
Además, cabe enfatizar que existen múltiples puntos de partida posibles para crear listas de
palabras clave. Así, nosotros hemos optado por centrarnos en primer lugar en los valores
%DIFF y DP, seleccionando los ítems independientemente de su categoría morfológica. Sin
embargo, también se podría partir de los sustantivos para elaborar listas de palabras clave, por
ejemplo. La idea subyacente aquí sería que los sustantivos constituyen el núcleo del vocabulario
en un corpus especializado, considerándolos como los elementos esenciales que definen los
conceptos principales del tema. De hecho, en base a una lista de los x sustantivos más
específicos se puede llevar a cabo un query mediante SCAP que visualiza todos los verbos y/o
adjetivos que se combinan con esos sustantivos (véase el apartado 3.3.1 para una descripción
detallada de este tipo de búsqueda mediante SCAP). Después, se pueden seleccionar los verbos
y/o adjetivos que más se combinan con los sustantivos e incluirlos también en la lista de
palabras clave. Así, se obtiene como resultado final una lista que se centra en los conceptos
principales del tema (representados por la lista con los sustantivos más específicos)
acompañados de las actividades y relaciones que evocan (representadas por los verbos
seleccionados), y/o de las características y asociaciones más comunes que presentan
(representadas por los adjetivos seleccionados).
Asimismo, dada la relativa alta calidad de nuestra lista de 100 palabras clave, llegamos a la
conclusión de que la lingüística de corpus es un medio adecuado para crear output relevante
que se centra principalmente en la dimensión del grado de especificidad del vocabulario.
Además, podemos relacionar el concepto de una lista de palabras clave con la instrucción
enfocada en la palabra (word-focused instruction; Laufer [2010]), una técnica de instrucción
cuya efectividad ha sido corroborada empíricamente (véanse Laufer 2003; 2005a; 2005b).
68
Concretamente, se puede definir una lista de palabras clave como una actividad de FonFs
intencional, un tipo de tarea en que se presta especial atención a una serie de elementos léxicos
con el objetivo de memorizarlos. Por último, volviendo sobre el punto de partida de esta
exploración metodológica, concluimos que la lista de 100 palabras clave puede ser
efectivamente de ayuda a un intérprete/estudiante de interpretación no nativo que quiere
prepararse para interpretar en el contexto especializado de la junta general de accionistas.
5.3 Exploración metodológica 2.1: la encuesta
5.3.1 Organización de la encuesta
Como ya hemos expuesto anteriormente, la segunda exploración metodológica considera la
competencia activa-pasiva en combinación con el grado de dificultad del vocabulario. Para la
primera fase de esta perspectiva metodológica hemos elaborado una encuesta: presentamos una
lista de palabras a un grupo de 22 estudiantes del segundo bachelor inscritos en la carrera
Lingüística Aplicada en la Universidad de Gante, así como a un grupo de 21 estudiantes del
máster de la misma carrera. Cada uno de los estudiantes estudia el español como una de sus L2,
teniendo en cuenta que el currículo de la carrera comprende el neerlandés como L1 y dos
idiomas extranjeros como L2.
En esta parte de la investigación utilizamos el mismo corpus que en la parte anterior. Volvemos
a destacar que abordamos el tema desde la perspectiva de un profesor ELE que está preparando
una clase de vocabulario sobre un determinado tema y que quiere enterarse de qué términos los
estudiantes dominan activamente, qué términos dominan pasivamente y qué términos no
conocen.
Por lo que respecta al contenido de la lista de palabras, llevamos a cabo una selección específica
mediante SCAP que corresponde a los pasos presentados aquí abajo. Así, pretendemos llegar a
una lista provisional extensa que solo incluye las palabras con cierto grado de dificultad y
especificidad.
69
1) Asignación de niveles basada en Thematische Woordenschat (básico; intermedio;
nuevo): solo entran en consideración las palabras nuevas
2) Especificidad: solo entran en consideración las palabras supuestamente específicas y
frecuentes tras un análisis superficial (que consiste en una comparación de los
percentiles en que figura la palabra en nuestro corpus y en un corpus de referencia)
mediante SCAP
3) Pctil (0/1/2/3/4/5): solo entran en consideración las palabras con una puntuación de
percentil ≥ 3 (≥ 40% de las palabras con más de una ocurrencia)
Tras estos tres pasos, obtuvimos una lista provisional incluyendo 505 NC, 213 V y 264 ADJ,
de la cual, en consulta con el tutor, ya pudimos excluir 104 NC, 92 V y 81 ADJ, puesto que
solapan con una encuesta similar ya llevada a cabo por el tutor. El paso final, por último,
consiste en una revisión cualitativa de la nueva lista provisional, eliminando esencialmente los
sustantivos deverbales evidentes (por ejemplo: aceleración; actuación; adaptación) y la
mayoría de las palabras de origen inglés (por ejemplo: online; ranking; rating). De hecho, la
razón por su exclusión radica en el hecho de que, en cuanto a los sustantivos deverbales, la
relación con el verbo sea tan clara que no tiene mucho sentido incluir tanto el verbo como el
sustantivo, ya que si uno conoce el verbo, es más que probable que también conoce el sustantivo
derivado. Por lo que se refiere a las palabras inglesas, las excluimos por el mero hecho de que
SCAP las etiquete por definición como “nuevo”, ya que no figuran palabras inglesas en el
diccionario ELE Thematische Woordenschat. Así, llegamos a una selección definitiva de 230
NC, 119 V y 182 ADJ que comprende las palabras “nuevas”, especializadas y frecuentes pero
que excluye los elementos demasiado evidentes.
A continuación, en la encuesta misma, se les pide a los participantes que definan su “grado de
conocimiento” de cada palabra: si la conocen activamente (2), si la conocen pasivamente (1) o
si no la conocen (0). En la Tabla 28 presentamos las explicaciones correspondientes, que van
incluidas en la parte introductoria de la encuesta.
2 ACT creo que utilizaría esta palabra si me hiciera falta
1 PAS entiendo la palabra pero no creo que lo utilizaría espontáneamente si me hiciera falta
0 NO no entiendo la palabra y consultaría un diccionario para entenderla o para traducirla
Tabla 28: Explicaciones “grado de conocimiento” encuesta
70
Para reducir la longitud de la encuesta, hemos creado tres versiones, repartiendo las palabras
alfabéticamente por tres documentos separados. Efectivamente, así hemos podido garantizar
que haya por lo menos siete respuestas por palabra, sin que los participantes tuvieran que
rellenar un documento larguísimo. A modo de resumen, he aquí una tabla que presenta el
número de sustantivos (NC), verbos (V) y adjetivos (ADJ) incluidos, así como el número de
participantes por documento (para la versión completa de los documentos véanse el Apéndice
IX, X y XI).
Documento NC V ADJ Participantes segundo bachelor Participantes máster
1 77 40 61 8 7
2 76 40 61 7 7
3 77 39 60 7 7
Total 230 119 182 22 21
Tabla 29: Número de palabras y participantes encuesta
5.3.2 Procesamiento de los resultados
A continuación, calculamos los siguientes cuatro valores, que dan un resultado entre 0 y 1:
1) ACT = (número de veces que los participantes han indicado 2) / (número de
participantes)
2) PAS (1+2) = (número de veces que los participantes han indicado 1 + número de veces
que los participantes han indicado 2) / (número de participantes)
3) PAS (0+1) = (número de veces que los participantes han indicado 0 + número de veces
que los participantes han indicado 1) / (número de participantes)
4) NO = (número de veces que los participantes han indicado 0) / (número de participantes)
Para ilustrar este método, incluimos 4 ejemplos en la Tabla 30, sacados del documento 2 en el
segundo bachelor:
71
LEMA P1 P2 P3 P4 P5 P6 P7 ACT PAS (1+2) PAS (0+1) NO
eficiencia 1 2 2 2 2 2 2 0,86 1,00 0,14 0,00
estándar 2 0 0 2 1 1 2 0,43 0,71 0,57 0,29
emprendedor 1 0 0 1 1 0 0 0,00 0,43 1,00 0,57
endeudamiento 0 0 0 1 0 0 0 0,00 0,14 1,00 0,86
Tabla 30: Valores encuesta_ejemplos
En base a esos valores, creamos 4 categorías que representan todas un grado de dominio, que a
la vez se puede considerar como un nivel de dificultad. Así, obtenemos una clasificación que
refleja el continuo del dominio activo (nivel 1) hasta el “no dominio” (nivel 4), con una zona
de conocimiento pasivo (niveles 2 y 3) entre los dos extremos. En otras palabras, es una
clasificación que ordena los términos de “fácil” a “difícil” en base a datos empíricos sobre el
grado de dominio de los participantes. En este sentido, cabe destacar que la categorización está
basada en self-reported knowledge, es decir, el grado de conocimiento indicado por los
estudiantes mismos.
Nivel ACT PAS NO Ejemplo
1 ≥ 0,66 / / eficiencia
2 < 0,66 PAS (1+2) > PAS (0+1) < 0,66 estándar
3 < 0,66 PAS (1+2) ≤ PAS (0+1) < 0,66 emprendedor
4 / / ≥ 0,66 endeudamiento
Tabla 31: Niveles encuesta_1
Opinamos que si por lo menos dos tercios de los participantes indican que conocen la palabra
activamente, pertenece al nivel 1. Asimismo, si por lo menos dos tercios de los participantes
señalan que no conocen la palabra, colocamos el término en la categoría de nivel 4. Sobre todas
las demás palabras opinamos que tienden al grupo general del dominio pasivo, que abarca los
niveles 2 y 3. De hecho, cada término cuyo valor de PAS (1+2) es superior al valor de PAS
(0+1) pertenece al nivel 2, mientras que el nivel 3 incluye cada término cuyo valor de PAS
(0+1) es igual o superior al valor de PAS (1+2).
72
5.3.3 Resultados
5.3.3.1 Introducción
Repetimos que la encuesta contiene palabras que se han sacado de un corpus incluyendo
discursos pronunciados en juntas generales de accionistas y que, además, poseen cierto grado
de especificidad y de dificultad (véase el apartado 5.3.1).
5.3.3.2 Análisis de los resultados
Empezamos por destacar las observaciones más llamativas a la hora de comparar las tres
categorías morfológicas (NC; V; ADJ) entre sí (véanse la Tabla 32 y la Figura 12).
Comentamos, respectivamente, los resultados del segundo bachelor (Ba2), los resultados del
máster y la comparación entre ambos grupos (para las listas completas véanse el Apéndice XII
y XIII).
POS Grupo Nivel 1 Nivel 2 Nivel 3 Nivel 4
NC (230)
Ba2 75
32,61%
55
23,91%
58
25,22%
42
18,26%
máster 125
54,35%
47
20,43%
42
18,26%
16
6,96%
V (119)
Ba2 47
39,50%
28
23,53%
26
21,85%
18
15,13%
máster 79
66,39%
19
15,97%
15
12,61%
6
5,04%
ADJ (182)
Ba2 56
30,77%
49
26,92%
52
28,57%
25
13,74%
máster 100
54,95%
42
23,08%
34
18,68%
6
3,30%
Tabla 32: Resultados encuesta_comparación NC/V/ADJ
73
Figura 12: Resultados encuesta_comparación NC/V/ADJ (gráfico)
Segundo bachelor (Ba2): Primeramente, cabe observar que las categorías del dominio pasivo
(nivel 2 y nivel 3) corresponden a un porcentaje cercano al 25% en cada una de las tres
categorías morfológicas, lo cual significa que las dos categorías pasivas juntas equivalen a más
o menos la mitad de los términos (NC: el 49,13%; V: el 45,38%; ADJ: el 55,49%). Además,
comparando las dos categorías extremas, es decir, los niveles 1 y 4, resulta que aquélla es la
más grande en toda categoría morfológica. Sin embargo, el dominio activo es lo más alto en el
caso de los verbos, con un porcentaje que casi alcanza el 40%. Por último, juntando las dos
últimas categorías, que incluyen las palabras que no se conocen bien, observamos que los
sustantivos representan el valor más alto (el 43,48%), seguido de los adjetivos (el 42,31%) y
los verbos (el 36,98%). Resumiendo, los verbos se conocen mejor de manera activa, mientras
que las categorías de competencia pasiva (nivel 2 y nivel 3) son similares para cada una de las
tres categorías morfológicas. Asimismo, los sustantivos parecen suponer el desafío más grande,
aunque la diferencia con los adjetivos es bastante limitada.
Máster: Lo primero que llama la atención es que la competencia activa (nivel 1) supera el 50%,
y en el caso de los verbos este porcentaje incluso asciende al 66,39%. A continuación,
observamos que la proporción de términos que no se conocen del todo (nivel 4) oscila entre el
3% y el 7%, mientras que el conjunto de las dos primeras categorías, que incluyen las palabras
que se conocen bastante hasta muy bien, suman el 74,78% para los sustantivos; el 78,03% para
los adjetivos; e incluso el 82,36% para los verbos. Sin embargo, lo anterior también implica que
el 25,22% de los sustantivos todavía pertenece a los niveles 3 y 4, frente al 17,65% y el 21,98%
74
de los verbos y los adjetivos, respectivamente. En conclusión, los participantes conocen la
mayoría de los términos de manera activa, en particular si sumamos los porcentajes de nivel 1
y nivel 2. No obstante, comprobamos que el dominio de un 25% de los sustantivos es bastante
limitado, lo cual representa el valor más alto de las tres categorías morfológicas.
Ba2 versus máster: De los comentarios anteriores ya se puede deducir que en el máster los
sustantivos siguen siendo el reto más grande, si bien es cierto que la suma de nivel 3 y nivel 4
baja del 43,5% al 25%. Asimismo, comprobamos que, en cada una de las tres categorías
morfológicas, las categorías nivel 2, nivel 3 y nivel 4 experimentan una bajada sustancial en los
resultados del máster, mientras que en la primera categoría se produce un aumento. Para
averiguar si existe una diferencia significativa entre las categorías morfológicas en la evolución
del segundo bachelor al máster, llevamos a cabo una prueba de los rangos con signo de
Wilcoxon (Wilcoxon signed-rank test). Contrariamente al t-test para muestras pareadas (paired
samples t-test), esta prueba no supone la normalidad de las muestras y se puede aplicar sin
ningún problema a una variable ordinal (una variable que no representa un continuo, pero en la
cual sí se puede distinguir un orden, véase el apartado 5.4.2 para una explicación más detallada).
Como resultado, la prueba revela la misma tendencia: los sustantivos, los verbos y los adjetivos
todos muestran una diferencia estadísticamente significativa entre los dos grupos. En otras
palabras, no podemos concluir que haya una diferencia considerable entre las tres categorías
morfológicas entre sí en cuanto a la evolución en los niveles.
A continuación, juntamos las tres categorías morfológicas en la Tabla 33 (véase también la
Figura 13), que visualiza claramente las diferencias en los resultados del Ba2 y los del máster:
una bajada del 67% en nivel 4; una caída del 33% en nivel 3; un descenso del 18% en nivel 2;
y, por último, un aumento del 71% en cuanto a los términos que se conocen activamente. En
este sentido, la prueba de los rangos con signo de Wilcoxon revela que la evolución del Ba2 al
máster es estadísticamente significativa: los estudiantes del máster han adquirido efectivamente
un mayor dominio de los elementos léxicos.
75
POS Grupo Nivel 1 Nivel 2 Nivel 3 Nivel 4
NC + V + ADJ
(531)
Ba2 178
33,52%
132
24,86%
136
25,61%
85
16,01%
diferencia +71% -18% -33% -67%
máster 304
57,25%
108
20,34%
91
17,14%
28
5,27%
Tabla 33: Resultados encuesta_resumen evolución Ba2 > máster
Figura 13: Resultados encuesta_resumen evolución Ba2 > máster (gráfico)
Sin embargo, estos datos no dicen nada sobre qué términos cambian de categoría y, sobre todo,
entre qué categorías se realiza ese cambio. Por esta razón, llevamos a cabo un análisis más
profundo de los datos (véase la Tabla 34).
76
máster
Ba2 Nivel 1 Nivel 2 Nivel 3 Nivel 4 Total Ba2
Nivel 1 171
(71-47-53)
7
(4-0-3) 0 0
178
(75-47-56)
Nivel 2 87
(37-20-30)
37
(15-7-15)
8
(3-1-4) 0
132
(55-28-49)
Nivel 3 42
(16-10-16)
45
(19-7-19)
48
(22-9-17)
1
(1-0-0)
136
(58-26-52)
Nivel 4 4
(1-2-1)
19
(9-5-5)
35
(17-5-13)
27
(15-6-6)
85
(42-18-25)
Total máster 304
(125-79-100)
108
(47-19-42)
91
(42-15-34)
28
(16-6-6)
531
531
Tabla 34: Resultados encuesta_cambios en nivel Ba2 > máster
Leyenda:
Fondo blanco = statu quo en el nivel
Fondo en gris claro = aumento en el nivel
Fondo en gris oscuro = descenso en el nivel
Valores entre paréntesis = (#NC - #V - #ADJ)
Primeramente, observamos que dos tercios (87 sobre un total de 132) de los términos en nivel
2 pasan a nivel 1 cuando los participantes llegan al máster. Además, resulta que una vez que
una palabra alcanza el dominio activo (nivel 1), se mantiene a ese nivel, dado que solo 7 de los
178 términos (ficción, fundación, junta, resolución [NC]; innumerable, metálico, previsible
[ADJ]) no siguen en nivel 1, al bajar a nivel 2. A continuación, se nota que un número
considerable de términos en nivel 3 asciende a un nivel más alto en el máster: 45 términos (e.o.
liquidez, ratio [NC]; presidir, revalorizar [V]; directivo, estatutario [ADJ]) pasan a nivel 2 y
42 (e.o. cláusula, consejero [NC]; ceder, vincular [V]; ejecutivo, viable [ADJ]) a nivel 1, lo
cual corresponde a un total de 87 palabras sobre 136 (un 65%). Por último, también en nivel 4
se realizan cambios sustanciales: 35 términos (e.o. accionariado, reparto [NC]; arrojar, avalar
[V]; tarifario, volátil [ADJ]) llegan a nivel 3, 19 (e.o. endeudamiento, volatilidad [NC]; cotizar,
otorgar [V]; bursátil, vigente [ADJ]) a nivel 2 y otros 4 (austeridad [NC]; destacar, ocultar
[V]; imprescindible [ADJ]) a nivel 1, es decir, que un 70% asciende por lo menos un nivel.
77
A continuación, desde un punto de vista didáctico es pertinente considerar los términos en las
dos últimas categorías que no muestran ninguna evolución (véase la Tabla 35), ya que parecen
suponer bastantes dificultades para los participantes de ambos grupos. Si bien es cierto que la
tabla incluye unas palabras bastante específicas (p.ej. pyme; saeta; superávit), también contiene
términos más generales. Efectivamente, basándonos en el diccionario ELE PortaVoces como
punto de referencia para destacar esas palabras más generales, resulta que 24 términos entran
en consideración: 2 de nivel básico (en itálica) y 22 de nivel avanzado (en negrita). En otras
palabras, esta información nos permite deducir en qué términos quizá se debería invertir más
tiempo en clases de vocabulario ELE (sobre temas económicos).
Categoría POS Términos
Nivel 3 = Nivel 3
(48)
NC
anunciante; autocartera; contratista; creces; cuantía; disrupción; dividendo;
eficacia; emprendedor; espectro; franquicia; ganancia; hidráulica;
interconexión; libra; reaseguro; recompra; regulador; reporte; toma;
trayectoria; vector
V adjudicar; aglutinar; descontar; diversificar; estrenar; implantar;
materializar; reiterar; rendir
ADJ
dominical; envidiable; fertilizante; generador; impositivo; íntegro;
interanual; multicanal; multiplataforma; plurianual; presupuestario;
procesal; reasegurador; retributivo; siniestro; societario; termosolar
Nivel 4 = Nivel 4
(27)
NC
adjudicatario; desapalancamiento; inflexión; lustro; nómina; palanca;
patrocinio; pyme; repunte; saeta; siniestralidad; subasta; subestación;
superávit; trienio
V acometer; aunar; recaudar; refrendar; roer; timar
ADJ exento; fotovoltaico; gerencial; ingente; matinal; vial
Tabla 35: Resultados encuesta_statu quo en nivel
A este cuadro se ha de añadir una observación: la presencia del verbo timar se debe a un error
en la fase del etiquetado gramatical, ya que el etiquetador ha considerado erróneamente la
palabra inglesa “time” como una forma del subjuntivo presente del verbo “timar”. Por esta
razón, lo borramos de la lista.
Por último, recogemos en la Tabla 36 los términos que presentan una regresión de nivel:
78
Categoría POS Términos
Nivel 1 > Nivel 2 (7)
NC ficción; fundación; junta; resolución
V /
ADJ innumerable; metálico; previsible
Nivel 2 > Nivel 3 (8)
NC fósil; repaso; voluntariado
V retribuir
ADJ fósil; operador; radioeléctrico; televisivo
Nivel 3 > Nivel 4 (1)
NC acierto
V /
ADJ /
Tabla 36: Resultados encuesta_regresión de nivel
5.3.3.3 Interpretación de los resultados
Primeramente, quisiéramos enfatizar que se debe considerar el posible valor didáctico de los
resultados de la encuesta en una perspectiva suficientemente amplia. Efectivamente, el
vocabulario no es algo que se adquiera y aprenda exclusivamente en un ambiente escolar, sino
que también se llega a conocer nuevas palabras durante una estancia en el extranjero, mediante
contactos sociales internacionales, al leer textos en L2 fuera de clase, etc.
En cualquier caso, la encuesta nos ofrece una perspectiva concreta que permite evaluar en
profundidad la evolución en el grado de dominio de las palabras. Así, comparando el Ba2 con
el máster mediante la clasificación de cuatro niveles de dominio (dificultad), hemos encontrado
una evolución estadísticamente significativa hacia un conocimiento más profundo de los
elementos léxicos en el máster. Además, en ambos grupos los sustantivos parecen suponer un
reto ligeramente más grande que los verbos y los adjetivos en cuanto a llegar a un grado de
dominio de nivel 1 o nivel 2. Asimismo, vemos que el dominio activo es lo más alto en el caso
de los verbos. Por último, también hemos podido identificar las palabras que no muestran
ninguna evolución o incluso una regresión en el grado de dominio, lo cual representa
información relevante desde un punto de vista didáctico.
No obstante, el método de hacer encuestas conlleva varias limitaciones. Es un proceso laborioso
que solo permite estudiar un número limitado de elementos léxicos. En este sentido, tendríamos
que ser capaces de predecir el nivel de palabras en base a datos que son accesibles más
fácilmente, lo cual investigamos en las Exploraciones metodológicas 2.2 y 2.3.
79
5.3.4 Nivelación en base a los valores medios
Como ya se ha mencionado, en esta segunda parte investigativa de la tesina partimos de la
perspectiva de un profesor ELE que quiere saber qué términos los estudiantes dominan
activamente, qué términos dominan pasivamente y qué términos no conocen del todo.
Supongamos que ese profesor da clase en el tercer bachelor (Ba3): en base a los datos que
tenemos a nuestra disposición (dos valores distintos por palabra de la encuesta, uno del Ba2 y
uno del máster) también podemos desarrollar una metodología que ofrece un “nivel
intermedio”, es decir, un nivel de dominio (dificultad) para el Ba3. Para realizar este objetivo,
calculamos los promedios de nuestros cuatro valores principales:
1) ACT = (número de veces que los participantes han indicado 2) / (número de
participantes)
2) PAS (1+2) = (número de veces que los participantes han indicado 1 + número de veces
que los participantes han indicado 2) / (número de participantes)
3) PAS (0+1) = (número de veces que los participantes han indicado 0 + número de veces
que los participantes han indicado 1) / (número de participantes)
4) NO = (número de veces que los participantes han indicado 0) / (número de participantes)
LEMA Grupo ACT PAS (1+2) PAS (0+1) NO
implícito
Ba2 0,71 1,00 0,29 0,00
máster 1,00 1,00 0,00 0,00
media 0,86 1,00 0,14 0,00
geopolítico
Ba2 0,00 0,86 1,00 0,14
máster 0,29 1,00 0,71 0,00
media 0,14 0,93 0,86 0,07
impositivo
Ba2 0,00 0,71 1,00 0,29
máster 0,14 0,71 0,86 0,29
media 0,07 0,71 0,93 0,29
gerencial
Ba2 0,00 0,00 1,00 1,00
máster 0,00 0,00 1,00 1,00
media 0,00 0,00 1,00 1,00
Tabla 37: Valores medios encuesta_ejemplos
80
Después, volvemos a aplicar el mismo sistema de categorización:
Nivel ACT PAS NO Ejemplo
1 ≥ 0,66 / / implícito
2 < 0,66 PAS (1+2) > PAS (0+1) < 0,66 geopolítico
3 < 0,66 PAS (1+2) ≤ PAS (0+1) < 0,66 impositivo
4 / / ≥ 0,66 gerencial
Tabla 38: Niveles encuesta_2
Como pueden ser datos interesantes desde un punto de vista didáctico, comentamos brevemente
los resultados de la nivelación en base a los valores medios de la encuesta. Primero, incluimos
un resumen esquemático que compara esta última asignación de niveles con los resultados del
Ba2 y los del máster:
POS Grupo Nivel 1 Nivel 2 Nivel 3 Nivel 4
NC + V +
ADJ (531)
Ba2 178
33,52%
132
24,86%
136
25,61%
85
16,01%
promedio
(Ba3)
219
41,24%
157
29,57%
118
22,22%
37
6,97%
máster 304
57,25%
108
20,34%
91
17,14%
28
5,27%
Tabla 39: Niveles encuesta_Ba2/máster/promedio (Ba3)
Asimismo, presentamos los contenidos de las cuatro categorías en las tablas 40 hasta 43.
81
Nivel 1 (219 términos):
POS LEMA POS LEMA POS LEMA POS LEMA
NC accesibilidad NC impacto V compensar ADJ consecutivo
NC ambición NC inestabilidad V concentrar ADJ considerable
NC analista NC inicio V concluir ADJ consiguiente
NC ánimo NC intensidad V crear ADJ consistente
NC aparición NC mecanismo V creer ADJ constructor
NC apoyo NC metodología V definir ADJ creativo
NC asistencia NC misión V derivar ADJ crucial
NC audiencia NC norma V descender ADJ cualitativo
NC auditor NC objeto V determinar ADJ cuantitativo
NC ausencia NC ocasión V distribuir ADJ definitivo
NC autoridad NC optimismo V elaborar ADJ demográfico
NC bajada NC organismo V eliminar ADJ diverso
NC biodiversidad NC período V equivaler ADJ dominante
NC búsqueda NC perspectiva V establecer ADJ drástico
NC categoría NC plan V evaluar ADJ educativo
NC certeza NC plataforma V evolucionar ADJ eficiente
NC circuito NC potencial V favorecer ADJ equivalente
NC clave NC presidencia V finalizar ADJ específico
NC competitividad NC prestigio V financiar ADJ espectacular
NC complejo NC primo V formular ADJ externo
NC componente NC productividad V implicar ADJ favorable
NC consultor NC profesionalidad V innovar ADJ funcional
NC contexto NC rapidez V intervenir ADJ geográfico
NC continente NC referencia V introducir ADJ global
NC continuidad NC referéndum V limitar ADJ hispano
NC creatividad NC reflejo V mencionar ADJ idéntico
NC credibilidad NC relevancia V ofrecer ADJ implícito
NC cuidado NC restante V optar ADJ imposible
NC debate NC significado V permanecer ADJ incierto
NC debilidad NC síntoma V preservar ADJ indirecto
NC década NC talento V progresar ADJ inevitable
NC derivado NC tarea V recurrir ADJ informativo
NC desequilibrio NC técnica V reinventar ADJ latinoamericano
NC dimensión NC telecomunicación V relacionar ADJ neutral
NC dinámica NC totalidad V revisar ADJ neutro
NC disponibilidad NC transacción V sacrificar ADJ ordinario
NC diversidad NC transparencia V satisfacer ADJ porcentual
NC dosis NC vehículo V seleccionar ADJ prestigioso
NC efectividad NC versión V simplificar ADJ previsible
NC eficiencia NC visibilidad V situar ADJ proporcional
NC entusiasmo NC visión V soler ADJ real
NC espacio NC vocal V subrayar ADJ regional
NC estabilidad V adaptar V sugerir ADJ relevante
NC estrategia V adoptar V superar ADJ respectivo
NC etapa V afectar ADJ abrupto ADJ significativo
NC experto V añadir ADJ amplio ADJ similar
NC fabricante V animar ADJ analógico ADJ solidario
NC facilidad V aparecer ADJ audiovisual ADJ tecnológico
NC factor V articular ADJ autonómico ADJ temático
NC fase V calificar ADJ bancario ADJ terminal
NC fenómeno V caracterizar ADJ básico ADJ variable
NC figura V centrar ADJ bienvenido ADJ virtual
NC flexibilidad V colaborar ADJ clave ADJ vital
NC formato V comercializar ADJ comercializador ADJ vulnerable
NC fundación V compartir ADJ complejo ADJ consecutivo
Tabla 40: Promedio_nivel 1
82
Nivel 2 (157 términos):
POS LEMA POS LEMA POS LEMA POS LEMA
NC acorde NC pertenencia V mostrar ADJ generalista
NC adhesión NC petroquímica V presidir ADJ geopolítico
NC adversidad NC plantilla V proporcionar ADJ hipotecario
NC amplitud NC pluralidad V registrar ADJ iberio
NC aseguradora NC ratio V repartir ADJ ilusionante
NC bombeo NC recesión V retribuir ADJ indiscutible
NC carbono NC recorte V sumar ADJ indudable
NC cláusula NC renuncia V sumir ADJ inestimable
NC clientela NC repaso V supervisar ADJ informático
NC complicidad NC resolución V totalizar ADJ inicial
NC consejero NC segmento V triplicar ADJ innovador
NC contribuyente NC solidez V vincular ADJ innumerable
NC descenso NC sostenibilidad ADJ acústico ADJ institucional
NC desempeño NC terreno ADJ alcanzable ADJ líquido
NC dinamismo NC trillón ADJ apasionante ADJ macroeconómico
NC discapacidad NC turbina ADJ asegurador ADJ masivo
NC ejemplar NC vigor ADJ benéfico ADJ medioambiental
NC emisora NC virtud ADJ céntimo ADJ metálico
NC estándar NC vocación ADJ cinematográfico ADJ mixto
NC estatuto NC voluntariado ADJ circulante ADJ múltiple
NC ética V acumular ADJ consejero ADJ nominal
NC ficción V ceder ADJ consultivo ADJ operacional
NC filial V condicionar ADJ convencional ADJ operador
NC fósil V configurar ADJ coordinador ADJ pertinente
NC funcionalidad V constar ADJ corporativo ADJ petroquímico
NC funcionamiento V decrecer ADJ directivo ADJ potente
NC gratitud V desempeñar ADJ distintivo ADJ publicitario
NC instancia V devolver ADJ duradero ADJ radioeléctrico
NC integridad V elevar ADJ ejecutivo ADJ radiofónico
NC junta V empeorar ADJ ejemplar ADJ restante
NC lema V enriquecer ADJ emblemático ADJ resultante
NC licencia V equilibrar ADJ empresarial ADJ robusto
NC magnitud V estabilizar ADJ estándar ADJ submarino
NC mandato V estructurar ADJ estricto ADJ supervisor
NC margen V expandir ADJ estructural ADJ televisivo
NC modalidad V formalizar ADJ ético ADJ transformador
NC módulo V intensificar ADJ exhaustivo ADJ usuario
NC movilidad V manifestar ADJ exigente ADJ vacante
NC navegador V moderar ADJ existente ADJ viable
NC orgullo
Tabla 41: Promedio_nivel 2
83
Nivel 3 (118 términos):
POS LEMA POS LEMA POS LEMA POS LEMA
NC accionariado NC liquidez V estrenar ADJ hidráulico
NC acierto NC multicanalidad V extraer ADJ impositivo
NC acreedor NC nombramiento V implantar ADJ imprescindible
NC aerogenerador NC permanencia V materializar ADJ inmerso
NC anunciante NC petrolera V ocultar ADJ íntegro
NC austeridad NC prudencia V otorgar ADJ interanual
NC autocartera NC reaseguro V pivotar ADJ mayoritario
NC bono NC recompra V recaer ADJ mediano
NC cese NC refinería V reiterar ADJ minoritario
NC contratista NC reglamento V remunerar ADJ multicanal
NC creces NC regulador V rendir ADJ multiplataforma
NC cuantía NC reparto V revalorizar ADJ plurianual
NC desembolso NC reporte V someter ADJ presupuestario
NC despliegue NC sencillez ADJ accionarial ADJ procesal
NC dígito NC senda ADJ acreedor ADJ prometedor
NC disrupción NC toma ADJ arduo ADJ reasegurador
NC dividendo NC torno ADJ atribuible ADJ refino
NC eficacia NC trayectoria ADJ bursátil ADJ repentino
NC emprendedor NC vector ADJ concesional ADJ retributivo
NC endeudamiento NC vencimiento ADJ destacable ADJ siniestro
NC espectro NC volatilidad ADJ diferenciador ADJ soberano
NC exigencia V adjudicar ADJ dominical ADJ societario
NC fiabilidad V aglutinar ADJ envidiable ADJ solvente
NC franquicia V augurar ADJ errático ADJ tarifario
NC ganancia V canalizar ADJ esperanzador ADJ termosolar
NC hidráulica V complacer ADJ estatutario ADJ trascendental
NC inquietud V cotizar ADJ fertilizante ADJ unitario
NC interconexión V descontar ADJ fósil ADJ vigente
NC iva V destacar ADJ generador ADJ volátil
NC libra V diversificar
Tabla 42: Promedio_nivel 3
Nivel 4 (37 términos):
POS LEMA POS LEMA POS LEMA POS LEMA
NC adjudicatario NC patrocinio NC subestación V refrendar
NC cimiento NC pyme NC superávit V roer
NC contingencia NC repunte NC trienio V timar
NC coraje NC rumbo V acometer ADJ exento
NC desapalancamiento NC saeta V arrojar ADJ fotovoltaico
NC inflexión NC seno V aunar ADJ gerencial
NC lealtad NC siniestralidad V avalar ADJ ingente
NC lustro NC solvencia V avecinar ADJ matinal
NC nómina NC subasta V recaudar ADJ vial
NC palanca
Tabla 43: Promedio_nivel 4
84
5.4 Exploración metodológica 2.2: hacia una nivelación automática
5.4.1 Limitaciones de una encuesta
Si bien es cierto que hacer una encuesta nos permite definir con relativa precisión la diferencia
entre el nivel de competencia activa y pasiva, este método de investigación también presenta
varias limitaciones. Así, además de que obliga a limitar el número de elementos léxicos en la
investigación, la realización de una encuesta (o una prueba similar) es un proceso que cuesta
mucho tiempo y labor (manual). Dicho de otro modo, es imposible estudiar la competencia
activa-pasiva de cada palabra español mediante el método de la encuesta. Para dar una respuesta
a esas limitaciones, pretendemos investigar si se puede automatizar el proceso de asignar un
nivel de dificultad a una serie de términos.
5.4.2 Definición de la variable dependiente
El primer paso hacia una nivelación automática supone la definición precisa de la variable
dependiente, es decir, la característica que queremos investigar (predecir). En nuestro caso, esta
variable es la categorización con los cuatro niveles de dificultad. A continuación, hace falta
determinar la índole de la variable, que puede ser nominal, ordinal o de escala. El primer tipo
de variable se caracteriza por incluir categorías que no se pueden ordenar. Dos ejemplos típicos
de medidas nominales serían “nacionalidad” y “sexo”. Una medida de escala, en cambio,
representa datos numéricos que permiten ordenarse fácilmente, como son la temperatura, las
notas de un examen y, el ejemplo prototípico en el ámbito de la lingüística de corpus, la
frecuencia de ocurrencia en cifras absolutas. La medida ordinal, por último, se sitúa entre la
medida nominal y la de escala: no representa un continuo, aunque sí se puede distinguir un
orden en los datos. Unos ejemplos de este tipo de medida serían la clasificación en un concurso
deportivo, la escala de Likert o los valores del percentil de frecuencia en un corpus.
De lo anterior se desprende que la categorización de cuatro niveles es una medida ordinal. No
es un continuo, puesto que una evolución de la categoría 2 a la categoría 4 no significa una
duplicación, por ejemplo, pero los datos sí están ordenados: una evolución a un nivel más alto
siempre supone un mayor grado de dificultad.
85
El paso siguiente consiste en identificar una serie de datos “más accesibles” que la organización
de una encuesta, para luego intentar enlazarlos con nuestra variable dependiente ordinal. El
ejemplo prototípico de esos datos más accesibles en la lingüística de corpus son listas de
frecuencia de corpus. Así, por ejemplo, en el estudio reciente de García Salido y Alonso Ramos
(2018) se pretende nivelar una serie de colocaciones en base a la frecuencia que presentan
dichas colocaciones en un corpus. Sin embargo, reconocen que “el método es susceptible de
mejoras que incorporen criterios adicionales al de la frecuencia léxica” (García Salido y Alonso
Ramos, 2018, p. 169). De hecho, a pesar de ser el criterio más evidente para la nivelación, la
frecuencia como único criterio nivelador lleva a un procesamiento estadístico bastante
rudimentario. Por esta razón, en la presente tesina pretendemos incluir más factores niveladores
en nuestro método, que son igualmente accesibles. Concretamente, además de la frecuencia
léxica en dos corpus de referencia (literatura juvenil; folletos turísticos), estudiamos si se
pueden incorporar cinco otros criterios, más en particular la frecuencia léxica en percentiles (2);
la existencia de un cognado en L1 (3); la nivelación basada en un diccionario ELE (4); el grado
de especificidad en cifras absolutas (5); y el grado de especificidad en percentiles (6). Gracias
a los datos que están disponibles dentro del proyecto de SCAP, hemos podido llegar a un total
de doce “criterios concretos” partiendo de los seis “criterios generales”.
86
Criterio Tipo de variable
1 a frecuencia de ocurrencia en cifras absolutas (en corpus de literatura juvenil)
escala b frecuencia de ocurrencia en cifras absolutas (en corpus de folletos turísticos)
2
a
frecuencia de ocurrencia en percentiles (en corpus de literatura juvenil) con 7
puntuaciones:
-1 (no ocurre en el corpus); 0 (1 ocurrencia); 1 (0-20 de los percentiles); 2
(20-40 de los percentiles); 3 (40-60 de los percentiles); 4 (60-80 de los
percentiles); 5 (80-100 de los percentiles) ordinal
b
frecuencia de ocurrencia en percentiles (en corpus de folletos turísticos) con 7
puntuaciones:
-1 (no ocurre en el corpus); 0 (1 ocurrencia); 1 (0-20 de los percentiles); 2
(20-40 de los percentiles); 3 (40-60 de los percentiles); 4 (60-80 de los
percentiles); 5 (80-100 de los percentiles)
3 / existencia de un cognado en L1 (palabras con una alta similaridad formal):
0 = no existe; 1 = sí existe nominal
4
a nivelación basada en el diccionario ELE PortaVoces:
nivel 1 = básico; nivel 2 = avanzado; nivel 3 = nuevo
ordinal b nivelación basada en el diccionario ELE PortaVoces:
0 = en PortaVoces (nivel 1 + 2); 1 = no en PortaVoces (nivel 3)
c nivelación basada en el diccionario ELE PortaVoces:
0 = “fácil” (nivel 1); 1 = “difícil” (nivel 2 + 3)
5
a grado de especificidad según la fórmula %DIFF en cifras absolutas
(en corpus de literatura juvenil) escala
b grado de especificidad según la fórmula %DIFF en cifras absolutas
(en corpus de folletos turísticos)
6
a
grado de especificidad según la fórmula %DIFF en percentiles
(en corpus de literatura juvenil) con 11 puntuaciones:
-1 (menos frecuente que en corpus de referencia); 10 (0-10 de los
percentiles); 20 (10-20 de los percentiles); etc. ordinal
b
grado de especificidad según la fórmula %DIFF en percentiles
(en corpus de folletos turísticos) con 11 puntuaciones:
-1 (menos frecuente que en corpus de referencia); 10 (0-10 de los
percentiles); 20 (10-20 de los percentiles); etc.
Tabla 44: Criterios niveladores
87
Estos doce criterios concretos son tratados, pues, como variables independientes, es decir, las
características que manejamos nosotros como investigadores para investigar las posibles
correlaciones que podrían existir con el valor de la variable dependiente, que es el juicio de
dificultad emitido por los estudiantes. Recordamos que el objetivo de este ejercicio es crear un
modelo que evite tener que repetir el costoso trabajo de organizar encuestas con estudiantes,
porque permitiría calcular valores parecidos a los de una encuesta pero basándose en datos que
tenemos a mano con un mínimo coste de procesamiento.
Para visualizar los diferentes pasos que quedan por hacer hemos creado la Tabla 45, con la
variable dependiente (el nivel de dificultad, que finalmente queremos predecir en un modelo de
aprendizaje automático [véase el apartado 5.5]) en gris claro y las variables independientes (los
doce criterios, cuyos datos tenemos a nuestra disposición) en gris oscuro.
# Lema Nivel Criterio 1a Criterio 1b Criterio 2a Criterio 2b Criterio 3 ...
1 implícito 1 <valor> <valor> <valor> <valor> <valor> ...
2 geopolítico 2 <valor> <valor> <valor> <valor> <valor> ...
3 impositivo 3 <valor> <valor> <valor> <valor> <valor> ...
... ... ... ... ... ... ... ... ...
531 gerencial 4 <valor> <valor> <valor> <valor> <valor> ...
532 <nuevo lema> ? <valor> <valor> <valor> <valor> <valor> ...
Tabla 45: Conceptualización de una nivelación automática
De hecho, queremos crear un modelo que prediga el nivel que tendría el <nuevo lema>
basándose en uno o varios de los valores pertenecientes a los doce criterios. Para realizar este
objetivo, primero llevamos a cabo un análisis manual de los criterios mediante el programa
SPSS, a fin de averiguar si son aplicables a un modelo predictivo. Después, teniendo en cuenta
los resultados de este análisis, intentamos desarrollar un modelo de aprendizaje automático que
asigne automáticamente un nivel de dificultad al <nuevo lema>.
88
5.4.3 Regresión logística ordinal en SPSS
5.4.3.1 Introducción
A fin de verificar si los criterios que acabamos de mencionar efectivamente serían aplicables a
un método de nivelación, llevamos a cabo una regresión logística mediante el programa SPSS.
El hecho de que nuestra variable dependiente sea una medida ordinal nos ha llevado a optar por
una regresión (logística) ordinal, un subtipo específico de la regresión logística. En líneas
generales, una regresión ordinal crea un modelo estadístico que predice la probabilidad de que
un determinado caso suba a una categoría superior de la variable dependiente, basándose en
los valores de las variables independientes introducidas. Concretamente, para nuestra
investigación significa que la regresión ordinal va a predecir la probabilidad de que un
determinado lema suba a un nivel de dificultad más alto, basándose en los valores de uno o
varios de los doce criterios.
Por motivos pragmáticos, para calcular la regresión nos basamos en los 531 lemas nivelados en
base a los promedios de los resultados de la encuesta (véase el apartado 5.3.4). Así, queremos
evitar que haya demasiados términos en una sola categoría, como sería el caso con los valores
del máster, donde más de la mitad de las palabras se sitúan al nivel 1 (véase la Tabla 39).
Asimismo, el nivel 4 de la clasificación del Ba2 incluye palabras relativamente fáciles (e.o.
austeridad, sencillez [NC]; destacar, ocultar [V]; imprescindible, repentino [ADJ]) que
presentan todas una frecuencia de ocurrencia bastante alta en los dos corpus de referencia
(respectivamente, 97/226/2173/1628/1198/470). Dado que una frecuencia alta suele tener una
correlación negativa con el nivel de dificultad (García Salido y Alonso Ramos, 2018), tampoco
nos parece idóneo basarnos en los valores del Ba2.
89
POS Grupo Nivel 1 Nivel 2 Nivel 3 Nivel 4
NC + V +
ADJ (531)
Ba2 178
33,52%
132
24,86%
136
25,61%
85
16,01%
promedio
(Ba3)
219
41,24%
157
29,57%
118
22,22%
37
6,97%
máster 304
57,25%
108
20,34%
91
17,14%
28
5,27%
Tabla 39 : Niveles encuesta_Ba2/máster/promedio (Ba3)
Por último, para visualizar el concepto de la regresión ordinal en SPSS incluimos la Figura 14
(véase la Tabla 44 para las explicaciones de los valores). Sin embargo, cabe enfatizar que el
modelo de la regresión ordinal en SPSS no predice el nivel exacto un determinado lema, sino
que predice la probabilidad de que suba a un nivel de dificultad más alto, es decir, la
probabilidad de que se trate de una palabra más difícil. Por consiguiente, nos permite hacer
afirmaciones de este tipo:
C2a (frecuencia de ocurrencia en percentiles [en corpus de literatura juvenil]): Si un
determinado lema tiene un valor de percentil bajo, la probabilidad de subir a un nivel de
dificultad más alto es x veces más alta/baja en comparación con un valor de percentil alto.
C3 (existencia de un cognado en L1 [palabras con una alta similaridad formal]): Si existe un
cognado en L1 de un determinado lema, la probabilidad de que suba a un nivel de dificultad
más alto es x veces más alta/baja que cuando no existe ningún cognado.
90
Figura 14: Input regresión logística ordinal SPSS
5.4.3.2 Verificación de la aplicabilidad de los criterios
Sin entrar demasiado en detalle, comentamos si los doce criterios serían aplicables a un modelo
predictivo de nivelación, evaluando para ello si las probabilidades que predicen son
estadísticamente significativas sí o no. Primero, llevamos a cabo una regresión ordinal para
cada criterio aparte, ya que, además de calcular las probabilidades, una regresión ordinal en
SPSS también presenta información adicional sobre el modelo, que permite, entre otras cosas,
dar una respuesta a las siguientes preguntas (National Centre for Research Methods, 2011):
91
1) ¿La(s) variable(s) independiente(s) del modelo ayuda(n) a predecir el valor de la
variable dependiente? = ¿El criterio ayuda a predecir el nivel de dificultad?
2) ¿Los datos introducidos concuerdan con el modelo? = ¿Los valores vinculados a los
531 lemas forman una buena base para desarrollar el modelo ordinal predictivo?
3) ¿Cuántos casos el modelo sabe predecir correctamente? = ¿Cuántos de los 531 lemas
el modelo predice correctamente?
4) ¿Las probabilidades predichas son iguales para cada aumento en las categorías de
la variable dependiente? = ¿Las probabilidades predichas son iguales para cada
aumento en el nivel de dificultad? (Aquí, la respuesta debería ser “sí”, si no significaría
que el modelo ordinal no es adecuado como modelo predictivo.)
Dependiendo de la índole de la prueba estadística correspondiente, una respuesta positiva a
estas preguntas (véase la Tabla 46) puede equivaler a un resultado sí o no estadísticamente
significativo:
Pregunta 1 (Model Fitting Information en SPSS): un “sí” equivale a un resultado
estadísticamente significativo (p ≤ 0,05)
Pregunta 2 (Goodness-of-Fit en SPSS): un “sí” equivale a un resultado no estadísticamente
significativo (p > 0,05)
Pregunta 4 (Test of Parallel Lines en SPSS): un “sí” equivale a un resultado no estadísticamente
significativo (p > 0,05)
92
Criterio Pregunta 1:
¿Ayuda a predecir el nivel?
Pregunta 2: ¿Los datos son
adecuados?
Pregunta 3: ¿Cuántos casos predice
correctamente?
Pregunta 4: ¿Permite desarrollar un modelo ordinal?
1a frecuencia corpus
de referencia 1 sí no 9,8% sí
1b frecuencia corpus
de referencia 2 sí no 11,5% sí
2a pctil de
frecuencia corpus de referencia 1
sí sí 18% sí
2b pctil de
frecuencia corpus de referencia 2
sí sí 19% sí
3 existencia de
cognado sí sí 18,7% sí
4a nivelación
propuesta en PortaVoces
sí sí 21% sí
4b sí o no en PortaVoces
sí sí 10,3% sí
4c “fácil” versus
“difícil” no sí 0,07% sí
5a %DIFF en corpus de referencia 1
sí sí 7,1% no
5b %DIFF en corpus de referencia 2
sí sí 7,4% no
6a pctil de %DIFF en
corpus de referencia 1
sí sí 13,1% sí
6b pctil de %DIFF en
corpus de referencia 2
sí sí 13,9% sí
Tabla 46: Aplicabilidad 12 criterios niveladores
Aunque este tipo de datos siempre se debe interpretar con cautela, sí nos dan una primera idea
sobre la posible aplicabilidad de los criterios. Así, por ejemplo, de la tabla se desprende que los
criterios que corresponden a valores de percentil (2a y 2b para la frecuencia léxica; 6a y 6b para
el grado de especificidad) parecen encajar mejor en un modelo predictivo en comparación con
sus homólogos en cifras absolutas (1a y 1b; 5a y 5b). Este fenómeno se explica por el hecho de
93
que los grandes picos causados por palabras muy frecuentes (recordamos que la frecuencia de
ocurrencia en cifras absolutas es una variable de escala) se suavicen en el caso de los percentiles
de frecuencia. Asimismo, el criterio de los cognados (3) y el criterio basado en PortaVoces con
tres niveles diferentes (4a) presentan resultados prometedores.
5.4.3.3 Modelo final
Sin embargo, para poder hablar de un verdadero modelo de regresión ordinal predictivo se ha
de incluir más de una variable independiente. Así, también aumentarán la calidad y la fiabilidad
del modelo. Tras haber llevado a cabo numerosas pruebas, llegamos a un modelo “final” que
incluye 3 variables independientes, concretamente los criterios 2a (percentil en corpus de
literatura juvenil), 3 (la existencia de un cognado) y 4a (la nivelación propuesta en PortaVoces).
En los párrafos que siguen, analizamos en profundidad este modelo final.
Primeramente, presentamos los resultados de las cuatro preguntas, donde cabe destacar que el
modelo predice casi el 40% de los datos correctamente, lo cual sugiere que el modelo tiene
potencial (National Centre for Research Methods, 2011):
Criterio
Pregunta 1:
¿Ayuda a predecir
el nivel?
Pregunta 2:
¿Los datos son
adecuados?
Pregunta 3:
¿Cuántos casos predice
correctamente?
Pregunta 4:
¿Permite desarrollar
un modelo ordinal?
2a (percentil en
corpus de
literatura juvenil)
+ 3 (existencia de
un cognado) + 4a
(nivelación
propuesta en
PortaVoces)
sí sí 39,7% sí
Tabla 47: Aplicabilidad modelo final SPSS
A continuación, ahondamos en las probabilidades (odds) de los tres criterios, visualizando
primero en la Figura 15 el output tal y como sale en SPSS. Después, en las tablas 48 hasta 50,
tratamos con todo detalle cada uno de los tres criterios, elaborando, además, un ejemplo
concreto por tabla. Cabe observar que la categoría de referencia (0a en la ilustración) es la
94
categoría con la cual se comparan las demás categorías. SPSS elige por defecto la última
categoría de la variable como categoría de referencia. Una segunda observación importante es
que para calcular la probabilidad se ha de tomar el exponente del valor en la columna Estimate,
convirtiendo así el logit [= log odds] en el odds ratio. Contrariamente al logit, el odds ratio
permite precisar cuántas veces es más o menos probable que un determinado lema tenga un
nivel de dificultad más alto, lo cual facilita considerablemente la comprensión (National Centre
for Research Methods, 2011). Por último, solo interpretamos los valores de la sección Location,
los de Threshold son de menor importancia.
Figura 15: Output regresión logística ordinal SPSS
Ejemplo: Si la palabra tiene un percentil de 0-20 (valor 1) en el corpus de literatura juvenil, la
probabilidad de tenga un nivel de dificultad más alto es 6,09 veces más alta (un aumento del
509% en las probabilidades) en comparación con la situación en que tendría un valor percentil
de 80-100 (valor 5). Recordamos que la última categoría, es decir, la categoría con el valor más
alto, sirve por defecto como categoría de referencia. Así, por ejemplo, para convertir la
categoría incluyendo los elementos léxicos que no figuran en el corpus de literatura juvenil
(valor -1) en la categoría de referencia, se debería asignar el valor más alto a esa categoría.
95
Valor Estimate Probabilidad Significación estadística (p = 0,05)
-1 1,356 3,88 (= e1,356)
288% sí
0 1,258 3,51
251% sí
1 1,807 6,09
509% sí
2 0,973 2,65
165% sí
3 0,733 2,08
108% sí
4 0,757 2,13
113% sí
5 categoría de referencia / /
Tabla 48: Aplicabilidad criterio 2a
Ejemplo: Si no existe un cognado en L1 de la palabra (valor 0), la probabilidad de que tenga un
nivel de dificultad más alto es 6,20 veces más alta (un aumento del 520%) que cuando sí existe
un cognado en L1 (valor 1):
Valor Estimate Probabilidad Significación estadística (p = 0,05)
0 1,824 6,20
520% sí
1 categoría de referencia / /
Tabla 49: Aplicabilidad criterio 3
Ejemplo: Si la palabra tiene el nivel “avanzado” en PortaVoces (valor 2), la probabilidad de
que tenga un nivel de dificultad más alto es más o menos 6 veces menos alta (= 0,17 veces más
probable; una bajada del 83%) que cuando no figura en PortaVoces (valor 3):
Valor Estimate Probabilidad Significación estadística (p = 0,05)
1 -0,377 0,69
-31% no
2 -1,798 0,17
-83% sí
3 categoría de referencia / /
Tabla 50: Aplicabilidad criterio 4a
96
5.4.4 Conclusión intermedia
De lo anterior se desprende que la técnica de la regresión ordinal nos proporciona una fuente
valiosa de información, sugiriendo, por ejemplo, qué criterios podrían servir como criterios
niveladores. Además, como hemos ilustrado en el modelo predictivo final, mediante la
calculación de probabilidades un modelo de regresión determina con precisión la influencia que
ejerce una serie de variables en la variable dependiente. Sin embargo, el modelo ordinal no es
capaz de predecir exactamente a qué categoría pertenecería un nuevo lema, lo cual representa
una limitación importante al método. Para resolver este inconveniente, recurrimos al
aprendizaje automático: el experimento que hemos llevado a cabo a este propósito lo
comentamos en forma de epílogo en el apartado 5.5.
5.5 Exploración metodológica 2.3: modelo predictivo de aprendizaje automático
5.5.1 Introducción
En este apartado queremos informar sobre un experimento prometedor basado en los datos
reunidos en esta tesina. No obstante, cabe señalar que este epílogo no constituye el núcleo de
este trabajo, sino que sirve de complemento a los datos reunidos en las investigaciones llevadas
a cabo en las exploraciones metodológicas 2.1 y 2.2. En concreto, pretendemos desarrollar un
modelo predictivo basado en el aprendizaje automático que asigne automáticamente un nivel
de dificultad a elementos léxicos de una sola palabra.
Como acabamos de indicar en la conclusión intermedia, el motivo concreto para este
experimento está en el potencial que vemos en algunos de los criterios niveladores basados en
“datos fácilmente accesibles”. En efecto, las pruebas con la regresión ordinal en SPSS han
mostrado resultados prometedores, especialmente en el caso del modelo ordinal final que hemos
elaborado. Sin embargo, mediante el método de la regresión ordinal en SPSS no se puede
predecir exactamente a qué categoría de la variable dependiente pertenecería un nuevo caso. Es
decir, en el caso de nuestra variable dependiente, un modelo ordinal no es capaz de asignar un
nivel de dificultad (nivel 1, 2, 3 o 4) a nuevos lemas.
97
5.5.2 Preparación del experimento
Con esta información en mente, iniciamos las fases preparatorias del experimento de
aprendizaje automático. Primeramente, cabe destacar que hemos eliminado 2 de los 12 criterios,
en concreto el criterio 4b (sí o no en PortaVoces) y 4c (“fácil” o “difícil”). En efecto, del análisis
en SPSS se desprende que el criterio 4a (nivelación propuesta en PortaVoces) posee un valor
predictivo mucho más alto como criterio nivelador. En la Figura 16, ilustramos cómo quedan
los datos no preparados (sacados del set de datos de prueba, véase más abajo). Asimismo,
volvemos a presentar los contenidos de los criterios niveladores en la Tabla 51.
Figura 16: Datos no preparados experimento de aprendizaje automático
Criterio Detalles
1a frecuencia de ocurrencia en cifras absolutas (en corpus de literatura juvenil)
1b frecuencia de ocurrencia en cifras absolutas (en corpus de folletos turísticos)
2a frecuencia de ocurrencia en percentiles (en corpus de literatura juvenil)
2b frecuencia de ocurrencia en percentiles (en corpus de folletos turísticos)
3 existencia de un cognado en L1
4a nivelación basada en el diccionario ELE PortaVoces
5a grado de especificidad según la fórmula %DIFF en cifras absolutas (en corpus de literatura juvenil)
5b grado de especificidad según la fórmula %DIFF en cifras absolutas (en corpus de folletos turísticos)
6a grado de especificidad según la fórmula %DIFF en percentiles (en corpus de literatura juvenil)
6b grado de especificidad según la fórmula %DIFF en percentiles (en corpus de folletos turísticos)
Tabla 51: Criterios niveladores experimento de aprendizaje automático
98
Como en un modelo de aprendizaje automático los valores de los features (así se denominan
las variables) siempre han de expresarse en números y no en letras, eliminamos la columna
“Lema” y modificamos la columna “PoS” como sigue: creamos tres nuevas columnas (“NC”;
“V”; “ADJ”) y ponemos “1” en la columna a la cual pertenece el lema en cuestión y “0” en las
otras columnas. Cabe señalar que el hecho de eliminar la columna “Lema” no le impide al
modelo identificar los lemas como elementos separados, ya que se asigna una línea única a cada
lema en el modelo, lo cual ilustramos en la Figura 17:
Figura 17: Fase preparatoria experimento de aprendizaje automático_1
El segundo paso preparatorio consiste en reescalar los datos para que tengan un valor entre 0 y
1 (véase la Figura 18), una modificación necesaria para garantizar un mejor procesamiento de
los datos. Así, por ejemplo, vemos que los valores de percentil en las columnas “C6a” y “C6b”
se han dividido por (más o menos) 100 para obtener un valor entre 0 y 1. Sin embargo, es
inevitable que ocurran errores a la hora de reescalar los datos, dado que en esta fase del
experimento todavía aplicamos el método de prueba y error.
99
Figura 18: Fase preparatoria experimento de aprendizaje automático_2
En la última fase de preparación dividimos los datos en dos sets separados (véanse el Apéndice
XIV y XV para la documentación completa): un set de datos de prueba (55 lemas
representativos de la base de datos entera) y un set de datos de entrenamiento (los demás lemas,
476 en total, de lo cual se han eliminado 3 por una falta de datos disponibles).
5.5.3 Método 1: la regresión lineal
A continuación, comienza el experimento mismo. Analizando los datos de prueba, el modelo
de aprendizaje automático intenta “aprender”, lo cual significa que averigua cómo se pueden
relacionar los valores de los “features independientes” (los criterios niveladores) con el “feature
dependiente” (el nivel correcto en la última columna). En términos generales, el modelo asigna
un valor de importancia (value) a cada feature independiente, basándose en su potencial
predictivo. Así, por ejemplo, si el modelo encuentra una correlación fuerte entre la existencia
de un cognado en L1 (C3) y el nivel de dificultad, va a conceder un valor de importancia alto a
ese criterio. De esta manera, el modelo va adquiriendo “conocimientos” según analiza el set de
datos de prueba.
Después, se aplican esos conocimientos al set de datos de entrenamiento. Concretamente, para
cada línea (cada lema) del set el modelo hace una predicción del nivel:
100
Figura 19: Ilustración de las predicciones en set de datos de entrenamiento (regresión lineal)
En este sentido, cabe profundizar en la manera de predecir: contrariamente al análisis en SPSS,
no se lleva a cabo una regresión ordinal sino una regresión lineal. De hecho, como permite
determinar de manera precisa la relación entre los features, la regresión lineal es el método más
común en modelos de aprendizaje automático predictivos. La implicación más importante de
esta decisión es que la predicción no será un número redondo (1; 2; 3; 4) sino un valor exacto
entre, aproximadamente, 1 y 4. Por consiguiente, a fin de llegar a una predicción final para cada
lema de los datos de entrenamiento, redondeamos los valores de la siguiente manera:
Valor Nivel
≤ 1,5 1
> 1,5 y ≤ 2,5 2
> 2,5 y ≤ 3,5 3
> 3,5 4
Para analizar la efectividad del modelo de aprendizaje automático, investigamos la calidad de
las predicciones realizadas en el set de datos de entrenamiento, basándonos en el accuracy
(“exactitud”) y el mean absolute error (MAE). Así, pretendemos enterarnos del grado de
precisión de las predicciones del modelo en comparación con el nivel correcto, como
visualizamos en la Figura 20. Sin entrar demasiado en detalle, el accuracy muestra el porcentaje
101
de casos predichos correctamente, mientras que el MAE calcula la desviación media de los
niveles predichos en comparación con el nivel correcto.
Figura 20: Análisis efectividad modelo de aprendizaje automático (regresión lineal)
A fin de encontrar el mejor modelo predictivo, hemos creado cuatro versiones diferentes, que
presentamos en la Tabla 52:
Modelo 1 Modelo 2 Modelo 3 Modelo 4
Criterios todos
frecuencia corpus de
referencia 1 (C1a);
frecuencia corpus de
referencia 2 (C1b);
existencia de un
cognado (C3);
nivelación propuesta
en PortaVoces (C4a)
frecuencia corpus de
referencia 1 (C1a);
frecuencia corpus de
referencia 2 (C1b);
existencia de un
cognado (C3)
pctil de frecuencia corpus
de referencia 1 (C2a);
existencia de un cognado
(C3)
Accuracy 34,5% 41,8% 43,6% 56,4%
MAE 0,863 0,727 0,709 0,527
Tabla 52: Resultados regresión lineal
Hemos empezado por desarrollar un modelo incluyendo todos los criterios niveladores (modelo
1), para llegar al final a un modelo que consiste en los dos mejores criterios según el método de
102
la regresión lineal (modelo 4). También incluimos los resultados de dos modelos que se centran
en la frecuencia léxica (modelos 2 y 3), el criterio nivelador que se usa más frecuentemente
para predecir el nivel de dificultad (véase e.o. García Salido y Alonso Ramos, 2018). En todo
caso, consta que los resultados son prometedores, sobre todo en el caso de los modelos 3 y 4.
En efecto, el porcentaje de casos predichos correctamente alcanza el 43,6 y el 56,4%,
respectivamente. Además, la desviación media con el nivel correcto es bastante limitada: 0,709
y 0,527.
5.5.4 Método 2: el decision tree
Sin embargo, además de la regresión lineal, existe otra técnica para desarrollar un modelo de
aprendizaje automático predictivo: un decision tree. En este método se parte del criterio que
predice mejor el nivel de dificultad y se van añadiendo más criterios al modelo hasta que
decrezca el número de casos predichos correctamente. La diferencia más grande con la
regresión lineal está en que se relacionan directamente los valores de los features
independientes (es decir, los criterios niveladores) con una categoría del feature dependiente
(es decir, el nivel de dificultad), en lugar de predecir un valor exacto que no corresponde
necesariamente al valor redondo de los niveles de dificultad.
He aquí los resultados del decision tree:
1 criterio 2 criterios Todos los
criterios
Criterios pctil de frecuencia corpus de
referencia 1 (C2a)
pctil de frecuencia corpus de
referencia 1 (C2a);
nivelación propuesta en
PortaVoces (C4a)
todos
Accuracy 58,2% 61,8% 38,2%
MAE 0,509 0,491 0,836
Tabla 53: Resultados decision tree
De la tabla se desprende que el mejor criterio nivelador según la técnica del decision tree es el
percentil de frecuencia en el corpus sobre literatura juvenil (C2a). Al añadir el criterio de la
nivelación propuesta en PortaVoces (C4a), el accuracy se eleva al 61,8%. Sin embargo, hemos
103
comprobado que al agregar un tercer criterio el accuracy disminuye, por lo cual el modelo
“final” solo consiste en dos criterios niveladores. Para ser completo, también hemos incluido
los resultados de la versión del decision tree incluyendo todos los criterios.
5.5.5 Conclusión
La conclusión principal que podemos sacar de este experimento es que un modelo de
aprendizaje automático que predice el nivel de dificultad del vocabulario tiene futuro, tanto
mediante la técnica de la regresión lineal como mediante el método del decision tree. Es una
constatación muy prometedora, ya que significa que solo necesitamos compilar manualmente
un conjunto limitado de “datos correctos” (por ejemplo mediante encuestas) para poder
desarrollar un modelo que asigne automáticamente y con (relativa) precisión un nivel de
dificultad a (todas las) palabras españolas.
Además, en este experimento también hemos demostrado el valor añadido de incorporar más
criterios niveladores que únicamente la frecuencia léxica en un modelo de nivelación
predictivo. Así, por ejemplo, el percentil de frecuencia, la existencia de un cognado en L1 y una
nivelación basada en un diccionario ELE ayudan a aumentar el grado de precisión de las
predicciones.
Sin embargo, cabe enfatizar que hacen falta más estudios que exploren en profundidad el
potencial de un modelo de nivelación predictivo basado en el aprendizaje automático. La
metodología propuesta en la Exploración 2 de esta tesina (encuesta; clasificación con niveles
de dificultad; definir criterios niveladores; desarrollar modelo(s) de aprendizaje automático)
puede servir de base para futuras investigaciones, pero también se pueden elaborar
metodologías alternativas. Así, por ejemplo, para la nivelación de los “datos correctos” también
se puede basarse en los niveles propuestos en el MCER, en vez de realizar encuestas con
estudiantes. No obstante, una posible limitación de esta aproximación sería que, contrariamente
a una asignación de niveles basada en encuestas, los niveles propuestos en el MCER no se basan
(enteramente) en datos empíricos.
Por último, surge la pregunta si se necesita un modelo predictivo aparte para cada “nivel de
educación”, o si se necesita un solo modelo general. Teniendo en cuenta que los niveles
correctos utilizados en este experimento se sitúan al nivel del tercer bachelor de una carrera de
104
lenguas, uno puede preguntarse si los niveles predichos por el modelo de aprendizaje
automático solo son válidos al nivel del tercer bachelor, y no a niveles de educación inferiores
o superiores.
105
6 CONCLUSIÓN
6.1 Introducción
En la presente tesina hemos investigado la adquisición y el aprendizaje de vocabulario en una
segunda lengua (L2) desde la perspectiva de la lingüística de corpus, “una rama de la lingüística
que basa sus investigaciones en datos obtenidos a partir de corpus, esto es, muestras reales de
uso de la lengua” (Centro Virtual Cervantes, s.d. a). En este sentido, hemos compilado un
corpus incluyendo 74 discursos en castellano pronunciados todos en el marco de la junta general
de accionistas de empresas españolas. Para el procesamiento del corpus hemos usado Spanish
Corpus Annotation Project (SCAP), una herramienta informática desarrollada en el
Departamento de Traducción, Interpretación y Comunicación de la Universidad de Gante
(véase e.o. Goethals et al., 2017). En concreto, hemos llevado a cabo dos exploraciones
metodológicas, centrándonos en tres dimensiones específicas de la adquisición y el aprendizaje
de vocabulario:
1) El grado de especificidad, que hemos estudiado en la Exploración metodológica 1
2) La competencia activa-pasiva, que hemos estudiado en la Exploración metodológica 2.1
3) El grado de dificultad, que hemos estudiado en las Exploraciones metodológicas 2.2 y
2.3
En lo que sigue, presentamos de manera concisa los resultados principales de cada exploración
metodológica. Asimismo, aplicamos las exploraciones al marco teórico del presente trabajo,
además de relacionarlas con las funcionalidades de SCAP, la herramienta informática que
hemos utilizado para procesar nuestro corpus y realizar las investigaciones.
6.2 Exploración metodológica 1
Pregunta de investigación: ¿%DIFF (para el keyness) y DP (para la dispersión) son medidas
efectivas para filtrar las palabras clave más relevantes de un corpus especializado?
Basándonos en las fórmulas %DIFF (Gabrielatos y Marchi, 2011) y DP (Gries, 2008), hemos
creado prácticamente de forma automática una lista de 100 palabras clave incluyendo el
106
vocabulario supuestamente especializado de nuestro corpus de estudio. A fin de averiguar la
calidad de los contenidos, hemos organizado un test que comparaba la lista con el juicio de
cuatro profesores expertos. Hemos obtenido resultados satisfactorios, teniendo en cuenta que
los profesores incluirían 76,5 de los 100 términos de media en un glosario sobre el contexto
especializado de la junta general de accionistas. Además, hemos comprobado que 73 de los 100
términos han sido aprobados correctamente por al menos tres de los cuatro profesores, mientras
que solo 17 de los 100 han sido rechazados erróneamente por al menos tres de los cuatro.
Considerando SCAP como un programa de CALL, hemos demostrado en el capítulo 3 que un
profesor del español como lengua extranjera (ELE) puede basarse en listas de palabras clave
para diseñar con la ayuda de SCAP una variedad de actividades orientadas a la instrucción
enfocada en la palabra (word-focused instruction [Laufer, 2010]). Además, sostenemos que
listas de palabras clave también pueden resultar útiles en un enfoque de aprendizaje basado en
datos (ABD), e incluso en un contexto profesional. Así, por ejemplo, un aprendiz (autodidacta)
puede utilizar listas de palabras clave para familiarizarse rápidamente con el vocabulario típico
de un determinado contexto. En este sentido, dada su fuerte conexión con el concepto de ABD,
SCAP también puede servir como medio para realizar actividades lingüísticas correspondientes
en esta situación. En un contexto profesional, por último, la creación de listas de palabras clave
mediante SCAP puede ayudar a intérpretes no nativos que quieren prepararse para interpretar
en un contexto especializado, por ejemplo.
6.3 Exploración metodológica 2.1
Pregunta de investigación: ¿Se nota una evolución entre estudiantes ELE del segundo
bachelor y del máster en el dominio activo y pasivo en cuanto a términos con cierto grado
de especificidad?
Mediante una encuesta, hemos pedido a 43 participantes (22 estudiantes ELE del segundo
bachelor [Ba2] y 21 del máster) que definan su “grado de conocimiento” de 531 términos con
cierto grado de especificidad sacados de nuestro corpus de estudio: si conocen el término
activamente, si lo conocen pasivamente o si no lo conocen. Después, hemos creado una
clasificación de cuatro categorías que representan todas un grado de dominio (dificultad), lo
cual nos ha permitido evaluar en profundidad la evolución en la competencia activa y pasiva
entre el Ba2 y el máster. De hecho, hemos encontrado una evolución estadísticamente
107
significativa hacia un conocimiento más profundo de los elementos léxicos en los estudiantes
del máster. Además, en ambos grupos los sustantivos parecen suponer un reto ligeramente más
grande que los verbos y los adjetivos en cuanto a llegar a un grado de dominio de nivel 1 o nivel
2 (los dos niveles más “fáciles”), mientras que el dominio activo es lo más alto en el caso de
los verbos. Por último, también hemos podido identificar las palabras que no muestran ninguna
evolución o incluso una regresión en el grado de dominio, lo cual representa información
valiosa desde un punto de vista didáctico.
Basándose en el esquema de Nation (2001) sobre la competencia activa-pasiva, se pueden
realizar (o diseñar, desde el punto de vista del profesor ELE) varias actividades concretas con
el propósito de alcanzar un mayor dominio de los elementos léxicos que aún no se conocen
activamente. En este contexto, cabe señalar que SCAP ofrece diferentes funcionalidades para
ayudar a realizar y/o diseñar este tipo de actividades, sobre todo en la versión reciente de la
herramienta.
6.4 Exploraciones metodológicas 2.2 y 2.3
Preguntas de investigación: ¿Aparte de la frecuencia léxica, qué criterios niveladores son
aptos para incluir en un modelo que predice el nivel de dificultad de elementos léxicos de
una sola palabra? (2.2); ¿Podemos predecir con relativa precisión el nivel de dificultad de
elementos léxicos de una sola palabra mediante un modelo de aprendizaje automático?
(2.3)
Mediante una regresión logística ordinal en SPSS, hemos comprobado que sobre todo el
percentil de frecuencia, la existencia de un cognado en L1 y la nivelación propuesta en un
diccionario ELE tienen potencial como criterio nivelador, lo cual se ha confirmado también en
los resultados del experimento basado en el aprendizaje automático. Dicho de otro modo, los
resultados de las Exploraciones 2.2 y 2.3 ya pueden ser una primera respuesta a la observación
de García Salido y Alonso Ramos (2018), que reconocen que su método de nivelación basado
en la frecuencia léxica “es susceptible de mejoras que incorporen criterios adicionales” (p. 169).
Además, consta que un modelo de nivelación predictivo basado en el aprendizaje automático
tiene futuro, dado que los grados de precisión (accuracy) que hemos obtenido alcanzan hasta el
61,8%.
108
Relacionando las exploraciones con SCAP, sostenemos que el programa puede ampliarse al
incluir un componente de nivelación basado en un modelo de aprendizaje automático. Teniendo
en cuenta que, en principio, un modelo como hemos desarrollado nosotros debería ser capaz de
asignar un nivel de dificultad “correcto” a cualquier elemento léxico de una sola palabra, se
podría evitar los inconvenientes de trabajar con fuentes pragmáticas como diccionarios ELE,
cuyo índice solo incluye un número limitado de elementos léxicos. Sin embargo, cabe enfatizar
que quedan muchos experimentos e investigaciones por hacer para poder llegar a un modelo
aceptable y, sobre todo, fiable.
109
7 DISCUSIÓN
7.1 Limitaciones del estudio
Como ya hemos señalado en la introducción, el hecho de que (en este momento) las técnicas de
lingüística de corpus utilizadas en esta tesina se puedan aplicar únicamente a elementos léxicos
de una sola palabra representa una primera limitación. Efectivamente, así ha ido perdida en las
exploraciones metodológicas la parte del vocabulario que consiste en elementos léxicos
multipalabras (multiwords).
En segundo lugar, la herramienta informática con la cual hemos trabajado, Spanish Corpus
Annotation Project (SCAP), todavía está en fase de desarrollo, lo cual ha conllevado algunos
desafíos prácticos. Así, por ejemplo, a lo largo del estudio los creadores de SCAP nos han dado
acceso a una versión actualizada de la herramienta (la versión reciente, que reemplazará la
versión beta y que estará disponible en línea en otoño de 2018). Por una parte, eso nos ha
permitido elaborar más en profundidad las exploraciones metodológicas, pero, por otra,
también nos ha obligado a revisar parte del diseño del estudio.
7.2 Observaciones y sugerencias
Primeramente, nos damos cuenta de que trabajar con programas de lingüística de corpus
orientados a la adquisición y el aprendizaje de vocabulario puede ser un gran desafío (para
profesores así como para aprendices), sobre todo en un nivel principiante. Por consiguiente,
opinamos que solo a partir de un nivel B2 del MCER se puede sacar el máximo provecho de
los contenidos elaborados en esta tesina. Sin embargo, también nos damos cuenta de que los
programas de CALL y ABD se hacen cada vez más accesibles, por lo cual en el futuro quizá
también aprendices de un nivel inferior al nivel B2 puedan servirse de la lingüística de corpus
durante su proceso de aprendizaje.
Antes de ahondar en nuestras sugerencias para futuros estudios, conviene aclarar a qué áreas de
investigación nuestro trabajo pretende contribuir. En primer lugar, la tesina es una investigación
de lingüística de corpus, puesto que en la parte investigativa exploramos en profundidad dos
nuevas perspectivas de lingüística de corpus, basándonos en un corpus especializado
110
incluyendo discursos pronunciados en la junta general de accionistas. En segundo lugar, este
estudio también pertenece al ámbito más general de la adquisición y el aprendizaje de
vocabulario en L2, puesto que las exploraciones metodológicas de lingüística de corpus
estudian tres dimensiones específicas de este ámbito, más en particular el grado de especificidad
del vocabulario, la competencia activa-pasiva y el grado de dificultad del vocabulario.
Asimismo, dadas las funcionalidades y la índole de SCAP, la herramienta informática con la
cual hemos trabajado, esta tesina también contribuye a las áreas de investigación acerca de
CALL (Computer-Assisted Language Learning) y ABD (aprendizaje basado en datos). Como
ya hemos indicado en la investigación bibliográfica, como programa de CALL la herramienta
SCAP se puede definir como un programa dedicado al aprendizaje de vocabulario (aunque
también se puede utilizar SCAP para diseñar actividades de adquisición), ya que ha sido
especialmente desarrollada para la extracción y la consulta de vocabulario (especializado) de
un corpus. Considerando SCAP específicamente como un programa de ABD, por último, este
trabajo también representa una investigación que evalúa las “prácticas” (pratiques [Boulton,
2008]) utilizadas en un programa de ABD, estudiando, concretamente, el funcionamiento y el
output de la herramienta SCAP.
Concluimos este apartado por hacer algunas sugerencias para futuras investigaciones. Primero,
hacen falta más estudios que refinen la metodología propuesta para crear listas de palabras clave
mediante las fórmulas %DIFF (Gabrielatos y Marchi, 2011) y DP (Gries, 2008), además de
elaborar metodologías alternativas. Así, por ejemplo, se puede investigar la influencia que
ejerza la integración del criterio del nivel de dificultad en la calidad de las listas, o se puede
partir específicamente de una serie de sustantivos clave para elaborar los glosarios, en vez de
seleccionar los ítems independientemente de su categoría morfológica. Además, se necesitan
más investigaciones para continuar explorando el potencial de un modelo de aprendizaje
automático que predice el nivel de dificultad del vocabulario. Así, se han de compilar bases de
datos más extensas con “datos correctos” para ayudar al modelo a aprender. Para realizar este
objetivo, se puede seguir la metodología que hemos propuesto nosotros (encuesta; clasificación
con niveles de dificultad; definir criterios niveladores; desarrollar modelo(s) de aprendizaje
automático) o elaborar una metodología alternativa (reemplazando la encuesta por otra fuente
de “datos correctos” y/o revisando la clasificación de niveles, por ejemplo). Asimismo, otra
posible pista de investigación podría centrarse en la compilación de nuevos corpus de
referencia, adaptándolos a los criterios niveladores que se pretenden utilizar. En todo caso, en
111
la presente tesina hemos demostrado que un modelo predictivo de aprendizaje automático tiene
futuro, así como la metodología propuesta para desarrollarlo.
112
Referencias bibliográficas
Agencia Estatal Boletín Oficial de Estado. (2017). Real Decreto Legislativo 1/2010, de 2 de
julio, por el que se aprueba el texto refundido de la Ley de Sociedades de Capital.
[Legislación consolidada]. Fecha de consulta: 25 junio 2018, en
https://www.boe.es/buscar/act.php?id=BOE-A-2010-10544
Allan, R. (2010). Concordances versus dictionaries: evaluating approaches to word learning in
ESOL. En R. Chacón-Beltrán et al. (Eds.), Insights into non-native vocabulary teaching
and learning (pp. 112-125). Bristol, Tonawanda & North York: Multilingual Matters.
Asención-Delaney, Y., Collentine, J.G., Collentine, K., Colmenares, J. & Plonsky, L. (2015).
El potencial de la enseñanza del vocabulario basada en corpus: optimismo con
precaución. Journal of Spanish Language Teaching, 2(2), 140-151.
BBVA (s.d.). ¿Qué es una Junta General de Accionistas? [Documento en línea]. Fecha de
consulta: 9 julio 2018, en https://www.bbva.com/es/junta-general-accionistas/
Biber, D., Connor, U. & Upton, A. con Anthony, M. & Gladkov, K. (2007). Rhetorical appeals
in fundraising. En D. Biber et al., Discourse on the move: using corpus analysis to
describe discourse structure (pp. 121-151). Ámsterdam: John Benjamin.
Boulton, A. (2008). Esprit de corpus: promouvoir l’exploitation de corpus en apprentissage des
langues. Texte et Corpus, 3, 37-46.
Boulton, A. (2010a). Data-driven learning: taking the computer out of the equation. Language
Learning, 60(3), 534-572.
Boulton, A. (2010b). Learning outcomes from corpus consultation. En M. Moreno Jaén et al.
(Eds.), Exploring new paths in language pedagogy: lexis and corpus-based language
teaching (pp. 129-144). Londres & Oakville: Equinox.
Bowker, L. & Pearson, J. (2002). Working with specialized language: a practical guide to using
corpora. Londres & Nueva York: Routledge.
Carroll, J. B. (1970). An alternative to Juilland’s usage coefficient for lexical frequencies and a
proposal for a standard frequency index. Computer Studies in the Humanities and
Verbal Behaviour, 3(2), 61-65.
Centro Virtual Cervantes. (s.d. a). Lingüística de corpus. [Diccionario de términos clave de
ELE]. Fecha de consulta: 5 julio 2018, en
https://cvc.cervantes.es/ensenanza/biblioteca_ele/diccio_ele/diccionario/linguisticacor
pus.htm
Centro Virtual Cervantes. (s.d. b). Plan curricular del Instituto Cervantes: Niveles de referencia
para el español. [Descripción del producto]. Fecha de consulta: 14 abril 2018, en
https://cvc.cervantes.es/ENSENANZA/biblioteca_ele/plan_curricular/default.htm
Chacón-Beltran, R., Abello-Contesse, C. & del Mar Torreblanca-López, M. (2010). Vocabulary
teaching and learning: introduction and overview. En R Chacón-Beltrán et al. (Eds.),
Insights into non-native vocabulary teaching and learning (pp. 1-12). Bristol,
Tonawanda & North York: Multilingual Matters.
Chambers, A. & O’Sullivan Í. (2004). Corpus consultation and advanced learners’ writing skills
in French. ReCALL, 16(1), 158-172.
Chambers, A. (2007). Popularising corpus consultation by language learners and teachers. En
E. Hidalgo et al. (Eds.), Corpora in the Foreign Language Classroom (pp. 3-16).
Ámsterdam: Rodopi.
Chambers, A. (2010). What is data-driven learning? En A. O’Keeffe & M. McCarthy (Eds.),
The Routledge Handbook of Corpus Linguistics (pp. 345-358). Nueva York: Routledge.
113
Cheng, W., Warren, M. & Xu, X. (2003). The language learner as language researcher: corpus
linguistics on the timetable. System, 31(2), 173-186.
Ellis, N.C. (1994). Vocabulary acquisition: the implicit ins and outs of explicit cognitive
mediation. En N.C. Ellis (Ed.), Implicit and Explicit Learning of Languages (pp.
211-282). Londres: Academic Press Limited.
Ellis, R. (2014). The study of second language acquisition. Oxford: Oxford University Press.
Gabrielatos, C. & Marchi, A. (2011). Keyness: matching metrics to definitions. Theoretical-
methodological challenges in corpus approaches to discourse studies - and some ways
of addressing them. 5 noviembre 2011, Portsmouth.
García Salido, M. & Alonso Ramos, M. (2018). Asignación de niveles de aprendizaje a las
colocaciones del Diccionario de Colocaciones del español. Revista Signos. Estudios de
Lingüística, 51(97), 153-174.
Gaskell, D. & Cobb, T. (2004). Can learners use concordance feedback for writing errors?
System, 32(3), 301–19.
Gilquin, G. & Granger, S. (2010). How can data-driven learning be used in language teaching?
En A. O’Keeffe & M. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics
(pp. 359-370). Nueva York: Routledge.
Goethals, P., Lefever, E. & Macken, L. (s.d.). SCAP-Welcome. [Página de bienvenida en línea].
Fecha de consulta: 13 abril 2018, en http://www.scap.ugent.be/
Goethals, P., Lefever, E., & Macken, L. (2017). SCAP_TT: Tagging and lemmatising Spanish
tourism discourse, and beyond. Ibérica, 33, 273-282.
Gries, S.T. (2008). Dispersions and adjusted frequencies in corpora. International Journal of
Corpus Linguistics, 13(4), 403-437.
Gries, S.T. (2013). 50-something years of work on collocations. What is or should be next …
International Journal of Corpus Linguistics, 18(1), 137-165.
Henriksen, B. (1999). Three dimensions of vocabulary development. Studies in Second
Language Acquisition, 21(2), 303-317.
Johns, T. (1991). Should you be persuaded: two examples of data-driven learning. En T. Johns
& P. King (Eds.), Classroom Concordancing (pp. 1-13). Birmingham: ELR.
Juilland, A.G., Brodin, D. R. & Davidovitch, C. (1970). Frequency dictionary of French words.
La Haya: Mouton de Gruyter.
Kennedy, C. & Miceli, T. (2001). An evaluation of intermediate students’ approaches to corpus
investigation. Language Learning and Technology, 5(3), 77-90.
Krashen, S. (1981). Second language acquisition and second language learning. Oxford:
Pergamon Press.
Laufer, B. (2003). Vocabulary acquisition in a second language: do learners really acquire most
vocabulary by reading? The Canadian Modern Language Review, 59, 565-585.
Laufer, B., Elder, C., Hill, K. & Congdon, P. (2004). Size and strength: do we need both to
measure vocabulary knowledge? Language Testing, 21(2), 202-226.
Laufer, B. (2005a). Instructed second language vocabulary learning: the fault in the ‘default
hypothesis’. En A. Housen y M. Pierrard (Eds.), Investigations in instructed second
language acquisition (pp. 311-329). Berlín y Nueva York: Mouton de Gruyter.
Laufer, B. (2005b). Focus on form in second language vocabulary acquisition. En S.H.
Foster-Cohen et al. (Eds.), EUROSLA Yearbook 5 (pp. 223-250). Ámsterdam: John
Benjamins.
114
Laufer, B. (2010). Form-focused instruction in second language vocabulary learning. En R.
Chacón-Beltrán et al. (Eds.), Insights into non-native vocabulary teaching and learning
(pp. 15-27). Bristol, Tonawanda & North York: Multilingual Matters.
Lee, D. & Swales, J. (2006). A corpus-based EAP course for NNS doctoral students: moving
from available specialized corpora to self-compiled corpora. English for Specific
Purposes, 25, 56-75.
Levy, M. & Hubbard, P. (2005). Why call CALL “CALL”? Computer Assisted Language
Learning, 18(3), 143-149.
Levy, M. & Stockwell, G. (2008). CALL dimensions: options and issues in Computer-Assisted
Language Learning. Nueva York & Londres: Routledge.
Lyne, A. A. (1985). Dispersion. En A.A. Lyne (Ed.) The vocabulary of French business
correspondence (pp. 101-124). Ginebra & París: Slatkine-Champion.
Matsuoka, W. (2012. Searching for the right words: creating word lists to inform EFL learning.
En D. Hirsh (Ed.), Current perspectives in second language vocabulary research (pp.
151-177). Berna: Peter Lang.
McLaughlin, B. (1987). Theories of second language learning. Londres: Edward Arnold.
Montero Perez, M., Paulussen, H., Macken, L. & Desmet, P. (2014). From input to output: the
potential of parallel corpora for CALL. Language Resources and Evaluation, 48(1),
165-189.
Nation, I.S.P. (2001). Learning vocabulary in another language. Cambridge: Cambridge
University Press.
National Centre for Research Methods. (2011). Using Statistical Regression Methods in
Education Research. [Tutorial]. Fecha de consulta: 16 julio 2018, en
http://www.restore.ac.uk/srme/www/fac/soc/wie/research-
new/srme/modules/index.html
O’Sullivan, Í. & Chambers, A. (2006). Learners’ writing skills in French: corpus consultation
and learner evaluation. Journal of Second Language Writing, 15, 49-68.
Pérez Basanta, C. (2010). A second-generation CALL vocabulary-learning program ADELEX:
in search of a psychopedagogic model. En R. Chacón-Beltrán et al. (Eds.), Insights into
non-native vocabulary teaching and learning (pp. 175-185). Bristol, Tonawanda &
North York: Multilingual Matters.
Read, J. (2000). Assessing Vocabulary. Cambridge: Cambridge University Press.
Roe, P. (2000). The ASTCOVEA German Grammar in conText Project. En B. Dodd (Ed.),
Working with German corpora (pp. 199-216). Birmingham: University of Birmingham
Press.
Rosengren, I. (1971). The quantitative concept of language and its relation to the structure of
frequency dictionaries. Études de linguistique appliquée (Nouvelle Série), 1, 103-27.
Römer, U. (2011). Corpus research apllications in second language teaching. Annual Review of
Applied Linguistics, 31, 205-225.
Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. Proceedings of
The International Conference on New Methods in Language Processing, 44-49.
Schmid, H. (1995). Improvements in part-of-speech tagging with an application to German.
Proceedings of The ACL SIGDAT-Workshop, 1-9.
Schmitt, N. (2010). Key issues in teaching and learning vocabulary. En R. Chacón-Beltrán et
al. (Eds.), Insights into non-native vocabulary teaching and learning (pp. 28-40).
Bristol, Tonawanda & North York: Multilingual Matters.
Scott, M. (1996). WordSmith Tools Manual. Oxford: Oxford University Press.
115
Scott, M. (1997). PC analysis of key words - and key key words. System, 25(2), 233-245.
Sinclair, J. (2005). Corpus and texts – Basic principles. En M. Wynne (Ed.), Developing
linguistic corpora: a guide to good practice (pp. 1-16). Oxford & Oakville: Oxbow
Books.
Waring, R. (1997). A comparison of the receptive and productive vocabulary sizes of some
second language learners. Immaculata Notre Dame Seishin University Okayama, 1,
53-68.
Watson Todd, R. (2017). An opaque engineering word list: which words should a teacher focus
on? English for Specific Purposes, 45, 31-39.
Webb, S. (2008). Receptive and productive vocabulary sizes of L2 learners. Studies in Second
Language Acquisition, 30(1), 79-95.
Zhong, H. (2012. Multidimensional vocabulary knowledge: development from receptive to
productive use. En D. Hirsh (Ed.), Current perspectives in second language vocabulary
research (pp. 23-55). Berna: Peter Lang.
116
Apéndice
Apéndice I: Metadatos_corpus
(el corpus se puede consultar en www.scap.ugent.be bajo el nombre de dacci)
117
Apéndice II: Referencias bibliográficas (enlaces)_corpus
(el corpus se puede consultar en www.scap.ugent.be bajo el nombre de dacci)
Código Enlace
JA_ACC_01 https://www.acciona.com/media/1637513/discurso_presentacion.pdf
JA_ACC_02 https://www.acciona.com/media/2055329/discurso_presentacion.pdf
JA_ACC_03 https://www.acciona.com/media/2183613/discurso-presentacion.pdf
JA_ACS_01 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2015/Acuerdos%20y%20discursos/discurso_jga_2015_fpr.pdf
JA_ACS_02 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2015/Acuerdos%20y%20discursos/discurso_jga_2015_agf.pdf
JA_ACS_03 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2016/discurso_jga_2016_fpr.pdf
JA_ACS_04 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2016/discurso_jga_2016_agf.pdf
JA_ACS_05 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2017/Discurso_JGA_FPR_%202017.pdf
JA_ACS_06 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2017/Discurso_JGA%202017_AGF.pdf
JA_ATR_01 http://www.atresmediacorporacion.com/documents/2015/04/22/08B66F1B-6A0F-4942-B2AB-F598728C1F7B/01108.pdf
JA_ATR_02 http://www.atresmediacorporacion.com/documents/2015/04/22/95BA08FA-FACA-43EB-B5E7-9DDB5E38247A/01109.pdf
JA_ATR_03 http://www.atresmediacorporacion.com/documents/2016/04/22/3ED2E11B-E8C4-487C-A8E7-90D2B1175B25/01008.pdf
JA_ATR_04 http://www.atresmediacorporacion.com/documents/2016/04/22/E9BAF7A6-22E9-4698-A70C-C162AF1FB23E/01007.pdf
JA_ATR_05 http://www.atresmediacorporacion.com/documents/2017/04/20/9BB48F42-7724-483F-92B5-AB678C386266/4discursopresidentejgoa2017.pdf
JA_ATR_06 http://www.atresmediacorporacion.com/documents/2017/04/20/8022A560-926C-44B9-94CE-62230A9E2E47/5discursoconsejerodelegadojgoa2017.pdf
JA_BAN_01 https://www.bankia.com/recursos/doc/corporativo/20160315/notas-de-prensa/discurso-de-jose-ignacio-goirigolzarri-en-la-junta-general-de-accionistas-2016.pdf
JA_BAN_02 https://www.bankia.com/recursos/doc/corporativo/20170324/jga-2017/discurso-presidente-jga-2017.pdf
JA_BOL_01 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2015/Discurso%20Presidente%20C.Adms_2015.pdf
JA_BOL_02 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2015/Discurso%20Presidenta%20C.Audit_2015.pdf
JA_BOL_03 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2015/Discurso%20Presidente%20C.NyR_2015.pdf
JA_BOL_04 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2015/Discurso%20D.General_2015.pdf
JA_BOL_05 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2016/Doc.14_Discurso%20Presidente%20(Spanish%20only).pdf
JA_BOL_06 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2016/Doc.15_Discurso%20del%20Sra%20%20Prat_2016_(Spanish%20only).pdf
JA_BOL_07 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2016/Doc.16_Discurso%20del%20Sr%20%20Olivencia_2016%20(Spanish%20only).pdf
JA_BOL_08 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2016/Doc.17_Discurso%20Hernani%20(Spanish%20only).pdf
JA_BOL_09 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2017/Doc.9_ES_PJG.pdf
JA_BOL_10 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2017/Doc.10_ES_PJG.pdf
JA_BOL_11 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2017/Doc.11_ES_PJG.pdf
JA_BOL_12 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2017/Doc.12_ES_PJG.pdf
JA_CAF_01 http://www.caf.net/upload/prensa/notas/docs/Discurso-Presidente-Junta-General-Accionistas-2016-cas.pdf
JA_GAM_01 http://www.gamesacorp.com/recursos/doc/accionistas-inversores/gobierno-corporativo/junta-general-accionistas/documentacion-2015/discurso-presidente-2015.pdf
JA_GAM_02 http://www.gamesacorp.com/recursos/doc/accionistas-inversores/gobierno-corporativo/junta-general-accionistas/documentacion-2016/discurso-del-presidente.pdf
JA_GAM_03 http://www.gamesacorp.com/recursos/doc/accionistas-inversores/gobierno-corporativo/junta-general-accionistas/documentacion-2017/discurso-rosa-garcia-es.pdf
JA_GAM_04 http://www.gamesacorp.com/recursos/doc/accionistas-inversores/gobierno-corporativo/junta-general-accionistas/documentacion-2017/discurso-markus-tacke-2017-es.pdf
118
JA_GNF_01 http://www.prensa.gasnaturalfenosa.com/wp-content/uploads/2015/05/Discurso-Salvador-Gabarro_Junta-2015_ES.pdf
JA_GNF_02 http://www.prensa.gasnaturalfenosa.com/wp-content/uploads/2016/05/Discurso-President.pdf
JA_IAG_01 (enlace no disponible)
JA_IAG_02 (enlace no disponible)
JA_IAG_03 (enlace no disponible)
JA_IAG_04 (enlace no disponible)
JA_IAG_05 (enlace no disponible)
JA_IAG_06 (enlace no disponible)
JA_MAP_01 https://noticias.mapfre.com/wp-content/uploads/2017/01/junta-general-accionistas-2016-infor.pdf
JA_MAP_02 https://noticias.mapfre.com/wp-content/uploads/2017/03/DISCURSO-A-HUERTAS-JUNTA-2017.pdf
JA_MAP_03 https://noticias.mapfre.com/wp-content/uploads/2017/03/DISCURSO-ANTONIO-NU%C3%91EZ-JUNTA-2017_ESP.pdf
JA_MAP_04 https://noticias.mapfre.com/wp-content/uploads/2017/03/DISCURSO-FERNANDO-MATA-JUNTA-2017_ESP.pdf
JA_MED_01 http://www.mediaset.es/inversores/es/discursoalejandroechevarriajga2015_MDSFIL20150415_0006.pdf
JA_MED_02 http://www.mediaset.es/inversores/es/discursopaolovasilejga2015_MDSFIL20150415_0007.pdf
JA_MED_03 http://www.mediaset.es/inversores/es/Alejandro-Echevarria_MDSFIL20160426_0007.pdf
JA_MED_04 http://www.mediaset.es/inversores/es/Discurso-Paolo-Vasile_MDSFIL20160418_0003.pdf
JA_MED_05 http://www.mediaset.es/inversores/es/DISCURSO-PRESIDENTE_MDSFIL20170428_0012.pdf
JA_MED_06 http://www.mediaset.es/inversores/es/Discurso-Paolo-Vasile-consejero-ESP_MDSFIL20170428_0013.pdf
JA_PRI_01.1 https://www.prisa.com/uploads/2016/01/discursos-junta.pdf
JA_PRI_01.2 https://www.prisa.com/uploads/2016/01/discursos-junta.pdf
JA_PRI_02.1 https://www.prisa.com/uploads/2016/05/descargas-discursos-es.pdf
JA_PRI_02.2 https://www.prisa.com/uploads/2016/05/descargas-discursos-es.pdf
JA_PRI_03.1 https://www.prisa.com/uploads/2017/06/discursos-jga-prisa-2017.pdf
JA_PRI_03.2 https://www.prisa.com/uploads/2017/06/discursos-jga-prisa-2017.pdf
JA_REE_01 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_junta_2015_v2.pdf
JA_REE_02 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_presidente_junta_2016.pdf
JA_REE_03 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_ceo_junta_2016.pdf
JA_REE_04 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_presidente_junta_2017.pdf
JA_REE_05 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_ceo_junta_2017.pdf
JA_SAE_01 http://www.saetayield.com/uploads/files/hechosrelevantes/25-06-2015-discurso-del-presidente.pdf
JA_SAE_02 http://www.saetayield.com/wp-content/uploads/2016/06/2016-06-22_Discurso-del-Presidente.pdf
JA_SAE_03 http://www.saetayield.com/wp-content/uploads/2017/06/Discurso-Presidente-Junta-2017-Saeta-Yield.pdf
JA_SAN_01 http://www.santander.com/csgs/StaticBS?blobcol=urldata&blobheadername1=content-type&blobheadername2=Content-Disposition&blobheadername3=appID&blobheadervalue1=application%2Fpdf&blobheadervalue2=inline%3Bfilename%3D90%5C681%5CDiscurso+Ana+Bot%C3%ADn+JGA+2017.pdf&blobheadervalue3=santander.wc.CFWCSancomQP01&blobkey=id&blobtable=MungoBlobs&blobwhere=1278737785161&ssbinary=true
JA_SAN_02 http://www.santander.com/csgs/StaticBS?blobcol=urldata&blobheadername1=content-type&blobheadername2=Content-Disposition&blobheadername3=appID&blobheadervalue1=application%2Fpdf&blobheadervalue2=inline%3Bfilename%3D334%5C434%5CDiscurso+JAA+Esp+2017.pdf&blobheadervalue3=santander.wc.CFWCSancomQP01&blobkey=id&blobtable=MungoBlobs&blobwhere=1278737786536&ssbinary=true
JA_TEL_01 https://www.telefonica.com/documents/162467/77510562/DiscursoPresidente_2016.pdf/e4c8a8e6-5244-497d-87fd-2c78c767057f
JA_TEL_02 https://www.telefonica.com/documents/162467/139796258/Discurso_Presidente_2017.pdf/97d6349e-dc8a-8606-94e8-44608f391abf
JA_TRE_01 http://www.tecnicasreunidas.es/recursos/doc/accionistas-e-inversores/gobierno-corporativo/2016/discurso-presidente.pdf
119
JA_TRE_02 http://www.tecnicasreunidas.es/recursos/doc/accionistas-e-inversores/gobierno-corporativo/2016/discurso-vicepresidente-2015.pdf
JA_TRE_03 http://www.tecnicasreunidas.es/recursos/doc/accionistas-e-inversores/gobierno-corporativo/2016/jga/discurso-presidente-jga-2016.pdf
JA_TRE_04 http://www.tecnicasreunidas.es/recursos/doc/accionistas-e-inversores/gobierno-corporativo/2016/jga/discurso-vicepresidente-jga-2016.pdf
120
Apéndice III: PoS-tagging en SCAP_lista completa de etiquetas
(versión adaptada para esta tesina [29/07/2018])
Símbolos ortográficos
Etiqueta Detalles Ejemplos
BACKSLASH unique element \ CM unique element , COLON unique element : DASH closed list -, FS closed list ., !, ?, ⱡ, … FSI closed list ¿, ¡ LP closed list (left parenthesis) (, [ PERCT unique element % QT closed list (quotation symbols) “, ‘, `, «, » RP closed list (right parenthesis) ), ] SEMICOLON unique element ; SLASH unique element / SYM open list (symbols) $, £, ø, etc.
Categorías léxicas
Etiqueta Detalles Ejemplos
ADJ adjectives bello, feo
ADJV deverbal adjectives abierto, adaptado, cerrado
ADV adverbs muy, demasiado, lentamente
ARTIND indefinite articles un, uno, una, unas
ARTDEF definite articles el, la, los, las
ARTNEU neutral article lo (en “lo malo”)
CC coordinating conjunctions y, o
CCAD adversative coordinating conjunctions pero, mas
CCNEG negative coordinating conjunction ni
CQUE que que
CSUB subordinating conjunctions como, porque, etc. al + inf.
DM demonstrative modifiers and pronouns esta, ésta, esos, etc. (pero no esto, eso, aquello)
INT interrogative pronouns quiénes, cuántas, cuánto, etc.
NC common nouns coordinación, libro, trabajo
NEG negation no
NMEA measure noun metros, litros
ORD ordinals primer, primero, primeros, etc.
PAL portmanteau word formed by a and el al
PDEL portmanteau word formed by de and el del
PPC clitic personal pronoun le, les
PPO possessive pronouns mi, su, sus, etc.
PPX clitics and personal pronouns nos, me, nosotros, te, sí, nadie, etc.
PREP prepositions a, de, sin, etc.
QU quantifiers cada, poco(s), todo, etc.
REL relative pronouns cuyo, donde, como, etc.
SE se se
VLCLIGER clitic gerund verb preguntándolo
VLCLI2GER gerund verb with two clitics preguntándomelo
VLSEGER gerund verb with enclitic “se” preguntándose
VLSECLIGER gerund verb with enclitic “se” and clitic pronoun
preguntándoselo
121
VLCLIINF clitic infinitive verb preguntarlo
VLCLI2INF infinitive verb with two clitics preguntármelo
VLSEINF infinitive verb with enclitic “se” preguntarse
VLSECLIINF infinitive verb with enclitic “se” and clitic pronoun
preguntárselo
VLCLIFIN clitic finite verb pregúntalo
VLCLI2FIN finite verb with two clitics pregúntamelo
VLSEFIN finite verb with enclitic “se” pregúntese
VLSECLIFIN finite verb with enclitic “se” and clitic pronoun
pregúnteselo
VEPART past particple estar estado
VEFIN finite form estar estoy, estabas, etc.
VECLIFIN clitic finite estar estate, etc.
VEGER gerund estar estando
VEINF infinitive estar estar
VHPART past participle haber habido
VHFIN finite form haber he, ha, etc.
VHGER gerund haber habiendo
VHINF infinitive haber haber
VLPART past participle lexical verb abierto, preguntado, trabajado
VLFIN finite form lexical verb abro, preguntas
VLGER gerund lexical verb abriendo, preguntando
VLINF infinitive lexical verb abrir, preguntar
VMPART past participle modal verb podido, debido, etc.
VMFIN finite form modal verb puedo, debemos, etc.
VMGER gerund modal verb pudiendo, debiendo, etc.
VMINF infinitive modal verb poder, deber, etc.
VSPART past participle ser sido
VSFIN finite form ser soy, eras, etc.
VSGER gerund ser siendo
VSINF infinitive ser ser
XP proper nouns
Categorías especiales
Etiqueta Detalles Ejemplos
ACRNM acronyms ISO, CEI, etc.
ALFP plural letter of the alphabet as/aes, bes, etc.
ALFS singular letter of the alphabet a, b, etc.
CARD cardinals
CODE alphanumeric code
FO formula
ITJN interjection oh, ja, etc.
PE foreign word
PNC unclassified word
UMMX measure unit MHz, km, mA, etc.
122
Apéndice IV: 100 términos idóneos
# POS LEMA FREC PCTIL %DIFF %DIFF_Sign DP
1 NC dividendo 251 5 > 571707 < 0,001 0,11
2 NC ratio 112 5 > 571707 < 0,001 0,36
3 ADJ sostenible 96 5 > 571707 < 0,001 0,23
4 ADJ regulatorio 90 5 > 571707 < 0,001 0,29
5 NC diversificación 43 5 > 571707 < 0,001 0,26
6 NC endeudamiento 37 5 > 571707 < 0,001 0,22
7 ADJ normativo 33 5 > 571707 < 0,001 0,26
8 NC liquidez 32 5 > 571707 < 0,001 0,46
9 NC capitalización 31 5 > 571707 < 0,001 0,26
10 ADJ macroeconómico 28 5 > 571707 < 0,001 0,12
11 NC digitalización 27 4 > 571707 < 0,001 0,16
12 NC sinergia 27 4 > 571707 < 0,001 0,38
13 NC adjudicación 26 4 > 571707 < 0,001 0,43
14 NC volatilidad 23 4 > 571707 < 0,001 0,16
15 NC revalorización 21 4 > 571707 < 0,001 0,28
16 NC vicepresidente 19 4 > 571707 < 0,001 0,44
17 V optimizar 18 4 > 571707 < 0,001 0,19
18 NC discapacidad 17 4 > 571707 < 0,001 0,34
19 NC internacionalización 16 4 > 571707 < 0,001 0,33
20 NC auditoría 15 4 > 571707 < 0,001 0,23
21 NC devaluación 14 4 > 571707 < 0,001 0,40
22 NC apalancamiento 13 4 > 571707 < 0,001 0,33
23 ADJ sectorial 13 4 > 571707 < 0,001 0,26
24 NC ralentización 12 4 > 571707 < 0,001 0,38
25 NC disrupción 11 4 > 571707 < 0,001 0,49
26 NC reelección 11 4 > 571707 < 0,001 0,43
27 ADJ coordinador 10 4 > 571707 < 0,001 0,45
28 ADJ crediticio 9 4 > 571707 < 0,001 0,31
29 ADJ mayorista 9 4 > 571707 < 0,001 0,41
30 ADJ geopolítico 8 4 > 571707 < 0,001 0,26
31 ADJ porcentual 8 4 > 571707 < 0,001 0,19
32 ADJ neto 185 5 571707 < 0,001 0,18
33 NC rentabilidad 194 5 199774 < 0,001 0,12
34 ADJ corporativo 205 5 105504 < 0,001 0,19
35 NC filial 33 5 101898 < 0,001 0,24
36 NC implantación 33 5 101898 < 0,001 0,27
37 NC crecimiento 539 5 92453 < 0,001 0,07
38 NC integración 81 5 83352 < 0,001 0,40
39 NC incremento 133 5 82116 < 0,001 0,13
40 ADJ climático 41 5 63262 < 0,001 0,38
41 NC solvencia 40 5 61716 < 0,001 0,47
42 NC contratación 39 5 60171 < 0,001 0,43
43 NC financiación 78 5 60171 < 0,001 0,35
44 NC reducción 109 5 56050 < 0,001 0,17
45 NC accionista 256 5 52650 < 0,001 0,08
46 V maximizar 17 4 52444 < 0,001 0,34
47 NC reestructuración 17 4 52444 < 0,001 0,30
48 NC competitividad 32 5 49353 < 0,001 0,35
49 NC liderazgo 77 5 47499 < 0,001 0,16
50 NC inversión 344 5 46128 < 0,001 0,24
51 NC remuneración 58 5 44717 < 0,001 0,16
52 NC consolidación 43 5 44202 < 0,001 0,21
123
53 ADJ atribuible 14 4 43171 < 0,001 0,13
54 NC record 13 4 40081 < 0,001 0,35
55 NC cotización 50 5 38535 < 0,001 0,22
56 NC mejora 205 5 37172 < 0,001 0,11
57 NC segmento 36 5 36990 < 0,001 0,38
58 NC déficit 23 4 35444 < 0,001 0,25
59 NC retribución 67 5 34414 < 0,001 0,40
60 V priorizar 11 4 33899 < 0,001 0,24
61 NC ratificación 11 4 33899 < 0,001 0,22
62 NC vencimiento 11 4 33899 < 0,001 0,40
63 ADJ institucional 32 5 32869 < 0,001 0,30
64 NC desempeño 42 5 32353 < 0,001 0,31
65 ADJ consejero 31 5 31838 < 0,001 0,31
66 NC proveedor 40 5 30808 < 0,001 0,26
67 NC eficiencia 135 5 29704 < 0,001 0,23
68 NC balance 86 5 29434 < 0,001 0,09
69 NC coste 222 5 28490 < 0,001 0,24
70 NC activo 118 5 27955 < 0,001 0,40
71 ADJ organizativo 17 4 26172 < 0,001 0,13
72 ADJ diferencial 25 4 25657 < 0,001 0,21
73 NC comisión 165 5 25399 < 0,001 0,32
74 NC bono 16 4 24626 < 0,001 0,21
75 ADJ cualitativo 8 4 24626 < 0,001 0,44
76 ADJ impositivo 8 4 24626 < 0,001 0,21
77 NC gestión 279 5 24538 < 0,001 0,11
78 ADJ global 161 5 23596 < 0,001 0,16
79 NC ampliación 45 5 23081 < 0,001 0,19
80 NC cumplimiento 91 5 21535 < 0,001 0,19
81 ADJ precedente 14 4 21535 < 0,001 0,28
82 NC reglamento 14 4 21535 < 0,001 0,32
83 NC semestre 21 4 21535 < 0,001 0,16
84 ADJ anual 118 5 21354 < 0,001 0,08
85 NC contribución 53 5 20376 < 0,001 0,23
86 NC posicionamiento 39 5 19990 < 0,001 0,13
87 NC productividad 13 4 19990 < 0,001 0,30
88 ADJ bursátil 32 5 19681 < 0,001 0,11
89 ADJ emergente 32 5 19681 < 0,001 0,24
90 NC tasa 36 5 18445 < 0,001 0,19
91 NC consecución 23 4 17672 < 0,001 0,26
92 NC desarrollo 318 5 17451 < 0,001 0,18
93 NC asignación 17 4 17414 < 0,001 0,17
94 NC trimestre 112 5 17208 < 0,001 0,48
95 NC euro 951 5 16139 < 0,001 0,11
96 NC adquisición 63 5 16126 < 0,001 0,33
97 NC distribución 83 5 15933 < 0,001 0,11
98 NC innovación 66 5 15592 < 0,001 0,16
99 ADJ ejecutivo 60 5 15354 < 0,001 0,35
100 NC junta 35 5 15354 < 0,001 0,28
124
Apéndice V: 50 términos no idóneos_lista1 (frecuentes pero no específicos)
# POS LEMA FREC PCTIL %DIFF %DIFF_Sign DP
1 V seguir 375 5 11 entre 0,01 y 0,05 0,04
2 ADJ bueno 247 5 -7 no 0,07
3 NC mundo 184 5 13 no 0,15
4 NC persona 145 5 20 entre 0,01 y 0,05 0,07
5 NC lugar 135 5 -16 entre 0,01 y 0,05 0,10
6 ADJ propio 124 5 19 no 0,21
7 V conseguir 116 5 -2 no 0,16
8 NC manera 116 5 27 entre 0,01 y 0,05 0,15
9 NC caso 100 5 4 no 0,23
10 ADJ posible 89 5 30 entre 0,01 y 0,05 0,16
11 ADJ fuerte 88 5 33 entre 0,01 y 0,05 0,07
12 V convertir 87 5 14 no 0,19
13 NC duda 86 5 23 no 0,11
14 V mostrar 86 5 6 no 0,22
15 NC final 85 5 30 entre 0,01 y 0,05 0,15
16 NC historia 80 5 11 no 0,29
17 V lograr 78 5 -7 no 0,27
18 ADJ capaz 71 5 -1 no 0,23
19 NC hecho 70 5 2 no 0,08
20 NC resto 68 5 -9 no 0,19
21 ADJ claro 64 5 32 entre 0,01 y 0,05 0,12
22 ADJ bajo 61 5 16 no 0,22
23 ADJ difícil 58 5 36 entre 0,01 y 0,05 0,19
24 NC atención 57 5 -11 no 0,37
25 V asegurar 55 5 -20 no 0,21
26 NC entrada 48 5 6 no 0,08
27 V recibir 48 5 -8 no 0,14
28 NC papel 46 5 20 no 0,25
29 NC respuesta 46 5 -30 entre 0,01 y 0,05 0,14
30 V apoyar 44 5 -6 no 0,09
31 V compartir 43 5 11 no 0,24
32 V señalar 43 5 -23 no 0,05
33 V ganar 41 5 -2 no 0,20
34 ADJ enorme 40 5 -12 no 0,12
35 V partir 40 5 4 no 0,12
36 V confiar 39 5 11 no 0,20
37 NC orden 38 5 12 no 0,38
38 NC centro 36 5 5 no 0,20
39 NC detalle 36 5 1 no 0,19
40 NC dirección 36 5 -25 no 0,06
41 ADJ real 35 5 15 no 0,19
42 ADJ profundo 34 5 9 no 0,16
43 NC peso 33 5 58 entre 0,01 y 0,05 0,09
44 V sufrir 33 5 -25 no 0,16
45 NC estado 32 5 1 no 0,36
46 NC motivo 32 5 -4 no 0,17
47 NC circunstancia 31 5 35 no 0,19
48 V cubrir 31 5 -27 no 0,06
49 NC cuestión 31 5 26 no 0,23
50 V existir 31 5 -35 entre 0,01 y 0,05 0,14
125
Apéndice VI: 50 términos no idóneos_lista2 (específicos pero menos frecuentes)
# POS LEMA FREQ PCTIL %DIFF %DIFF_Sign DP
1 NC referéndum 10 3 > 30808 < 0,001 0,73
2 NC pyme 9 3 > 30808 < 0,001 0,75
3 NC recompra 9 3 > 30808 < 0,001 0,67
4 NC fortalecimiento 8 3 > 30808 < 0,001 0,67
5 NC biodiversidad 7 3 > 30808 < 0,001 0,77
6 NC certificación 7 3 > 30808 < 0,001 0,67
7 ADJ multiplataforma 7 3 > 30808 < 0,001 0,74
8 ADJ nominal 7 3 > 30808 < 0,001 0,67
9 NC megavatio 6 3 > 30808 < 0,001 0,77
10 NC formulación 5 3 > 30808 < 0,001 0,75
11 ADJ generalista 5 3 > 30808 < 0,001 0,74
12 NC kilovoltio 5 3 > 30808 < 0,001 0,77
13 NC multicanalidad 5 3 > 30808 < 0,001 0,75
14 NC petrolera 5 3 > 30808 < 0,001 0,81
15 NC petroquímica 5 3 > 30808 < 0,001 0,81
16 ADJ reasegurador 5 3 > 30808 < 0,001 0,75
17 NC trillón 5 3 > 30808 < 0,001 0,81
18 NC viabilidad 5 3 > 30808 < 0,001 0,74
19 ADJ comercializador 4 3 > 30808 < 0,001 0,74
20 ADJ consultivo 4 3 > 30808 < 0,001 0,75
21 NC formalización 4 2 > 30808 < 0,001 0,77
22 NC hidrocarburo 4 2 > 30808 < 0,001 0,81
23 ADJ hipotecario 4 3 > 30808 < 0,001 0,75
24 NC inconformismo 4 2 > 30808 < 0,001 0,74
25 ADJ operacional 4 3 > 30808 < 0,001 0,75
26 ADJ radioeléctrico 4 3 > 30808 < 0,001 0,74
27 ADJ supervisor 4 3 > 30808 < 0,001 0,75
28 NC abaratamiento 3 2 > 30808 < 0,001 0,81
29 ADJ actuarial 3 2 > 30808 < 0,001 0,75
30 NC autoconsumo 3 2 > 30808 < 0,001 0,77
31 ADJ bituminoso 3 2 > 30808 < 0,001 0,81
32 NC brasil 3 2 > 30808 < 0,001 0,75
33 ADJ curricular 3 2 > 30808 < 0,001 0,74
34 NC desaladora 3 2 > 30808 < 0,001 0,81
35 ADJ desfasador 3 2 > 30808 < 0,001 0,77
36 NC exclusivista 3 2 > 30808 < 0,001 0,74
37 NC gasificación 3 2 > 30808 < 0,001 0,77
38 ADJ hidroeléctrico 3 2 > 30808 < 0,001 0,77
39 NC homologación 3 2 > 30808 < 0,001 0,68
40 ADJ metanero 3 2 > 30808 < 0,001 0,77
41 ADJ minorista 3 2 > 30808 < 0,001 0,75
42 NC negociado 3 2 > 30808 < 0,001 0,75
43 NC otorgamiento 3 2 > 30808 < 0,001 0,74
44 ADJ poblacional 3 2 > 30808 < 0,001 0,81
45 NC reforzamiento 3 2 > 30808 < 0,001 0,67
46 NC repositorio 3 2 > 30808 < 0,001 0,75
47 ADJ secuencial 3 2 > 30808 < 0,001 0,75
48 ADJ biocombustible 2 1 > 30808 < 0,001 0,93
49 NC cristalización 2 1 > 30808 < 0,001 0,81
50 NC liberalización 2 1 > 30808 < 0,001 0,93
126
Apéndice VII: Glosario de traducción extenso
127
128
Apéndice VIII: Glosario de traducción breve
Glosario
Aviso: el glosario se ha generado automáticamente sin tener en cuenta el contexto. Las
traducciones deberían usarse con cautela.
accionista (sust m): aandeelhouder
activo (sust m): actief, activa, werkzaam
adjudicación (sust f): toekenning
adquisición (sust f): aankoop, aanschaf, aanwinst, acquisitie, koop, verwerving
ampliación (sust f): aanbouw, uitbreiding, vergroting
anual (adj): [?] jaarlijks
apalancamiento (sust m): [?] financiële hefboomwerking, hefboom, hefboomkracht, leverage,
schuldverhoudingscoëfficiënt, vermogensverhouding
asignación (sust f): toelage, toewijzing
atribuible (adj): [?] toe te schrijven, toewijsbaar
auditoría (sust f): accountantsbureau, accountantsonderzoek, audit, doorlichting
balance (sust m): balans, evenwicht, saldo
bono (sust m): bon, obligatie, waardebon
bursátil (adj): [?] aandelenmarkt, beurs-, stereotiep
capitalización (sust f): kapitalisatie
climático (adj): no incluido en la base de datos
comisión (sust f): commissie, opdracht
competitividad (sust f): concurrentievermogen
consecución (sust f): [?] prestatie, verkrijging, verwerving, wapenfeit
consejero (adj m): [?] adviseur, assessor, beheerder, bewindvoerder, bijzitter, consulent, lid, mentor,
minister, raadgever, raadsman, raadsvrouw
consolidación (sust f): consolidatie, versteviging
contratación (sust f): engagement, indienstneming, nominatie
contribución (sust f): belasting, bijdrage
coordinador (adj m): [?] Coördinator, coördinator, overdekkend, overkoepelend
corporativo (adj): [?] bedrijfsmatig, zakelijke
129
coste (sust m): kosten
cotización (sust f): koers, notering, plan
crecimiento (sust m): groei, toename, tumor
crediticio (adj): [?] credit, eer
cualitativo (adj): kwalitatief
cumplimiento (sust m): beleefdheid, vervulling, voltooiing
desarrollo (sust m): [?] ontwikkeling
desempeño (sust m): bedrevenheid, vervulling
devaluación (sust f): devaluatie, waardevermindering
diferencial (adj): differentieel, uiteenlopend
digitalización (sust f): digitalisatie, digitalisering
discapacidad (sust f): handicap
disrupción (sust f): no incluido en la base de datos
distribución (sust f): distributie, levering, verdeling, verspreiding
diversificación (sust f): diversificatie
dividendo (sust m): deeltal, dividend, winstaandeel
déficit (sust m): deficit, tekort
eficiencia (sust f): efficiëntie, rendement
ejecutivo (adj m): dringend, uitvoerend
emergente (adj): [?] opkomend
endeudamiento (sust m): schuldenlast
euro (sust m): [?] EUR, euro, oostenwind
filial (sust f): agentschap, bijkantoor, filiaal
financiación (sust f): bekostiging, financieren, financiering
geopolítico (adj): geopolitiek
gestión (sust f): beheer, management
global (adj): globaal
implantación (sust f): implantatie, implementatie, inplanting
impositivo (adj): [?] belasten, belasting
incremento (sust m): aangroei, groei, toename
130
innovación (sust f): innovatie, vernieuwing
institucional (adj): [?] bedrijfsmatig, institueel, institutionele
integración (sust f): integratie
internacionalización (sust f): [?] internationalisering, mondialisering
inversión (sust f): belegging, investering
junta (sust f): naad, vergadering, voeg
liderazgo (sust m): leiderschap
liquidez (sust f): liquiditeit
macroeconómico (adj): [?] macro-economisch, macro-economische
maximizar (v): maximaliseren
mayorista (adj f): no incluido en la base de datos
mejora (sust f): verbetering, veredeling, vooruitgang
neto (adj): netto
normativo (adj): [?] maatgevend, normatief
optimizar (v): optimaliseren
organizativo (adj): organisatorisch
porcentual (adj): procentueel
posicionamiento (sust m): [?] plaatsing, positionering
precedente (adj m): voorafgaand, voorgaand
priorizar (v): [?] prioriteiten stellen, prioriteren
productividad (sust f): opbrengst, productiviteit
proveedor (sust m): leverancier
ralentización (sust f): [?] neergang, vertraging
ratificación (sust f): bekrachtiging
ratio (sust m, f): [?] Razón, Razón, fundamentación, fundamentación, ratio, verhouding, Ãndice, índice
record (sust m): record
reducción (sust f): afname, afslag, korting, reductie, vermindering
reelección (sust f): herkiezing, herverkiezing
reestructuración (sust f): herstructurering
reglamento (sust m): reglement, verordening
131
regulatorio (adj): [?] regelgevende, regulerend
remuneración (sust f): beloning, loon, vergoeding
rentabilidad (sust f): rentabiliteit
retribución (sust f): bezoldiging, retributie
revalorización (sust f): herwaardering
sectorial (adj): [?] sectoraal, sectorale
segmento (sust m): gedeelte, segment, stuk
semestre (sust m): halfjaar, semester
sinergia (sust f): synergie
solvencia (sust f): kredietwaardigheid, solvabiliteit
sostenible (adj): handhaafbaar
tasa (sust f): belasting, heffing, schatting
trimestre (sust m): kwartaal
vencimiento (sust m): afloop, einde
vicepresidente (sust m): ondervoorzitter, vice-president, vicepresident
volatilidad (sust f): historische volatility, vluchtigheid, volatiliteit
132
Apéndice IX: Encuesta_documento1
VERSIÓN 1
Nombre: …………………………………………………………………………………………………
Género / Contexto
Discursos pronunciados en juntas generales de accionistas de empresas españolas
Selección de vocabulario
Las listas de palabras siguientes fueron generadas por la herramienta SCAP. No aparecen en
el método de vocabulario de Thematische Woordenschat (Intertaal) y posiblemente sean
palabras “difíciles” a las que conviene dedicar atención en las clases.
Actividad
Por favor, deberías evaluar las palabras marcando :
No = no entiendo la palabra y consultaría un diccionario para entenderla o para
traducirla
PAS = entiendo la palabra pero no creo que lo utilizaría espontáneamente si me
hiciera falta
ACT = creo que utilizaría esta palabra si me hiciera falta
Por ejemplo:
No Pas Act
pileta X
partidario X
bandera X
133
Conoces los sustantivos
siguientes?
NO PAS ACT
accesibilidad accionariado acierto acorde acreedor adhesión adjudicatario adversidad aerogenerador ambición amplitud analista ánimo anunciante aparición apoyo aseguradora asistencia audiencia auditor ausencia austeridad autocartera autoridad bajada biodiversidad bombeo bono búsqueda carbono
categoría certeza cese cimiento circuito cláusula clave clientela competitividad complejo complicidad componente consejero consultor contexto continente contingencia continuidad contratista contribuyente coraje creatividad creces credibilidad cuantía cuidado debate debilidad década derivado desapalancamiento descenso desembolso desempeño
134
desequilibrio despliegue dígito dimensión dinámica dinamismo discapacidad disponibilidad disrupción diversidad dividendo dosis efectividad
¿Conoces los verbos siguientes?
NO PAS ACT
acometer
acumular
adaptar
adjudicar
adoptar
afectar
aglutinar
añadir
animar
aparecer
arrojar
articular
augurar
aunar
avalar
avecinar
calificar
canalizar
caracterizar
ceder
centrar
colaborar
comercializar
compartir
compensar
complacer
concentrar
concluir
condicionar
configurar
constar
cotizar
crear
creer
decrecer
definir
derivar
descender
descontar
desempeñar
¿Conoces los adjetivos siguientes?
NO PAS ACT
abrupto
accionarial
acreedor
acústico
alcanzable
amplio
analógico
135
apasionante
arduo
asegurador
atribuible
audiovisual
autonómico
bancario
básico
benéfico
bienvenido
bursátil
céntimo
cinematográfico
circulante
clave
comercializador
complejo
concesional
consecutivo
consejero
considerable
consiguiente
consistente
constructor
consultivo
convencional
coordinador
corporativo
creativo
crucial
cualitativo
cuantitativo
definitivo
demográfico
destacable
diferenciador
directivo
distintivo
diverso
dominante
dominical
drástico
duradero
educativo
eficiente
ejecutivo
ejemplar
emblemático
empresarial
envidiable
equivalente
errático
específico
espectacular
136
Apéndice X: Encuesta_documento2
VERSIÓN 2
Nombre: …………………………………………………………………………………………………
Género / Contexto
Discursos pronunciados en juntas generales de accionistas de empresas españolas
Selección de vocabulario
Las listas de palabras siguientes fueron generadas por la herramienta SCAP. No aparecen en
el método de vocabulario de Thematische Woordenschat (Intertaal) y posiblemente sean
palabras “difíciles” a las que conviene dedicar atención en las clases.
Actividad
Por favor, deberías evaluar las palabras marcando :
No = no entiendo la palabra y consultaría un diccionario para entenderla o para
traducirla
PAS = entiendo la palabra pero no creo que lo utilizaría espontáneamente si me
hiciera falta
ACT = creo que utilizaría esta palabra si me hiciera falta
Por ejemplo:
No Pas Act
pileta X
partidario X
bandera X
137
¿Conoces los sustantivos
siguientes?
NO PAS ACT
eficacia
eficiencia
ejemplar
emisora
emprendedor
endeudamiento
entusiasmo
espacio
espectro
estabilidad
estándar
estatuto
estrategia
etapa
ética
exigencia
experto
fabricante
facilidad
factor
fase
fenómeno
fiabilidad
ficción
figura
filial
flexibilidad
formato
fósil
franquicia
funcionalidad
funcionamiento
fundación
ganancia
gratitud
hidráulica
impacto
inestabilidad
inflexión
inicio
inquietud
instancia
integridad
intensidad
interconexión
iva
junta
lealtad
lema
libra
licencia
liquidez
lustro
magnitud
mandato
margen
mecanismo
metodología
misión
modalidad
módulo
movilidad
multicanalidad
navegador
138
nombramiento
nómina
norma
objeto
ocasión
optimismo
organismo
orgullo
palanca
patrocinio
período
permanencia
¿Conoces los verbos siguientes?
NO PAS ACT
destacar
determinar
devolver
distribuir
diversificar
elaborar
elevar
eliminar
empeorar
enriquecer
equilibrar
equivaler
estabilizar
establecer
estrenar
estructurar
evaluar
evolucionar
expandir
extraer
favorecer
finalizar
financiar
formalizar
formular
implantar
implicar
innovar
intensificar
intervenir
introducir
limitar
manifestar
materializar
mencionar
moderar
mostrar
ocultar
ofrecer
optar
¿Conoces los adjetivos siguientes?
NO PAS ACT
esperanzador
estándar
estatutario
estricto
estructural
ético
exento
exhaustivo
139
exigente
existente
externo
favorable
fertilizante
fósil
fotovoltaico
funcional
generador
generalista
geográfico
geopolítico
gerencial
global
hidráulico
hipotecario
hispano
iberio
idéntico
ilusionante
implícito
imposible
impositivo
imprescindible
incierto
indirecto
indiscutible
indudable
inestimable
inevitable
informático
informativo
ingente
inicial
inmerso
innovador
innumerable
institucional
íntegro
interanual
latinoamericano
líquido
macroeconómico
masivo
matinal
mayoritario
mediano
medioambiental
metálico
minoritario
mixto
multicanal
multiplataforma
140
Apéndice XI: Encuesta_documento3
VERSIÓN 3
Nombre: …………………………………………………………………………………………………
Género / Contexto
Discursos pronunciados en juntas generales de accionistas de empresas españolas
Selección de vocabulario
Las listas de palabras siguientes fueron generadas por la herramienta SCAP. No aparecen en
el método de vocabulario de Thematische Woordenschat (Intertaal) y posiblemente sean
palabras “difíciles” a las que conviene dedicar atención en las clases.
Actividad
Por favor, deberías evaluar las palabras marcando :
No = no entiendo la palabra y consultaría un diccionario para entenderla o para
traducirla
PAS = entiendo la palabra pero no creo que lo utilizaría espontáneamente si me
hiciera falta
ACT = creo que utilizaría esta palabra si me hiciera falta
Por ejemplo:
NO PAS ACT
pileta X
partidario X
bandera X
141
¿Conoces los sustantivos
siguientes?
NO PAS ACT
perspectiva pertenencia petrolera
petroquímica
plan
plantilla
plataforma
pluralidad
potencial
presidencia
prestigio
primo
productividad
profesionalidad
prudencia
pyme
rapidez
ratio
reaseguro
recesión
recompra
recorte
referencia
referéndum refinería reflejo reglamento regulador relevancia renuncia
reparto repaso reporte repunte resolución restante rumbo saeta segmento sencillez senda seno significado siniestralidad síntoma solidez solvencia sostenibilidad subasta subestación superávit talento tarea técnica telecomunicación terreno toma torno totalidad transacción transparencia trayectoria trienio trillón
142
turbina vector vehículo vencimiento versión vigor virtud visibilidad visión vocación vocal volatilidad voluntariado
¿Conoces los verbos siguientes?
NO PAS ACT
otorgar
permanecer
pivotar
preservar
presidir
progresar
proporcionar
recaer
recaudar
recurrir
refrendar
registrar
reinventar
reiterar
relacionar
remunerar
rendir
repartir
retribuir
revalorizar
revisar
roer
sacrificar
satisfacer
seleccionar
simplificar
situar
soler
someter
subrayar
sugerir
sumar
sumir
superar
supervisar
timar
totalizar
triplicar
vincular
¿Conoces los adjetivos siguientes?
NO PAS ACT
múltiple
neutral
neutro
nominal
operacional
operador
ordinario
pertinente
143
petroquímico
plurianual
porcentual
potente
prestigioso
presupuestario
previsible
procesal
prometedor
proporcional
publicitario
radioeléctrico
radiofónico
real
reasegurador
refino
regional
relevante
repentino
respectivo
restante
resultante
retributivo
robusto
significativo
similar
siniestro
soberano
societario
solidario
solvente
submarino
supervisor
tarifario
tecnológico
televisivo
temático
terminal
termosolar
transformador
trascendental
unitario
usuario
vacante
variable
viable
vial
vigente
virtual
vital
volátil
vulnerable
144
Apéndice XII: Encuesta_niveles Ba2
Ba2_nivel 1 (178 términos) POS LEMA POS LEMA POS LEMA POS LEMA
NC ambición NC objeto V descender ADJ crucial
NC apoyo NC ocasión V determinar ADJ cualitativo
NC asistencia NC optimismo V distribuir ADJ cuantitativo
NC audiencia NC organismo V eliminar ADJ definitivo
NC ausencia NC período V equivaler ADJ demográfico
NC autoridad NC perspectiva V establecer ADJ dominante
NC bajada NC plan V evaluar ADJ drástico
NC biodiversidad NC potencial V evolucionar ADJ educativo
NC categoría NC presidencia V finalizar ADJ eficiente
NC certeza NC prestigio V financiar ADJ equivalente
NC clave NC primo V formular ADJ específico
NC complejo NC productividad V implicar ADJ espectacular
NC contexto NC profesionalidad V innovar ADJ favorable
NC continente NC referencia V intervenir ADJ funcional
NC continuidad NC referéndum V introducir ADJ geográfico
NC creatividad NC relevancia V limitar ADJ global
NC credibilidad NC resolución V mencionar ADJ idéntico
NC cuidado NC restante V ofrecer ADJ implícito
NC debate NC significado V optar ADJ imposible
NC derivado NC síntoma V progresar ADJ incierto
NC dimensión NC talento V reinventar ADJ indirecto
NC dinámica NC tarea V relacionar ADJ inevitable
NC diversidad NC técnica V revisar ADJ informativo
NC efectividad NC totalidad V sacrificar ADJ innumerable
NC eficiencia NC transacción V satisfacer ADJ latinoamericano
NC entusiasmo NC transparencia V seleccionar ADJ metálico
NC espacio NC vehículo V simplificar ADJ neutral
NC estabilidad NC versión V situar ADJ neutro
NC estrategia NC visión V soler ADJ porcentual
NC etapa NC vocal V subrayar ADJ prestigioso
NC experto V adaptar V sugerir ADJ previsible
NC factor V adoptar V superar ADJ real
NC fase V afectar ADJ amplio ADJ regional
NC fenómeno V añadir ADJ audiovisual ADJ relevante
NC ficción V aparecer ADJ autonómico ADJ significativo
NC figura V articular ADJ básico ADJ similar
NC flexibilidad V calificar ADJ bienvenido ADJ solidario
NC formato V caracterizar ADJ clave ADJ tecnológico
NC fundación V colaborar ADJ complejo ADJ temático
NC impacto V compensar ADJ consecutivo ADJ terminal
NC inicio V concentrar ADJ considerable ADJ variable
NC intensidad V concluir ADJ consiguiente ADJ virtual
NC junta V crear ADJ consistente ADJ vital
NC mecanismo V creer ADJ creativo ADJ vulnerable
NC misión V definir
145
Ba2_nivel 2 (132 términos)
POS LEMA POS LEMA POS LEMA POS LEMA
NC accesibilidad NC integridad V equilibrar ADJ estructural
NC acorde NC magnitud V estabilizar ADJ ético
NC amplitud NC mandato V estructurar ADJ existente
NC analista NC metodología V expandir ADJ externo
NC ánimo NC navegador V favorecer ADJ fósil
NC aparición NC norma V intensificar ADJ generalista
NC auditor NC orgullo V manifestar ADJ hispano
NC búsqueda NC pertenencia V moderar ADJ ilusionante
NC carbono NC plantilla V permanecer ADJ indiscutible
NC circuito NC plataforma V preservar ADJ indudable
NC competitividad NC pluralidad V proporcionar ADJ informático
NC complicidad NC rapidez V recurrir ADJ inicial
NC componente NC reflejo V repartir ADJ líquido
NC consultor NC renuncia V retribuir ADJ masivo
NC debilidad NC repaso V supervisar ADJ medioambiental
NC década NC segmento V totalizar ADJ múltiple
NC desequilibrio NC solidez V triplicar ADJ nominal
NC dinamismo NC telecomunicación ADJ abrupto ADJ operacional
NC discapacidad NC terreno ADJ analógico ADJ operador
NC disponibilidad NC turbina ADJ apasionante ADJ ordinario
NC dosis NC visibilidad ADJ bancario ADJ pertinente
NC ejemplar NC voluntariado ADJ benéfico ADJ potente
NC emisora V acumular ADJ cinematográfico ADJ proporcional
NC estándar V animar ADJ comercializador ADJ radioeléctrico
NC estatuto V centrar ADJ constructor ADJ respectivo
NC ética V comercializar ADJ consultivo ADJ restante
NC fabricante V compartir ADJ coordinador ADJ resultante
NC facilidad V decrecer ADJ corporativo ADJ robusto
NC fósil V derivar ADJ distintivo ADJ submarino
NC funcionalidad V elaborar ADJ diverso ADJ supervisor
NC funcionamiento V elevar ADJ duradero ADJ televisivo
NC gratitud V empeorar ADJ ejemplar ADJ transformador
NC inestabilidad V enriquecer ADJ estricto ADJ usuario
146
Ba2_nivel 3 (136 términos)
POS LEMA POS LEMA POS LEMA POS LEMA
NC acierto NC modalidad V diversificar ADJ exhaustivo
NC adhesión NC módulo V estrenar ADJ exigente
NC adversidad NC movilidad V extraer ADJ fertilizante
NC anunciante NC nombramiento V formalizar ADJ generador
NC aseguradora NC permanencia V implantar ADJ geopolítico
NC autocartera NC petroquímica V materializar ADJ hidráulico
NC bombeo NC prudencia V mostrar ADJ hipotecario
NC cláusula NC ratio V presidir ADJ iberio
NC clientela NC reaseguro V registrar ADJ impositivo
NC consejero NC recesión V reiterar ADJ inestimable
NC contratista NC recompra V rendir ADJ innovador
NC contribuyente NC recorte V revalorizar ADJ institucional
NC creces NC reglamento V someter ADJ íntegro
NC cuantía NC regulador V sumar ADJ interanual
NC descenso NC reporte V sumir ADJ macroeconómico
NC desempeño NC sostenibilidad V vincular ADJ mayoritario
NC disrupción NC toma ADJ acústico ADJ mediano
NC dividendo NC torno ADJ alcanzable ADJ minoritario
NC eficacia NC trayectoria ADJ asegurador ADJ mixto
NC emprendedor NC trillón ADJ céntimo ADJ multicanal
NC espectro NC vector ADJ circulante ADJ multiplataforma
NC fiabilidad NC vigor ADJ concesional ADJ petroquímico
NC filial NC virtud ADJ consejero ADJ plurianual
NC franquicia NC vocación ADJ convencional ADJ presupuestario
NC ganancia V adjudicar ADJ destacable ADJ procesal
NC hidráulica V aglutinar ADJ diferenciador ADJ publicitario
NC inquietud V canalizar ADJ directivo ADJ radiofónico
NC instancia V ceder ADJ dominical ADJ reasegurador
NC interconexión V condicionar ADJ ejecutivo ADJ retributivo
NC lema V configurar ADJ emblemático ADJ siniestro
NC libra V constar ADJ empresarial ADJ societario
NC licencia V descontar ADJ envidiable ADJ termosolar
NC liquidez V desempeñar ADJ estándar ADJ vacante
NC margen V devolver ADJ estatutario ADJ viable
Ba2_nivel 4 (85 términos)
POS LEMA POS LEMA POS LEMA POS LEMA
NC accionariado NC palanca V arrojar ADJ bursátil
NC acreedor NC patrocinio V augurar ADJ errático
NC adjudicatario NC petrolera V aunar ADJ esperanzador
NC aerogenerador NC pyme V avalar ADJ exento
NC austeridad NC refinería V avecinar ADJ fotovoltaico
NC bono NC reparto V complacer ADJ gerencial
NC cese NC repunte V cotizar ADJ imprescindible
NC cimiento NC rumbo V destacar ADJ ingente
NC contingencia NC saeta V ocultar ADJ inmerso
NC coraje NC sencillez V otorgar ADJ matinal
NC desapalancamiento NC senda V pivotar ADJ prometedor
NC desembolso NC seno V recaer ADJ refino
NC despliegue NC siniestralidad V recaudar ADJ repentino
NC dígito NC solvencia V refrendar ADJ soberano
NC endeudamiento NC subasta V remunerar ADJ solvente
NC exigencia NC subestación V roer ADJ tarifario
NC inflexión NC superávit V timar ADJ trascendental
NC iva NC trienio ADJ accionarial ADJ unitario
NC lealtad NC vencimiento ADJ acreedor ADJ vial
NC lustro NC volatilidad ADJ arduo ADJ vigente
NC multicanalidad V acometer ADJ atribuible ADJ volátil
NC nómina
147
Apéndice XIII: Encuesta_niveles máster
Máster_nivel 1 (304 términos)
POS LEMA POS LEMA POS LEMA POS LEMA
NC accesibilidad NC misión V destacar ADJ coordinador
NC adversidad NC norma V determinar ADJ corporativo
NC ambición NC objeto V devolver ADJ creativo
NC analista NC ocasión V distribuir ADJ crucial
NC ánimo NC optimismo V elaborar ADJ cualitativo
NC aparición NC organismo V elevar ADJ cuantitativo
NC apoyo NC orgullo V eliminar ADJ definitivo
NC asistencia NC período V empeorar ADJ demográfico
NC audiencia NC perspectiva V enriquecer ADJ distintivo
NC auditor NC pertenencia V equivaler ADJ diverso
NC ausencia NC plan V estabilizar ADJ dominante
NC austeridad NC plataforma V establecer ADJ drástico
NC autoridad NC pluralidad V evaluar ADJ educativo
NC bajada NC potencial V evolucionar ADJ eficiente
NC biodiversidad NC presidencia V favorecer ADJ ejecutivo
NC bombeo NC prestigio V finalizar ADJ ejemplar
NC búsqueda NC primo V financiar ADJ emblemático
NC carbono NC productividad V formular ADJ empresarial
NC categoría NC profesionalidad V implicar ADJ equivalente
NC certeza NC rapidez V innovar ADJ específico
NC circuito NC recesión V intensificar ADJ espectacular
NC cláusula NC recorte V intervenir ADJ estándar
NC clave NC referencia V introducir ADJ estricto
NC clientela NC referéndum V limitar ADJ estructural
NC competitividad NC reflejo V manifestar ADJ ético
NC complejo NC relevancia V mencionar ADJ exigente
NC complicidad NC restante V mostrar ADJ existente
NC componente NC segmento V ocultar ADJ externo
NC consejero NC significado V ofrecer ADJ favorable
NC consultor NC síntoma V optar ADJ funcional
NC contexto NC solidez V permanecer ADJ geográfico
NC continente NC sostenibilidad V preservar ADJ global
NC continuidad NC talento V progresar ADJ hispano
NC contribuyente NC tarea V proporcionar ADJ idéntico
NC creatividad NC técnica V recurrir ADJ implícito
NC credibilidad NC telecomunicación V registrar ADJ imposible
NC cuidado NC terreno V reinventar ADJ imprescindible
NC debate NC torno V relacionar ADJ incierto
NC debilidad NC totalidad V revisar ADJ indirecto
NC década NC transacción V sacrificar ADJ inevitable
NC derivado NC transparencia V satisfacer ADJ informático
NC descenso NC trillón V seleccionar ADJ informativo
NC desempeño NC vehículo V simplificar ADJ inicial
NC desequilibrio NC versión V situar ADJ innovador
NC dimensión NC vigor V soler ADJ institucional
NC dinámica NC virtud V subrayar ADJ latinoamericano
NC dinamismo NC visibilidad V sugerir ADJ masivo
NC disponibilidad NC visión V sumar ADJ mixto
NC diversidad NC vocal V superar ADJ múltiple
NC dosis V acumular V supervisar ADJ neutral
NC efectividad V adaptar V triplicar ADJ neutro
NC eficiencia V adoptar V vincular ADJ operacional
NC entusiasmo V afectar ADJ abrupto ADJ ordinario
NC espacio V añadir ADJ acústico ADJ porcentual
NC estabilidad V animar ADJ alcanzable ADJ prestigioso
NC estándar V aparecer ADJ amplio ADJ proporcional
NC estrategia V articular ADJ analógico ADJ real
NC etapa V calificar ADJ audiovisual ADJ regional
NC experto V caracterizar ADJ autonómico ADJ relevante
NC fabricante V ceder ADJ bancario ADJ respectivo
NC facilidad V centrar ADJ básico ADJ restante
NC factor V colaborar ADJ benéfico ADJ resultante
148
NC fase V comercializar ADJ bienvenido ADJ significativo
NC fenómeno V compartir ADJ céntimo ADJ similar
NC figura V compensar ADJ cinematográfico ADJ solidario
NC flexibilidad V concentrar ADJ circulante ADJ supervisor
NC formato V concluir ADJ clave ADJ tecnológico
NC funcionamiento V condicionar ADJ comercializador ADJ temático
NC gratitud V configurar ADJ complejo ADJ terminal
NC impacto V constar ADJ consecutivo ADJ usuario
NC inestabilidad V crear ADJ consejero ADJ vacante
NC inicio V creer ADJ considerable ADJ variable
NC intensidad V definir ADJ consiguiente ADJ viable
NC lema V derivar ADJ consistente ADJ virtual
NC mecanismo V descender ADJ constructor ADJ vital
NC metodología V desempeñar ADJ convencional ADJ vulnerable
Máster_nivel 2 (108 términos)
POS LEMA POS LEMA POS LEMA POS LEMA
NC acorde NC margen V extraer ADJ hipotecario
NC acreedor NC modalidad V formalizar ADJ iberio
NC adhesión NC módulo V moderar ADJ ilusionante
NC amplitud NC movilidad V otorgar ADJ indiscutible
NC aseguradora NC navegador V presidir ADJ indudable
NC desembolso NC nombramiento V recaer ADJ inestimable
NC discapacidad NC permanencia V remunerar ADJ innumerable
NC ejemplar NC petrolera V repartir ADJ líquido
NC emisora NC petroquímica V revalorizar ADJ macroeconómico
NC endeudamiento NC plantilla V someter ADJ mayoritario
NC estatuto NC prudencia V sumir ADJ mediano
NC ética NC ratio V totalizar ADJ medioambiental
NC exigencia NC reglamento ADJ acreedor ADJ metálico
NC fiabilidad NC renuncia ADJ apasionante ADJ minoritario
NC ficción NC resolución ADJ asegurador ADJ nominal
NC filial NC sencillez ADJ bursátil ADJ pertinente
NC funcionalidad NC turbina ADJ concesional ADJ petroquímico
NC fundación NC vencimiento ADJ consultivo ADJ potente
NC inquietud NC vocación ADJ destacable ADJ previsible
NC instancia NC volatilidad ADJ diferenciador ADJ publicitario
NC integridad V canalizar ADJ directivo ADJ radiofónico
NC iva V complacer ADJ duradero ADJ repentino
NC junta V cotizar ADJ estatutario ADJ robusto
NC licencia V decrecer ADJ exhaustivo ADJ submarino
NC liquidez V equilibrar ADJ generalista ADJ transformador
NC magnitud V estructurar ADJ geopolítico ADJ unitario
NC mandato V expandir ADJ hidráulico ADJ vigente
149
Máster_nivel 3 (91 términos)
POS LEMA POS LEMA POS LEMA POS LEMA
NC accionariado NC interconexión V avalar ADJ íntegro
NC aerogenerador NC lealtad V avecinar ADJ interanual
NC anunciante NC libra V descontar ADJ multicanal
NC autocartera NC multicanalidad V diversificar ADJ multiplataforma
NC bono NC reaseguro V estrenar ADJ operador
NC cese NC recompra V implantar ADJ plurianual
NC cimiento NC refinería V materializar ADJ presupuestario
NC contingencia NC regulador V pivotar ADJ procesal
NC contratista NC reparto V reiterar ADJ prometedor
NC coraje NC repaso V rendir ADJ radioeléctrico
NC creces NC reporte V retribuir ADJ reasegurador
NC cuantía NC rumbo ADJ accionarial ADJ refino
NC despliegue NC senda ADJ arduo ADJ retributivo
NC dígito NC seno ADJ atribuible ADJ siniestro
NC disrupción NC solvencia ADJ dominical ADJ soberano
NC dividendo NC toma ADJ envidiable ADJ societario
NC eficacia NC trayectoria ADJ errático ADJ solvente
NC emprendedor NC vector ADJ esperanzador ADJ tarifario
NC espectro NC voluntariado ADJ fertilizante ADJ televisivo
NC fósil V adjudicar ADJ fósil ADJ termosolar
NC franquicia V aglutinar ADJ generador ADJ trascendental
NC ganancia V arrojar ADJ impositivo ADJ volátil
NC hidráulica V augurar ADJ inmerso
Máster_nivel 4 (28 términos)
POS LEMA POS LEMA POS LEMA POS LEMA
NC acierto NC patrocinio NC superávit V timar
NC adjudicatario NC pyme NC trienio ADJ exento
NC desapalancamiento NC repunte V acometer ADJ fotovoltaico
NC inflexión NC saeta V aunar ADJ gerencial
NC lustro NC siniestralidad V recaudar ADJ ingente
NC nómina NC subasta V refrendar ADJ matinal
NC palanca NC subestación V roer ADJ vial
150
Apéndice XIV: Set de datos de prueba
POS LEMA C1a C1b C2a C2b C3 C4a C5a C5b C6a C6b Nivel
NC adjudicatario 0 4 -1 2 0 3 130000 7388 100 90 4
V acometer 33 66 3 4 0 1 1679 858 70 70 4
NC cimiento 58 96 4 5 0 1 539 316 50 50 4
ADJ exento 27 61 4 5 0 1 357 118 40 30 4
ADJ accionarial 0 0 -1 -1 0 3 130000 130000 100 100 3
NC aerogenerador 0 8 -1 3 0 3 130000 7388 100 90 3
NC anunciante 0 0 -1 -1 0 3 130000 130000 100 100 3
ADJ atribuible 1 3 0 2 0 3 43171 15430 90 90 3
NC accionariado 1 2 0 1 0 3 30808 16540 90 90 3
ADJ bursátil 5 6 2 3 0 1 19681 17649 90 90 3
ADJ acreedor 1 0 0 -1 0 1 12263 130000 80 100 3
NC acreedor 6 7 2 2 0 1 4021 3703 80 90 3
V adjudicar 14 23 2 3 0 1 3653 2359 80 80 3
V aglutinar 7 78 2 4 1 3 2549 156 70 30 3
NC acierto 39 189 4 5 0 1 296 -11 40 -1 3
ADJ arduo 46 40 4 4 0 3 168 232 30 40 3
ADJ asegurador 3 0 2 -1 1 3 17414 130000 90 100 2
NC adhesión 2 6 1 2 1 1 10717 3782 80 90 2
ADJ céntimo 13 54 3 5 1 2 8697 2180 80 80 2
ADJ alcanzable 2 7 1 3 0 3 6081 1801 80 80 2
NC aseguradora 3 5 1 2 1 3 6081 3893 80 90 2
NC bombeo 5 11 2 3 0 3 3609 1715 80 80 2
ADJ cinematográfico 10 264 3 5 1 3 2990 26 70 10 2
NC amplitud 12 151 3 5 1 1 1187 10 60 10 2
NC adversidad 18 5 3 2 0 1 930 3893 50 90 2
ADJ acústico 27 109 4 5 0 1 586 83 50 20 2
V condicionar 23 31 3 4 1 3 571 436 50 50 2
151
ADJ benéfico 25 47 4 4 0 3 394 183 40 30 2
ADJ apasionante 50 105 5 5 0 1 209 58 30 20 2
NC acorde 112 139 5 5 1 1 175 139 30 30 2
V acumular 175 173 4 5 1 1 147 169 20 30 2
V ceder 483 172 5 5 0 2 -36 93 -1 20 2
NC accesibilidad 0 28 -1 4 0 3 130000 850 100 70 1
NC auditor 0 2 -1 1 0 3 130000 18204 100 90 1
ADJ audiovisual 5 172 2 5 1 3 27099 751 90 60 1
NC analista 4 10 2 3 1 3 13036 5557 80 90 1
ADJ analógico 3 3 2 2 1 3 4021 4337 80 90 1
ADJ autonómico 3 14 2 3 0 1 4021 850 80 70 1
ADJ bancario 14 28 3 4 0 1 3653 1920 80 80 1
NC asistencia 21 53 3 4 1 2 2843 1155 70 70 1
NC audiencia 101 49 5 4 1 1 1827 4178 70 90 1
V adaptar 113 235 4 5 1 1 1486 721 60 60 1
ADJ básico 122 374 5 5 1 2 1040 300 60 40 1
NC apoyo 320 175 5 5 0 2 885 1839 50 80 1
NC ambición 112 77 5 5 1 1 286 505 30 60 1
V afectar 364 107 5 4 0 2 239 1144 30 70 1
ADJ amplio 507 1521 5 5 0 2 210 11 30 10 1
ADJ abrupto 47 165 4 5 1 1 163 -19 30 -1 1
V adoptar 339 158 5 5 1 2 45 237 10 40 1
NC aparición 297 170 5 5 0 1 -27 37 -1 10 1
V añadir 2109 818 5 5 0 2 -53 30 -1 10 1
NC ausencia 411 171 5 5 1 2 -54 16 -1 10 1
V animar 544 477 5 5 1 1 -65 -58 -1 -1 1
NC ánimo 520 152 5 5 0 2 -70 9 -1 10 1
V aparecer 2793 2009 5 5 0 2 -93 -90 -1 -1 1
152
Apéndice XV: Set de datos de entrenamiento
POS LEMA C1a C1b C2a C2b C3 C4a C5a C5b C6a C6b Nivel
ADJ concesional 0 0 -1 -1 0 3 130000 130000 100 100 4
ADJ interanual 0 0 -1 -1 0 3 130000 130000 100 100 4
ADJ multicanal 0 0 -1 -1 1 3 130000 130000 100 100 4
ADJ multiplataforma 0 0 -1 -1 1 3 130000 130000 100 100 4
ADJ plurianual 0 0 -1 -1 0 3 130000 130000 100 100 4
NC desapalancamiento 0 0 -1 -1 0 3 130000 130000 100 100 4
NC siniestralidad 0 0 -1 -1 0 3 130000 130000 100 100 4
NC autocartera 0 0 -1 -1 0 3 130000 130000 100 100 4
NC disrupción 0 0 -1 -1 0 3 130000 130000 100 100 4
NC endeudamiento 0 0 -1 -1 0 1 130000 130000 100 100 4
NC interconexión 0 0 -1 -1 0 3 130000 130000 100 100 4
NC multicanalidad 0 0 -1 -1 0 3 130000 130000 100 100 4
NC reaseguro 0 0 -1 -1 0 3 130000 130000 100 100 4
NC recompra 0 0 -1 -1 0 3 130000 130000 100 100 4
NC petroquímica 0 0 -1 -1 0 3 130000 130000 100 100 4
NC trillón 0 0 -1 -1 1 3 130000 130000 100 100 4
ADJ reasegurador 0 0 -1 -1 0 3 130000 130000 100 100 4
ADJ retributivo 0 0 -1 -1 0 3 130000 130000 100 100 4
ADJ radioeléctrico 0 0 -1 -1 0 3 130000 130000 100 100 4
ADJ supervisor 0 0 -1 -1 0 3 130000 130000 100 100 4
ADJ comercializador 0 0 -1 -1 0 3 130000 130000 100 100 4
ADJ porcentual 0 0 -1 -1 1 3 130000 130000 100 100 4
NC trienio 1 0 0 -1 0 3 77171 130000 90 100 4
ADJ consejero 3 0 2 -1 0 1 31838 130000 90 100 4
V remunerar 3 0 1 -1 0 1 5051 130000 80 100 4
NC cuantía 5 0 2 -1 0 1 4227 130000 80 100 4
ADJ procesal 4 0 2 -1 1 3 2990 130000 70 100 4
NC ratio 0 3 -1 2 1 3 130000 124146 100 100 4
NC liquidez 0 1 -1 0 1 1 130000 106397 100 100 4
NC dividendo 0 8 -1 3 1 3 130000 104317 100 100 4
ADJ macroeconómico 0 1 -1 0 1 3 130000 93085 100 100 3
NC volatilidad 0 1 -1 0 1 3 130000 76444 100 100 3
ADJ termosolar 0 1 -1 0 0 3 130000 76444 100 100 3
NC desempeño 4 3 2 2 0 3 32353 46492 90 100 3
NC subestación 0 1 -1 0 0 3 130000 39836 100 100 3
ADJ refino 0 2 -1 1 0 3 130000 38172 100 100 3
NC vencimiento 1 1 0 0 0 1 33899 36508 90 100 3
ADJ coordinador 0 1 -1 0 1 1 130000 33180 100 100 3
NC consejero 69 20 4 4 0 1 8142 30517 80 100 3
153
NC repunte 1 1 0 0 0 3 27717 29852 90 100 3
ADJ estatutario 0 1 -1 0 0 3 130000 26524 100 90 3
V retribuir 0 1 -1 0 0 3 130000 16540 100 90 3
ADJ circulante 0 2 -1 1 0 3 130000 16540 100 90 3
NC petrolera 0 1 -1 0 0 3 130000 16540 100 90 3
NC reporte 3 1 1 0 1 3 5051 16540 80 90 3
NC eficiencia 14 29 3 4 1 1 29704 15392 90 90 3
NC pyme 0 2 -1 1 0 3 130000 14876 100 90 3
NC vector 5 2 2 1 1 3 5463 14876 80 90 3
NC telecomunicación 2 7 1 2 1 3 47808 14638 90 90 3
ADJ corporativo 6 48 2 4 0 3 105504 14113 90 90 3
ADJ gerencial 0 1 -1 0 0 3 130000 13212 100 90 3
ADJ societario 0 1 -1 0 0 3 130000 13212 100 90 3
ADJ consultivo 0 1 -1 0 1 3 130000 13212 100 90 3
ADJ operacional 0 1 -1 0 1 3 130000 13212 100 90 3
NC competitividad 2 8 1 3 0 1 49353 13212 90 90 3
ADJ impositivo 1 2 0 1 0 3 24626 13212 90 90 3
NC nombramiento 14 17 3 3 0 1 13588 12037 80 90 3
ADJ nominal 0 2 -1 1 1 3 130000 11548 100 90 3
ADJ ilusionante 1 2 0 1 0 3 21535 11548 90 90 3
NC regulador 1 2 0 1 1 3 21535 11548 90 90 3
NC junta 7 10 2 3 1 1 15354 11548 80 90 3
ADJ petroquímico 0 3 -1 2 1 3 130000 10993 100 90 3
V reiterar 28 7 3 2 0 1 2328 10359 70 90 3
NC superávit 0 2 -1 1 0 3 130000 9884 100 90 3
NC solvencia 2 14 1 3 0 3 61716 9408 90 90 3
ADJ geopolítico 0 3 -1 2 1 3 130000 8774 100 90 3
NC contratista 1 3 0 2 0 1 24626 8774 90 90 3
V roer 22 3 3 1 0 1 1023 8774 60 90 3
V totalizar 0 2 -1 1 0 1 130000 8220 100 90 3
ADJ vacante 13 3 3 2 1 1 1564 7665 60 90 3
V decrecer 6 4 2 2 0 1 4536 7388 80 90 3
NC cláusula 13 4 3 2 1 1 2039 7388 70 90 3
NC refinería 0 9 -1 3 0 1 130000 7295 100 90 3
ADJ directivo 38 27 4 4 1 3 4536 6925 80 90 3
ADJ cualitativo 1 4 0 2 1 3 24626 6556 90 90 3
NC contribuyente 1 4 0 2 1 3 24626 6556 90 90 3
ADJ ordinario 17 17 3 4 1 2 5899 6360 80 90 3
NC estrategia 238 67 5 4 1 1 1523 6109 60 90 3
NC productividad 2 7 1 2 1 1 19990 6080 90 90 3
NC ética 18 11 3 3 0 3 3334 5950 80 90 3
NC contingencia 4 4 2 2 1 3 5308 5724 80 90 3
ADJ cuantitativo 0 3 -1 2 1 1 130000 5446 100 90 3
NC vocal 1 6 0 2 1 2 30808 5446 90 90 3
NC período 63 28 4 4 1 2 2107 5248 70 90 3
NC restante 1 4 0 2 1 2 18445 4892 90 90 3
ADJ hipotecario 0 3 -1 2 1 3 130000 4337 100 90 3
ADJ ejecutivo 12 45 3 4 0 3 15354 4337 80 90 3
NC hidráulica 1 4 0 2 0 3 15354 4060 80 90 3
ADJ ético 17 21 3 4 0 3 4627 4020 80 90 3
154
NC filial 1 27 0 4 1 1 101898 3967 90 90 3
NC transacción 12 14 3 3 1 3 4278 3941 80 90 3
NC desembolso 0 5 -1 2 0 3 130000 3893 100 90 3
V timar 25 25 3 3 0 3 3609 3893 80 90 3
V moderar 10 5 2 2 0 1 1754 3893 70 90 3
ADJ global 21 135 4 5 1 2 23596 3868 90 90 3
ADJ radiofónico 5 6 2 3 0 1 4227 3782 80 90 3
NC integridad 52 15 4 3 1 1 910 3671 50 90 3
V revalorizar 1 11 0 3 0 1 36990 3530 90 90 3
ADJ relevante 58 110 5 5 0 1 5815 3258 80 90 3
ADJ generalista 0 5 -1 2 1 3 130000 3228 100 80 3
NC segmento 3 36 1 4 1 3 36990 3228 90 80 3
NC metodología 1 7 0 2 1 3 21535 3228 90 80 3
NC efectividad 5 7 2 2 1 3 4227 3228 80 80 3
NC dígito 13 9 3 3 0 3 2039 3228 70 80 3
NC credibilidad 22 7 3 2 0 1 883 3228 50 80 3
NC sostenibilidad 0 79 -1 5 0 3 130000 3185 100 80 3
ADJ favorable 46 39 4 4 0 2 2386 3057 70 80 3
NC eficacia 59 28 4 4 0 1 1262 2990 60 80 3
ADJ eficiente 40 68 4 5 1 2 4768 2983 80 80 3
NC estatuto 2 11 1 3 1 1 15354 2925 80 80 3
ADJ externo 48 54 4 5 1 2 3055 2919 70 80 3
ADJ equivalente 8 31 3 4 1 1 10717 2905 80 80 3
NC discapacidad 0 19 -1 3 0 3 130000 2877 100 80 3
NC reglamento 2 16 1 3 1 1 21535 2812 90 80 3
V pivotar 1 8 0 2 0 3 21535 2812 90 80 3
ADJ empresarial 28 100 4 5 0 3 9503 2795 80 80 3
NC navegador 11 7 3 2 0 1 1585 2752 60 80 3
NC saeta 17 7 3 2 0 3 990 2752 60 80 3
NC solidez 47 39 4 4 1 1 2070 2716 70 80 3
NC cese 2 6 1 2 0 1 7627 2673 80 80 3
NC profesionalidad 27 24 4 4 1 3 2189 2673 70 80 3
NC transparencia 23 81 4 5 1 1 8635 2570 80 80 3
ADJ tarifario 0 5 -1 2 0 3 130000 2562 100 80 3
NC fiabilidad 5 10 2 3 0 3 4845 2562 80 80 3
NC contexto 32 78 4 5 1 3 5888 2545 80 80 3
ADJ institucional 3 41 2 4 1 1 32869 2497 90 80 3
V descontar 10 9 2 2 0 1 2063 2488 70 80 3
ADJ diferenciador 2 8 1 3 1 3 9172 2396 80 80 3
NC palanca 55 12 4 3 0 1 405 2396 40 80 3
ADJ transformador 0 7 -1 3 1 3 130000 2277 100 80 3
V empeorar 140 7 4 2 0 1 10 2277 10 80 3
NC estabilidad 54 39 4 4 1 2 1445 2204 60 80 3
NC impacto 292 158 5 5 1 2 1053 2195 60 80 3
ADJ minoritario 4 19 2 4 0 2 9945 2177 80 80 3
NC carbono 22 26 3 4 0 3 2288 2076 70 80 3
NC recesión 1 11 0 3 1 3 21535 2017 90 80 3
NC flexibilidad 9 16 3 3 1 1 3334 1980 80 80 2
ADJ significativo 73 138 5 5 1 2 3498 1949 80 80 2
ADJ volátil 11 13 3 3 0 3 2147 1948 70 80 2
155
V cotizar 7 28 2 3 0 1 7406 1920 80 80 2
ADJ fotovoltaico 2 15 1 4 1 3 13808 1896 80 80 2
V refrendar 4 10 1 3 0 3 4536 1896 80 80 2
ADJ operador 4 10 2 3 1 3 4536 1896 80 80 2
V formalizar 9 10 2 3 1 3 1960 1896 70 80 2
NC gratitud 57 10 4 3 0 2 225 1896 30 80 2
NC referéndum 0 17 -1 3 1 3 130000 1857 100 80 2
V complacer 66 17 4 3 0 1 368 1857 40 80 2
ADJ variable 14 59 3 5 0 2 7406 1817 80 80 2
ADJ usuario 0 7 -1 3 0 1 130000 1801 100 80 2
NC estándar 12 42 3 4 1 3 6081 1801 80 80 2
NC disponibilidad 2 30 1 4 0 1 26172 1785 90 80 2
V someter 226 120 5 5 1 1 829 1785 50 80 2
NC desequilibrio 14 18 3 3 0 1 2107 1748 70 80 2
ADJ drástico 35 9 4 3 1 3 341 1748 40 80 2
ADJ presupuestario 0 11 -1 3 0 1 130000 1715 100 80 2
NC voluntariado 1 11 0 3 0 3 18445 1715 90 80 2
ADJ consecutivo 13 66 3 5 1 1 8459 1715 80 80 2
ADJ unitario 1 16 0 4 1 1 24626 1564 90 80 2
NC repaso 36 38 4 4 0 1 1531 1564 60 80 2
NC inflexión 44 16 4 3 1 3 461 1564 40 80 2
V estabilizar 29 10 3 3 1 1 432 1564 40 80 2
ADJ neutral 26 8 4 3 1 2 375 1564 40 80 2
ADJ implícito 44 10 4 3 1 1 251 1564 30 80 2
V avecinar 73 14 4 3 0 1 196 1564 30 80 2
NC lealtad 87 10 5 3 0 1 77 1564 20 80 2
NC potencial 48 66 4 4 1 2 1960 1513 70 80 2
NC presidencia 25 23 4 4 1 2 1259 1491 60 70 2
V mencionar 501 128 5 5 0 2 270 1460 30 70 2
ADJ vigente 10 45 3 4 1 3 6390 1453 80 70 2
V simplificar 10 15 2 3 0 1 2063 1453 70 70 2
ADJ consiguiente 19 28 4 4 1 2 2014 1445 70 70 2
NC factor 62 125 4 5 1 1 2791 1444 70 70 2
ADJ publicitario 35 118 4 5 1 1 4580 1394 80 70 2
ADJ inestimable 11 12 3 3 0 3 1304 1286 60 70 2
V registrar 232 168 5 5 1 3 832 1286 50 70 2
NC instancia 32 12 4 3 1 1 382 1286 40 70 2
NC movilidad 23 46 4 4 0 1 2453 1274 70 70 2
ADJ tecnológico 36 198 4 5 1 2 6854 1261 80 70 2
ADJ constructor 3 20 2 4 1 3 8142 1231 80 70 2
ADJ fertilizante 2 10 1 3 0 3 6081 1231 80 70 2
NC nómina 5 25 2 4 0 1 6081 1231 80 70 2
ADJ solvente 3 10 2 3 0 1 4021 1231 80 70 2
NC reparto 32 58 4 4 0 1 2121 1219 70 70 2
ADJ estructural 3 61 2 5 1 3 24626 1209 90 70 2
NC recorte 29 28 4 4 1 1 1072 1207 60 70 2
NC exigencia 40 73 4 5 0 1 2063 1176 70 70 2
V progresar 15 16 2 3 0 2 1136 1148 60 70 2
NC magnitud 59 62 4 4 0 2 1104 1134 60 70 2
ADJ restante 73 27 5 4 0 2 323 1132 40 70 2
156
NC permanencia 14 19 3 3 0 1 1445 1126 60 70 2
NC renuncia 11 14 3 3 0 1 1304 1088 60 70 2
ADJ errático 14 14 3 3 0 3 1003 1088 60 70 2
ADJ esperanzador 25 14 4 3 0 3 518 1088 40 70 2
ADJ mayoritario 3 31 2 4 0 2 11233 1080 80 70 2
NC mandato 29 31 4 4 1 3 1072 1080 60 70 2
NC patrocinio 2 17 1 3 0 1 9172 1074 80 70 2
NC resolución 63 26 4 4 1 1 341 1052 40 70 2
NC mecanismo 114 55 5 4 1 3 415 1049 40 70 2
NC optimismo 42 56 4 4 1 3 1298 1029 60 70 2
NC vigor 46 62 4 4 0 2 1311 1027 60 70 2
NC pluralidad 1 15 0 3 1 1 15354 1009 80 70 2
ADJ viable 18 19 4 4 1 1 930 950 50 70 2
ADJ vulnerable 170 16 5 4 0 3 -9 940 -1 70 2
V recaudar 16 29 3 4 0 3 1638 932 60 70 2
NC visibilidad 24 42 4 4 0 2 1574 930 60 70 2
NC totalidad 49 91 4 5 1 1 1666 924 70 70 2
ADJ informativo 52 72 5 5 1 2 1207 916 60 70 2
NC coraje 76 20 4 4 1 1 144 898 20 70 2
ADJ soberano 40 24 4 4 0 2 440 870 40 70 2
NC continuidad 15 55 3 4 1 2 3196 868 70 70 2
V implantar 7 56 2 4 1 1 6964 850 80 70 2
NC derivado 4 28 2 4 1 3 6081 850 80 70 2
V canalizar 48 22 3 3 1 1 286 807 30 70 2
ADJ indirecto 48 22 4 4 1 2 286 807 30 70 2
ADJ definitivo 327 228 5 5 1 2 486 804 40 70 2
NC relevancia 30 70 4 4 1 1 1857 803 70 70 2
V equilibrar 37 30 3 4 0 3 568 787 50 70 2
NC plantilla 15 53 3 4 0 1 2784 779 70 70 2
NC inestabilidad 23 19 4 3 1 2 571 775 50 60 2
ADJ informático 103 19 5 4 1 3 50 775 10 60 2
V formular 211 19 5 3 1 2 -26 775 -1 60 2
NC consultor 3 23 1 4 1 3 6081 768 80 60 2
NC plataforma 141 274 5 5 1 3 1412 738 60 60 2
ADJ televisivo 14 100 3 5 1 1 5419 732 80 60 2
ADJ exigente 49 148 4 5 0 1 2233 732 70 60 2
ADJ generador 20 24 4 4 1 3 827 732 50 60 2
NC ganancia 20 24 3 4 0 1 827 732 50 60 2
NC prudencia 65 32 4 4 0 2 280 732 30 60 2
ADJ medioambiental 0 121 -1 5 0 3 130000 725 100 60 2
V revisar 282 65 5 4 1 2 75 719 20 60 2
V desempeñar 53 66 4 4 0 2 833 706 50 60 2
V situar 327 709 5 5 1 2 1516 702 60 60 2
V finalizar 115 237 4 5 0 1 1431 700 60 60 2
NC dinámica 17 25 3 4 1 3 990 698 60 60 2
NC funcionamiento 65 189 4 5 1 2 2039 692 70 60 2
ADJ proporcional 14 21 3 4 1 1 1003 692 60 60 2
V evaluar 68 21 4 3 1 1 127 692 20 60 2
ADJ dominical 5 55 2 5 0 3 7936 686 80 60 2
ADJ pertinente 16 17 3 4 0 1 672 683 50 60 2
157
V centrar 324 238 5 5 1 3 434 683 40 60 2
V financiar 17 60 3 4 1 1 2445 676 70 60 2
ADJ demográfico 1 22 0 4 1 1 15354 656 80 60 2
ADJ resultante 13 22 3 4 1 3 1088 656 60 60 2
ADJ específico 36 128 4 5 1 2 2389 654 70 60 2
V supervisar 36 49 3 4 0 3 844 647 50 60 2
V estructurar 3 27 1 3 1 2 6081 639 80 60 2
V triplicar 14 27 2 3 0 3 1224 639 60 60 2
V intensificar 96 27 4 3 0 1 93 639 20 60 2
NC bono 2 75 1 5 1 3 24626 609 90 60 2
ADJ estándar 6 33 2 4 1 3 3505 605 80 60 2
ADJ clave 81 267 5 5 0 1 2036 598 70 60 2
ADJ indiscutible 41 81 4 5 0 1 1181 598 60 60 2
NC turbina 6 43 2 4 1 3 4536 596 80 60 2
NC licencia 23 75 4 5 1 1 1915 565 70 60 2
ADJ íntegro 26 30 4 4 1 1 613 565 50 60 2
ADJ trascendental 27 20 4 4 1 3 357 565 40 60 2
NC rapidez 356 45 5 4 0 1 -21 565 -1 60 2
ADJ existente 34 103 4 5 0 1 1718 546 70 60 2
NC síntoma 128 26 5 4 0 1 20 540 10 60 2
ADJ crucial 40 47 4 4 1 3 595 537 50 60 2
NC perspectiva 266 403 5 5 1 2 794 535 50 60 2
ADJ latinoamericano 5 86 2 5 1 2 9790 519 80 60 2
ADJ indudable 19 27 4 4 0 2 713 516 50 60 2
V avalar 6 38 2 4 0 3 3505 513 80 60 2
NC talento 113 244 5 5 1 2 1130 513 60 60 2
V innovar 5 44 2 4 1 3 4845 505 80 60 2
NC seno 75 44 4 4 0 1 229 505 30 60 2
V implicar 291 132 5 5 1 1 154 505 30 60 2
V eliminar 252 83 5 4 1 1 83 501 20 60 2
V diversificar 1 39 0 4 0 3 21535 497 90 60 2
V determinar 95 73 4 4 1 2 322 492 40 60 2
ADJ geográfico 15 259 3 5 1 2 9378 491 80 60 2
NC trayectoria 116 192 5 5 0 1 805 489 50 60 2
NC debilidad 206 79 5 5 0 2 110 489 20 60 2
V superar 681 676 5 5 0 2 435 480 40 50 2
NC fósil 3 41 1 4 1 3 7111 468 80 50 2
ADJ mediano 68 59 5 5 1 1 354 464 40 50 2
NC margen 344 418 5 5 1 2 528 457 50 50 1
ADJ destacable 10 90 3 5 0 3 4536 454 80 50 1
NC fase 101 145 5 5 1 1 634 450 50 50 1
NC certeza 230 43 5 4 0 1 -5 441 -1 50 1
V augurar 35 31 3 4 0 3 341 436 40 50 1
NC pertenencia 98 51 5 4 0 1 152 422 30 50 1
NC plan 1162 1074 5 5 1 2 338 411 40 50 1
ADJ incierto 60 53 5 5 0 2 312 402 40 50 1
NC tarea 387 192 5 5 1 2 131 402 20 50 1
NC subasta 91 95 5 5 0 1 375 390 40 50 1
V subrayar 23 103 3 4 0 2 1915 384 70 50 1
V derivar 47 90 3 4 0 2 754 380 50 50 1
158
ADJ inicial 191 167 5 5 0 1 288 378 40 50 1
ADJ duradero 10 28 3 4 0 1 1136 375 60 50 1
NC componente 42 100 4 5 1 2 930 365 50 50 1
ADJ inmerso 157 79 5 5 0 1 116 363 20 50 1
NC módulo 69 58 4 4 1 3 258 359 30 50 1
V recaer 48 44 3 4 0 1 286 353 30 50 1
V distribuir 38 148 3 5 1 1 1526 349 60 50 1
NC iva 11 37 3 4 1 3 1304 349 60 50 1
V vincular 53 37 4 4 0 1 191 349 30 50 1
NC funcionalidad 3 45 1 4 1 3 6081 343 80 50 1
V favorecer 40 120 3 5 0 2 1136 343 60 50 1
V compensar 132 158 4 5 1 1 391 342 40 50 1
NC despliegue 46 91 4 5 0 1 706 338 50 50 1
V establecer 178 369 4 5 0 2 733 332 50 50 1
NC referencia 186 928 5 5 1 2 1860 323 70 50 1
V colaborar 144 111 4 4 1 1 200 319 30 50 1
NC norma 358 199 5 5 1 2 115 318 20 50 1
ADJ vial 3 48 2 4 0 3 6081 316 80 50 1
V evolucionar 31 128 3 5 1 1 1495 316 60 50 1
V concluir 608 295 5 5 1 2 83 306 20 40 1
ADJ complejo 70 231 5 5 1 2 1136 303 60 40 1
ADJ educativo 44 66 4 5 1 1 461 303 40 40 1
ADJ distintivo 6 42 2 4 0 1 2475 296 70 40 1
NC debate 54 118 4 5 1 1 701 294 50 40 1
NC toma 107 77 5 5 0 3 159 288 30 40 1
ADJ exhaustivo 21 43 4 4 0 1 635 286 50 40 1
V relacionar 131 95 4 4 0 1 159 285 30 40 1
ADJ previsible 64 61 5 5 0 1 238 281 30 40 1
NC fabricante 8 79 2 5 1 3 3377 279 80 40 1
NC dinamismo 0 44 -1 4 1 3 130000 278 100 40 1
V calificar 57 124 4 5 1 2 659 275 50 40 1
ADJ respectivo 132 80 5 5 1 2 110 274 20 40 1
NC diversidad 4 255 2 5 1 1 21535 265 90 40 1
ADJ consistente 25 64 4 5 1 3 765 264 50 40 1
NC creces 44 55 4 4 0 3 321 263 40 40 1
NC misión 481 187 5 5 1 2 28 255 10 40 1
V materializar 161 47 4 4 0 3 -4 254 -1 40 1
NC descenso 71 397 4 5 0 1 1728 252 70 40 1
V destacar 185 1988 4 5 1 2 3408 251 80 40 1
ADJ robusto 78 86 5 5 1 1 256 248 30 40 1
ADJ estricto 72 139 5 5 1 2 500 235 40 40 1
NC orgullo 357 252 5 5 0 2 116 230 20 40 1
ADJ prometedor 59 72 5 5 0 1 266 223 30 40 1
NC búsqueda 437 231 5 5 0 1 55 216 10 40 1
V presidir 41 307 3 5 1 2 2086 214 70 40 1
V manifestar 226 127 5 5 1 2 64 214 20 40 1
NC formato 11 165 3 5 1 3 4114 202 80 40 1
NC inicio 122 448 5 5 0 2 913 197 50 40 1
ADJ solidario 9 68 3 5 1 2 1960 193 70 40 1
NC emprendedor 11 57 3 4 0 3 1304 191 60 40 1
159
V arrojar 464 139 5 5 0 1 -20 187 -1 40 1
ADJ considerable 109 82 5 5 1 2 98 184 20 30 1
ADJ matinal 12 47 3 4 0 3 930 183 50 30 1
NC espectro 194 59 5 4 1 1 -20 182 -1 30 1
V satisfacer 103 132 4 5 0 2 230 177 30 30 1
V equivaler 42 73 3 4 0 1 341 173 40 30 1
ADJ repentino 421 49 5 4 0 2 -70 171 -1 30 1
V enriquecer 11 99 2 4 0 2 2147 168 70 30 1
V comercializar 6 63 2 4 1 3 2475 164 70 30 1
ADJ convencional 43 289 4 5 1 1 1553 164 60 30 1
NC complicidad 150 63 5 4 0 1 3 164 10 30 1
NC libra 43 164 4 5 0 1 834 163 50 30 1
NC organismo 27 104 4 5 1 2 815 156 50 30 1
V repartir 164 286 4 5 0 2 314 156 40 30 1
ADJ hidráulico 3 105 2 5 1 3 8142 153 80 30 1
V sacrificar 143 66 4 4 1 3 8 152 10 30 1
ADJ iberio 1 159 0 5 1 3 36990 151 90 30 1
NC etapa 112 442 5 5 1 1 810 148 50 30 1
V expandir 93 107 4 4 0 3 165 148 30 30 1
V proporcionar 205 393 5 5 0 1 322 137 40 30 1
NC vocación 29 197 4 5 0 1 1392 136 60 30 1
NC senda 56 388 4 5 0 1 1390 131 60 30 1
V otorgar 174 244 4 5 0 1 201 131 30 30 1
NC fundación 16 375 3 5 1 1 4922 130 80 30 1
ADJ ingente 29 73 4 5 0 3 432 127 40 30 1
V sumar 155 307 4 5 0 2 318 127 40 30 1
NC biodiversidad 0 104 -1 5 1 3 130000 124 100 30 1
NC clave 188 356 5 5 0 1 294 124 40 30 1
V elevar 425 373 5 5 0 2 81 123 20 30 1
V configurar 17 123 3 5 1 1 1354 116 60 30 1
ADJ similar 339 481 5 5 0 2 182 114 30 30 1
ADJ regional 0 236 -1 5 1 2 130000 111 100 30 1
V limitar 900 222 5 5 0 2 -51 109 -1 30 1
NC autoridad 160 223 5 5 1 2 170 108 30 30 1
NC modalidad 16 97 3 5 1 1 1059 105 60 30 1
NC reflejo 357 229 5 5 1 2 21 103 10 30 1
V definir 148 502 4 5 1 2 526 98 50 20 1
NC ficción 91 184 5 5 1 1 273 98 30 20 1
ADJ dominante 21 68 4 5 1 1 488 95 40 20 1
NC significado 181 102 5 5 1 2 2 95 10 20 1
ADJ envidiable 16 69 3 5 0 3 672 92 50 20 1
ADJ innovador 10 254 3 5 1 1 4227 83 80 20 1
NC intensidad 507 164 5 5 1 2 -45 82 -1 20 1
V introducir 526 334 5 5 1 2 5 79 10 20 1
NC facilidad 290 131 5 5 1 2 -25 77 -1 20 1
NC austeridad 2 95 1 5 0 1 7627 75 80 20 1
ADJ siniestro 334 96 5 5 0 2 -53 73 -1 20 1
NC visión 622 587 5 5 1 2 49 70 10 20 1
NC lustro 11 98 3 5 1 1 1304 69 60 20 1
V crear 658 1352 5 5 1 2 224 69 30 20 1
160
V intervenir 886 157 5 5 1 2 -72 69 -1 20 1
ADJ mixto 13 80 3 5 0 2 851 66 50 20 1
ADJ hispano 14 82 3 5 1 2 783 62 50 20 1
V articular 100 103 4 4 1 1 54 61 10 20 1
NC franquicia 2 106 1 5 1 3 7627 56 80 20 1
ADJ idéntico 202 106 5 5 1 1 -23 56 -1 20 1
V mostrar 2500 1853 5 5 0 2 6 54 10 20 1
V aunar 7 130 2 5 0 3 2549 53 70 20 1
NC prestigio 32 173 4 5 1 2 672 53 50 20 1
ADJ bienvenido 126 154 5 5 0 2 71 51 20 20 1
ADJ neutro 104 88 5 5 1 2 18 51 10 20 1
NC dosis 92 134 5 5 1 3 101 49 20 20 1
ADJ submarino 99 205 5 5 0 1 180 46 30 20 1
V compartir 1196 1009 5 5 0 2 11 41 10 10 1
ADJ diverso 147 1025 5 5 1 2 804 39 50 10 1
V constar 94 119 4 5 0 2 64 39 20 10 1
NC entusiasmo 225 167 5 5 1 2 -3 39 -1 10 1
ADJ potente 227 288 5 5 0 1 63 38 20 10 1
ADJ terminal 6 122 2 5 1 3 2475 36 70 10 1
NC dimensión 347 530 5 5 1 2 87 31 20 10 1
V preservar 44 179 3 5 0 1 391 30 40 10 1
NC vehículo 504 458 5 5 0 2 10 30 10 10 1
ADJ virtual 144 154 5 5 1 3 28 29 10 10 1
NC torno 412 1148 5 5 0 1 230 27 30 10 1
V recurrir 169 160 4 5 0 1 9 24 10 10 1
NC inquietud 220 135 5 5 0 1 -29 23 -1 10 1
NC virtud 88 164 5 5 0 2 110 21 20 10 1
V extraer 372 140 5 5 0 1 -58 18 -1 10 1
ADJ inevitable 190 205 5 5 0 2 13 13 10 10 1
NC bajada 43 242 4 5 0 1 475 10 40 10 1
V caracterizar 84 274 4 5 1 2 231 9 30 10 1
ADJ masivo 22 154 4 5 1 2 602 8 50 10 1
V seleccionar 113 184 4 5 0 1 64 8 20 10 1
V reinventar 10 155 2 5 0 3 1445 7 60 10 1
NC experto 208 404 5 5 1 1 93 7 20 10 1
ADJ temático 11 601 3 5 1 2 5238 5 80 10 1
ADJ ejemplar 103 126 5 5 1 2 20 5 10 10 1
ADJ fósil 2 131 1 5 1 3 6081 1 80 10 1
NC categoría 79 365 5 5 1 1 330 0 40 -1 1
ADJ innumerable 39 134 4 5 0 1 217 0 30 -1 1
NC ocasión 1414 857 5 5 0 2 -43 0 -1 -1 1
ADJ real 933 1211 5 5 1 2 15 -3 10 -1 1
NC creatividad 17 322 3 5 1 3 1536 -6 60 -1 1
NC década 168 1261 5 5 1 1 543 -7 50 -1 1
ADJ líquido 74 219 5 5 0 2 150 -8 20 -1 1
V optar 257 362 5 5 1 2 8 -17 10 -1 1
NC sencillez 22 204 3 5 0 1 602 -18 50 -1 1
NC técnica 103 619 5 5 1 2 350 -19 40 -1 1
NC lema 33 210 4 5 1 1 368 -20 40 -1 1
V concentrar 649 585 5 5 1 1 -33 -20 -1 -1 1
161
V creer 4604 345 5 5 0 2 -95 -32 -1 -1 1
V descender 548 549 5 5 0 2 -37 -33 -1 -1 1
ADJ vital 201 201 5 5 1 2 -38 -33 -1 -1 1
NC fenómeno 139 306 5 5 1 2 33 -34 10 -1 1
NC complejo 104 1033 5 5 1 2 494 -35 40 -1 1
V rendir 389 366 5 5 0 1 -44 -36 -1 -1 1
NC ejemplar 53 386 4 5 1 2 308 -39 40 -1 1
V ocultar 1346 282 5 5 0 2 -88 -40 -1 -1 1
NC rumbo 360 453 5 5 0 2 -31 -41 -1 -1 1
ADJ funcional 10 235 3 5 1 3 1136 -43 60 -1 1
ADJ múltiple 123 411 5 5 0 1 75 -43 20 -1 1
ADJ imprescindible 109 1089 5 5 0 2 410 -44 40 -1 1
V devolver 1141 299 5 5 0 2 -86 -44 -1 -1 1
V ofrecer 1659 6346 5 5 0 2 84 -48 20 -1 1
NC cuidado 890 324 5 5 0 2 -82 -48 -1 -1 1
V estrenar 56 544 4 5 0 2 341 -51 40 -1 1
ADJ prestigioso 36 352 4 5 1 1 329 -52 40 -1 1
NC objeto 675 1122 5 5 1 2 -35 -58 -1 -1 1
V sugerir 530 407 5 5 1 2 -70 -59 -1 -1 1
V elaborar 68 842 4 5 0 2 354 -60 40 -1 1
V permanecer 2108 836 5 5 0 2 -85 -60 -1 -1 1
ADJ metálico 420 342 5 5 0 1 -70 -61 -1 -1 1
NC continente 80 630 5 5 1 2 170 -63 30 -1 1
NC clientela 16 530 3 5 1 1 865 -68 50 -1 1
NC figura 787 999 5 5 1 2 -64 -70 -1 -1 1
NC circuito 104 708 5 5 1 1 78 -71 20 -1 1
NC terreno 453 697 5 5 1 2 -59 -71 -1 -1 1
ADJ emblemático 15 719 3 5 1 3 1136 -72 60 -1 1
NC versión 291 843 5 5 1 1 -46 -80 -1 -1 1
ADJ creativo 36 728 4 5 1 1 243 -81 30 -1 1
ADJ imposible 1630 737 5 5 0 2 -92 -81 -1 -1 1
NC espacio 878 4867 5 5 1 2 -8 -82 -1 -1 1
ADJ espectacular 178 1907 5 5 1 1 21 -87 10 -1 1
V soler 1005 1640 5 5 0 2 -81 -87 -1 -1 1