Sociolingüística, estadística e informática - Lingüística 6, 1994.

44
1 SOCIOLINGÜÍSTICA, ESTADÍSTICA E INFORMÁTICA FRANCISCO MORENO FERNÁNDEZ Universidad de Alcalá de Henares Publicado en Lingüística, 6 (1994), pp. 95-154. 0.- Introducción. * El “estado de la cuestión” que presentamos en estas páginas no va a pasar revista a cada una de las corrientes que, con criterios más o menos estrictos, reciben el marbete de “sociolingüística”, sino que estará referido específicamente a la sociolingüística de la variación. Se pretende dar información sobre el empleo de la estadística y de la informática en el ámbito de la sociolingüística variacionista. Nuestro deseo es que los contenidos que aquí se van a desarrollar sean de alguna utilidad tanto para los especialistas en sociolingüística como para aquellos lingüistas que no trabajan en el estudio de la variación. Por este motivo, hemos dividido el trabajo en tres apartados. En el primero se ofrece un panorama general de la cuantificación en los estudios sociolingüísticos y una presentación del modelo estadístico más utilizado durante los últimos años. El segundo apartado explica con algún detalle el funcionamiento de los programas informáticos destinados a la aplicación de técnicas estadísticas. El tercero se detiene en las fases más complicadas del análisis y en los problemas que suelen tener una solución menos clara. 1.- Investigación sociolingüística y cuantificación. 1.1. Aportaciones de la sociolingüística a través de la cuantificación. El nacimiento y desarrollo de la sociolingüística variacionista no puede entenderse sin la cuantificación. De hecho, entre los factores “determinantes” de su impulso hay que incluir, sin duda, la aplicación de las matemáticas en el tratamiento de grandes volúmenes de datos y los avances de la informática durante los últimos quince años. El auxilio de otras disciplinas y la mejora de los medios han hecho que la sociolingüística tenga una imagen bien caracterizada y destacada en el conjunto de la llamada “lingüística cuantitativa” (Tesitelová). Nada de esto, sin embargo, es mérito que deba atribuirse de forma exclusiva a nuestra disciplina. La sociolingüística es hija de su tiempo y continuadora de unas experiencias acumuladas, principalmente, durante los últimos cincuenta años (Moreno Fernández, 1997). El uso de procedimientos cuantitativos en la sociolingüística está íntimamente ligado a conflictos de naturaleza teórica que se han ido poniendo de manifiesto conforme nuestra disciplina ha ido madurando. Pensamos en los contrastes de pareceres entre los partidarios de los análisis cualitativos y de los análisis cuantitativos, en los problemas que presenta la relación entre “gramáticas comunitarias” y “gramáticas individuales” o en las dificultades para aceptar la existencia de un componente probabilístico dentro de la competencia. A esto podríamos añadir que los diversos niveles de la lengua no son igualmente accesibles desde unos planteamientos cuantitativos y que las categorías cuantificadas, especialmente las sociales, no son siempre las más idóneas, por no entrar en el comentario de los lazos de “amor-odio” entre generativistas y variacionistas. Esta relación de conflictos sólo pretende poner de manifiesto la importancia que la

description

Uso de programas de regresión para el análisis sociolingüístico

Transcript of Sociolingüística, estadística e informática - Lingüística 6, 1994.

Page 1: Sociolingüística, estadística e informática - Lingüística 6, 1994.

1

SOCIOLINGÜÍSTICA, ESTADÍSTICA E INFORMÁTICA

FRANCISCO MORENO FERNÁNDEZ Universidad de Alcalá de Henares

Publicado en Lingüística, 6 (1994), pp. 95-154.

0.- Introducción.* El “estado de la cuestión” que presentamos en estas páginas no va a pasar revista a cada una de las corrientes que, con criterios más o menos estrictos, reciben el marbete de “sociolingüística”, sino que estará referido específicamente a la sociolingüística de la variación. Se pretende dar información sobre el empleo de la estadística y de la informática en el ámbito de la sociolingüística variacionista. Nuestro deseo es que los contenidos que aquí se van a desarrollar sean de alguna utilidad tanto para los especialistas en sociolingüística como para aquellos lingüistas que no trabajan en el estudio de la variación. Por este motivo, hemos dividido el trabajo en tres apartados. En el primero se ofrece un panorama general de la cuantificación en los estudios sociolingüísticos y una presentación del modelo estadístico más utilizado durante los últimos años. El segundo apartado explica con algún detalle el funcionamiento de los programas informáticos destinados a la aplicación de técnicas estadísticas. El tercero se detiene en las fases más complicadas del análisis y en los problemas que suelen tener una solución menos clara. 1.- Investigación sociolingüística y cuantificación. 1.1. Aportaciones de la sociolingüística a través de la cuantificación. El nacimiento y desarrollo de la sociolingüística variacionista no puede entenderse sin la cuantificación. De hecho, entre los factores “determinantes” de su impulso hay que incluir, sin duda, la aplicación de las matemáticas en el tratamiento de grandes volúmenes de datos y los avances de la informática durante los últimos quince años. El auxilio de otras disciplinas y la mejora de los medios han hecho que la sociolingüística tenga una imagen bien caracterizada y destacada en el conjunto de la llamada “lingüística cuantitativa” (Tesitelová). Nada de esto, sin embargo, es mérito que deba atribuirse de forma exclusiva a nuestra disciplina. La sociolingüística es hija de su tiempo y continuadora de unas experiencias acumuladas, principalmente, durante los últimos cincuenta años (Moreno Fernández, 1997). El uso de procedimientos cuantitativos en la sociolingüística está íntimamente ligado a conflictos de naturaleza teórica que se han ido poniendo de manifiesto conforme nuestra disciplina ha ido madurando. Pensamos en los contrastes de pareceres entre los partidarios de los análisis cualitativos y de los análisis cuantitativos, en los problemas que presenta la relación entre “gramáticas comunitarias” y “gramáticas individuales” o en las dificultades para aceptar la existencia de un componente probabilístico dentro de la competencia. A esto podríamos añadir que los diversos niveles de la lengua no son igualmente accesibles desde unos planteamientos cuantitativos y que las categorías cuantificadas, especialmente las sociales, no son siempre las más idóneas, por no entrar en el comentario de los lazos de “amor-odio” entre generativistas y variacionistas. Esta relación de conflictos sólo pretende poner de manifiesto la importancia que la

Page 2: Sociolingüística, estadística e informática - Lingüística 6, 1994.

2

cuantificación puede llegar a tener en el campo de la lingüística teórica. Cada uno de esos problemas ha sido largamente discutido, algunos han sido resueltos, otros están en candelero, pero todos están contribuyendo a enriquecer, depurar y perfeccionar una línea de investigación. La sociolingüística ha hecho aportaciones de gran valor, merced, entre otras cosas, al manejo de la cuantificación. Ha contribuido, por ejemplo, a ir más allá de los conceptos de variación libre y de polimorfismo. No nos atrevemos a negar que existan fenómenos con estas características, pero la sociolingüística ha demostrado que muchos de los que tradicionalmente han sido considerados como tales simplemente han sido mal o insuficientemente estudiados. La existencia de una variación ordenada es un hecho (Weinreich, Labov y Herzog). Cuando dentro de una comunidad de habla de lengua española encontramos casos de debilitamiento de /s/ implosiva, de neutralización de líquidas, de yeísmo con diferentes manifestaciones fonéticas, de morfemas verbales o formas pronominales equivalentes que alternan en el uso, etc. es fácil descubrir que las distintas variantes de un mismo fenómeno están íntimamente relacionadas con el estrato socio-cultural de los hablantes, con su edad, con su sexo, con ciertos rasgos del contexto fónico o con la función que cumple el elemento que varía. La sociolingüística tiene entre sus objetivos el de descubrir el orden que pueda haber en la variación y el único medio de hacerlo, cuando los datos se cuentan por centenares, es la cuantificación. La importancia de los análisis cualitativos, que nadie niega es paralela al interés de los estudios cuantitativos: no se puede contar lo que no se ha identificado. Desde sus inicios, el variacionismo ha tenido dos preocupaciones principales: el estudio de la lengua en su contexto social y el cambio lingüístico. El primero ha sido especialmente significativo, porque ha cubierto una necesidad que las investigaciones geolingüísticas llevaban poniendo de manifiesto y satisfaciendo parcialmente desde hacía mucho tiempo: el análisis del habla de los grandes núcleos urbanos. En la actualidad es posible describir con rigor hasta qué punto una variación viene determinada tanto por factores lingüísticos, como por factores extralingüísticos (sociales y contextuales) en una comunidad determinada. Por otra parte, la sociolingüística ha contribuido a difundir una visión de la lengua en la que lo variable es el centro de atención, frente a la postura de las corrientes más influyentes de la lingüística general, a la vez que ha convencido a muchos sobre la conveniencia de trabajar con materiales de la lengua viva, obtenidos en cantidades representativas de boca de unos hablantes representativos. El fracaso de algunos modelos teóricos está precisamente en su falta de conformidad con los usos reales. En cuanto al estudio del cambio, hay que destacar la atención prestada al terreno específico del cambio lingüístico en marcha, donde se ha conseguido un nivel descriptivo muy satisfactorio. Muchas lenguas, como el español, aún no se han visto suficientemente beneficiadas por estos avances, pero todo se andará. Por el momento, parece claro que la sociolingüística es parcialmente responsable del auge que en los últimos años ha cobrado el estudio del cambio lingüístico desde una perspectiva teórica y general. Las obras de Lehmann y Malkiel, Bynon, Anttila o Milroy son buena prueba de ello. En todo lo que acabamos de comentar han estado y están presentes los análisis cuantitativos. La sociolingüística ha tratado con un mimo especial el desarrollo y perfeccionamiento de los medios técnicos necesarios para ello. Hasta tal punto es así que algunos especialistas han reprochado a esta disciplina un interés por el ámbito metodológico y técnico de la investigación, que podría haber ido en detrimento de algún que otro logro teórico (Pisani). La preocupación por el método es conveniente y necesaria, especialmente cuando se trabaja con datos de lengua hablada, y no es incompatible con una reflexión

Page 3: Sociolingüística, estadística e informática - Lingüística 6, 1994.

3

teórica seria (la historia de la geografía lingüística es buena prueba de ello). El variacionismo ha intentado conjugar los dos intereses, que en el fondo son uno solo, y ha creado una metodología que sorprende por su refinamiento y por su eficacia, aunque no sea la panacea universal. 1.2. Variación y teoría lingüística. El análisis emblemático de la sociolingüística variacionista es, sin duda, el que se conoce con el nombre de análisis de regla variable. Ese nombre recoge la esencia de su origen, pero no se ajusta estrictamente al sentido que tiene el análisis en la actualidad. El variacionismo ha dedicado parte de sus energías a perfeccionar una prueba estadística capaz de medir hasta qué punto una serie de factores lingüísticos (contextuales y funcionales) y extralingüísticos (sociales y situacionales) determina la aparición de cada una de las variantes de un fenómeno lingüístico variable. Conviene dejar claro, antes de seguir adelante, que una estadística de corte variacionista no tiene por qué vincularse de forma absoluta y necesaria a una corriente teórica determinada. Sin embargo, es evidente que los variacionistas norteamericanos, desde un primer momento, han estado condicionados por un entorno de naturaleza generativo-transformacional. Frente a la propuesta de “regla opcional”, concepto teóricamente endeble, la sociolingüística presenta una alternativa destinada a enriquecer el modelo generativista: la regla variable (Labov 1969). Esta regla sería capaz de explicar en qué medida se cumple un fenómeno y en qué condiciones lingüísticas y sociales. Frente a las propuestas de “hablante-oyente ideal” y de “comunidad homogénea”, conceptos incompatibles con cualquier tipo de empirismo, la sociolingüística propone la experiencia de unos usos reales y representativos. Desde el momento en que el variacionismo convierte estas propuestas en axiomas, aparece el choque dialéctico con el generativismo (Kay y McDaniel 1979, 1981; Sankoff y Labov 1979; Kiparsky 1979, 1982; Singh y Ford 1989; Moreno Fernández 1988: 128-130). Sin embargo, el contraste de opiniones no ha hecho que los variacionistas norteamericanos pierdan de vista el devenir del generativismo; es más, algunos han intentado trabajar desde la “Teoría de la Rección y el Ligamiento” (Lefebvre; Lemieux) y otros han visto en el “Modelo de Principios y Parámetros” la posibilidad de un acercamiento formal (D’Introno). Una demostración de la importancia que tiene el generativismo para los variacionistas norteamericanos está, por un lado, en la propuesta del concepto de regla variable y, por otro, en el abandono silencioso que se ha ido haciendo, aproximadamente desde 1978, de la misma regla variable en las publicaciones. No se han abandonado las técnicas estadísticas, sino el uso formal de las reglas: se calculan y presentan en tablas los factores estudiados y su peso cuantitativo, pero no se redactan las reglas derivadas de ellos. Las causas de este cambio de orientación son varias: por una parte está la dificultad de aplicar la regla variable en el campo de la sintaxis transformacional (Fasold 1990: 251-257); por otra, una regla variable no explica los fenómenos, sino que simplemente los describe (López Morales 1993: 189); finalmente, los sucesivos cambios en el seno del generativismo han hecho que la elaboración de reglas no se ajuste a las necesidades teóricas más actuales. En resumen, la renuncia a formular reglas variables está íntimamente ligada a la relación entre variacionismo y generativismo. Muy unido a este problema encontramos el del emplazamiento de la variación socio-lingüística en el conjunto de la lengua; dicho de otra forma, la localización de la regla variable en el sistema. La sociolingüística parte de la idea de que la regla variable está vinculada a la competencia lingüística. En las explicaciones que se han hecho de esta hipótesis pueden observarse distintos matices de intensidad. Para Labov, las reglas variables son reglas de producción que en una gran mayoría pueden ser caracterizadas también como

Page 4: Sociolingüística, estadística e informática - Lingüística 6, 1994.

4

“reglas de actuación” (1972: 225-226), aunque constituyen claramente un aspecto de la competencia. Para Cedergren y Sankoff, la actuación es un reflejo estadístico — si bien aproximado — de la competencia y las reglas variables incluyen un componente probabilístico de lo lingüístico y de lo social. Podríamos decir que unos autores han defendido más radicalmente un concepto de regla variable como patrimonio exclusivo de la competencia, mientras otros no han descuidado los niveles de la lengua menos abstractos. El debate sobre esta cuestión ha ido perdiendo fuerza al mismo ritmo que se abandonaba el uso formal de las reglas, pero no ha dejado de despertar interés y es probable que en el futuro se reavive. Las dificultades y controversias teóricas no han impedido que se sigan haciendo análisis estadísticos, con más fuerza y calidad que nunca, pero considerados como simple herramienta descriptiva de la variación (Fasold 1990: 256). Esto prueba, como advertíamos al principio, que se puede hacer variacionismo desde un modelo teórico no generativista (Fasold 1984: 245-247). La sociolingüística exige de la teoría, sea la que sea, capacidad para admitir la presencia ordenada de fenómenos variables. 1.3. Desarrollo de las técnicas cuantitativas en sociolingüística. La cuantificación en el ámbito de la lingüística se ha hecho básicamente mediante los recursos de la estadística, entendida como

ciencia del tratamiento de la información que contiene las series de datos procedentes de observaciones de fenómenos colectivos. (Real Academia de Ciencias Exactas, Físicas y Naturales)

La sociolingüística trabaja habitualmente con dos tipos de estadística: una estadística descriptiva y una estadística de inferencias (inferencia estadística). La primera consiste simplemente en contar y ordenar cuantitativamente un conjunto de datos; la segunda nos permite aplicar de forma válida las conclusiones de esos análisis a entidades mayores que en realidad no han sido investigadas en su totalidad. La estadística descriptiva incluye pruebas simples de cuantificación, por otra parte muy conocidas, como el recuento de frecuencias absolutas, su conversión en frecuencias relativas y el cálculo de medias, medianas, modas, varianzas y desviaciones típicas (Moreno Fernández 1990a). Este tipo de pruebas se aplican en lingüística desde hace muchos decenios. Con el paso del tiempo hemos ido ganando en rapidez y fiabilidad en el manejo de los datos, así como en calidad a la hora de presentarlos gráficamente. En este punto, el desarrollo de la informática ha reportado grandes ventajas. Actualmente es posible aplicar la estadística descriptiva por medio de programas llamados “Hojas de cálculo” que están al alcance de cualquier mano. También existen programas estadísticos más completos de los que se obtienen cálculos rápidos y gráficos de gran calidad (SPSS, Statgraphics, Statview). Como se deduce de lo apuntado, la estadística descriptiva se ha utilizado desde los inicios mismos de la sociolingüística moderna: ejemplo de ello es el trabajo de W. Labov (1963) sobre la isla de Martha’s Vineyard. Sin embargo, su aplicación sigue siendo inexcusable en cualquier análisis de la variación y los problemas que presenta son mínimos desde un punto de vista técnico. El éxito está garantizado cuando el investigador cuantifica las categorías pertinentes, cuando están bien delimitadas — sin solapamientos de datos — y cuando se aprovechan al máximo sus posibilidades. No obstante, con cierta frecuencia se encuentran publicaciones en las que no se pasa del cálculo de los tantos por ciento. Este cálculo es tan necesario como básico, pero a menudo necesita ser complementado con

Page 5: Sociolingüística, estadística e informática - Lingüística 6, 1994.

5

análisis que comprueben, por ejemplo, las desviaciones de los datos respecto de las medias (varianza, desviación típica), para no llegar a conclusiones limitadas o equivocadas. Una buena estadística descriptiva requiere, por lo general, un conocimiento previo de la naturaleza cualitativa de los datos que se quieren cuantificar. Lo demás depende de la idoneidad de los materiales recolectados. Para ello se debe contar a) con estudios exploratorios, b) con hipótesis pertinentes, c) con variables y variantes bien caracterizadas y dispuestas en escalas y d) con recuentos minuciosos. Los primeros recuentos suelen hacerse de forma manual, por lo que se necesita, además de la paciencia, material apropiado para la codificación (hojas cuadriculadas). La información bien codificada puede ser trasladada al ordenador sin mayores problemas. Ahora bien, la importancia de la estadística descriptiva no la convierte en el único procedimiento susceptible de aplicación. Estamos ante una fase necesaria, pero no suficiente: por eso se la denomina pre-cuantificación. El variacionismo ha puesto en manos de los investigadores unos recursos que conviene utilizar para que los análisis no resulten pobres, en relación con lo que exige su tiempo. Tales recursos pertenecen al campo de la estadística de inferencias y, concretamente, de los análisis multivariables. La estadística permite llegar a conclusiones sobre la variación lingüística en una comunidad, partiendo del análisis de los datos recogidos en unos pocos hablantes que se consideran representativos de esa comunidad. Los análisis de regla variable — también llamados análisis de regresión o análisis probabilísticos — estudian la relación entre más de dos variables (grupos de factores) y calculan las probabilidades de que aparezcan o no aparezcan las distintas variantes (factores) en determinadas condiciones lingüísticas y sociales. Para hacer un análisis estadístico de esta naturaleza se necesita a) que el fenómeno analizado sea variable, b) que la alternativas de la variación sean formas diferentes de decir lo mismo, esto es, que el

uso de una alternativa u otra (variantes o factores) por parte de un hablante no suponga un cambio semántico o pragmático,

c) que la variación analizada tenga relación con las condiciones lingüísticas (contexto fonético, contexto sintáctico, función, etc.) y extra-lingüísticas (características sociológicas del hablante, tipo de contexto situacional, tipo de interlocutor, etc.) en que se produce. El fenómeno estudiado puede pertenecer a cualquier nivel lingüístico, si bien existen menos dificultades para el análisis cuando se trata de un rasgo fonético-fonológico. El objeto principal del estudio se considera una variable dependiente (grupo de factores dependientes); los elementos lingüísticos y socio-situacionales que se tienen en cuenta para estudiar ese objeto se denominan variables independientes o explicativas (grupos de factores independientes o explicativos). La forma de preparar los materiales para el análisis probabilístico es prácticamente la misma que hemos señalado para la estadística descriptiva; en otras palabras: se parte del recuento de las frecuencias absolutas del rasgo en cada una de las condiciones previstas (grupos de factores explicativos) y en los discursos recogidos de una muestra de hablantes. Es necesario incidir en la idea de que la finalidad de este tipo de análisis es eminentemente lingüística, por lo que los rasgos analizados deben ser elementos variables de la lengua. En el momento de valorar el comportamiento de las variables explicativas y de organizarlas en grupos coherentes es aconsejable anteponer un criterio lingüístico a otro tipo de consideraciones. El sociolingüista no es un sociólogo, ni un matemático: debe pensar como lingüista y actuar con los patrones derivados de su formación. De igual modo, los

Page 6: Sociolingüística, estadística e informática - Lingüística 6, 1994.

6

resultados que aporten los análisis también han de ser interpretados desde y para la lingüística. La importancia del análisis probabilístico descansa en varios aspectos. Esta prueba permite averiguar cuál es el grado en que los grupos de factores explicativos determinan la variación de un elemento cuando todos ellos actúan conjuntamente; dicho de otro modo, el cálculo permite conocer la probabilidad general de que apareza uno de los factores cuando actúan simultáneamente diversos grupos de factores lingüísticos y extralingüísticos. Al mismo tiempo, las probabilidades representan el comportamiento general de una comunidad a propósito de ciertos fenómenos, aunque solo se hayan recogido los usos lingüísticos de algunos hablantes. El uso exclusivo de las frecuencias relativas (%) en la descripción sociolingüística limita enormemente el alcance de las conclusiones del análisis e incluso puede conducir a interpretaciones erróneas. Veamos un ejemplo creado por David Sankoff (1988). Supongamos que estamos analizando la presencia o la ausencia de una marca de plural teniendo en cuenta la clase de palabras en la que aparece o no aparece (adjetivos, determinantes, nombres) y las funciones gramaticales de los sintagmas en los que se dan esas palabras (objeto, sujeto). La Tabla 1 recoge los casos de expresión de la marca en las condiciones previstas. Objetos Sujetos Total_____ Adjetivos 6/10 = 60% 10/10 = 100% 16/20 = 80% Determinantes 3/10 = 30% 7/10 = 70% 10/20 = 50% Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20% __________________________________________________________ Total: 9/30 = 30% 21/30 = 70% Tabla 1.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la clase de palabras y la función gramatical. Totales válidos. En esta tabla se indican los casos de presencia de la marca (aplicaciones) sobre un total de apariciones posibles. Así, encontramos la marca de plural en seis de los diez casos de adjetivos en sintagmas con función de objeto recogidos en los materiales; en tres de los diez casos de determinantes en sintagmas con función de objeto y no la encontramos en ninguno de los diez casos de nombres con esta misma función. La suma de los totales marginales, en unos datos como estos, nos da una imagen real de cómo funciona la variación de plural: la aparición de la marca viene claramente determinada por la función de sujeto y por la clase de los adjetivos. Ahora bien, hay que tener en cuenta que en las intersecciones de “categoría” y “función” encontramos un mismo número de apariciones posibles del morfema (diez), hecho que casi nunca se da en los materiales de carácter sociolingüístico. Lo normal es que ese número varíe de forma notable y que la distribución de los datos no sea tan uniforme. La Tabla 2 representa un ejemplo paralelo al anterior, en el que no coincide el número de posibles aplicaciones por categoría y función, aunque las frecuencias relativas parciales sean las mismas. Objetos Sujetos Total_____ Adjetivos 42/70 = 60% 10/10 = 100% 52/80 = 65% Determinantes 3/10 = 30% 49/70 = 70% 52/80 = 65% Nombres 0/10 = 0% 76/190 = 40% 76/200 = 38% _________________________________________________________ Total: 45/90 = 50% 135/270 = 50% Tabla 2.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la

Page 7: Sociolingüística, estadística e informática - Lingüística 6, 1994.

7

clase de palabras y la función gramatical. Totales inadecuados para el análisis. En este caso, las frecuencias relativas totales no dan una imagen adecuada del comportamiento variable del fenómeno, porque podríamos interpretar que el hecho de que el morfema se utilice en una secuencia con función de sujeto o de objeto es absolutamente indiferente. Pero, aun cuando los datos estén homogéneamente distribuidos, podemos encontrar situaciones en las que los totales no son válidos para el análisis. Esto ocurre en la Tabla 3. Objetos Sujetos Total_____ Adjetivos 9/10 = 90% 7/10 = 70% 16/20 = 80% Determinantes 0/10 = 0% 10/10 = 100% 10/20 = 50% Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20% _________________________________________________________ Total: 9/30 = 30% 21/30 = 70% Tabla 3.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la clase de palabras y la función gramatical. Interacción de factores independientes. Aquí comprobamos que los totales marginales coinciden con los de la Tabla 1. Pero tampoco haríamos una interpretación adecuada si no prestáramos atención a la forma en que están distribuidas las frecuencias parciales. Observamos, efectivamente, que la clase de los adjetivos y la función de sujeto favorecen la aparición de la marca, sin embargo también se aprecia que nuestros dos grupos de factores están interactuando, es decir, ofrecen una información solapada, porque los adjetivos sólo admiten la marca cuando van en función de objeto, y los determinantes y los nombres sólo favorecen la aplicación de la marca cuando pertenecen a un sujeto. Los factores no tienen efectos independientes. De todo ello se desprende que, para conseguir unos valores generales capaces de indicar hasta qué punto unos factores u otros favorecen la aplicación de un elemento, hay que recurrir a procedimientos matemáticos más seguros y complejos, como, por ejemplo, el análisis probabilístico (Moreno Fernández 1990a: 149-151). Los avances técnicos de la sociolingüística han respondido básicamente a una búsqueda del modelo estadístico más adecuado para analizar un rasgo lingüístico cuya variación depende de unos factores lingüísticos y extralingüísticos. Estos avances se han dado principalmente entre 1969 y 1978. Los progresos matemáticos han ido acompañados de la creación de programas informáticos que han aplicado los cálculos estadísticos. El nombre genérico con que se conocen tales programas es VARBRUL. Las sucesivas versiones han ido mejorando y adaptándose a las necesidades de cada momento, desde 1971 (primer VARBRUL) hasta 1990 (GOLDVARB 2.0). La bibliografía sociolingüística cuenta con varios estudios en los que se da cuenta de los modelos estadísticos y los programas informáticos que se han manejado. Los modelos han sido, por este orden, el modelo aditivo (Labov 1969), el modelo multiplicativo (Cedergren y Sankoff 1974) y los modelos logísticos (Sankoff 1975; Rousseau y Sankoff 1978). Los programas utilizados han sido VARBRUL (Cedergren 1973), VARBRUL 2 (Sankoff 1975; Sankoff y Thibault 1977; Labov y Labov 1978), VARBRUL 2S (Poplack 1979), VARBRUL 2S para PC (Pintzuk 1986) y VARBRUL 3 (Rousseau y Sankoff 1978a; Rousseau 1989). Para Macintosh, GOLDVARB 1.6 (Rand y Sankoff 1989) y GOLDVARB 2.0 (Rand y Sankoff 1990). Dado que pretendemos ofrecer un “estado de la cuestión” actualizado, parece preferible tratar con mayor detenimiento el modelo y los programas que hoy tienen más difusión y remitir a los estudios pertinentes para conseguir información sobre las etapas

Page 8: Sociolingüística, estadística e informática - Lingüística 6, 1994.

8

anteriores (Moreno Fernández 1988: 111-126; López Morales 1993). 1.4. El modelo estadístico. El modelo estadístico con el que trabaja el variacionismo desde 1975 es el modelo logístico de regresión, cuya segunda versión fue presentada en 1978 por Pascale Rousseau y David Sankoff. Antes de comentar cuáles son sus características generales, creemos necesario hacer algunas advertencias. Hasta el momento, las explicaciones más detalladas que se han dado de este modelo proceden, como es lógico, de sus creadores. Sankoff y Rousseau son investigadores de formación matemática que han dedicado una parte muy importante de su trabajo a las aplicaciones con fines lingüísticos. Ahora bien, estos autores no han dado las explicaciones con la intención de que los sociolingüistas aprendan matemáticas o puedan calcular por ellos mismos unas probabilidades de significación sociolingüística: han buscado la comprensión general del modelo. Ni siquiera la publicación más “pedagógica” de este campo (Sankoff 1988) permite al lingüista seguir con facilidad los argumentos matemáticos. El modelo se ha descrito para su comprensión y la de los resultados que proporcionan los programas informáticos correspondientes, pero poco más: se ha dado prioridad al qué y al para qué sobre el cómo.1 El modelo logístico estima la probabilidad de que un fenómeno variable se manifieste en una de sus formas cuando concurren simultáneamente unas determinadas condiciones. Para llegar a aplicar esto, es necesario tener en cuenta diversas informaciones. En primer lugar, se necesita saber, a propósito de cada factor, cuántas veces se ha manifestado — se ha aplicado — en relación con los casos posibles. Este dato se consigue mediante el simple recuento de las frecuencias absolutas y el cálculo de las relativas. En la Tabla 4 se muestran unos datos de aspiración de /s/ implosiva en lengua española cuando en el contexto fónico siguiente aparece una consonante sorda (s), una consonante sonora (n), una vocal (v) o pausa. Consideramos casos de aplicación (AP.) los que corresponden a la variante aspirada; los casos de no aplicación (NO AP.) son los que no corresponden a la aspiración.2 GRUPO AP. % NO AP. % TOTAL % s 597 41 872 59 1469 42 n 358 51 349 49 707 20 v 56 9 567 91 623 18 p 59 8 657 92 716 20 _______________________________ Total 1070 30 2445 70 3515 Tabla 4.- Frecuencias de aspiración de /s/ implosiva, según contexto fónico siguiente.3 En la Tabla 5 se muestran unos datos de aspiración de /s/ implosiva recogidos en seis hablantes. Aquí también consideramos casos de aplicación (AP.) los correspondientes a la variante aspirada. GRUPO AP. % NO AP. % TOTAL % 1 140 20 564 80 704 20 2 246 45 306 55 552 16 3 266 51 253 49 519 15 4 86 15 503 85 589 17 5 149 23 498 77 647 18 6 183 36 321 64 504 14 _______________________________ _ Total 1070 30 2445 70 3515 Tabla 5.- Frecuencias de aspiración de /s/ implosiva, según hablantes.

Page 9: Sociolingüística, estadística e informática - Lingüística 6, 1994.

9

Una vez contados los casos particulares en que se manifiesta un factor, hay que averiguar, de nuevo mediante un recuento, con qué frecuencia se da ese fenómeno cuando coinciden varios factores explicativos. En nuestros ejemplos sobre la aspiración de /s/ según el contexto siguiente y el hablante, se trata de averiguar cuántas muestras de aspiración se dan en el hablante 1 cuando el contexto siguiente es una consonante sorda, cuando es una consonante sonora, ...y así sucesivamente con cada hablante y tipo de contexto. Estos cruces de información dan lugar a la creación de celdas (puntos de intersección de los factores) ocupadas por unas frecuencias. La Tabla 6 recoge las celdas posibles de nuestro ejemplo, con indicación del número de aspiraciones que se encuentra en cada una de ellas (AP.) y de su frecuencia relativa. Ésta es la configuración interna de los materiales recogidos.

Tabla 6.- Frecuencias absolutas y relativas de aspiración de /s/ implosiva (AP.), según contexto fónico siguiente (s, n, v, p) y hablante (1, 2, 3, 4, 5, 6). Los datos de aspiración de /s/ implosiva así presentados parecen suficientes para hacer un buen análisis, sin embargo no nos dicen qué importancia, qué peso tiene cada uno de los factores de nuestros grupos, al coincidir con los demás, para determinar cada una de las frecuencias. Así, en la primera celda tenemos 62 casos de aspiración de /s/ implosiva recogidos en el hablante 1 y ante consonante sorda; con los datos de que disponemos no podemos saber cuántos de esos casos se deben principalmente al hecho de pertenecer a tal informante y cuántos se deben principalmente al hecho de que el fonema va ante consonante sorda. Para conocer este extremo hay que crear un “modelo teórico” que nos indique la probabilidad de que aparezca la aspiración en cada una de las circunstancias previstas, teniendo en cuenta sus posibles combinaciones o cruces. El “modelo teórico” de la sociolingüística de un fenómeno está formado por un conjunto de probabilidades, no de frecuencias. La probabilidad de que aparezca un rasgo lingüístico determinado se consigue mediante un cálculo de regresión, que combina las probabilidades de que una variante se dé en cada circunstancia específica (factores i, j, ...) con un valor constante (p0). Las probabilidades específicas se calculan a partir de las

Page 10: Sociolingüística, estadística e informática - Lingüística 6, 1994.

10

frecuencias del “modelo observado”. p0, denominada también input, probabilidad de input, efecto medio o media corregida, se consigue a partir de una media del peso de los diferentes grupos de factores, que, a su vez, es proporcional al número de datos asociado a cada factor.4 El recurso utilizado por el variacionismo con esta finalidad se denomina modelo logístico.

Figura 1.- Modelo logístico (Rousseau y Sankoff 1978). Esta fórmula es el fruto del perfeccionamiento que ha conocido el análisis de la variación a lo largo del tiempo. Por un lado, permite obtener unos valores “teóricos” o “esperados” que no sobrepasan nunca los límites del 0 % y del 100% (0 y 1 en términos de probabilidades). Por otro lado, la relación que se establece, dentro del “modelo teórico”, entre los casos de aplicación y los de no aplicación es siempre simétrica: la probabilidad de que aparezca un rasgo lingüístico variable (p = aplicación) siempre es complementaria de la probabilidad de que no aparezca (1-p = no aplicación). Finalmente, tiene la virtud de reunir todos los aspectos positivos de los diferentes modelos usados por la sociolingüística.5 En estadística es muy frecuente la utilización de ciertas técnicas para contrastrar hipótesis y para conocer si la distribución interna de unos datos se debe a factores accidentales o a errores. La hipótesis de partida en esta clase de análisis se denomina “hipótesis nula”, según la cual ninguno de los factores estudiados tendría un efecto sistemático sobre la aparición de un fenómeno. La creación de un “modelo teórico” sirve para probar si la disposición de unos datos se debe al azar o se explica realmente por la influencia de ciertos factores. Se trata, por lo tanto, de demostrar que la hipótesis nula es falsa y que los factores analizados tienen algún poder de determinación, mayor o menor, según los casos. La sociolingüística variacionista utiliza una prueba para conocer hasta qué punto son significativos los parámetros del “modelo teórico”, esto es, la bondad del ajuste entre el modelo y los datos: la función de laverosimilitud (“likelihood”). La medida de ese ajuste se consigue con los valores correspondientes al efecto que tiene cada factor sobre el rasgo lingüístico estudiado. Según Sankoff (1988: 990), el principio de la máxima verosimilitud proporciona una estimación de los efectos de los factores que consiste en elegir el conjunto de valores que más probablemente ha generado los datos: el valor máximo de la función de verosimilitud. Este principio puede tener aplicación en muy diversos campos. En medicina, por ejemplo, permitiría seleccionar, entre todas las posibles causas del cáncer de pulmón, cuál es la combinación de factores que debe ser considerada como la que más favorece la enfermedad; en economía, ayudaría a conocer la probabilidad de ser o no ser un desempleado en función de una serie de características individuales o sociales. La verosimilitud es el producto de unos valores conseguidos para cada uno de los factores, de la forma que se refleja en la Figura 2.

Page 11: Sociolingüística, estadística e informática - Lingüística 6, 1994.

11

Figura 2.- Cálculo de la verosimilitud para cada factor. donde pap. es la probabilidad de que un contexto haya influido sobre una variante lingüística, elevada al número de aplicaciones (ocurrencias) en ese contexto, y (1 — p)~ap. es la probabilidad de que un contexto no haya influido sobre una variante,6 elevada al número de no aplicaciones en ese contexto. Laverosimilitud está relacionada, por tanto, con las probabilidades calculadas para cada factor y estas probabilidades se obtienen mediante un proceso de aproximación sucesiva (iteraciones), que conducen a la solución más exacta (convergencia) y con una mayor verosimilitud.7 Así pues, la verosimilitud sirve tanto para indicar cuáles son las probabilidades más adecuadas para los factores de un grupo, como para determinar cuál es la combinación de factores que mejor se corresponde con los datos. Al comparar varias verosimilitudes, es mejor aquella que tiene un valor más cercano a 0. 1.5. Recapitulación. La sociolingüística variacionista ha dedicado una parte importante de sus esfuerzos al perfeccionamiento de unas técnicas cuantitativas de análisis, encaminadas a determinar la importancia de los contextos lingüísticos y socio-situacionales sobre la variación lingüística. El método propuesto se denomina análisis probabilístico. Aunque el variacionismo norteamericano siempre ha hecho sus consideraciones teóricas y metodológicas desde posiciones cercanas al generativismo, lo cierto es que algunos de sus conceptos fundamentales son difíciles de conciliar. Por otra parte, el análisis probabilístico se ha convertido en una herramienta de estudio susceptible de ser utilizada desde diversos marcos teóricos. El método variacionista busca el cálculo de la probabilidad de que aparezca un rasgo lingüístico determinado en unas circunstancias lingüísticas, sociológicas y contextuales determinadas. A partir de los datos de frecuencia recogidos en un grupo de hablantes, se crea un modelo teórico formado por las probabilidades de que se dé un fenómeno cuando concurren diversas circunstancias. La estadística se encarga de precisar hasta qué punto las probabilidades calculadas son verosímiles y cuáles son las circunstancias que, al darse simultáneamente, pueden explicar mejor un hecho lingüístico. 2.- Informática y sociolingüística. 2.1. Los programas VARBRUL. Sólo con tener en cuenta el cálculo de la verosimilitud, sería patente la necesidad de usar medios informáticos para el análisis sociolingüístico. Esos medios los proporcionan los programas VARBRUL. Existen en el mercado muchos programas estadísticos capaces de realizar análisis similares a los que hacen los VARBRUL, pero estos últimos están especialmente preparados para trabajar sobre unos datos como los que aparecen en la variación lingüística y, además, presentan los resultados de una forma adecuada a los intereses de los lingüistas (Sankoff 1988: 990-991). Los programas de la familia VARBRUL no están comercializados y se consiguen de forma gratuita de los propios autores o de otros investigadores que los aplican habitualmente. En la actualidad se hacen los análisis con las versiones que aplican el modelo logístico: VARBRUL 2, VARBRUL 2s, VARBRUL 3 y GOLDVARB 2.0. De todos ellos, los más utilizados son VARBRUL 2s y GOLDVARB 2.0, debido a que son versiones para ordenadores personales: el primero para IBM-PC o VAX y el segundo para Macintosh.

Page 12: Sociolingüística, estadística e informática - Lingüística 6, 1994.

12

VARBRUL 2 tiene el inconveniente de ser un programa para macro-computadoras — lo que lo hace menos accesible para algunos investigadores — y de no ofrecer información que sí presentan otras versiones: por ejemplo, la función de verosimilitud de cada una de las combinaciones de factores analizadas. En algunos aspectos, VARBRUL 2 ofrece ciertas ventajas. Esto ocurre a la hora de introducir los datos en el ordenador: el programa no necesita que se le especifiquen cuáles son los grupos de factores analizados; tan sólo hay que anotar cuántos casos de un rasgo lingüístico están asociados a los diversos factores explicativos: en el ejemplo sobre la aspiración de /s/ implosiva, cuántos casos de aspiración se dan en el informante 1 ante consonante sorda, ante sonora, ante vocal, ante pausa, en el informante 2 ante sorda, sonora, etc. Naturalmente, esos datos han sido contados antes de forma manual. El ordenador se encarga de reunir los factores de tal manera que no puedan aparecer en un mismo contexto dos factores pertenecientes a un mismo grupo; en otras palabras, se ocupa de encontrar a qué grupo pertenece cada factor para aplicar, después, el modelo estadístico ya comentado. VARBRUL 3 comparte con la versión 2 el inconveniente de estar preparado para macro-computadoras, pero ofrece unas ventajas que lo convierten en la mejor y más completa versión de la familia. Sin embargo, este programa tiene todavía una difusión muy limitada. La principal desventaja que ofrece GOLDVARB 2.0 respecto de VARBRUL 2S y VARBRUL 3 está en que el primero realiza solamente análisis binomiales, mientras que los últimos pueden hacer análisis multinomiales. Esto quiere decir que GOLDVARB sólo puede considerar como valores de aplicación los procedentes de uno de los factores de la variable dependiente, frente a los valores de no aplicación, que corresponderían a una o más variables explicativas. VARBRUL 2S y 3 pueden considerar como valores de aplicación los pertenecientes a más de un factor dependiente, y esto permite estudiar mejor las relaciones entre los factores que componen un grupo dependiente, cuando son más de dos. En el caso de VARBRUL 3, se añaden otras ventajas —rapidez, capacidad de admisión de datos, número de variables explicativas— que comentaremos después. Desde luego, cuando esta última versión cubra su etapa experimental, será, sin duda, de obligada aplicación en el variacionismo, aunque tenga que manejarse en centros de cálculo. Poniendo en una balanza los pros y los contras, podemos decir que hoy día los mejores programas para el análisis sociolingüístico son VARBRUL 2S Y GOLDVARB 2.0. El primero fue creado por David Sankoff, mejorado en la Universidad de Pennsylvania y preparado para IBM-PC por S. Pintzuk. El segundo está basado en programas de Sankoff, Rousseau, Hindle y Pintzuk y fue adaptado para Macintosh por David Rand. En estas dos versiones nos centraremos, explicando, en primer lugar, las características comunes y, más adelante, sus respectivas peculiaridades. 2.2. Objetivos de los programas VARBRUL. Hay que saber, desde un primer momento, que la aplicación de un análisis sociolingüístico a menudo no es un proceso lineal del tipo “codificación de datos > introducción de datos en el ordenador > análisis > interpretación de resultados”, sino que la fase final exige muchas veces repetir algunos de los pasos anteriores. La causa de esto reside en que no todos los conjuntos de datos han sido recogidos de la misma forma ni tienen la misma distribución interna. Después de un primer análisis podemos descubrir algunos detalles que desconocíamos al empezar la investigación. Lo importante no es aplicar un programa informático, sino conseguir la mayor cantidad de información posible sobre el rasgo lingüístico convertido en objeto de estudio. La aplicación de los programas de análisis probabilístico tiene los siguientes

Page 13: Sociolingüística, estadística e informática - Lingüística 6, 1994.

13

objetivos generales (Rousseau y Sankoff 1978a: 59-60): 1º.- Calcular la probabilidad de que un hecho variable se manifieste de una forma concreta en un contexto determinado (lingüístico y extralingüístico), es decir, cuando una serie de factores explicativos aparecen conjuntamente. 2º.- Decidir hasta qué punto da cuenta un “modelo teórico” de los datos recogidos y determinar si los datos pueden ser divididos en varios subconjuntos que respondan a modelos diferentes. 3º.- Comprobar si los grupos de factores contribuyen significativamente a explicar los datos o si deben ser desestimados.8 4º.- Determinar la fiabilidad de los análisis. Un análisis de naturaleza sociolingüística ha de proporcionar una información concreta sobre cada uno de los objetivos generales. Todos ellos son importantes, porque contribuyen a dar seguridad al investigador sobre la calidad de su estudio. Las conclusiones que se deriven de esta información pueden obligar a reconsiderar las diversas etapas de la investigación, desde la forma en que se ha seleccionado la muestra de hablantes y se ha elegido el objeto de estudio, hasta el avance que puede suponer para el conocimiento de un fenómeno. No obstante, excepto aquello que afecte a la recogida misma de los materiales, prácticamente todos los problemas que surgen en el proceso analítico pueden ser tratados — y en muchos casos solucionados — trabajando sobre la información disponible en el ordenador. Es posible, por ejemplo, agrupar variables explicativas que en principio se habían tratado de forma separada, prescindir de datos que se han revelado como inadecuados o realizar análisis parciales para tener un conocimiento más profundo de algún aspecto. El investigador debe poner un especial cuidado en valorar adecuadamente las estimaciones de fiabilidad que proporciona el programa en cada fase del análisis. Solo así puede saberse si las conclusiones obtenidas tienen solidez o si los materiales — datos y análisis — deben sus características al azar. El sociolingüista tiene que estar seguro de que, al realizar el mismo análisis con datos similares, los resultados prácticamente se van a repetir. En esta seguridad descansa la comparabilidad de los estudios que se realicen sobre el mismo fenómeno en comunidades de habla diferentes. 2.3. Manejo de los programas VARBRUL para ordenadores personales. La aplicación de los programas VARBRUL 2s y GOLDVARB 2.0 tienen en común muchos aspectos. En ambos casos hay que recorrer tres etapas antes de proceder al análisis probabilístico propiamente dicho: 1º.- Introducción de los datos (tokens) y especificación de factores. 2º.- Especificación de condiciones. 3º.- Creación de celdas. 2.3.1. Introducción de los datos. Los datos con los que trabajan estos programas consisten en una lista de “secuencias” (tokens) donde queda reflejada la manifestación concreta de cada una de las muestras encontradas en los materiales sociolingüísticos, con los rasgos lingüísticos y extralingüísticos que configuran su contexto. Los datos se disponen, pues, de uno en uno, caso a caso, en forma de lista. Los factores que integran los distintos grupos deben establecer entre sí una relación de escala nominal, preferentemente; esto es, cada variante recibe una etiqueta, sin que ello implique un orden determinado (Moreno Fernández 1990a: 125-126). Cuando los factores

Page 14: Sociolingüística, estadística e informática - Lingüística 6, 1994.

14

tienen un orden interno,9 el análisis puede plantear unos problemas que explicaremos más adelante (Rousseau y Sankoff 1978a: 64). Para introducir los datos en los programas es imprescindible atribuir a cada factor de cada grupo un código específico de un carácter (número o letra, mayúscula o minúscula).10 En un caso como el de la aspiración de /s/ implosiva que antes hemos presentado, podemos atribuir los siguientes códigos: Grupo de factores dependiente : - /s/ implosiva: [s] = 2; [h] = 1; ø = 0. Grupos de factores explicativos: - Contexto fónico siguiente: ante consonante sorda = s; ante consonante sonora = n; ante vocal = v; ante pausa = p. - Hablante: hablante 1 = 1; hablante 2 = 2; hablante 3 = 3; ... etc.11 En el ejemplo de la marca de plural, que utiliza David Sankoff para explicar el funcionamiento de GOLDVARB, se atribuyen los siguientes códigos: Grupo de factores dependiente: - Marca de plural: aparición de marca de plural = 1; no aparición de marca de plural = 0. Grupos de factores explicativos: - Clase de palabra en la que puede aparecer la marca de plural: adjetivo = a; nombre = n; determinante = d. - Función del sintagma en el que puede aparecer la marca: sujeto = s; objeto = c. Siguiendo este sistema de codificación, podemos representar en una secuencia de tres caracteres — o más, dependiendo del estudio — los factores que concurren en cada uno de los datos. Las secuencias se disponen en forma de lista en una parte del programa que tiene las mismas características que un programa de tratamiento de textos y de la que daremos algún detalle más abajo. Cada una de las secuencias debe ir precedida de un paréntesis, que indica al ordenador que lo que va después de él es un dato que ha de ser analizado. Tras el paréntesis, el primer carácter debe ser siempre un factor del grupo dependiente. La secuencia debe ir seguida de una marca de fin de línea (retorno manual) o de un espacio. SECUENCIA DE CÓDIGOS PARA CADA DATO: ([código de factor dependientex] [código de factor explicativo i] [código de factor explicativoj]... [código de factor explicativon] fin de línea/espacio En los ejemplos de marca de plural y de /s/ implosiva, los datos tendrían una disposición como esta:

Page 15: Sociolingüística, estadística e informática - Lingüística 6, 1994.

15

_________________________________________________________________ DATOS DE MARCA DE PLURAL DATOS DE /S/ IMPLOSIVA (1as (2p1 (1as (2n1 (1as (1s2 (1ds (1n2 etc. _________________________________________________________________ Figura 3.- Disposición de los datos. Al preparar los datos correspondientes a los distintos grupos, es posible hacer uso del signo ‘.’ (punto) como si fuera un factor. Suele utilizarse, por ejemplo, cuando hay una muestra, un contexto, etc. que no se ajusta estrictamente a los factores previstos o cuando se piensa que un determinado dato puede ser considerado como cualquiera de los factores del mismo grupo, según las circunstancias. Los datos siempre deben cumplir dos requisitos mínimos para poder ser analizados: cada grupo ha de incluir al menos dos factores (no se puede analizar un fenómeno teóricamente variable cuando sólo se han recogido muestras de una de las variantes); además, los datos tienen que incluir al menos un caso para cada uno de los factores explicativos previstos (no se puede analizar el factor “ante pausa” si no hay ningún caso de mantenimiento de /s/, de aspiración o de pérdida en ese contexto). A la hora de introducir los datos no es imprescindible que la lista de secuencias responda exactamente al orden en que los datos han aparecido en los textos transcritos, pero se ha de respetar estrictamente el orden de los factores dentro de cada secuencia. La lista de datos, dependiendo del fenómeno analizado, puede incluir unas decenas, unos centanares o varios miles de secuencias. Aunque la introducción de esos datos lleva algún tiempo, este puede acortarse notablemente si se cuenta manualmente el número de secuencias idénticas y se trasladan al ordenador mediante las funciones de activar, copiar y mover bloques.12 Además de los datos codificados, el ordenador necesita saber cuántos son los grupos de factores que van a ser analizados y cuáles son los factores válidos dentro de cada grupo. Para ello es necesario cumplimentar una “especificación de factores” — veremos más adelante el modo de hacerlo—, gracias a la cual el programa puede identificar cualquier dato erróneo o que no se ajuste a lo previsto. Al especificar los factores, también hay que indicar al ordenador cómo ha de leer el signo ‘.’ dentro de los datos: se trata de atribuir un “valor por defecto”. Si queremos que sea leído como alguno de los otros factores, se especifica el código correspondiente. Si simplemente se quiere eliminar esa información, se especifica el código ‘/’ (barra inclinada), que significa ‘no se aplica’. 2.3.2. Especificación de condiciones. Una vez introducidos los datos y especificados los factores, hay que cubrir la segunda etapa: señalar al ordenador qué condiciones debe tener en cuenta para leer los datos. Esta información ya se ha proporcionado en parte mediante la “especificación de factores”; esto es, el ordenador ya sabe cuántos grupos de factores hay y qué factores conforman cada grupo, pero desconoce, por ejemplo, cuál será considerado como dependiente y cuáles como explicativos o independientes. Las condiciones del análisis se especifican en un archivo creado especialmente para ello (en los epígrafes dedicados a cada programa explicaremos el modo de crear ese archivo). Si el investigador desea hacer su análisis con las condiciones marcadas en la “especificación de factores” — pongamos como ejemplo el de la aspiración de /s/ implosiva — creará un

Page 16: Sociolingüística, estadística e informática - Lingüística 6, 1994.

16

archivo con la forma reproducida en la Figura 4. __________ ( (1) (2) (3) ) __________ Figura 4.- Disposición de un archivo de condiciones. Con esto se está diciendo que se van a analizar los tres grupos previstos y que el que aparece en primer lugar (1) será la variable dependiente y los demás, las explicativas. Los datos, por tanto, no se van a recodificar. La forma de dar esta información responde a un sistema lógico llamado LISP. Cada una de las partes de un archivo de condiciones — la lista completa de condiciones, cada elemento de la lista — debe ir entre parántesis. En la Figura 4, además de los paréntesis aparecen simplemente los números de los grupos de factores. Ahora bien, el desarrollo del análisis puede revelar la necesidad de interpretar las secuencias de datos iniciales (tokens) de una manera diferente: por ejemplo, fundir dos factores de un grupo en uno solo, no tener en cuenta un factor determinado, prescindir de un grupo de factores completo o, incluso, elegir otro grupo dependiente. Todo esto se puede hacer desde un archivo de condiciones sin tener que alterar para nada la lista de secuencias. En tal circunstancia, ese fichero servirá para recodificar las secuencias automáticamente. Para lograr una recodificación, el sistema LISP cuenta con cinco elementos básicos: “AND”, “OR”, “NOT”, “COL” y “ELSEWHERE” (escritos con mayúsculas o con minúsculas). Los tres primeros son unos operadores lógicos muy conocidos: “AND” y “OR” toman hasta 20 argumentos; “NOT” tiene un solo argumento. Por su parte, “COL” ‘columna dentro de lista de secuencias’ se usa con dos argumentos: el número de un grupo de factores y el código del factor que se va a recodificar. “ELSEWHERE” se utiliza como último elemento dentro de un conjunto de cláusulas referidas a un grupo de factores y sirve para recodificar los datos con un valor determinado, si no se encuentra ninguna de las condiciones dadas previamente para ese grupo. La información referida a un grupo que aparezca detrás de este operador no se tiene en cuenta para la recodificación. Además de estos elementos, el sistema LISP utiliza “NIL” que indica la exclusión en el momento del análisis del factor o los factores (argumentos) que lo acompañan. En la Figura 5 se ofrece un ejemplo sencillo de archivo de condiciones dispuesto para conseguir una recodificación. Supongamos que al hacer un primer análisis de la aspiración de /s/ implosiva hemos observado que no es aconsejable, por las características de los datos recogidos, mantener una distinción entre consonantes sordas y consonantes sonoras para el contexto fónico siguiente y que tendría más sentido distinguir simplemente entre consonantes, vocales y pausa. En ese caso hay que hacer que el ordenador considere los datos referidos a las sordas y a las sonoras como elementos de una misma categoría. Para ello se redactaría un archivo como el de la Figura 5.

Page 17: Sociolingüística, estadística e informática - Lingüística 6, 1994.

17

( (1) (2 (c (COL 2 s)) (c (COL 2 n)) (v (COL 2 v)) (p (COL 2 p))) (3) ) _______________ Figura 5.- Disposición de un archivo de condiciones dispuesto para la recodificación (muestra sencilla). Obsérvese que el conjunto de la información y cada uno de sus componentes se encierran entre paréntesis. Con este archivo estamos diciendo lo siguiente: 1º.- Que el grupo 1 será dependiente y que no se tienen que recodificar sus factores; los demás grupos serán explicativos. 2º.- Que los factores del grupo 2 se tienen que recodificar de la siguiente forma: se va a leer como “c” (consonante) lo que en la columna 2 de las secuencias (tokens) aparezca como “s” (consonante sorda); también se va a leer como “c” lo que en la columna 2 aparezca como “n” (consonante sonora); se va a seguir leyendo como “v” (vocal) lo que en la columna 2 aparece como “v”; y se va a seguir leyendo como “p” (pausa) lo que en la columna 2 aparece como “p”. 3º.- Que los factores del grupo 3 no se tienen que recodificar. Aunque nuestro ejemplo es bastante sencillo, las posibilidades de recodificación con el sistema LISP son muy amplias, como se puede comprobar en una muestra que proporcionan Rand y Sankoff (1990) para unos grupos de factores más complejos y que reproducimos parcialmente en la Figura 6. _________________________________ ( (4 (d (OR ( (COL 4 d) (COL 4 c))) (s (ELSEWHERE))) (5) (3 (/ (OR (COL 3 s) (COL 3 t) (COL 3 u))) (m (OR (OR (COL 3 n) (COL 3 h)) (OR (COL 3 1) (COL 3 2) (COL 3 3) (COL 3 w) (COL 3 u) (COL 3 y) (COL 3 p) (COL 3 t) (COL 3 r) (COL 3 x)))) (x (AND (OR (COL 3 n) (COL 3 h)) (COL 7 n))) (NIL (ELSEWHERE))) ) ___________________________________________ Figura 6.- Archivo de condiciones con recodificación (muestra compleja). El desarrollo de la información contenida en este archivo podría ser el siguiente: 1º.- Considera el grupo 4 como dependiente y los demás como explicativos. 2º.- Recodifica el grupo 4 de esta forma: lee como “d” bien lo que en la columna 4 de las secuencias (tokens) aparece como “d”, bien lo que en la columna 4 aparece como “c”, y lee como “s” todo lo demás. 3º.- El grupo 5 no se recodifica. 4º.- Recodifica el grupo 3 de esta forma: no se aplica, bien lo que en la columna 3 aparece como “s”, bien lo que aparece como “t” o bien lo que aparece como “u”; lee como “m”, por

Page 18: Sociolingüística, estadística e informática - Lingüística 6, 1994.

18

un lado, bien lo que en la columna 3 aparece como “n” o bien lo que en la columna 3 aparece como “u” o, si no, bien lo que en la columna 3 aparece como “1” o como “2” o como “3” o como “w” o como “u” o como “y” o como “p” o como “t” o como “r” o como “x”; lee como “x” lo que en la columna 3 aparece, bien como “n”, bien como “h” y lo que en la columna 7 aparece como “n”; por último, no se aplica todo lo demás que aparezca en las secuencias de este grupo. Como se puede apreciar, si la recodificación que se quiere hacer afecta seriamente a la disposición inicial de las secuencias de datos, la elaboración de un archivo de condiciones puede ser algo complicada, entre otras cosas porque los olvidos de los paréntesis se producen con más frecuencia de la deseada. De cualquier modo, la redacción de unas condiciones que incluyan recodificación siempre es menos trabajosa que la rectificación manual de las secuencias de datos. Como veremos, el programa GOLDVARB 2.0 es capaz de crear de forma automática este tipo de archivos, lo que libera al sociolingüista de un trabajo ciertamente engorroso. En VARBRUL 2S la redacción en LISP no es automática. 2.3.3. Creación de celdas. La creación de celdas se consigue con el recuento de la frecuencia hallada en la intersección de dos factores de grupos diferentes. Para hacer esto es imprescindible la información que se aporta en las secuencias de datos y en los archivos de condiciones. De hecho, estos últimos determinan cuántas celdas se van a construir y qué datos van a formar parte de cada una de las frecuencias. Desde el punto de vista del sociolingüista, la fase de creación de celdas puede ser considerada como un trámite informático, puesto que la resuelve el ordenador automáticamente, una vez que conoce sobre qué archivos de datos y de condiciones tiene que realizar los cómputos. No obstante el investigador debe señalar previamente —ya explicaremos en qué lugar — cuál de los factores del grupo dependiente es el que se va a analizar (aplicar). Al especificar qué factor o factores son pertinentes para la construcción de las celdas, también hay que decidir si se quiere hacer un análisis binomial o multinomial. Este último sólo se puede considerar en el caso de trabajar con VARBRUL 2S, puesto que GOLDVARB 2.0 no está preparado para ello. Si el sociolingüista trabaja con un grupo dependiente compuesto por cuatro factores (“1”, “2”, “3” y “4”) las posibilidades de análisis que tiene son las siguientes: a) Análisis binomial: considerar “1” como valor de aplicación y “2”, “3” y “4” como valores de no aplicación. b) Análisis binomial: considerar “1” como valor de aplicación, “2” como valor de no aplicación y omitir “3” y “4”. c) Análisis trinomial: analizar conjuntamente “1”, “2” y “3” y omitir “4”. En el ejemplo sobre el comportamiento de /s/ implosiva (grupo dependiente con tres factores), sería posible analizar el mantenimiento de la sibilante frente a la aspiración y a la pérdida de la consonante, cuyos datos serían considerados como un todo, o la pérdida frente al mantenimiento y omitir los datos sobre la aspiración o cualquier otra combinación que se considere oportuna por el carácter del fenómeno lingüístico estudiado. Cuando el ordenador dispone de toda esta información crea las celdas oportunas y las reproduce en un archivo. La Figura 7 muestra las celdas correspondientes a la aspiración de /s/ (aplicación) frente a mantenimiento y pérdida (no aplicación), obtenidas al combinar dos grupos explicativos (hablante y contexto fónico).

Page 19: Sociolingüística, estadística e informática - Lingüística 6, 1994.

19

_______________ AP. ~AP. Factores 63 82 1n 10 115 1p 62 238 1s 5 129 1v 76 64 2n 5 87 2p 134 88 2s 31 67 2v 66 48 3n 24 83 3p 164 54 3s 12 68 3v 55 58 4n 6 137 4p 21 201 4s 4 107 4v 59 71 5n 6 129 5p 82 189 5s 2 109 5v 39 26 6n 8 106 6p 134 102 6s 2 87 6v _________________

Figura 7.- Celdas de aspiración de /s/ implosiva (AP.) y de no aspiración (~AP.) Una vez que las celdas están creadas y cargadas en la memoria del ordenador, se puede proceder al análisis estadístico de los materiales. 2.4. GOLDVARB 2.0. El manejo de GOLDVARB 2.0. se ajusta a las etapas que hemos presentado en los epígrafes anteriores.13 Cada una de estas fases requiere la creación de un archivo específico, que se van creando y memorizando progresivamente: archivo de secuencias de datos (Tok), archivo de condiciones (Con) y archivo de celdas (Cel). Por último, se crea un archivo de resultados (Res) en el que aparecen los recuentos estadísticos y los análisis probabilísticos. No pretendemos que estas líneas sustituyan las instrucciones del programa, pero creemos conveniente comentar los aspectos más elementales del manejo. La verdad, no obstante, es que el uso de este programa es sumamente fácil, porque el ordenador ofrece para cada fase una “ventana” en la que la información se dispone de forma muy clara. 2.4.1. Archivo de datos. La primera “ventana” que se abre en la pantalla está preparada para incluir las secuencias de datos y para especificar los factores que se van a manejar en cada uno de los grupos de factores. Esta ventana está dividida en dos partes, una para cada uno de los fines que acabamos de exponer. La parte destinada a recoger las secuencias de datos funciona realmente como un programa de tratamiento de textos en el que se pueden activar, mover o borrar bloques. En la parte de “especificación de factores”, se anotan los datos necesarios en los lugares apropiados para ello, como se observa en la Figura 8.14

Page 20: Sociolingüística, estadística e informática - Lingüística 6, 1994.

20

Figura 8.- Ventana de archivo de datos (Tok) y de especificación de factores (GOLDVARB 2.0). Una vez introducidos los datos, se puede comprobar si están correctamente dispuestos mediante la función “Check all” que aparece en la ventana de “especificación de factores” o en la ventana “Tokens” del menú principal del programa. 2.4.2. Archivo de condiciones. Se crea desde el menú principal (Tokens) y existe la posibilidad de hacerlo sin recodificación o con recodificación de las secuencias de datos. En el segundo caso, se abre una ventana destinada a la generación de condiciones (Figura 9).

Figura 9.- Ventana para generación de condiciones con recodificación (GOLDVARB 2.0). Como ya hemos comentado, las condiciones son redactadas de forma automática

Page 21: Sociolingüística, estadística e informática - Lingüística 6, 1994.

21

mediante el sistema LISP en el archivo que el ordenador crea a tal efecto, aunque es posible retocarlas o modificarlas manualmente. 2.4.3. Creación de celdas. En la entrada “Cells” del menú principal se encuentra la orden pertinente para cargar las celdas en el ordenador a partir de los archivos de datos y de condiciones que se especifiquen. Antes de que se creen las celdas, proceso que se realiza también automáticamente, es necesario anotar, en la ventana que se presenta con este fin, cuál o cuáles van a ser los valores de aplicación y de no aplicación, teniendo en cuenta las posibilidades explicadas en 2.3.3. En este programa no existe la posibilidad de realizar un análisis multinomial. De todas formas, si se necesita considerar dos factores como valores de aplicación y otros dos como valores de no aplicación, es posible hacerlo mediante una recodificación, al crear el archivo de condiciones. Por otra parte, cuando contamos con cuatro factores en el grupo dependiente, existe la posibilidad de crear celdas como si de un análisis multinomial se tratase, pero estas sólo servirán para construir “tabulaciones cruzadas” (véase Tabla 6), no para hacer el análisis propiamente dicho. Después de que el ordenador haya hecho las celdas — a partir de los valores de aplicación que se le hayan indicado —, se crea, también automáticamente, un archivo de resultados en el que se ofrecen las frecuencias absolutas y relativas de los casos de aplicación para cada grupo explicativo estudiado y para cada uno de sus factores. La información que se proporciona aquí coincide con la que hemos reproducido en las Tablas 4 y 5. Estos datos se presentan antes de proceder a los análisis probabilísticos, porque en ellos se hace notar si los recuentos son adecuados. Si alguno de los grupos contiene un solo factor (“singleton”) o alguno de los factores muestra una frecuencia de 0% o 100% en los casos de aplicación (“knockout”), no es posible acceder al análisis de regresión (véase 2.3.1.) 2.4.4. Análisis de regresión. GOLDVARB 2.0 cuenta con dos posibilidades de análisis probabilístico. A ambas se accede desde el menú “Cells”: “Binomial, 1 level” y “ Binomilal, Up & Down”. Los resultados de estos análisis se escriben automáticamente dentro del archivo de resultados, a continuación de las frecuencias de cada factor. Cuando se aplica el análisis binomial de 1 nivel, GOLDVARB 2.0 da la siguiente información: a) Número de iteraciones que han sido necesarias para encontrar la función de verosimilitud.15 b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4) c) Efecto de cada uno de los factores de cada grupo sobre el factor dependiente (“Weight”). d) División del número de aplicaciones de cada factor entre el número de casos posibles (“App/Total”). e) Probabilidad resultante de combinar el efecto (“weight”) y el “input”. f) Factores utilizados en la creación de cada celda. g) Número total de datos por celda. h) Número de aplicaciones por celda. i) Valor esperado por celda. j) Proporción de error por celda. k) Ji- cuadrado (c2) total . l) Ji-cuadrado (c2) dividido por el número de celdas. m) Logaritmo de la función de verosimilitud.

Page 22: Sociolingüística, estadística e informática - Lingüística 6, 1994.

22

n) Diagrama de dispersión, en el que se compara la proporción de casos de aplicación del factor estudiado en cada una de las celdas, con las probabilidades creadas en el análisis. Estos dos tipos de valores se relacionan y disponen teniendo como referencia un eje central: cuando los datos observados se ajustan a las probabilidades del modelo, aparecen situados cerca del eje. La Figura 10 representa el diagrama de dispersión del mantenimiento de la sibilancia para /s/ implosiva. En él se observa que hay una correspondencia entre los valores observados y los valores predichos por el modelo, puesto que todas las celdas están cerca del eje. Los cuadrados que aparecen en la parte superior corresponden a las celdas que contienen un mayor número de aplicaciones. Los de la parte baja del diagrama representan las celdas que tienen menos aplicaciones.16

“Lingüística.Cel”

• 19/12/93•18:11• Token file: s.tkn• Conditions: Lingüística.Cnd

1

Probability

0 Applications/Total 1 Figura 10.- Diagrama de dispersión de mantenimiento de /s/ implosiva. Además de esto, se puede pedir al ordenador que ofrezca la información necesaria para valorar la adecuación del modelo teórico: logaritmo de máxima verosimilitud y c2, con indicación de la significación, esto es, de la probabilidad de que los resultados del análisis se deban al azar.17 La significación nunca debe superar el umbral de 0.05, admitido de forma general en los estudios de Ciencias Sociales. El cálculo de c2 permite comparar el resultado del análisis de GOLDVARB con los que proporcionan las versiones anteriores de VARBRUL.

Page 23: Sociolingüística, estadística e informática - Lingüística 6, 1994.

23

El análisis binomial de subida y bajada (“Binomial, Up & Down”) aporta una información en parte coincidente con los resultados del análisis de 1 nivel y en parte complementaria. Se trata de un análisis de regresión escalonada (paso a paso), compuesto por una sucesión de etapas. En primer lugar, se realiza el análisis de cada uno de los grupos de factores por separado: el análisis consiste en calcular las probabilidades de que aparezca una variante para cada factor del grupo. A continuación, se analizan los grupos tomados de dos en dos, después de tres en tres, y así hasta que no se encuentra ningún grupo cuya inclusión suponga un aumento del logaritmo de la función de verosimilitud, dentro siempre de una significación p < 0.05. El programa compara las verosimilitudes de las etapas sucesivas y señala cuál es el grupo, o la combinación de grupos, más adecuado, esto es, con mayor verosimilitud. Concluida la primera fase, llamada de “ascenso” o de agrupación progresiva de grupos de factores, se pasa a la fase de “descenso” o de eliminación progresiva de grupos. Dentro de ella, en primer lugar se analizan conjuntamente todos los grupos explicativos; a continuación, las combinaciones de grupos que resultan tras eliminar uno de ellos alternativamente; después las combinaciones que resultan de eliminar dos grupos, y así sucesivamente hasta que no se encuentra un grupo cuya exclusión suponga una disminución del logaritmo de la función de verosimilitud, dentro de la significación adecuada. Al terminar esta segunda fase, el programa compara las verosimilitudes de las distintas etapas e indica cuál es la combinación de grupos con mayor verosimilitud. El programa presenta, para cada una de las etapas de este análisis escalonado, la siguiente información: a) Número de iteraciones realizadas para encontrar la convergencia. b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4) c) Probabilidad de aparición del rasgo analizado atendiendo a cada factor de cada grupo (el número de grupos analizados varía según la etapa del análisis). d) Logaritmo de la función de verosimilitud. e) Significación. El hecho de disponer de la información probabilística desgranada de esta manera (por cada grupo de factores, por cada combinación de dos grupos, por cada combinación de tres grupos, etc.) facilita al sociolingüista la labor de interpretación de los resultados y hace posible que esta tarea se realice con todo rigor. 2.4.5. Tabulación cruzada. Independientemente de que se haya procedido a cualquiera de los análisis binomiales, una vez construidas las celdas a partir de unos valores de aplicación determinados (casos binomial y multinomial), el menú “Cells” ofrece la posibilidad de crear tablas de frecuencias absolutas y relativas en las que se cruzan los datos de dos variables explicativas (véase Tabla 6). 2.5. VARBRUL 2S. Este programa se utiliza en ordenadores IBM-PC equipados con Coprocesador matemático o en VAX. También es necesario contar con un editor de textos. El manejo del programa requiere cumplir las fases explicadas en 2.3., de un modo similar al que hemos descrito para GOLDVARB. Ahora bien, VARBRUL no funciona en un entorno de “ventanas”, sino que está formado por una serie de programas, destinados, cada uno de ellos, a un fin específico. Estos programas parciales reciben los siguientes nombres:

Page 24: Sociolingüística, estadística e informática - Lingüística 6, 1994.

24

CHECKTOK, READTOK, MAKECELL, COUNTUP, CROSSTAB, IVARB, TVARB, MVARB, TSORT y TEXTSORT. Para hacer funcionar estos programas, hay que contar con una serie de archivos creados por medio del editor de textos: un archivo de datos (con extensión “.dat”)18, un archivo de especificación de factores (“.fac”) y un fichero de condiciones (“.con”). La aplicación de los programas parciales sobre los archivos correspondientes dará lugar a la creación de los archivos de secuencias de datos (“.tok”), de celdas (“.cel”) y de resultados (“.res”). Tal y como hemos hecho a propósito de GOLDVARB 2.0, comentaremos de forma general los aspectos más elementales del manejo de VARBRUL 2s, puesto que no tenemos la intención de que estas notas ocupen el lugar que corresponde a las instrucciones del programa. 2.5.1. Introducción de los datos en el ordenador. Archivos de especificación de factores y de condiciones. La disposición y características de los datos para trabajar con este programa se ajusta exactamente a lo que hemos comentado en 2.3.1 y 2.4.1., excepto en lo que se refiere al número de grupos y factores admitidos para el análisis. Este número depende del programa parcial que se quiera aplicar. Para construir las celdas, los límites son los siguientes (Pintzuk 1988: 20; 25-26): Máximo número de factores en el grupo dependiente: 9. Máximo número de grupos explicativos: 20. Máximo número de factores en los grupos explicativos: 30. Para realizar un análisis binomial, el número máximo de factores admitido para el grupo dependiente es de dos y, entre todos los grupos explicativos, no puede haber más de 49 factores, si se trabaja con IBM-PC, o de 100, si se trabaja con VAX. Como ya hemos apuntado, esta versión de VARBRUL puede hacer análisis multinomiales. En este caso, el número máximo de factores admitido para el grupo dependiente es de 3 ó 5, según el programa parcial que se aplique y, entre todos los grupos explicativos, no puede haber más de 100 factores. En VARBRUL 2S el archivo de datos (“.dat”) hay que crearlo en un documento de un editor de textos (p.e. WordPerfect) que no contenga “caracteres de control”.19 Una vez que se ha creado ese primer archivo de datos, conviene utilizar el programa destinado a comprobar que las secuencias no contienen errores: CHECKTOK.20 Previamente, sin embargo, se ha tenido que crear un archivo de especificación de factores (“.fac”) por medio del editor de textos.21 Este archivo debe tener una configuración acorde con la que se reproduce en la Figura 11. _________ 3 / 012 / 123456 / snvp / _________ Figura 11.- Archivo de especificación de factores creado con editor de textos (VARBRUL 2S). Factores para el análisis de /s/ implosiva.

Page 25: Sociolingüística, estadística e informática - Lingüística 6, 1994.

25

En la primera línea aparece el número de grupos de factores que van a ser analizados; en la segunda, el carácter con el que ha de completarse una secuencia incompleta; en las siguientes se anotan, por orden, los factores y los valores por defecto de cada grupo analizado. Cuando CHECKTOK dispone de la información que ha solicitado, crea un archivo en el que se localizan los errores que pueda contener el fichero de datos.22 Después de comprobar la configuración de los datos, hay que arrancar el programa parcial READTOK, para crear un archivo de secuencias de datos (“.tok) a partir de uno o más archivos de datos (“.dat”). Es importante llamar la atención sobre las diferencias que hay entre el primer archivo de datos — al que damos la extensión “.dat” — y el archivo de datos que va a ser utilizado por los distintos programas parciales —al que damos la extensión “.tok”, por paralelismo con GOLDVARB. Sólo los archivos de datos creados desde READTOK pueden ser utilizados en las siguientes fases de VARBRUL. Antes de continuar con el proceso de aplicación, todavía es necesario crear un archivo más mediante el editor de textos: un archivo de condiciones, cuya redacción es idéntica a la que hemos explicado en 2.3.2 y 2.4.2. 2.5.2. Creación de celdas y análisis probabilísticos. Los archivos creados hasta este momento hacen ya posible la preparación de las celdas de frecuencias y los análisis de regresión. Para crear las celdas se utiliza el programa parcial MAKECELL, el cual solicita para su funcionamiento el nombre de los archivos de datos (“.tok”) y de condiciones (“.con), así como el valor de aplicación sobre el que se va a centrar el análisis (2.3.3.).23 El resultado se registra en un nuevo archivo, para el que se sugiere la extensión “.cel”. En él se dan las frecuencias absolutas y relativas de los casos de aplicación y de no aplicación — en una forma similar a la de las Tablas 4 y 5— y a continuación la frecuencia correspondiente a cada celda (véase Figura 7). Este archivo de celdas es necesario para la aplicación de otros programas específicos. VARBRUL 2S cuenta con tres programas destinados al análisis de regresión: IVARB, TVARB y MVARB. El primero de ellos se utiliza para hacer análisis binomiales cuando el grupo dependiente está formado solamente por dos factores (véase nuestro ejemplo sobre marca de plural). Antes de realizar los análisis, el ordenador pide el nombre del archivo de celdas sobre el que van a hacer los cálculos;24 también se solicita un nombre para atribuírselo al archivo en el que van a quedar inscritos los resultados de los análisis (“.res”). Como ocurre con GOLDVARB 2.0, IVARB ofrece dos posibilidades de análisis de regresión: análisis binomial de 1 nivel y análisis binomial de subida y bajada (“Up & Down”) (2.4.4.). La información que se proporciona en uno y en otro es prácticamente la misma que comentamos a propósito de GOLDVARB, si bien en el programa para IBM-PC no se da un diagrama de dispersión. Por su parte, los programas TVARB y MVARB se encargan de realizar análisis multinomiales. La principal diferencia entre ellos está en que TVARB trabaja con un grupo dependiente de tres factores, mientras que MVARB puede analizar un grupo dependiente con cuatro o cinco factores. En ambos casos, tan sólo hay una posibilidad de regresión: análisis binomial de 1 nivel.25 VARBRUL 2S incluye otros programas parciales que permiten contar, ordenar y manipular los datos de diversas formas. Estos programas suelen ser un buen complemento para conseguir análisis refinados y rigurosos.26 Por otra parte, los errores que surgen en la aplicación de los diversos programas se anotan en archivos creados automáticamente. De

Page 26: Sociolingüística, estadística e informática - Lingüística 6, 1994.

26

esta forma, el investigador puede saber en cada momento cuáles son las dificultades a las que se enfrenta y el modo de resolverlas (Pintzuk 1988: 33). 2.6. Interpretación de los análisis probabilísticos. La interpretación de los resultados de los análisis es la etapa más importante de toda investigación. La calidad de un trabajo — en cuanto a validez, utilidad y comparabilidad — viene determinada por la forma en que se haya hecho la interpretación y en que se hayan aprovechado los datos disponibles. Puede haber análisis correctos, pero pobres; puede haber interpretaciones complejas y sugerentes, pero absolutamente incorrectas. Ya hemos señalado qué informaciones proporcionan los programas creados para hacer análisis de regresión (2.4.4. y 2.5.2.). Esas informaciones se dan en los llamados archivos de resultados. Ahora nos interesa tratar con mayor detenimiento cómo hay que valorar esa información, para qué sirve cada dato y cómo se puede conseguir un aprovechamiento óptimo de los materiales. La actitud general del investigador debe ser la de conseguir el máximo rendimiento de cada uno de las herramientas técnicas que la informática ha puesto a su disposición. Con esto queremos decir que, si el programa y las características de los datos permiten hacer dos tipos de análisis —p.e. binomial de 1 nivel y binomial de subida y bajada —, no es aconsejable dejar de lado uno de ellos; si el análisis plantea algún problema, es más fácil solucionarlo con una información completa — resultados completos, tablas cruzadas, etc. — que con una información parcial —p.e. solamente tablas cruzadas. Además de esto, la actitud del investigador debe estar siempre abierta a la posibilidad de analizar los datos varias veces: a menudo hay que reconsiderar los grupos y factores establecidos previamente, las condiciones del análisis, los valores de aplicación seleccionados. etc. En palabras sencillas, los análisis no siempre salen a la primera, si lo que se busca es un conocimiento detallado de los mecanismos de la variación. Las aproximaciones superficiales están al alcance de cualquiera. Dado que VARBRUL 2S y GOLDVARB 2.0 ofrecen unos resultados de características muy similares (en su mayor parte idénticas), los comentarios que dediquemos a su interpretación tendrán validez para ambos programas. 2.6.1. Análisis binomial de 1 nivel. Es aconsejable comenzar los análisis aplicando la prueba de 1 nivel, por ser la más sencilla. En la Figura 12 reproducimos los resultados obtenidos del análisis de /s/ implosiva, cuando el valor de aplicación es el mantenimiento de la sibilante, es decir, el factor dependiente correspondiente a [s].

Page 27: Sociolingüística, estadística e informática - Lingüística 6, 1994.

27

_____________________________________________ • BINOMIAL VARBRUL, 1 step • 19/12/93•18:11 •••••••••••••••••••••••••••••••••••• Name of cell file: Lingüística.Cel Using fast, less accurate method. Averaging by weighting factors. One-level binomial analysis… Run # 1, 24 cells: Iterations: 1 2 3 4 5 6 7 Convergence at Iteration 7 Input 0.676 Group Factor Weight App/Total Input&Weight 1: 1 0.678 0.75 0.81 2 0.278 0.43 0.45 3 0.228 0.40 0.38 4 0.723 0.80 0.84 5 0.598 0.70 0.76 6 0.408 0.59 0.59 2: s 0.389 0.56 0.57 n 0.158 0.30 0.28 v 0.765 0.85 0.87 p 0.825 0.89 0.91 Cell Total App’ns Expected Error 6v 89 86 73.317 12.450 6s 236 94 112.656 5.911 6p 114 104 99.319 1.713 6n 65 15 13.786 0.136 5v 111 105 100.992 1.764 5s 271 178 179.796 0.053 5p 135 127 126.346 0.053 5n 130 45 47.774 0.255 4v 111 103 105.062 0.756 4s 222 192 172.184 10.163 4p 143 136 137.624 0.509 4n 113 41 57.021 9.086 3v 80 58 53.390 1.197 3s 218 49 61.386 3.479 3p 107 78 79.585 0.123 3n 114 21 11.806 7.987 2v 98 54 70.903 14.573 2s 222 76 75.096 0.016 2p 92 81 72.778 4.446 2n 140 26 18.331 3.692 1v 134 123 125.241 0.613 1s 300 233 220.908 2.511 1p 125 109 119.236 19.056 1n 145 66 65.466 0.008 Total Chi-square = 100.5513 Chi-square/cell = 4.1896 Log likelihood = -1757.103 Maximum possible likelihood = -1707.502 Fit: X-square(16) = 99.202, rejected, p = 0.0000 Execution time: 0 min, 6.0 sec _____________________________________________ Figura 12.- Análisis binomial de 1 nivel (mantenimiento de /s/ implosiva).

Page 28: Sociolingüística, estadística e informática - Lingüística 6, 1994.

28

Sin duda son numerosos los datos a los que hay que atender, pero los resultados deben darnos respuesta para varias preguntas: 1ª.- ¿Con qué probabilidades aparece un rasgo lingüístico cuando concurren los factores de diversas variables explicativas? 2ª.- ¿ Cómo es el modelo teórico en comparación con los datos observados? 3ª.- ¿Qué significación tiene el análisis realizado? La primera nota de interés en la Figura 12 es el valor correspondiente al “input” (0.676). Ese valor hace posible la comparación de los efectos de dos factores dentro de un grupo y nos está dando un promedio (media corregida) de aparición del valor de aplicación en los grupos estudiados. En el ejemplo de mantenimiento de /s/, estaríamos ante un fenómeno variable (la cifra está lejos de 0 y a suficiente distancia de 1). Ahora bien, dado que el “input” es superior a .5 hay que entender que el factor dependiente “mantenimiento” se ve favorecido en las condiciones previstas (variables explicativas). La primera de las preguntas planteadas encuentra su respuesta en la columna correspondiente al efecto o al peso (“weight”) de cada uno de los factores de cada grupo. Ese conjunto de probabilidades constituye el “modelo teórico” creado a partir de los datos observados (1.4.). Generalmente, si una probabilidad es superior a .5, indica que el factor explicativo favorece la variante estudiada; si es inferior, no la favorece. Cuando la probabilidad es exactamente .5, el factor es indiferente o no resulta significativo en relación con la variante. Junto a la columna del peso, se nos da información sobre los datos observados, dividiendo el número de casos de mantenimiento de /s/ implosiva en cada factor (aplicaciones) por el total de casos de /s/ encontrados en los materiales.27 A la derecha de esta columna hay otra en la que se ofrecen unos valores en forma de probabilidad estimada, que son el resultado de combinar el “input” y el peso (“weight”). Tales valores son siempre cercanos a los que encontramos en la columna anterior (“App/Total”). En lo que se refiere al “modelo teórico” del mantenimiento de /s/ implosiva —frente a la aspiración y la pérdida de la consonante —, la Figura 12 nos está diciendo que los hablantes en los que se ve favorecido ese rasgo lingüístico (grupo 1) son los números 1, 4 y 5 (probabilidad superior a .5), mientras que no se ve favorecido en los demás hablantes, especialmente en los números 2 y 3. El contexto fónico (grupo 2) nos aporta una información interesante: el mantenimiento de la [s] es mucho más probable cuando la sibilante va seguida de pausa (.825) o de vocal (.765) que cuando lleva detrás una consonante, especialmente si ésta es sonora (.158). En otras palabras, el debilitamiento de /s/ implosiva es más probable cuando detrás aparece una consonante. En este momento de la interpretación, surge, por tanto, la necesidad de realizar análisis complementarios, con el fin de comprobar qué otros factores dependientes (aspiración o pérdida) son los que resultan favorecidos por este contexto específico. La segunda pregunta importante a la hora de interpretar los resultados del análisis afecta a la relación entre el “modelo teórico” y los datos observados: ¿hasta qué punto se ajusta el primero a los segundos? La estadística dispone de diversas técnicas para dar cuenta de este aspecto. Su importancia es singular, porque si el modelo no tiene una correspondencia clara con los datos, es muy probable que se tenga que revisar la forma en que se han recogido o codificado los materiales. De ser así, habría que desandar parte del camino, reconsiderando los datos o cambiando las condiciones en las que se han analizado (2.3.2.). Los programas VARBRUL 2S y GOLDVARB 2.0 disponen de una de las técnicas más refinadas para medir la adecuación entre un “modelo teórico” y unos datos: la función de verosimilitud (1.4.). Cuanto más alto sea este logaritmo, más verosímil resultará el modelo formado por las probabilidades.28 En la Figura 12, en su parte inferior, se nos da el

Page 29: Sociolingüística, estadística e informática - Lingüística 6, 1994.

29

logaritmo de la función de verosimilitud del mantenimiento de /s/ implosiva (Log likelihood = -1757.103) y la máxima verosimilitud posible (Maximum possible likelihood = -1707.502). La diferencia entre ambos es pequeña y podemos afirmar que el “modelo teórico” se ajusta adecuadamente a los datos analizados. Esto nos llevaría automáticamente a deducir que los grupos de factores analizados no tienen ningún poder de determinación sobre la variable dependiente. Si las probabilidades calculadas se ajustan a la realidad, hay que suponer que ciertamente están indicando cómo unos factores favorecen o desfavorecen la aparición de un elemento lingüístico determinado. Paralelamente al cálculo de la verosimilitud, se realiza una prueba de c2 encaminada al mismo fin. Esta prueba se aplica, por un lado, para permitir la comparación de estos análisis con los que proporcionan versiones anteriores de los programas VARBRUL y, por otro, para dar más seguridad al investigador, si cabe, sobre los resultados de sus análisis. La prueba de c2 determina la distancia que existe entre unos valores observados y unos valores esperados según el “modelo teórico” (Moreno Fernández 1990a: 140-146). El resultado que se obtiene se lleva a una tabla estadística en la que se dice qué probabilidad hay de que el resultado del análisis no sea el mismo si se vuelve a repetir con unos datos similares o, dicho de otra forma, qué probabilidad existe de que la hipótesis nula no pueda ser rechazada.29 En la Figura 12, esta probabilidad es de 0.0000 — inferior a 0.05—, por tanto, la hipótesis nula puede rechazarse. Nuestros resultados acerca del mantenimiento de /s/ implosiva dan también los valores totales, los casos de aplicación y los valores esperados para cada una de las celdas creadas. De esta forma, en la celda “6v” (“hablante 6”; “ante vocal”) aparecen un total de 89 casos de /s/ implosiva, de los cuales 86 son de mantenimiento de la sibilante. Para esa celda, el modelo espera una cifra algo superior a 73 casos de mantenimiento, con un error previsto por encima de 12. Si se estima en tanto por ciento la cifra correspondiente al error, se aprecia que su proporción en la mayor parte de las celdas es relativamente pequeña. Este “error” se refiere a la predicción y refleja una perturbación aleatoria inherente a cualquier investigación empírica. Si el error fuera muy grande en todas las celdas, estaríamos ante unas falsas variables explicativas, lo que conllevaría unos malos resultados en las medidas de ajuste del modelo. De todos modos, en un número importante de análisis de la variación, la columna del “error” no va a ser ninguna clave imprescindible para una correcta interpretación de los resultados. Si volvemos a la Figura 12, observamos que el margen de error es absolutamente despreciable en más de la mitad de las celdas (“6n” = 0.136; “5s” = 0.053; etc.). No lo es tanto, aunque ello no afecte a la calidad del análisis, en las celdas “2v” y “1p”. Más adelante comentaremos aspectos complicados del análisis en los que la consulta de estos errores puede tener alguna significación. La tercera pregunta importante de la que hay que dar cuenta se refiere a la significación del análisis realizado. El análisis binomial de 1 nivel da la significación calculada a partir de c2. En el ejemplo de mantenimiento de /s/ comprobamos que la significación es adecuada a las exigencias de la sociolingüística (p < 0.05). Ahora bien, las conclusiones definitivas sobre este aspecto podrán extraerse de forma más fiable sobre los resultados del análisis binomial de subida y bajada. 2.6.2. Análisis binomial de subida y bajada (regresión escalonada). En la Figura 13 se reproducen los resultados obtenidos del análisis binomial de subida y bajada de /s/ implosiva, cuando el valor de aplicación es el mantenimiento de la sibilante, es decir, el factor dependiente correspondiente a [s].

Page 30: Sociolingüística, estadística e informática - Lingüística 6, 1994.

30

__________________________________________________ • BINOMIAL VARBRUL • 24/12/93•16:40 •••••••••••••••••••••••••••••••••••••••••••• Name of cell file: Lingüística.Cel. Using more accurate method. Averaging by weighting factors. Threshold, step-up/down: 0.050001 Stepping Up… ---------- Level # 0 ---------- Run # 1, 1 cells: Iterations: 1 2 Convergence at Iteration 2 Input 0.626 Log likelihood = -2323.793 ---------- Level # 1 ---------- Run # 2, 6 cells: Iterations: 1 2 3 4 5 Convergence at Iteration 5 Input 0.638 Group # 1 -- 1: 0.636, 2: 0.300, 3: 0.273, 4: 0.696, 5: 0.574, 6: 0.453 Log likelihood = -2145.863 Significance = 0.000 Run # 3, 4 cells: Iterations: 1 2 3 4 5 Convergence at Iteration 5 Input 0.659 Group # 2 -- s: 0.397, n: 0.184, v: 0.744, p: 0.802 Log likelihood = -1958.316 Significance = 0.000 Add Group # 2 with factors snvp ---------- Level # 2 ---------- Run # 4, 24 cells: Iterations: 1 2 3 4 5 6 7 Convergence at Iteration 7 Input 0.676 Group # 1 -- 1: 0.678, 2: 0.278, 3: 0.228, 4: 0.723, 5: 0.598, 6: 0.408 Group # 2 -- s: 0.389, n: 0.158, v: 0.765, p: 0.825 Log likelihood = -1757.131 Significance = 0.000 Maximum possible likelihood = -1707.502 Fit: X-square(16) = 99.258, rejected, p = 0.0000 Add Group # 1 with factors 123456 Best stepping up run: #4 --------------------------------------------- Stepping Down… ---------- Level # 2 ---------- Run # 5, 24 cells: Iterations: 1 2 3 4 5 6 7 Convergence at Iteration 7 Input 0.676 Group # 1 -- 1: 0.678, 2: 0.278, 3: 0.228, 4: 0.723, 5: 0.598, 6: 0.408 Group # 2 -- s: 0.389, n: 0.158, v: 0.765, p: 0.825 Log likelihood = -1757.131 Maximum possible likelihood = -1707.502 Fit: X-square(16) = 99.258, rejected, p = 0.0000 ---------- Level # 1 ---------- Run # 6, 4 cells: Iterations: 1 2 3 4 5 Convergence at Iteration 5 Input 0.659 Group # 2 -- s: 0.397, n: 0.184, v: 0.744, p: 0.802 Log likelihood = -1958.316 Significance = 0.000 Run # 7, 6 cells: Iterations: 1 2 3 4 5 Convergence at Iteration 5 Input 0.638 Group # 1 -- 1: 0.636, 2: 0.300, 3: 0.273, 4: 0.696, 5: 0.574, 6: 0.453 Log likelihood = -2145.863 Significance = 0.000 All remaining groups significant Groups eliminated while stepping down: None Best stepping up run: #4 Best stepping down run: #5 Execution time: 0 min, 20.9 sec ____________________________________________

Figura 13.- Análisis binomial de subida y bajada (mantenimiento de /s/ implosiva)

Page 31: Sociolingüística, estadística e informática - Lingüística 6, 1994.

31

La manera de proceder en el examen de los resultados de este análisis es similar a la que hemos propuesto para el binomial de 1 nivel: se trata de descubrir la probabilidad con que cada factor favorece la aparición de un elemento lingüístico, de comprobar la adecuación entre los datos y el modelo creado por la estadística y de comprobar la significación del análisis. Antes hemos hablado de la conveniencia de realizar en primer lugar el análisis de 1 nivel y después el de subida y bajada. Esta sucesión de análisis lleva a valorar y comparar los resultados del primero con los del segundo, antes de reanalizar los datos, de hacer otros cálculos complementarios o de estudiar aspectos que momentáneamente hayan quedado a un lado. Tal y como se ha explicado en 2.4.4. y en 2.5.2., el análisis de subida y bajada es un análisis de regresión escalonada donde se analizan los grupos de factores, primero uno a uno y después combinándolos, hasta que se encuentra la convergencia más verosímil. El análisis se desarrolla, pues, en fases sucesivas (“run”). Si el resultado de la subida coincide o es complementario del resultado de la bajada, estaremos en condiciones de hacer una interpretación adecuada. Si no es así, el investigador deberá replantearse la forma en que ha organizado sus datos o ha fijado las condiciones. En la Figura 13, el análisis de subida (“Stepping Up”) se desarrolla en cuatro fases (“run” 1, 2, 3 y 4)30 y el de bajada (“Stepping Down”) en tres (“run” 5, 6 y 7). Ante una hoja de resultados como ésta, conviene atender primero a lo que se dice al final de cada regresión. Así, tras la subida se nos informa de que la mejor fase ha sido la número 4, mientras que, al final de la bajada, se señala que las mejores fases han sido las números 4 y 5; además se dice que ningún grupo de factores ha sido eliminado. Esto significa que las fases que ofrecen mayor verosimilitud han sido la 4 y la 5 y, por otro lado, que los grupos de factores explicativos que hemos analizado en relación con el mantenimiento de /s/ implosiva (hablante y contexto fónico) son significativos para el análisis. Comprobamos, efectivamente, que los resultados de la subida y de la bajada son complementarios. Una vez hechas estas comprobaciones, nuestra atención debe centrarse en los datos que aportan las fases 4 y 5. Como son prácticamente idénticos, atenderemos exclusivamente a la fase 4, que nos ofrece la significación para la función de verosimilitud. La Figura 14 representa la información de la fase 4. ___________________________________________________ Iterations: 1 2 3 4 5 6 7 Convergence at Iteration 7 Input 0.676 Group # 1 -- 1: 0.678, 2: 0.278, 3: 0.228, 4: 0.723, 5: 0.598, 6: 0.408 Group # 2 -- s: 0.389, n: 0.158, v: 0.765, p: 0.825 Log likelihood = -1757.131 Significance = 0.000 Maximum possible likelihood = -1707.502 Fit: X-square(16) = 99.258, rejected, p = 0.0000 __________________________________________ Figura 14.- Resultados de análisis binomial de subida y bajada (fase 4 de la Fig.13). Con estos resultados se puede dar respuesta a las preguntas básicas de la interpretación. Las probabilidades con que se favorece la aparición del factor dependiente [s] son las que se expresan para cada grupo y factor explicativo. Todas ellas configuran el “modelo teórico” o, si se quiere, el conjunto de valores esperados, en forma probabilística.31 La bondad del ajuste del modelo se expresa en el “Log likelihood”: en nuestro ejemplo, esta cifra es la más alta comparada con las que se ofrecen en las demás fases (a excepción de la fase 5). Finalmente, la significación (“significance”) del logaritmo de la función de

Page 32: Sociolingüística, estadística e informática - Lingüística 6, 1994.

32

verosimilitud es inferior a 0.05 (p = 0.000), lo que revela la idoneidad del análisis. Cuando un investigador se encuentra con esta significación, puede estar seguro de que los datos sobre los que va a hacer sus interpretaciones son absolutamente fiables. A propósito de la significación, puede ser oportuno hacer algunas aclaraciones. El nivel de significación indica la validez estadística de un análisis. Este nivel se calcula comparando la verosimilitud que se ha obtenido a propósito de un grupo de factores (primer análisis) con la verosimilitud que merece la combinación de ese grupo con otro grupo de factores (segundo análisis), mediante la aplicación de un test de c2, con la consiguiente consulta de la tabla de probabilidades. La fórmula que se utiliza es la siguiente (Sankoff 1988: 991):

Figura 15.- Cálculo del nivel de significación a partir del logaritmo de la función de verosimilitud. El nivel de significación determina si un grupo de factores es relevante para el fenómeno estudiado. Cuando no lo es, el programa se encarga de eliminarlo, advirtiéndolo en la hoja de resultados. En el ejemplo del mantenimiento de /s/ implosiva no se ha eliminado ningún grupo de factores y la fase de mayor verosimilitud presenta una significación que permite rechazar la hipótesis nula. A la hora de publicar los resultados de los análisis, es necesario que el investigador dé cuenta, al menos, de estos datos: “input”, probabilidades por factores, logaritmo de la función de verosimilitud y significación. En la Figura 14 se recoge también el resultado de aplicar la prueba de c2, que coincide en la significación con la prueba de la verosimilitud. La presencia de esta información en el archivo de resultados es opcional, ya que no es imprescindible para hacer una interpretación correcta.32 3.- Dificultades en la interpretación de los análisis probabilísticos. Los resultados de los análisis probabilísticos pueden aconsejar la repetición de una determinada prueba, el cambio de las condiciones del análisis o la reorganización de los grupos y factores fijados desde un principio. En algunas circunstancias, tales medidas son necesarias — “knockout”, “singleton” (2.3.1. y 2.4.3.) — y en otras, convenientes — análisis particular de cada factor dependiente, agrupamiento o eliminación de grupos que ofrecen escasa verosimilitud, etc. (2.3.2. y 2.6.1.). En muchos casos, se pueden repetir los análisis sustituyendo la variable dependiente por una de las explicativas y ésta por la primera, siempre y cuando la variable explicativa no tenga los factores dispuestos en escala ordinal. Tal recurso permite ver el mismo problema desde una perspectiva diferente, aportando algo más de dinamismo a las interpretaciones. No obstante, los resultados de este tipo de experimentos deben interpetarse con sumo cuidado. Aunque es muy difícil prever qué dificultades de interpretación va a presentar un análisis determinado, lo cierto es que a menudo surgen obstáculos que el sociolingüista debe salvar de una forma adecuada. Esos obstáculos tienen que ver, en líneas generales, con la forma de organizar las variables y sus variantes y con las relaciones que establecen entre sí. Dejando a un lado los problemas que surgen por un uso inadecuado de la estadística o de los programas informáticos, nos detendremos en el comentario de las dificultades que más

Page 33: Sociolingüística, estadística e informática - Lingüística 6, 1994.

33

frecuentemente aparecen en el momento de la interpretación: la interacción de factores, la agrupación de factores, las variantes minoritarias 3.1. Interacción de factores. Desde un punto de vista matemático, los análisis probabilísticos parten de la hipótesis de que los grupos de factores son independientes, es decir, no interactúan entre sí. Esta hipótesis puede ser rechazada en caso de que los datos no se ajusten al modelo teórico creado a partir de unas frecuencias observadas. Se habla de interacción cuando los casos de aplicación que se observan en la confluencia de dos factores pertenecientes a grupos distintos (celda) tienen una frecuencia muy alta, en comparación con las demás. En la Tabla 7 se observa esta circunstancia, a propósito de los factores correspondientes “categoría” y “función”, para el análisis de la presencia de una marca de plural. __________________________________ Cell Total App’ns Expected Error ns 10 4 3.465 0.126 nc 10 0 0.539 0.570 ds 10 7 7.531 0.151 dc 10 3 2.469 0.152 ac 20 19 18.997 0.000 __________________________________ Tabla 7.- Celdas para el análisis de la presencia de marca de plural según la clase de palabra (“n” ‘nombre’; “d” ‘determinante’; “a” ‘adjetivo’) y la función (“s” ‘sujeto’; “c” ‘objeto’). Ejemplo ficticio de interacción. Si nos detenemos en los casos de aplicación (presencia de marca de plural) recogidos en cada una de las celdas, apreciamos que la presencia de ese rasgo es especialmente llamativa cuando se trata de palabras de la clase adjetivo (a) en función de objeto (c). Pero a la vez se observa que no hay una celda para adjetivos en sintagmas con función de sujeto y que no hay ningún caso de marca de plural en los nombres que están en sintagmas con función de objeto. Estamos ante un caso de interacción de las variables explicativas. Pero el investigador debe recoger toda la información que los programas ponen en sus manos y analizarla escrupulosamente, si no quiere correr el riesgo de llegar a conclusiones falsas. Por ejemplo: el análisis binomial de 1 nivel de las celdas que se recogen en la Tabla 7 presenta los resultados que reproducimos en la Tabla 8. ____________________________________ __ Group Factor Weight App/Total Input&Weight 1: a 0.964 0.95 0.98 n 0.075 0.20 0.11 d 0.317 0.50 0.41 2: c 0.322 0.55 0.41 s 0.816 0.55 0.87 ____________________________________ _________ Tabla 8.- Probabilidades de presencia de marca de plural por grupos y factores (a partir de celdas de Tabla 7). Ejemplo ficticio de interacción. Partiendo de esta tabla, podríamos interpretar que la marca de plural se ve claramente favorecida cuando aparece en adjetivos y en sintagmas con función de sujeto. Si damos por concluida la interpretación en este momento, podríamos caer en un grave error.

Page 34: Sociolingüística, estadística e informática - Lingüística 6, 1994.

34

Para evitarlo, es imprescindible responder a cada una de las preguntas sobre las que hemos llamado la atención anteriormente: aparte de las probabilidades mismas, hay que saber si el modelo teórico se ajusta a los datos y cuál es la significación de nuestro análisis. Además tras el análisis de 1 nivel hay que realizar el binomial de subida y bajada. Si lo hacemos así, sabremos oportunamente cuándo el análisis es fiable y cuándo no lo es. Hay varias formas de detectar la interacción de factores.33 Una de ellas, ya lo hemos comprobado, es la observación de las celdas. También podemos llegar a detectarla comparando las cifras que aparecen en la columna “App/Total” y en la columna “Input & Weight” (Tabla 8): cuando las cantidades representadas en ellas no son aproximadas, podemos estar ante un caso de interacción (compárense las cifras correspondientes a “c” y a “s”). Si además aplicamos el análisis binomial de subida y bajada, observamos que la significación que se ofrece en la etapa que corresponde al grupo de factores 2 (función) es de 1.000 (hipótesis nula aceptada) y que la significación del c2 para la fase de mayor verosimilitud también sobrepasa el límite permitido (p = 0.4733), como se ve en la Figura 16. ___________________________ Run # 4, 5 cells: Iterations: 1 2 3 4 5 6 7 8 9 10 Convergence at Iteration 10 Input 0.598 Group # 1 -- a: 0.964, n: 0.075, d: 0.317 Group # 2 -- c: 0.322, s: 0.816 Log likelihood = -23.679 Significance = 0.006 Maximum possible likelihood = -22.918 Fit: X-square(2) = 1.522, accepted, p = 0.4733 ________________________________ Figura 16.- Análisis de presencia de marca de plural (mejor fase de análisis binomial de subida y bajada, a partir de celdas de Tabla 7). Ejemplo ficticio de interacción. El análisis de subida y bajada tiene la enorme ventaja de señalar el grado de bondad de cada una de las fases y su significación. Dado que los grupos se analizan primeramente de uno en uno, para después emparejarse y agruparse, podemos saber cuál (o cuáles) de los grupos que se van añadiendo provoca una alteración grave de la significación y de la función de verosimilitud. Pero, todavía hay otro recurso — más seguro si cabe — de comprobar la interacción de dos factores: la elaboración de una tabla cruzada (véase Tablas 3 y 6). Para disponer de una imagen más clara de cómo se distribuye la interacción, se pueden elaborar gráficas de curvas a partir de las frecuencias relativas que dan esas mismas tablas.34 Cuando se ha llegado a la evidencia de que hay una interacción, hay que reconsiderar el análisis realizado. Esto puede llevar, unas veces, a buscar variables explicativas diferentes. En otras ocasiones, el problema puede estar tanto en las variables seleccionadas como en la forma de distinguir los factores. Cuando esto ocurre, puede bastar con crear un nuevo archivo de condiciones en el que se unan dos variantes de un mismo grupo en una sola o en el que se cree un nuevo grupo combinando los factores de dos de los grupos estudiados en un primer análisis. Así, por ejemplo, en vez de analizar dos grupos con dos factores cada uno, podría ser conveniente la constitución de un solo grupo con cuatro factores. Queda claro que los casos de interacción de factores llevan a una mala adecuación entre el “modelo teórico” y el “modelo observado”. Por lo general, no es frecuente encontrar el fenómeno de la interacción entre variables de naturaleza lingüística, como las que hemos manejado en nuestro ejemplo. Sin embargo, las interacciones son relativamente

Page 35: Sociolingüística, estadística e informática - Lingüística 6, 1994.

35

habituales entre grupos de factores extralingüísticos, especialmente entre los sociológicos (Labov 1990: 220-242) y sobre todo si están dispuestos en escalas ordinales. Cuando esto ocurre, puede resultar aconsejable prescindir de grupos sociológicos diferentes (p.e. edad, nivel socio-cultural, etc.) y trabajar con un solo grupo en el que queden como factores cada uno de los hablantes estudiados (Sankoff 1988: 992-993). Es evidente que la supresión de variables o la concentración de dos o más grupos en uno hace que se pierda parte de la información sociolingüística. En este caso, el investigador ha de explicar dónde ha encontrado las interacciones, en qué grado interactúan los factores y cómo ha conseguido la adecuación entre el modelo y las observaciones. Ahora bien, el programa VARBRUL 3 es capaz de paliar esta pérdida identificando, dentro de un grupo de factores (p.e. hablantes), un determinado número de subgrupos que no habían sido establecidos previamente y calculando el efecto de cada uno de ellos sobre un fenómeno lingüístico (Rousseau y Sankoff 1978b; Sankoff 1988: 992; Rousseau 1989: 397-400). 3.2. Análisis multinomiales y ordenación de los procesos de variación lingüística. En el estudio de la variación no es extraño encontrar hechos lingüísticos en los que puedan alternar más de dos variantes. El ejemplo del comportamiento de /s/ implosiva que aquí hemos manejado es suficientemente representativo: hemos distinguido tres variantes de /s/ ([s], [h] y ø). A la hora de elegir un valor de aplicación, GOLDVARB 2.0 permite seleccionar sólo una de las variantes (frente a las otras dos o frente a una de ellas), no obstante VARBRUL 2S y 3 ofrecen la posibilidad de analizar como valores de aplicación dos o más variantes. Este tipo de análisis recibe el nombre de “multinomial” (2.1; 2.3.3.; 2.4.3.; 2.5.1). El problema más importante que presenta el análisis multinomial no es tanto de naturaleza matemática como informática: los procesos de programación y de cálculo son sensiblemente más complicados que los que se dan en los análisis binomiales, sobre todo cuando se cuenta con cuatro, cinco o seis variantes. El variacionismo norteamericano ha llevado los análisis multinomiales al terreno de la competencia sociolingüística (Cedergren, Rousseau y Sankoff; Sankoff y Rousseau 1989). Básicamente, se considera que estos análisis son una vía adecuada para explicar: a) la dirección en que opera una regla: ¿h -> ø ó ø -> h? b) las relaciones subyacentes entre las variantes dependientes; en otras palabras, el orden en que se aplican las reglas: ¿s > h > ø; s > ø > h; etc.? El modo de resolver esta clase de dudas y de determinar el orden jerárquico de las variantes consiste simplemente en realizar análisis de cada una de las posibles combinaciones y extraer la verosimilitud de todos ellos: se interpretan como más adecuadas las ordenaciones que presentan un ajuste de mayor calidad. Los estudios que se han hecho sobre el comportamiento de /s/ implosiva han revelado que hay dos clasificaciones más adecuadas que las demás. Una de ellas distingue, primero, una variante de las otras dos — [s], [h, ø] — y en una segunda etapa se separa [h] de ø. Según esto, las variantes de /s/ implosiva tienen un orden interno en el que la sibilante [s] ocupa el lugar más destacado; a partir de ella, se genera [h] y de ésta, ø. Otra interpretación, con el mismo grado de verosimilitud, descubre una relación en la cual [h] y ø pueden ser generadas simultáneamente por [s] (Sankoff y Rousseau 1989: 4-7). 3.3. El estudio de variantes a partir de pocos datos. Existen varios campos de la variación lingüística (sintaxis, estudios de sociolingüística histórica, fenómenos fonéticos poco recurrentes, etc.) en los que es difícil conseguir un número de datos suficiente para el análisis estadístico. Al plantear este problema no queremos decir que exista una relación directa y necesaria entre la escasez de

Page 36: Sociolingüística, estadística e informática - Lingüística 6, 1994.

36

datos y la imposibilidad del análisis probabilístico: se pueden hacer buenos análisis con unas pocas decenas de datos. Sin embargo, es evidente que cuando se dispone de pocos materiales se corre un riesgo mayor de que los datos encierren un comportamiento inestable. Los rasgos lingüísticos poco frecuentes necesitan una atención especial a la hora de la recogida. En el caso de la sintaxis, es esencial dirigir las entrevistas de la manera apropiada para favorecer la aparición del fenómeno estudiado o prolongar el periodo de recogida para conseguir materiales: mediante la observación participativa, por ejemplo; en el estudio de variantes fonéticas poco abundantes, hay que contar con más minutos de grabación. Pero, si aún así siguen siendo pocos los materiales, se puede intentar el análisis, prestando una atención muy especial a la función de verosimilitud y a la significación que se dan en los resultados. También es necesario incluir en el informe final las frecuencias de los datos con que se ha trabajado (valores totales y de aplicación), con la finalidad de que se sepa en todo momento cuál es la entidad de la base sobre la que se han hecho las interpretaciones. De cualquier forma, el variacionismo permite el análisis conjunto de materiales recogidos por métodos diferentes: nos referimos especialmente a corpora lingüísticos con una diferencia notable en cuanto al número de datos que contienen, y a materiales relativos al mismo fenómeno, claro está. Si por medio de la observación participativa se han anotado unos pocos casos de un fenómeno, éstos pueden añadirse a los allegados con otra técnica. En tales condiciones, todos los materiales pueden ser analizados como si procedieran del mismo corpus, con la única salvedad de que el “input” no tiene significación alguna (1.4.; 2.6.1), dado que depende de una desconocida cantidad total de la cual se han extraído esos rasgos poco frecuentes. La interpretación final puede hacerse como si se tratara de un análisis ordinario (Sankoff 1988: 994-995). 3.4. VARBRUL 3. Características generales del programa. Algunos de los problemas planteados en los epígrafes anteriores dejarán de serlo cuando el uso del programa VARBRUL 3 esté generalizado. Este programa ha tenido hasta el momento dos versiones. La primera, presentada por Rousseau y Sankoff (1978a: 67-68), fue abandonada por la dificultad que suponía su adaptación a los nuevos sistemas informáticos. La segunda, desarrollada por Rousseau (1989: 395-409), se ha implantado experimentalmente en algunos centros de investigación. VARBRUL 3 ofrece al investigador diversas ventajas sobre los programas anteriores, entre las que destacan la de ser mucho más rápido y la de permitir el análisis de más de un centenar de factores dentro de un grupo. Este programa incorpora varios tipos de análisis: el análisis de partición, un test para la simulación de particiones, el análisis de variantes múltiples (análisis multinomial) y una técnica para la creación de escalas de implicación. A diferencia de los programas para ordenadores personales, no hace análisis de regresión escalonada, aunque se tiene la idea de incluir este recurso en el futuro.35 Por otro lado, VARBRUL 3 tampoco es capaz de trabajar con variables en las que los factores estén dispuestos en escalas continuas u ordinales — edad, ingresos, etc. —, pero esta carencia tiene un alcance muy limitado al proporcionar otros análisis que garantizan unos resultados fiables. El análisis de partición sirve para solucionar en buena medida el problema planteado en 3.1, a propósito de la interacción de factores. Allí comentábamos que a veces es aconsejable trabajar no con clases de hablantes que tienen ciertas características sociológicas comunes (edad, ingresos económicos, etc.), sino con los hablantes individualizados como factores y reunidos en un solo grupo. Ahora bien, cuando se hace esto, se puede sospechar o detectar que los factores de ese grupo no son homogéneos en cuanto a su efecto sobre la probabilidad de aparición de una variante dependiente: si trabajamos con una variable explicativa “hablante”, en la que los factores son los individuos de la muestra, es posible

Page 37: Sociolingüística, estadística e informática - Lingüística 6, 1994.

37

apreciar que la incidencia de todos ellos sobre el rasgo estudiado es diversa y que probablemente esos factores se pueden reunir en subgrupos más homogéneos. VARBRUL 3 construye automáticamente los subgrupos y les asigna los factores más adecuados, buscando la división más verosímil, pero necesita que los datos estén bien estructurados y que se maneje un número importante de hablantes y contextos, si bien agrupados en pocas variables. El programa dispone de una prueba para la simulación de particiones que calcula los efectos que cada subgrupo tendría sobre la variante dependiente y determina si el modelo teórico es más adecuado manteniendo todos los hablantes en un grupo y repartiéndolos en dos o más subgrupos. Por último, además de hacer análisis multinomiales (3.2.), VARBRUL 3 también construye escalas de implicación. (Sankoff 1988: 993-994; Rousseau 1989: 405-407). Tales escalas han sido tradicionalmente un recurso técnico representativo de la lingüística criollista (De Camp 1971; Bickerton 1973; Dittmar y Schlobinski 1988; Moreno Fernández 1988: 135-137) y consiste en ordenar los factores de dos variables diferentes en una tabla compuesta de líneas y columnas, de tal modo que en un extremo se reúnan aquellos en los que siempre aparece el rasgo estudiado y en el otro se agrupen los factores en los que la variante estudiada no aparece nunca. Así, por ejemplo, si tenemos en cuenta las variables “hablante” y “contexto fónico siguiente”, la escala de implicación del mantenimiento de la /s/ implosiva, frente al no mantenimiento, ordenaría los factores de las variables disponiendo en un extremo aquellos hablantes y contextos en los que siempre aparece la sibilancia y en el otro, aquellos en los que nunca se da esa variante; en el centro de la tabla los factores se ordenarían según la proporción de casos de sibilante y de no sibilante. El problema que los rasgos lingüísticos variables presentan para su disposición en escalas está en que no es muy frecuente que tengan unos valores del 0% o del 100% (0 ó 1 en términos de probabilidad): por lo general los datos suelen tener valores intermedios. Dada esta dificultad, VARBRUL 3 emplea el principio de la máxima verosimilitud para conseguir la ordenación escalonada de las probabilidades correspondientes a los factores de dos variables y eliminar los errores que dificulten el procedimiento. El resultado suele ser una escala con una gran zona de variabilidad. 4.- Conclusión. El variacionismo actual ha contribuido de forma notable a que la sociolingüística ocupe un lugar destacado en el conjunto de la lingüística del habla y de la lingüística cuantitativa. Esta corriente ha dedicado una parte importante de sus esfuerzos a la adaptación de un método capaz de proporcionar análisis rigurosos e interpretaciones lingüísticas tan ricas como fiables: el análisis probabilístico. Pero ello no quiere decir que la sociolingüística de la variación haya dado una solución definitiva a todas las dificultades teóricas y metodológicas que se le han presentado. Queda por recorrer una parte importante del camino. Entre las principales virtudes de la sociolingüística norteamericana está la generosidad. Todos los avances técnicos han sido puestos a disposición de la comunidad científica internacional. Los programas informáticos se distribuyen gratuitamente y están al alcance de cualquier persona que los solicite. Entre ellos destacan los programas que se manejan desde ordenadores personales: VARBRUL 2S y GOLDVARB 2.0. Gracias a esta generosidad, la sociolingüística hispánica ha podido incorporarse paulatinamente a la corriente variacionista y hacer aportaciones enriquecedoras para la disciplina y para el conocimiento de la lengua española.36

Page 38: Sociolingüística, estadística e informática - Lingüística 6, 1994.

38

El lado negativo de este hecho se encuentra en la relación de dependencia técnica — y también teórica — que se ha ido estableciendo: el variacionismo hispánico, en términos generales, es subsidiario del norteamericano.37 Las relaciones entre investigadores de distinta procedencia son deseables y beneficiosas para todos, pero una dependencia extremada puede provocar que los investigadores de un grupo sólo muestren interés por los aspectos que preocupan al otro. La sociolingüística hispánica tiene intereses comunes con la norteamericana; esto es evidente. Pero también es verdad que ha de enfrentarse con problemas peculiares que hay que resolver desde la lingüística hispánica, porque es difícil que alguien se desvele por lo ajeno. El ideal sería que la sociolingüística de la lengua española planteara y resolviera los muchos problemas que encierra, aportando sus conocimientos para que los sociolingüistas norteamericanos pudieran seguir perfeccionando sus modelos o proponiendo nuevas técnicas de análisis que contribuyeran a un enriquecimiento de la sociolingüística general.

Page 39: Sociolingüística, estadística e informática - Lingüística 6, 1994.

39

REFERENCIAS BIBLIOGRÁFICAS ALBA, Orlando. 1990. Variación fonética y diversidad social en el español dominicano de Santiago.

Santiago: Pontificia Universidad Católica Madre y Maestra. AMMON, Ulrich, DITTMAR, Norbert y MATTHEIER, Klaus J. (eds.). 1987-1988.

Sociolinguistics. An International Handbook of the Science of Language and Society. Berlin: Walter de Gruyter.

ANTILLA, Raimo. 1989. Historical and Comparative Linguistics. 2ª ed. Amsterdam: John Benjamins.

BENTIVOGLIO, PAOLA. 1980. Why “canto” and not “yo canto”? The problem of first-person subject pronoun in spoken Venezuelan Spanish. University of California. Tesis de M.A. inédita.

BICKERTON, Derek. 1973. Quantitative versus Dynamic Paradigms: The Case of Montreal que. En Ch.-J. Bailey y R. Shuy (eds.). New Ways of Analizing Variation in English, Washington: Georgetown University Press. 23-43.

BYNON, Theodora. 1981. Lingüística histórica. Madrid: Gredos. CEDERGREN, Henrietta C. J. 1973. The Interplay of Social and Linguistic Factors in Panama.

Cornell University. Tesis Doctoral inédita. ____________________. 1983. Sociolingüística. En H. López Morales. Introducción a la

lingüística actual. Madrid: Playor. 147-165. ____________________, ROUSSEAU, Pascale y SANKOFF, David. 1986. La variabilidad

de /r/ implosiva en el español de Panamá y los modelos de ordenación de reglas. En R. Núñez Cedeño, I. Páez Urdaneta y J. Guitart (eds.). Estudios sobre la Fonología del Español del Caribe. Caracas: La Casa de Bello. 13-20.

____________________ y SANKOFF, David. 1974. Variable Rules: Performance as a Statistical Reflection of Competence. Language 50. 333-355.

CESTERO MANCERA, Ana María. 1992. Intercambio de turnos de palabra en lengua española. Universidad de Alcalá de Henares. Tesis de Licenciatura inédita.

D’INTRONO, Francesco. 1987. Teoría lingüística, variación paramétrica y español de América. En H. López Morales y M. Vaquero (eds.). Actas del I Congreso Internacional sobre el español de América. San Juan. Puerto Rico. Del 4 al 9 de octubre de 1982. San Juan, Puerto Rico: Academia Puertorriqueña de la Lengua Española. 373-382.

DE CAMP, David. 1971. Toward a generative analysis of a Post-Creole Speech Continuum. En D. Hymes (ed.). Pidginization and Creolization of Languages. London: Cambridge University Press. 349-370.

DITTMAR, Norbert y SCHLOBINSKI, Peter. 1988. Implikationanalyse. En U. Ammon, N. Dittmar y K.J. Mattheier (eds.). Vol. 2. 1014-1026.

FASOLD, Ralph. 1984. Variation theory and language learning. En P. Trudgill (ed.). Applied Sociolinguistics. London: Academic Press. 245-262.

______________. 1990. Sociolinguistics of Language. Oxford: Basil Blackwell. ______________ y SCHIFFRIN, Deborah. 1989. Language Change and Variation.

Amsterdam: John Benjamins. GARCÍA MARCOS, Francisco J. 1990. Estratificación social del español de la costa granadina.

Almería: Departamento de Lingüística General y Teoría de la Literatura. GIMENO, Francisco. 1990. De sociolingüística histórica: en torno a los orígenes del

español. En F. Moreno Fernández (rec.). 89-102. KAY, Paul y McDANIEL, Chad K. 1979. On the Logic of Variable Rules. Language in Society

8. 151-187. _____________________, Chad. K. 1981. On the Meaning of Variable Rules: Discussion.

Page 40: Sociolingüística, estadística e informática - Lingüística 6, 1994.

40

Language in Society 10. 251-258. KIPARSKY, Paul. 1979. Panini as a Variationist. Cambridge, MA: MIT Press. LABOV, William. 1963. The Social Motivation of Sound Change. Word 19. 273-309. _____________. 1969. Contraction, Deletion, and Inherent Variability of the English

Copula. Language 45. 715-762. _____________. 1972. Sociolinguistic Patterns. Philadelphia. University of Pennsylvania Press. _____________. 1990. The intersection of sex and social class in the course of linguistic

change. Language Variation and Change 2. 205-254. _____________ y LABOV, T. 1977. L’apprentissage de la syntaxe des interrogations.

Langue Française 34. 52-80. LEFEBVRE, Claire (ed.). 1982. La syntaxe comparée du français standard et populaire: approches

formelle et fonctionelle. Editeur officiel du Québec. LEHMANN, W.P. y MALKIEL, Yakov (eds.). 1968. Directions for Historical Linguistics. A

symposium. Austin: University of Texas Press. LEMIEUX, Monique. 1985. Variation et changement en syntaxe. En M. Lemieux y H.J.

Cedergren (eds.). Langues et sociétés. Les tendances dynamiques du français parlé à Montréal. Gouvernement du Québec.

LÓPEZ MORALES, Humberto. 1983. Estratificación social del español de San Juan de Puerto Rico. México: UNAM.

________________. 1981. Estudio de la competencia sociolingüística: los modelos probabilísticos. Revista de la Sociedad Española de Lingüística 11. 247-268.

________________. 1990. La sociolingüística actual. En F. Moreno Fernández (rec.). 79-87.

________________. 1993. Sociolingüística. 2ª ed. Madrid: Gredos. MILROY, James. 1991. Linguistic Variation and Change. Oxford: Blackwell. MOLINA MARTOS, Isabel. 1991. Estudio sociolingüístico de la ciudad de Toledo. Universidad

Complutense. Tesis Doctoral inédita. MORENO FERNÁNDEZ, Francisco. 1988. Sociolingüística en EE.UU. (1975-1985). Guía

bibliográfica crítica. Málaga: Ágora. ____________________. 1990a. Metodología sociolingüística. Madrid: Gredos. _______________ (rec.). 1990b. Estudios sobre variación lingüística. Alcalá de Henares:

Universidad de Alcalá. ____________________. 1993. “Geolingüística y cuantificación”. En H. Ueda (coord.).

Actas del III Congreso de Hispanistas de Asia. Tokio: Asociación Asiática de Hispanistas. Pp. 289-300.

____________________. 1994. "Debilitamiento de -s en el español de Orán: análisis de sus contextos fónicos", Boletín de la Academia Puertorriqueña de la Lengua Española, 2ª época, I, pp. 91-111.

____________________. 1997. "Geografía lingüística y variacionismo", Contribuciones al estudio de la lingüística hispánica. Homenaje al profesor Ramón Trujillo. Santa Cruz de Tenerife, Montesinos, 1997, pp. 347-356.

PINTZUK, Suzanne. 1986, 1987, 1988. VARBRUL PROGRAMS. Programas y documentación inéditos.

PISANI, Alessandro E.M. 1987. La variazione linguistica. Causalismo e probabilismo in sociolinguistica. Milán: Franco Angeli.

POPLACK, Shana. 1979. Function and process in a variable phonology. University of Pennsylvania. Tesis Doctoral inédita.

RAND, David y SANKOFF, David. 1989. GOLDVARB. A Variable Rule Application for the Macintosh. Programa y documentación inéditos.

Page 41: Sociolingüística, estadística e informática - Lingüística 6, 1994.

41

______________________. 1990. GOLDVARB. VERSION 2. A Variable Rule Application for the Macintosh. Programa y documentación inéditos.

Real Academia de Ciencias Exactas, Físicas y Naturales. 1990. Vocabulario científico y técnico. 2ª ed. Madrid: Espasa-Calpe.

ROUSSEAU, Pascale. 1989. A versatile program for the analysis of sociolinguistic data. En R. Fasold y D. Schiffrin (eds.). 395-409.

________________ y SANKOFF, David. 1978a. Advances in Variable Rule Methodology. En D. Sankoff (ed.). 57-69

________________ y SANKOFF, David. 1978b. A Solution to the Problem of Grouping Speakers. En D. Sankoff (ed.). 97-117.

SAMPER PADILLA, José Antonio. 1990. Estudio sociolingüístico del español de Las Palmas de Gran Canaria. Las Palmas: La Caja de Canarias.

SANKOFF, David. 1975. VARBRUL 2. Programa y documentación inéditos. _____________ (ed.). 1978. Linguistic Variation. Models and Methods. New York: Academic

Press. _____________. 1986. Ordenamiento de reglas variables: /r/ implosiva en un dialecto

puertorriqueño. En R. Núñez Cedeño, I. Páez Urdaneta y J. Guitart (eds.). Estudios sobre la Fonología del Español del Caribe. Caracas: La Casa de Bello. 109-115.

_____________. 1988. Variable Rules. En U. Ammon, N. Dittmar y K.J. Mattheier (eds.). Vol 2. 984-997

_____________ y LABOV, William. 1979. On the Uses of Variable Rules. Language in Society 8. 189-222.

_______________ y ROUSSEAU, Pascale. 1989. Statistical evidence for rule ordering. Language Variation and Change 1. 1-18.

SANKOFF, Gillian y THIBAULT, Pierrette. 1977. L’alternace entre les auxiliares avoir et être en français parlé à Montréal. Langue Française 34. 81-108.

SEDANO, Mercedes. 1993. The alternation between acá and aquí in present-day Spanish. En NWAVE 22. Universidad de Ottawa. Comunicación inédita.

SERRANO, María José. 1992. La variación sintáctica: formas verbales del periodo hipotético en español. Universidad de La Laguna. Tesis Doctoral inédita.

SILVA-CORVALÁN, Carmen. 1977. A discourse study of word order in the Spanish spoken by Mexican-Americans in West Los Angeles. Universidad de California, Los Ángeles. Tesis de M.A. inédita.

_________________. 1988. Sociolingüística. Teoría y análisis. Madrid: Longman. SINGH, Rajendra y FORD, Alan. 1989. A closer look at so-called variable processes. En R.

Fasold y D. Schiffrin (eds.). 367-380. TESITELOVÁ, Marie. 1992. Quantitative Linguistics. Amsterdam: John Benjamins. WEINREICH, Uriel, LABOV, William y HERZOG, Marvin. 1968. Empirical Foundations

for a Theory of Language Change. En W.P. Lehmann y Y. Malkiel (eds.). 189-195. ***************************** * Deseo expresar mi agradecimiento a las siguientes personas: Humberto López Morales, Miguel Ángel Malo Ocaña, María del Mar Martín de Nicolás, José Enrique Moreno Fernández y Hiroto Ueda. Sus comentarios han sido muy valiosos para la redacción de este trabajo. 1 Esta decisión, no obstante, tienen algunos inconvenientes serios. Para un buen número de lingüistas es muy difícil comprender para qué se hace cada una de las operaciones matemáticas, porque no se han explicado convenientemente. Lo mismo ocurre en el terreno de la informática. Ni las instrucciones de los programas ni los trabajos teóricos explican con detalle cada uno de los datos que aparecen en los archivos de resultados. Esto puede ser muy peligroso con vistas a la interpretación de los fenómenos sociolingüísticos. Reconocemos,

Page 42: Sociolingüística, estadística e informática - Lingüística 6, 1994.

42

no obstante, que cuando se quiere trabajar entre la lingüística y las matemáticas o la informática, es muy difícil encontrar el punto medio más adecuado a los intereses de todos. 2 En el ejemplo que estamos proponiendo, los casos de no aspiración serían los de conservación de la sibilante más los de pérdida total. 3 Estos datos y los que aparecen en este trabajo referidos a /s/ implosiva proceden de un estudio cuantitativo realizado sobre seis localidades españolas, en el límite de las provincias de Toledo y de Cuenca (Moreno Fernández, 1994). No pretendemos con estas páginas presentar un estudio de la variación de /s/: los datos son utilizados exclusivamente a título de ejemplo. 4 Este valor compensa las diferencias que pueda haber en las probabilidades de dos o más grupos explicativos diferentes y sirve como punto de referencia. 5 Cuando las probabilidades en los factores se acercan a 1, funciona como el modelo multiplicativo que trabaja sobre no aplicaciones (multiplicativo negativo: (1-p) = (1-p0) x (1-pi) x ... x (1-pk)); cuando se acercan a 0, como el modelo multiplicativo que trabaja con aplicaciones (multiplicativo positivo: p = p0 x pi x ... x pk); y cuando los valores son medios (alrededor de 1/2), como el modelo aditivo (p = p0 + pi + ... + pk) (Rousseau y Sankoff 1978a: 62). Cuando la probabilidad de aplicación de un rasgo en una circunstancia determinada (pi) supera el 0.5, se interpreta que lo favorece. 6 Dicho de forma más exacta, 1 menos la probabilidad de que un contexto haya influido sobre una variante. 7 Téngase en cuenta lo comentado en la nota 3. De todos modos, Sankoff y Rousseau no han explicado con claridad cómo se hacen los cálculos para llegar a la convergencia, tal vez por tratarse de procesos numéricos agotadores que sólo pueden hacerse con ayuda de la informática. 8 Hay que tener en cuenta que tan importante es decubrir la influencia de una variable explicativa sobre la dependiente, como descubrir que no existe ninguna influencia. 9 Por ejemplo, en un grupo de factores relativo a la edad de los informantes, el factor “menor de 20 años” precede al factor “de 21 a 35 años” y éste, al factor “de 36 a 55 años”. Este sería un caso de escala ordinal. En las escalas nominales, cualquier factor puede preceder a cualquiera de los demás: el factor “adjetivo” no tiene por qué ir delante del factor “determinante”; el factor “función sujeto” no tiene por qué ir después del factor “función objeto”. 10 Los signos ‘(‘ (paréntesis), ‘.’ (punto) o ‘/’ (barra inclinada) nunca puede ser utilizados como códigos de factores, porque están destinados a cumplir otras funciones. 11 En nuestro ejemplo, cada número corresponde a un hablante nacido en una localidad determinada. 12 Existe la posibilidad de incluir, junto a una secuencia de datos, un texto en el que se reproduzca el fragmento en el que ha aparecido el dato o cualquier comentario que el investigador considere oportuno. Estos “textos” pueden anotarse después del espacio o de la señal de fin de línea de cada secuencia. El ordenador nunca confundirá tal información con los datos propiamente dichos, porque estos van precedidos necesariamente por un paréntesis. Algunos de los problemas que se pueden encontrar en los análisis se deben a una incorrecta introducción o codificación de los datos. Afortunadamente, los errores graves se detectan mediante una aplicación de “comprobación” (check). 13 Para que funcione el programa se necesita que el Macintosh cuente con un Sistema Operativo 6.0 o posterior. Cuando se cuenta con una cantidad de datos importante, conviene trabajar con un modelo de Macintosh suficientemente rápido o bien incorporar un acelerador. 14 En GOLDVARB 2.0 se puede trabajar con un máximo de 30 grupos de factores; cada grupo puede estar formado, como máximo, por 200 factores. 15 El programa realiza 20 iteraciones para encontrar la “convergencia” de máxima verosimilitud (véase 1.4). Si al llegar a ese punto no ha encontrado la convergencia, se ofrecen los valores calculados hasta ese momento. En este caso, las estimaciones no pueden ser todo lo cuidadas que se desea. 16 En GOLDVARB 2.0, marcando un cuadrado cualquiera, se nos dice exactamente cuántas aplicaciones corresponden a esa celda y los factores que la forman. 17 Igualmente, existe la posibilidad, mediante la orden “Centre factors” que se encuentra en el menú “Cells”, de determinar qué método será utilizado para conseguir la probabilidad media de los factores en un grupo dado. Cuando se da esta orden, cada factor recibe una misma ponderación. Si no se elige esta opción, cada factor resulta ponderado según el número de casos posibles (aplicaciones y no aplicaciones) en relación con el número de casos posibles en el conjunto de los factores de un grupo (Rand y Sankoff 1990: 36). 18 Las extensiones que presentamos para estos archivos son simples sugerencias: el investigador puede dar a los archivos el nombre que quiera. Conviene advertir, no obstante, que son muchos los archivos y programas que aparecen en el directorio creado para el programa y que, por lo tanto, es aconsejable seguir un método que facilite la búsqueda.

Page 43: Sociolingüística, estadística e informática - Lingüística 6, 1994.

43

19 Todos los archivos creados con el editor de textos deben memorizarse sin “caracteres de control” (en el caso de WordPerfect, como Texto DOS: caracteres ASCII) 20 Éste, como los demás programas parciales, arrancan escribiendo simplemente su nombre junto a “c:\”. 21 Este procedimiento es el más recomendable. Sin embargo, al aplicar CHECKTOK se pueden especificar los factores directamente desde la consola, anotando la información que se solicita: número de grupos de factores, valor por defecto, factores legales y valor por defecto de cada grupo. 22 Proponemos dar a este archivo la extensión “.che”. 23 También se pide el nombre de un archivo de “definición de factores” y la posibilidad de añadir un encabezamiento a la información aportada en el archivo de celdas, pero no son elementos imprescindibles para el correcto funcionamiento del progama. Tan sólo buscan que el investigador pueda reconocer más fácilmente los códigos de los factores (Pintzuk 1988: 12). 24 El ordenador también pide que se especifique el multiplicador que se va a utilizar sobre los casos de no-aplicación. Esto tiene alguna utilidad cuando no se trabaja con todos los casos de no aplicación, sino solamente con una muestra representativa. Si la muestra recoge 1/5 de los casos de no-aplicación, se pide al ordenador que el multiplicador sea 5. 25 Es relativamente frecuente encontrar problemas de capacidad de memoria al aplicar estos análisis. Las instrucciones de VARBRUL 2S explican cómo solucionar la mayor parte de estas dificultades (Pintzuk 1988: 26). 26 Los programas complementarios son los siguientes: - CROSSTAB (véase 2.4.5.): ofrece las frecuencias absolutas y relativas que se recogen al cruzar la información de dos variables o grupos explicativos. Para su aplicación es imprescindible la existencia de un archivo del celdas (Pintzuk 1988: 23-24) - COUNTUP: sirve para contar las ocurrencias y calcular las proporciones de los factores de un grupo. Para su aplicación se debe disponer de un archivo de datos (tokens) y especificar el número del factor que se quiere estudiar (Pintzuk 1988: 22). - TSORT: se utiliza para ordenar o reordenar los datos incluidos en una secuencia y para copiar en un archivo diferente los factores que se quieran. El modo en que se hace la ordenación se especifica con un sistema similar al que se utiliza para crear los archivos de condiciones (Pintzuk 1988: 27). - TEXTSORT: se utiliza para localizar, ordenar y copiar en un archivo diferente fragmentos de los textos que acompañan a las secuencias de datos (véase nota 4) (Pintzuk 1988: 30-31). 27 A la hora de interpretar y presentar los resultados es conveniente tener en cuenta y aportar esta información. Lo más indicado es ofrecer no el resultado de la división, sino el número de aplicaciones y el número total de casos. En los estudios de fonética, donde los datos se cuentan por centenares, esta información puede ocupar un segundo plano, pero en los análisis de sintaxis es importante tenerla presente, porque se debe saber sobre cuántos casos se han calculado las probabilidades. 28 El resultado de ese logaritmo aparece en forma de número negativo. Por tanto, tendrá más verosimilitud aquél que esté más cerca de 0. 29 Esta prueba sólo proporciona un resultado adecuado cuando el número esperado de aplicaciones y de no aplicaciones es, al menos, de cinco en todos los contextos. 30 En la primara fase (“run 1”) se calcula el logaritmo de la función de verosimilitud del conjunto de los datos, como si estos hubieran sido recogidos en un solo contexto. 31 Como se puede comprobar, las probabilidades coinciden exactamente con las que ofrecía el análisis binomial de 1 nivel. 32 En GOLDVARB 2.0, si se quiere tener el valor de c2 y su significación, se puede pedir en el menú “Cells” (“Show Model Fit”). Esto se puede hacer en el análisis binomial de 1 nivel y en el análisis de subida y bajada. 33 En algunos casos, puede haber variables subyacentes que hay que descubrir. 34 También es posible calcular los coeficientes de correlación de las dos variables mediante otros programas estadísticos (Moreno Fernández 1990a: 147-149). 35 De todos modos, esta necesidad está satisfecha plenamente tanto con VARBRUL 2s, como con GOLDVARB 2.0. 36 Véase Cedergren 1983, Silva-Corvalán 1988 y López Morales 1990. Hay publicaciones en las que se estudian diversos aspectos del español utilizando las técnicas variacionistas. Algunas de ellas son las siguientes: - Estudios en los que se ha utilizado el programa VARBRUL: Cedergren 1973. - Estudios en los que se ha utilizado el programa VARBRUL 2: Silva-Corvalán 1977; López Morales 1983; Samper Padilla 1990; Gimeno 1990. - Estudios en los que se ha utilizado VARBRUL 2s: Poplack 1979; Bentivoglio 1980; Alba 1990; García Marcos 1990; Serrano 1992; Moreno Fernández, 1994.

Page 44: Sociolingüística, estadística e informática - Lingüística 6, 1994.

44

- Estudios en los que se ha utilizado GOLDVARB 2.0: Molina Martos 1991; Cestero Mancera 1992; Sedano 1993; Moreno Fernández, 1994. 37 Por otra parte, la lingüística hispánica está mostrando una tendencia a compaginar su tradición dialectológica con la metodología variacionista, pero esa inclinación adolece por el momento de la suficiente claridad de ideas. **************************************************************************************