Stilus lenguando-lc aplicada a la correccion
-
Upload
daedalus-sa -
Category
Technology
-
view
237 -
download
1
description
Transcript of Stilus lenguando-lc aplicada a la correccion
29 de marzo de 2014
Lingüística de Corpus aplicada
a la corrección automática y
profesional
Stilus es una marca de Daedalus, S. A.
Contenidos
¿Qué es la Lingüística de Corpus (LC)?
Los corpus de la Academia vs. el de Mark Davies
La LC en el ámbito de la corrección automática y profesional
« que es gerundio». Algunos casos prácticos
¿Qué es la Lingüística de Corpus (LC)?
LC, ¿disciplina o metodología?
- de corpus. ???
1. Ha de ser representativo
2. Ha de estar almacenado en formato electrónico
3. Sus contenidos deben estar etiquetados según unos
criterios lingüísticos «útiles»
4. Debe poder responder a tareas de recuperación
específicas
¿Qué es la Lingüística de Corpus (LC)?
El corpus en LC…
La Lingüística de Corpus
permite llevar a cabo
investigaciones empíricas en
contextos «reales».
Los corpus de la Academia vs. el de Mark Davies
Corpus RAE
Los corpus de la Academia vs. el de Mark Davies
+
= CORDE CREA
Los corpus de la Academia vs. el de Mark Davies
Los corpus de la Academia vs. el de Mark Davies
www.corpusdelespanol.org
Pero si los filtros morfológicos de la
Academia no dan de sí, tenemos
otras opciones…
Los corpus de la Academia vs. el de Mark Davies
+ Gran volumen: CDH (+ 350 mill. de palabras);
CORPES XXI (se pretenden: 25 mill./año)
+ Codificación cuidadosa (proceso automático +
validación humana)
+ Filtros de búsqueda: año, país, tipo de texto,
área temática… + combinación de parámetros
+/- Filtros de búsqueda morfológica básica
+ Filtros de búsqueda con desambiguación
morfológica
- Incómodo para análisis morfológicos detallados
+ Brillante y cómoda interfaz de consulta: rasgos
formales, filtros morfológicos avanzados, filtros semánticos
(búsqueda por sinónimos)
+ Posible combinación de parámetros mediante
expresiones regulares
+ Rápida capacidad de respuesta
- Incómodo para análisis diacrónicos o diatópicos (filtro
temporal por siglos / filtro diatópico inexistente)
Corpus del español CDH / CORPES XXI
La LC en el ámbito de la corrección automática y profesional
¿Para qué podría utilizar la Lingüística de Corpus
un corrector profesional?
La LC en el ámbito de la corrección automática y profesional
¿Por qué me interesa automatizar procesos de
verificación textual?
Mejora la consistencia de la revisión
Garantiza el cumplimiento de la guía de estilo / Normalización corporativa
Mejora mi eficiencia y eficacia
Aumenta mi productividad
y mis ingresos
La LC en el ámbito de la corrección automática y profesional
1 • Coleccionar patrones de errores frecuentes
2
• Conocer las capacidades del gestor de búsqueda y reemplazo de mi editor o procesador de textos
3
• Estudiar la viabilidad de automatización de dichos patrones sobre corpus
4
• Automatizar el reemplazo de los patrones que considere viables (p. ej., con macros sobre Word)
5
• Elegir un software de verificación textual sensible al contexto como complemento
¿Qué puedo hacer yo como corrector autónomo?
«Lenguando que es gerundio». Algunos casos prácticos
¿Alguna vez has estado tentado
de automatizar la revisión de las
expresiones incorrectas incluidas en
un manual de dudas?
1. Apunta…
«Lenguando que es gerundio». Algunos casos prácticos
2. Observa…
«Lenguando que es gerundio». Algunos casos prácticos
3. ¡Y dispara!
«Lenguando que es gerundio». Algunos casos prácticos
A veces, habrá que sopesar si automatizar merece la pena…
1 excepción de 31 casos
96,78 % de precisión
«Lenguando que es gerundio». Algunos casos prácticos
Y otras veces la automatización no estará a mi alcance…
/*
<test rule="ReglaHaPorA">
<case>Va <error>ha</error> hacer la reforma de su vida.</case> <case>Se alquila habitación <error>ha</error> estudiantes.</case> <case>Va a hacer la reforma de su vida.</case> <case>Se alquila habitación a estudiantes.</case> <case>Si ha lugar</case> </test> */ RULE(L"ReglaHaPorA") FORM_I(POS(N), L"ha") AND UNIVERSAL_TAG(POS(N+1), TagVerbInfinitiveSimple OR_TAG TagVerbInfinitiveCompound OR_TAG TagNoun) AND !FORM_I(POS(N+1), L"lugar") THEN SUG_WORD(POS(N),L"a"); ADD_ERROR(Error_Spelling, POS(N), POS(N), msg(ES, L"Posible confusión al emplear la forma verbal auxiliar <i>ha</i> en vez de la preposición <i>a</i>.", A1, L"ReglaHaPorA"); END_RULE
Aquí entran en juego las
capacidades del verificador
automático que hayas elegido
«Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaTratamEnMayúscula#3">
<case>Vimos al <error>Presidente del Gobierno</error></case> <case>Estuvimos allí durante la visita de la <error>Reina</error></case> <case>Saludó a <error>Don</error> José Luis Rodríguez Zapatero</case> <case>Fue en Barcelona con el <error>Papa</error> Benedicto XVI</case> <case>Visitamos el Reina Sofía el domingo pasado </case> <case>El Prof. Fernández imparte clase en esa universidad </case> </test> */ RULE(L"ReglaTratamEnMayúscula#3") EXISTENTIAL_EXTRA_INFO(POS(N), SemIdEntity, SemCOtherEntityTitle) AND !(FORM(POS(N), L"Reina Sofía") AND FORM_I(POS(N-1), L"el|al|del")) AND FIRST_LETTER_UPPERCASE(POS(N)) AND !EXISTENTIAL_TAG(POS(N), TagNounAbbreviation) AND !ALL_LETTERS_CONTAINED_IN(POS(N),CAPITALLETTERS) AND !IS_FIRST_WORD(POS(N)) THEN SUG_CAPITALIZATION(L"*a?*", GET_FORM(POS(N))); ADD_ERROR(Error_Typographic, POS(N), POS(N), msg(ES, L"Las fórmulas de tratamiento, título o cargo deben escribirse con minúscula.", Check_OLE10, C2, L"ReglaTratamEnMayúscula#3"); END_RULE
«Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaNoSolo,Pero">
<case>No solo destruyó nuestra historia, <error>pero</error> también cambió nuestro nombre</case> <case>No solo destruyó nuestra historia, sino también cambió nuestro nombre</case> <case>Fue a comprar el pan, pero también compró chorizo</case> </test> */ RULE(L"ReglaNoSolo,Pero") EXISTENTIAL_TAG(POS(N), TagClauseFirstCoordinate) AND FORM_I(POS_FIRST_CHILD(POS(N)), L"no") AND FORM_I(POS_SECOND_CHILD(POS(N)), L"solo|sólo") AND EXISTENTIAL_TAG(POS_THIRD_CHILD(POS(N)), TagPhraseVerb) AND FORM(POS(N+1), L",") AND FORM_I(POS(N+2), L"pero") THEN SUG_WORD(POS(N+2), L"sino"); ADD_ERROR(Error_Grammatical, POS(N+2), POS(N+2), msg(ES, L"Posiblemente no haya utilizado la conjunción adecuada.", B2, L"ReglaNoSolo,Pero"); END_RULE
«Lenguando que es gerundio». Algunos casos prácticos
Pero el valor de la «corrección automática avanzada» no solo reside en su capacidad
de verificación sintáctico-semántica, también nos ayuda en la detección masiva
de errores independientes del contexto…
¡Gracias por vuestra atención!
Concepción Polo
Responsable de Lingüística
Daedalus, S. A.
Tel.: +34 913324301
http://www.daedalus.es