El resumen automático como recurso documental para la ... · UNIVERSIDAD DE MÁLAGA FACULTAD DE...

1030
UNIVERSIDAD DE MÁLAGA FACULTAD DE FILOSOFÍA Y LETRAS DEPARTAMENTO DE TRADUCCIÓN E INTERPRETACIÓN TESIS DOCTORAL El resumen automático como recurso documental para la traducción de artículos de investigación del ámbito jurídico-tecnológico (español-inglés-francés) MARÍA CRISTINA TOLEDO BÁEZ DIRIGIDA POR LA DRA. D.ª GLORIA CORPAS PASTOR MÁLAGA, 2009

Transcript of El resumen automático como recurso documental para la ... · UNIVERSIDAD DE MÁLAGA FACULTAD DE...

  • UNIVERSIDAD DE MLAGA

    FACULTAD DE FILOSOFA Y LETRAS

    DEPARTAMENTO DE TRADUCCIN E INTERPRETACIN

    TESIS DOCTORAL

    El resumen automtico como recurso documental para la traduccin de artculos de investigacin

    del mbito jurdico-tecnolgico (espaol-ingls-francs)

    MARA CRISTINA TOLEDO BEZ

    DIRIGIDA POR LA DRA. D. GLORIA CORPAS PASTOR

    MLAGA, 2009

  • Gloria Corpas Pastor, catedrtica del Departamento de Traduccin e

    Interpretacin de la Universidad de Mlaga, certifica que la tesis de D. Mara Cristina

    Toledo Bez, titulada El resumen automtico como recurso documental para la

    traduccin de artculos de investigacin del mbito jurdico-tecnolgico

    (espaol-ingls-francs), ha sido realizada bajo su direccin y cumple todos los

    requisitos legales para proceder a su defensa.

    Mlaga, a 29 de junio de 2009

    Fdo. Dra. D. Gloria Corpas Pastor

  • A mi padre, a mi madre y a mi hermana

  • La sola, la vera lingua dellEuropa la traduzione

    Umberto Eco

  • AGRADECIMIENTOS

    Una tesis doctoral parece constituir el trabajo individual ms

    arduo y laborioso. No obstante, durante los aos de investigacin y

    estudio que implica, encontramos personas que, desde el punto de

    vista acadmico o humano, ofrecen su ayuda y, de algn modo, dejan

    su impronta.

    En primer lugar, quisiera mostrar todo mi reconocimiento a la

    Dra. D. Gloria Corpas Pastor, directora de la tesis contenida en este

    volumen. A su persona debo infinita gratitud por la confianza que

    siempre ha puesto en m y por sus constantes muestras de nimo y

    comprensin a la hora de emprender este proyecto. Sin embargo, no

    slo me ha enseado a investigar, sino que su generosidad y calidad

    humana hacen que sea para m un ejemplo de valores y una maestra en

    el ms amplio sentido de la palabra.

  • M. Cristina Toledo Bez

    II

    Quisiera hacer extensible este agradecimiento al Dr. D. Ruslan

    Mitkov, director del Research Group in Computational Linguistics,

    por su maravillosa acogida durante mi estancia en la Universidad de

    Wolverhampton as como por sus sabios consejos y apoyo constante

    desde la distancia. Asimismo, agradezco al Dr. D. Constantin Orsan

    su ayuda desinteresada en todo momento y por trabajar con ahnco en

    el recurso documental presentado en la tesis sin ms recompensa que

    mis mltiples palabras de agradecimiento. Vayan tambin mis gracias

    a la Dra. D. Dalila Melkhadi y a la Dra. D. Shyan Ou por actuar

    como evaluadoras externas as como por sus comentarios siempre tan

    oportunos.

    Uno de los mayores apoyos recibidos me ha venido de la mano

    de los miembros y colaboradores del grupo de investigacin

    HUM-106, en particular de los profesores Dra. D. Mriam Seghiri

    Domnguez, Dr. D. Jorge J. Leiva Rojo y D. M. del Carmen Amaya

    Galvn, y sobre todo de mi compaera y amiga Cristina M. Castillo

    Rodrguez. Todos ellos saben por experiencia propia el valor de una

    palabra de nimo o de una ayuda a tiempo y me lo han sabido

    demostrar con creces en numerosas ocasiones.

    No quisiera olvidarme de los profesores del Departamento de

    Traduccin e Interpretacin de la Universidad de Mlaga que me han

    permitido realizar los experimentos en sus clases, en concreto el Dr.

    D. Emilio Ortega Arjonilla, la Dra. D. Adela Martnez Garca, la

    Dra. D. Isabel Jimnez Gutirrez y D. Tanagua Barcel Martnez.

    Asimismo, en este punto he de destacar la colaboracin desinteresada

    de Abby Oesterling, que desde Estados Unidos ha revisado con

    paciencia todo aquello que he necesitado.

  • Agradecimientos

    III

    A mis amigos que, de forma presencial o virtual, siempre se

    han preocupado desinteresadamente por ese trabajo que me absorba y

    me apartaba de ellos.

    A toda mi familia, sin cuyo apoyo este trabajo no hubiese visto

    nunca la luz, y en especial a las tres personas a las que va dedicada

    esta tesis: a mi padre, a mi madre y a mi hermana. Todo lo que he

    conseguido hasta ahora y todo lo que consiga en el futuro se lo debo a

    los tres por ser todos ellos una parte de m misma.

    A Ral, por caminar a mi lado durante todos estos aos, por

    soportar tantas horas robadas, por demostrarme en numerosas

    ocasiones su inquebrantable paciencia y por comprenderme cuando ni

    yo misma lo haca. Y, sobre todo, por ensearme, con maestra, que la

    distancia nunca es el olvido.

  • NDICE

    ABSTRACT

    1. Introduction... 1

    2. Aims and goals.. 3

    3. Materials 5

    3.1. Term-Based Summariser.... 5

    3.2. Multilingual comparable corpus......... 6

    3.3. Markin and evaluation........ 7

    3.4. WordList in Oxford WordSmith Tools.. 7

    3.5. ReCor.. 7

    3.6. Electronic survey........ 8

    4. Methods. 8

  • ndice

    VI

    4.1. Contrastive analysis of discourse and domain: legal-technological discourse.

    8

    4.2. Contrastive analysis of textual genre: research articles.. 9

    4.3. Empirical experiments with semi-professional translators........ 10

    5. Results... 12

    5.1. Results of contrastive analysis of legal-technological discourse....

    12

    5.2. Results of contrastive analysis of research article as genre 13

    5.3. Results of the experiments with semi-professional translators.. 14

    5.3.1. Quality criteria. 14

    5.3.2. Lexical richness criteria... 18

    5.3.3. Number of words translated criteria 22

    5.4. Results from the electronic survey. 23

    6. Conclusions and future work 25

    6.1. Conclusions........ 25

    6.2. Future work........ 29

    INTRODUCCIN

    1. Motivacin............. 31

    2. Objetivos........... 35

    3. Estructura... 37

  • ndice

    VII

    CAPTULO I. DE LA SOCIEDAD DE LA INFORMACIN A LA SOCIEDAD DEL CONOCIMIENTO: EL TRADUCTOR COMO TECNLOGO Y DOCUMENTALISTA

    1.1. Introduccin............ 47

    1.2. Las Tecnologas Lingsticas......... 50

    1.2.1. El multilingismo en Europa y las TIC... 50

    1.2.2. Las tecnologas lingsticas: concepto y clasificacin........ 53

    1.2.3. Las polticas europeas en materia de tecnologas lingsticas 57

    1.3. Las tecnologas de la traduccin........ 65

    1.3.1. La Generacin del Lenguaje Natural.. 70

    1.3.1.1. Investigacin sobre GLN en Europa y Norteamrica.......... 72

    1.3.1.2. Investigacin sobre GLN en Espaa 75

    1.3.2. El corpus y sus aplicaciones........... 80

    1.3.2.1. Aplicaciones didcticas del corpus en Traduccin... 83

    1.3.2.2. Aplicaciones del corpus en los estudios descriptivos de Traduccin....................................................

    85

    1.3.2.3. El corpus en las tecnologas de la traduccin................... 86

    1.3.3. La Traduccin Automtica.. 89

    1.3.3.1. Investigacin internacional en TA... 93

    1.3.3.2. Investigacin nacional en TA... 95

    1.3.4. La Recuperacin de Informacin............ 97

    1.3.4.1. La recuperacin de informacin como subtipo 98

    1.3.4.1.1. La investigacin internacional en RI. 100

    1.3.4.1.2. La investigacin nacional en RI 101

    1.3.4.2. La extraccin de informacin.................. 105

  • ndice

    VIII

    1.3.4.2.1. La investigacin internacional y nacional en EI... 107

    1.4. La Documentacin. 111

    1.4.1. Internet y la Documentacin........... 111

    1.4.2. La Documentacin Aplicada a la Traduccin. 115

    1.4.3. La competencia documental........ 119

    1.4.4. El proceso documental........ 122

    1.4.5. La evaluacin de recursos electrnicos........... 129

    1.5. Corolario. 133

    CAPTULO II. EL RESUMEN GENERAL Y EL RESUMEN AUTOMTICO: TERM-BASED SUMMARISER

    2.1. Introduccin............ 141

    2.2. El resumen general. 143

    2.2.1. Definicin........ 144

    2.2.2. Tipos de resumen............. 146

    2.2.3. Proceso de elaboracin........ 150

    2.3. El resumen automtico........... 153

    2.3.1. Extracto y resumen: distincin........ 157

    2.3.1.1. Extracto (extract).................. 157

    2.3.1.1.1. El proceso de resumen por extraccin............................... 158

    2.3.1.2. Resumen (abstract)................... 161

    2.3.1.2.1. El proceso de generacin de resmenes 163

    2.3.1.2.1.1. Plantillas................................................. 164

    2.3.1.2.1.2. Reescritura de trminos............................................. 165

    2.3.1.2.1.3. Relaciones de acontecimientos.. 165

    2.3.1.2.1.4. Jerarqua de conceptos........... 167

  • ndice

    IX

    2.3.2. Tipos de resmenes. 167

    2.3.2.1. Indicativo vs. informativo vs. crtico... 170

    2.3.2.2. Genrico vs. centrado en el usuario..................... 172

    2.3.2.3. General vs. especfico.................. 172

    2.3.2.4. Monodocumental vs. multidocumental 173

    2.3.2.5. Monolinge vs. bilinge vs. multilinge................. 173

    2.4. Enfoques actuales del resumen automtico........... 175

    2.4.1. Enfoques clsicos............ 177

    2.4.2. Enfoques basados en corpus........... 182

    2.4.3. Enfoques basados en el anlisis del discurso.......... 190

    2.4.3.1. Rhetorical Structure Theory. 191

    2.4.3.2. WordNet y EuroWordNet 193

    2.4.3.3. Enfoques centrados en la cohesin.. 195

    2.4.3.4. Enfoques centrados en la coherencia... 199

    2.4.4. Enfoques ricos en conocimiento. 204

    2.4.5. El resumen automtico multidocumental....... 210

    2.4.6. ltimas tendencias en resumen automtico............ 216

    2.4.6.1. Resumen automtico de elementos multimedia................... 216

    2.4.6.2. Resumen automtico en redes sociales........................ 218

    2.5. El programa de resumen automtico Term-Based Summariser

    219

    2.5.1. Descripcin. 219

    2.5.2. Componentes de TBS. 221

    2.5.2.1. TBS como programa de resumen automtico.. 222

    2.5.2.2. Corpus virtual de artculos de investigacin 235

  • ndice

    X

    2.5.2.2.1. Descripcin del corpus.. 236

    2.5.2.2.2. Compilacin del corpus 247

    2.6. Corolario........................................ 251

    CAPTULO III. ANLISIS CONTRASTIVO DEL ESPAOL, INGLS Y FRANCS JURDICO-TECNOLGICOS EN LA CONTRATACIN ELECTRNICA

    3.1. Introduccin............ 257

    3.2. Aproximacin al discurso jurdico-tecnolgico. 259

    3.2.1. El lmite entre lo general y lo especializado............ 260

    3.2.1.1. El problema de la denominacin.......................... 261

    3.2.1.2. El problema de la delimitacin. 266

    3.2.2. El discurso jurdico-tecnolgico.. 279

    3.2.2.1. Justificacin de la denominacin................. 280

    3.2.2.1.1. Denominacin en lengua espaola 282

    3.2.2.1.2. Denominacin en las lenguas inglesa y francesa.. 285

    3.2.2.2. Clasificacin del discurso jurdico-tecnolgico................... 287

    3.3. Anlisis de artculos de investigacin en espaol, ingls y francs jurdicos.

    290

    3.3.1. El espaol jurdico... 291

    3.3.1.1. Rasgos lxicos, terminolgicos y fraseolgicos... 299

    3.3.1.2. Rasgos morfo-sintcticos. 308

    3.3.2. El ingls jurdico. 311

    3.3.2.1. Rasgos lxicos, terminolgicos y fraseolgicos................... 317

    3.3.2.2. Rasgos morfo-sintcticos................. 322

    3.3.3. El francs jurdico........... 326

  • ndice

    XI

    3.3.3.1. Rasgos lxicos, terminolgicos y fraseolgicos... 329

    3.3.3.2. Rasgos morfo-sintcticos. 336

    3.3.4. Tabla recopilatoria de rasgos lingsticos comunes en espaol, ingls y francs jurdicos...

    345

    3.4. El comercio electrnico y la contratacin electrnica............ 347

    3.4.1. La contratacin electrnica: Definicin y alcance.......... 348

    3.4.2. La contratacin electrnica: regulacin internacional y europea..

    353

    3.4.3. La contratacin electrnica: regulacin en Espaa......... 358

    3.4.4. La contratacin electrnica: regulacin en Inglaterra y Gales 362

    3.4.5. La contratacin electrnica: regulacin en Francia......... 365

    3.5. La proteccin de datos personales.. 367

    3.5.1. La proteccin de datos personales: Definicin y alcance 367

    3.5.2. La proteccin de datos personales: regulacin internacional y europea.

    371

    3.5.3. La proteccin de datos personales: regulacin en Espaa.. 373

    3.5.4. La proteccin de datos personales: regulacin en Inglaterra y Gales.

    376

    3.5.5. La proteccin de datos personales: regulacin en Francia.. 378

    3.6. Corolario. 380

    CAPTULO IV. ANLISIS CONTRASTIVO EN ESPAOL, INGLS Y FRANCS DEL ARTCULO DE INVESTIGACIN DEL DERECHO

    4.1. Introduccin............ 391

    4.2. La comunicacin cientfico-acadmica.. 393

    4.2.1. Origen y denominacin........... 393

    4.2.2. Definicin y caractersticas. 396

  • ndice

    XII

    4.2.3. El ingls como lingua franca.. 398

    4.2.4. La retrica contrastiva. 402

    4.3. El gnero textual y otros conceptos relacionados.......... 404

    4.3.1. El gnero textual.. 405

    4.3.1.1. Origen y definicin................... 405

    4.3.1.2. Caractersticas principales.................... 408

    4.3.1.3. Tipos de gneros... 411

    4.3.2. El registro........ 415

    4.3.2.1. Definicin y caractersticas.. 415

    4.3.2.2. Relacin gnero-registro.. 418

    4.3.3. La tipologa textual.. 420

    4.3.3.1. Definicin y caractersticas.. 420

    4.3.3.2. Relacin gnero-tipologa textual 425

    4.4. El artculo de investigacin 429

    4.4.1. Denominacin, orgenes y definicin.. 430

    4.4.2. Rasgos y objeto de estudio.. 432

    4.4.2.1. Cariz pedaggico de la investigacin... 432

    4.4.2.2. Supremaca del ingls... 433

    4.4.2.3. Especializacin por disciplinas 434

    4.4.3. Estructura del artculo de investigacin.......... 436

    4.4.3.1. Ttulo 440

    4.4.3.2. Resumen............... 441

    4.4.3.3. Introduccin.. 443

    4.4.3.4. Mtodos y materiales................ 447

    4.4.3.5. Resultados 452

  • ndice

    XIII

    4.4.3.6. Discusin/Conclusin... 454

    4.5. Anlisis de los artculos de investigacin del discurso jurdico-tecnolgico...

    458

    4.5.1. El artculo de investigacin en el discurso jurdico-tecnolgico en espaol...

    458

    4.5.1.1. Ttulo 458

    4.5.1.2. Resumen............... 460

    4.5.1.3. Introduccin.. 466

    4.5.1.4. Mtodos y materiales................ 471

    4.5.1.5. Resultados 476

    4.5.1.6. Discusin y conclusiones. 477

    4.5.1.7. Rasgos del artculo de investigacin en espaol: recapitulacin..

    481

    4.5.2. El artculo de investigacin en el discurso jurdico-tecnolgico en ingls.

    483

    4.5.2.1. Ttulo 483

    4.5.2.2. Resumen............... 485

    4.5.2.3. Introduccin.. 491

    4.5.2.4. Mtodo y materiales. 496

    4.5.2.5. Resultados 499

    4.5.2.6. Discusin y conclusiones. 499

    4.5.2.7. Rasgos del artculo de investigacin en ingls: recapitulacin

    506

    4.5.3. El artculo de investigacin en el discurso jurdico-tecnolgico en francs...

    508

    4.5.3.1. Ttulo 508

    4.5.3.2. Resumen............... 510

    4.5.3.3. Introduccin.. 517

  • ndice

    XIV

    4.5.3.4. Mtodos y materiales................ 522

    4.5.3.5. Resultados 526

    4.5.3.6. Conclusiones 526

    4.5.3.7. Rasgos del artculo de investigacin en francs: recapitulacin

    529

    4.5.4. Tabla recopilatoria del anlisis contrastivo del artculo en espaol, ingls y francs......

    532

    4.6. Corolario. 533

    CAPTULO V. EVALUACIN DE LA TRADUCCIN DIRECTA E INVERSA CON EL RESUMEN AUTOMTICO COMO RECURSO DOCUMENTAL Y TERMINOLGICO

    5.1. Introduccin 543

    5.2. La evaluacin de traducciones y otros conceptos relacionados. 545

    5.2.1. La revisin de traducciones. 547

    5.2.1.1. Definicin y tipos. 547

    5.2.1.2. Parmetros de revisin. 550

    5.2.1.3. Revisin en la traduccin profesional.. 553

    5.2.2. La crtica de traducciones 557

    5.2.2.1. Definicin. 558

    5.2.2.2. Mtodos de crtica de traducciones.. 559

    5.2.3. La evaluacin de traducciones........ 560

    5.2.3.1. Mtodos de evaluacin de traducciones... 562

    5.2.3.2. La evaluacin analtica. 562

    5.2.3.2.1. El error en traduccin 563

    5.2.3.2.2. Parmetros en la evaluacin analtica........................... 567

    5.2.3.2.2.1. Propuesta de Hurtado Albir 569

  • ndice

    XV

    5.2.3.2.2.2. Propuesta de MeLLANGE......................................... 571

    5.2.3.3. La evaluacin holstica. 572

    5.2.3.3.1. Parmetros en la evaluacin holstica........................... 574

    5.2.3.3.1.1. Propuesta de Mahn......................................... 574

    5.2.3.3.1.2. Propuesta de Waddington... 576

    5.2.3.3.1.3. Propuesta del Institute of Linguists 578

    5.2.3.4. Propuesta propia de evaluacin analtica y holstica 584

    5.2.3.4.1. Plantilla de evaluacin analtica 584

    5.2.3.4.2. Plantilla de evaluacin holstica 588

    5.2.3.4.3. Programa de evaluacin de traducciones Markin.. 591

    5.3. Estudio emprico de evaluacin de traducciones y resumen automtico..

    598

    5.3.1. Antecedentes... 599

    5.3.2. Objetivos cientficos 599

    5.3.3. Sujetos. 600

    5.3.4. Materiales........ 605

    5.3.4.1. Textos origen................ 606

    5.3.4.1.1. Fragmentos en espaol.. 607

    5.3.4.1.2. Fragmentos en ingls. 610

    5.3.4.1.3. Fragmentos en francs........................... 612

    5.3.4.2. Programas informticos y recursos electrnicos.. 615

    5.3.4.2.1. Term-Based Summariser : descripcin del proceso.. 615

    5.3.4.2.2. WordList de Wordsmith 616

    5.3.4.2.3. Sitio web 617

    5.3.4.2.4. Encuesta electrnica.. 618

  • ndice

    XVI

    5.3.5. Mtodos... 620

    5.3.5.1. Prueba piloto. 620

    5.3.5.2. Informacin.. 620

    5.3.5.3. Entorno. 620

    5.3.5.4. Ejecucin.. 621

    5.3.5.5. Incidencias................ 623

    5.3.6. Resultados............... 624

    5.3.6.1. Criterio de calidad 625

    5.3.6.1.1. Evaluacin analtica.. 625

    5.3.6.1.1.1. Ejemplo de evaluacin del fragmento 1 (sin TBS) de traduccin directa ingls-espaol...

    625

    5.3.6.1.1.2. Ejemplo de evaluacin del fragmento 2 (con TBS) de traduccin directa ingls-espaol..

    629

    5.3.6.1.1.3. Ejemplo de evaluacin del fragmento 3 (sin TBS) de traduccin inversa espaol-ingls.

    632

    5.3.6.1.1.4. Ejemplo de evaluacin del fragmento 4 (con TBS) de traduccin inversa espaol-ingls.

    635

    5.3.6.1.1.5. Ejemplo de evaluacin del fragmento 1 (sin TBS) de traduccin directa francs-espaol

    638

    5.3.6.1.1.6. Ejemplo de evaluacin del fragmento 2 (con TBS) de traduccin directa francs-espaol.

    642

    5.3.6.1.1.7. Ejemplo de evaluacin del fragmento 3 (sin TBS) de traduccin inversa espaol-francs...

    646

    5.3.6.1.1.8. Ejemplo de evaluacin del fragmento 4 (con TBS) de traduccin inversa espaol-francs....

    649

    5.3.6.1.1.9. Nmero total de muestra de errores y aciertos en la evaluacin analtica

    653

    5.3.6.1.2. Evaluacin holstica.. 655

    5.3.6.1.2.1. Ejemplo de evaluacin del fragmento 1 (sin TBS) de traduccin directa ingls-espaol...

    655

  • ndice

    XVII

    5.3.6.1.2.2. Ejemplo de evaluacin del fragmento 2 (con TBS) de traduccin directa ingls-espaol...

    657

    5.3.6.1.2.3. Ejemplo de evaluacin del fragmento 3 (sin TBS) de traduccin inversa espaol-ingls..

    658

    5.3.6.1.2.4. Ejemplo de evaluacin del fragmento 4 (con TBS) de traduccin inversa espaol-ingls..

    659

    5.3.6.1.2.5. Ejemplo de evaluacin del fragmento 1 (sin TBS) de traduccin directa francs-espaol.

    660

    5.3.6.1.2.6. Ejemplo de evaluacin del fragmento 2 (con TBS) de traduccin directa francs-espaol

    661

    5.3.6.1.2.7. Ejemplo de evaluacin del fragmento 3 (sin TBS) de traduccin inversa espaol-francs....

    662

    5.3.6.1.2.8. Ejemplo de evaluacin del fragmento 4 (con TBS) de traduccin inversa espaol-francs....

    663

    5.3.6.1.2.9. Nmero total de resultados en la evaluacin holstica... 664

    5.3.6.1.3. Conclusiones en cuanto al criterio de calidad 666

    5.3.6.2. Criterio de riqueza lxica. 668

    5.3.6.3. Criterio de nmero de palabras 673

    5.3.6.4. Encuesta electrnica: resultados... 675

    5.4. Corolario................................. 684

    CONCLUSIONS... 687

    BIBLIOGRAFA... 707

    ANEXO I. 871

  • NDICE DE FIGURAS, TABLAS, ILUSTRACIONES

    Y CUADROS

    FIGURAS

    Figura 1. Representacin de la extraccin (Hahn y Mani, 2000: 30) 158

    Figura 2. Representacin del resumen (Hahn y Mani, 2000: 31).. 162

    Figura 3. Interfaz de versin demo de CAST... 220

    Figura 4. Interfaz de Term-Based Summariser (TBS). 221

    Figura 5. Componentes de CAST (Orsan, 2006: 7) 222

    Figura 6. Interfaz de TBS con las dos opciones de formato.. 230

    Figura 7. Relacin entre lengua general y lenguajes de especialidad (Ahmad et al., 1995 apud Prez Hernndez, 2002).

    269

    Figura 8. Modelo plural de los discursos acadmicos. Adaptado de Bhatia, 2002: 34

    411

  • ndice de figuras, tablas, ilustraciones y cuadros

    XX

    Figura 9. Esquema de la organizacin retrica general del artculo de investigacin. Swales y Feak (1994: 157)

    437

    Figura 10. Interfaz del programa Markin con un texto importado 592

    Figura 11. Ejemplo de texto con juego de botones de correccin. 594

    Figura 12. Juego de botones creado para la evaluacin analtica 595

    Figura 13. Juego de botones creado para la evaluacin holstica.. 596

    Figura 14. Nmero total de alumnos inscritos que participaron en el experimento...

    602

    Figura 15. Interfaz de las pginas de los seminarios. 618

    Figura 16. Encuesta de los seminarios en Campus Virtual... 619

    Figura 17. Evaluacin y correccin con Markin de una traduccin directa del ingls sin TBS de acuerdo con los parmetros de la evaluacin analtica...

    626

    Figura 18. Evaluacin y correccin con Markin de una traduccin directa del ingls con TBS de acuerdo con los parmetros de la evaluacin analtica...

    630

    Figura 19. Evaluacin y correccin con Markin de una traduccin inversa a ingls sin TBS de acuerdo con los parmetros de la evaluacin analtica...

    633

    Figura 20. Evaluacin y correccin con Markin de una traduccin inversa a ingls con TBS de acuerdo con los parmetros de la evaluacin analtica...

    636

    Figura 21. Evaluacin y correccin con Markin de una traduccin directa del francs sin TBS de acuerdo con los parmetros de la evaluacin analtica...

    639

    Figura 22. Evaluacin y correccin con Markin de una traduccin directa del francs con TBS de acuerdo con los parmetros de la evaluacin analtica...

    642

    Figura 23. Evaluacin y correccin con Markin de una traduccin directa del francs con TBS de acuerdo con los parmetros de la evaluacin analtica. II..

    643

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXI

    Figura 24. Evaluacin y correccin con Markin de una traduccin inversa a francs sin TBS de acuerdo con los parmetros de la evaluacin analtica...

    646

    Figura 25. Evaluacin y correccin con Markin de una traduccin inversa a francs con TBS de acuerdo con los parmetros de la evaluacin analtica...

    649

    Figura 26. Evaluacin y correccin con Markin de una traduccin inversa a francs con TBS de acuerdo con los parmetros de la evaluacin analtica. II...

    650

    Figura 27. Evaluacin y correccin con Markin de una traduccin directa a espaol sin TBS de acuerdo con los parmetros de la evaluacin holstica...

    656

    Figura 28. Evaluacin y correccin con Markin de una traduccin directa a espaol con TBS de acuerdo con los parmetros de la evaluacin holstica...

    657

    Figura 29. Evaluacin y correccin con Markin de una traduccin inversa al ingls sin TBS de acuerdo con los parmetros de la evaluacin holstica...

    658

    Figura 30. Evaluacin y correccin con Markin de una traduccin inversa al ingls con TBS de acuerdo con los parmetros de la evaluacin holstica...

    659

    Figura 31. Evaluacin y correccin con Markin de una traduccin directa a espaol sin TBS de acuerdo con los parmetros de la evaluacin holstica...

    660

    Figura 32. Evaluacin y correccin con Markin de una traduccin directa a espaol con TBS de acuerdo con los parmetros de la evaluacin holstica...

    661

    Figura 33. Evaluacin y correccin con Markin de una traduccin inversa al francs sin TBS de acuerdo con los parmetros de la evaluacin holstica...

    662

    Figura 34. Evaluacin y correccin con Markin de una traduccin inversa al francs con TBS de acuerdo con los parmetros de la evaluacin holstica...

    663

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXII

    Figura 35. Muestra de dos preguntas de la encuesta electrnica... 679

    TABLAS

    Table 1. Results of contrastive analysis of legal-technological discourse

    12

    Table 2. Results of contrastive analysis of research article as genre 14

    Table 3. Direct translation (English-Spanish): results for 50 best translations.

    15

    Table 4. Direct translation (French-Spanish): results for 50 translations.

    15

    Table 5. Direct translation (French-Spanish): results for 50 translations.

    15

    Table 6. Inverse translation (Spanish-French): results for 50 best translations.

    16

    Table 7. Results of translations involving English language 17

    Table 8. Results of translations involving French language. 18

    Table 9. Type/token ratio in English translation... 19

    Table 10. Type/token ratio in French translation.. 21

    Table 11. Number of words translated criteria.. 22

    Table 12. Results from the electronic survey 24

    Tabla 13. Tipologa de resmenes automticos 174

    Tabla 14. Fuente: 193

    Tabla 15. Ejemplo de sistema de codificacin de los corpus 1 y 2... 240

    Tabla 16. Ejemplo de sistema de codificacin del corpus 3. 240

    Tabla 17. Cmputo del nmero total de tokens de los corpus 242

    Tabla 18. Cmputo del nmero total de documentos de los corpus.. 243

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXIII

    Tabla 19. Ttulo de las revistas empleadas como fuente de documentacin...

    249

    Tabla 20. Rasgos lingsticos comunes del anlisis del espaol, ingls y francs jurdicos...

    345

    Tabla 21. Clasificacin del artculo de investigacin respecto a tipos textuales

    428

    Tabla 22. Modelos de estructuras para la seccin del resumen. 443

    Tabla 23. Comparacin de OARO y CARS. Traducido de Swales (2004: 245)

    447

    Tabla 24. Ttulo de los artculos de investigacin en espaol analizados..

    459

    Tabla 25. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura problema-mtodo-resultados-conclusiones...

    461

    Tabla 26. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura introduccin-problema-solucin.

    462

    Tabla 27. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura presentacin de un sistema, mtodo o anlisis-descripcin de sus caractersticas y aplicaciones

    462

    Tabla 28. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura introduccin-mtodo-resultados-(conclusin)

    463

    Tabla 29. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura informacin general-objetivos-mtodo-resultados-conclusin..

    463

    Tabla 30. Clasificacin de una introduccin de un artculo de investigacin en espaol en el modelo de estructura CARS de Swales

    467

    Tabla 31. Clasificacin de una introduccin de un artculo de investigacin en espaol en el modelo de estructura OARO de Swales

    468

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXIV

    Tabla 32. Propuesta de estructura para la seccin de materiales de los artculos de investigacin en espaol que versan sobre contratos electrnicos

    472

    Tabla 33. Propuesta de estructura para la seccin de materiales de los artculos de investigacin en espaol que versan sobre contratacin electrnica.

    475

    Tabla 34. Estructura de la seccin de conclusiones de los artculos de investigacin en espaol de acuerdo con la propuesta de Nwogu (1990)

    478

    Tabla 35. Estructura de la seccin de conclusiones de los artculos de investigacin de acuerdo con la propuesta de Coll Garca y Palmer Silveira (2002)...

    479

    Tabla 36. Ttulo de los artculos de investigacin en ingls analizados..

    484

    Tabla 37. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura problema-mtodo-resultados-conclusiones...

    486

    Tabla 38. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura introduccin-problema-solucin.

    487

    Tabla 39. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura presentacin de un sistema, mtodo o anlisis-descripcin de sus caractersticas y aplicaciones...

    488

    Tabla 40. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura introduccin-mtodo-resultados-(conclusin)

    489

    Tabla 41. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura informacin general-objetivos-mtodo-resultados-conclusin..

    490

    Tabla 42. Clasificacin de una introduccin de un artculo de investigacin en ingls en el modelo de estructura CARS de Swales

    492

    Tabla 43. Clasificacin de una introduccin de un artculo de investigacin en ingls en el modelo de estructura OARO de Swales

    494

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXV

    Tabla 44. Ttulos de los artculos de investigacin en lengua inglesa

    496

    Tabla 45. Estructura de la seccin de conclusiones de los artculos de investigacin en ingls de acuerdo con la propuesta de Nwogu (1990)

    500

    Tabla 46. Estructura de la seccin de conclusiones de los artculos de investigacin en ingls de acuerdo con la propuesta de Coll Garca y Palmer Silveira (2002)

    501

    Tabla 47. Estructura de la seccin de conclusiones de los artculos de investigacin en ingls de acuerdo con la propuesta de Lewin et al. (2001)...

    504

    Tabla 48. Estructura de la seccin de conclusiones de los artculos de investigacin en ingls de acuerdo con la propuesta de Kanoksilpatham (2003).

    505

    Tabla 49. Ttulo de los artculos de investigacin en francs analizados..

    509

    Tabla 50. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura problema-mtodo-resultados-conclusiones...

    512

    Tabla 51. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura introduccin-problema-solucin.

    513

    Tabla 52. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura presentacin de un sistema, mtodo o anlisis-descripcin de sus caractersticas y aplicaciones

    514

    Tabla 53. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura introduccin-mtodo-resultados-(conclusin)

    515

    Tabla 54. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura informacin general-objetivos-mtodo-resultados-conclusin..

    516

    Tabla 55. Clasificacin de una introduccin de un artculo de investigacin en francs en el modelo de estructura CARS de Swales

    517

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXVI

    Tabla 56. Clasificacin de una introduccin de un artculo de investigacin en francs en el modelo de estructura OARO de Swales

    520

    Tabla 57. Apartados de mtodos y materiales de los artculos de investigacin en francs

    523

    Tabla 58. Estructura de la seccin de conclusiones de los artculos de investigacin de acuerdo con la propuesta de Nwogu (1990)..

    527

    Tabla 59. Estructura de la seccin de conclusiones de los artculos de investigacin en francs de acuerdo con la propuesta de Coll Garca y Palmer Silveira (2002)

    528

    Tabla 60. Tabla recopilatoria de anlisis contrastivo en espaol, ingls y francs..

    532

    Tabla 61. Parmetros de revisin profesional... 557

    Tabla 62. Sistema de evaluacin holstico de Waddington (2009)... 577

    Tabla 63. Diploma de Traduccin: escala para el aspecto 1. 579

    Tabla 64. Diploma de Traduccin: escala para el aspecto 2. 580

    Tabla 65. Diploma de Traduccin: escala para el aspecto 3. 581

    Tabla 66. Diploma de Traduccin: escala para el aspecto 4. 582

    Tabla 67. Diploma de Traduccin: escala para el aspecto 5. 583

    Tabla 68. Plantilla de evaluacin holstica 590

    Tabla 69. Ejemplo de evaluacin analtica de una traduccin directa ingls-espaol realizada sin TBS.

    628

    Tabla 70. Ejemplo de evaluacin analtica de una traduccin directa ingls-espaol realizada con TBS.

    631

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXVII

    Tabla 71. Ejemplo de evaluacin analtica de una traduccin inversa espaol-ingls realizada sin TBS..

    634

    Tabla 72. Ejemplo de evaluacin analtica de una traduccin inversa espaol-ingls realizada con TBS.

    637

    Tabla 73. Ejemplo de evaluacin analtica de una traduccin directa francs-espaol realizada sin TBS.

    640

    Tabla 74. Ejemplo de evaluacin analtica de una traduccin directa francs-espaol realizada con TBS...

    644

    Tabla 75. Evaluacin y correccin con Markin de una traduccin inversa a francs de acuerdo con los parmetros de la evaluacin analtica.

    647

    Tabla 76. Evaluacin y correccin con Markin de una traduccin inversa a francs de acuerdo con los parmetros de la evaluacin analtica.

    651

    Tabla 77. Nmero total de errores en traduccin directa ingls-espaol

    653

    Tabla 78. Nmero total de errores en traduccin inversa espaol-ingls

    653

    Tabla 79. Nmero total de errores en traduccin directa francs-espaol..

    653

    Tabla 80. Nmero total de errores en traduccin inversa espaol-francs..

    654

    Tabla 81. Nmero total de resultados de evaluacin holstica en el bloque de ingls.

    664

    Tabla 82. Nmero total de resultados de evaluacin holstica en el bloque de francs...

    665

    Tabla 83. Riqueza lxica de las traducciones directas e inversas desde o hacia la lengua inglesa..

    669

    Tabla 84. Riqueza lxica de las traducciones directas e inversas desde o hacia la lengua francesa

    671

    Tabla 85. Nmero total de palabras traducidas por fragmento. 674

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXVIII

    Tabla 86. Porcentajes finales de respuestas de la encuesta electrnica.

    680

    ILUSTRACIONES

    Ilustracin 1. Representatividad del subcorpus 1-1 (espaol)... 244

    Ilustracin 2. Representatividad del subcorpus 1-2 (ingls). 244

    Ilustracin 3. Representatividad del subcorpus 1-3 (francs)... 245

    Ilustracin 4. Use-related variation (Hatim y Mason, 1990: 46)... 417

    Ilustracin 5. Relacin entre registro, gnero y tipo textual. Adaptado de Trosborg (1997).......................................................

    429

    CUADROS

    Cuadro 1. El modelo CARS (Create a Research Space). Traducido de Swales (1990: 141)...

    445

    Cuadro 2. El modelo OARO (Open a Research Option). Traducido de Swales (2004: 244)...

    446

    Cuadro 3. Secuencias y unidades informativas de la seccin de Mtodos (Coll Garca, 2002: 88)...

    451

    Cuadro 4. Secuencias y unidades informativas de la seccin de resultados (Palmer Silveira, 2002: 125)

    453

    Cuadro 5. Estructura de la seccin discusin y conclusiones (Swales, 2004: 236)...

    456

    Cuadro 6. Secuencias y unidades informativas de la seccin de discusin (Duque Garca, 2000; Coll Garca y Palmer Silveira, 2002)..

    457

    Cuadro 7. Tipos de revisin. Adaptada de Horguelin (1985)... 548

    Cuadro 8. Parmetros de revisin bilinge de Dalbernet (1977).. 550

    Cuadro 9. Parmetros de revisin bilinge de Horguelin, Hosington, Brunette...

    551

  • ndice de figuras, tablas, ilustraciones y cuadros

    XXIX

    Cuadro 10. Parmetros de revisin de Mossop (2001). 552

    Cuadro 11. Tipologa de errores de Palazuelos (1992). 564

    Cuadro 12. Tipologa de errores de House (1981) 564

    Cuadro 13. Criterios de evaluacin de Kupsch-Losereit (1981)... 565

    Cuadro 14. Tipologa de errores de Pym (1992)... 565

    Cuadro 15. Tipologa de errores de Kussmaul (1995).. 566

    Cuadro 16. Tipologa de errores de Gouadec (1981) 566

    Cuadro 17. Baremo de correccin de Hurtado Albir (1995). 569

    Cuadro 18. Baremo de evaluacin de MeLLANGE. 571

    Cuadro 19. Baremo de BEST y Mahn (1989). Adaptado de Waddington (2000: 96).

    575

    Cuadro 20. Plantilla de evaluacin analtica. 586

    Cuadro 21. Fragmento 1 en espaol para la traduccin inversa espaol-ingls y espaol-francs...

    608

    Cuadro 22. Fragmento 2 en espaol para la traduccin inversa espaol-ingls y espaol-francs...

    610

    Cuadro 23. Fragmento 1 en ingls para la traduccin directa ingls-espaol

    611

    Cuadro 24. Fragmento 2 en ingls para la traduccin directa ingls-espaol

    612

    Cuadro 25. Fragmento 1 en francs para la traduccin directa francs-espaol..

    613

    Cuadro 26. Fragmento 2 en francs para la traduccin directa francs-espaol..

    614

    Cuadro 27. Preguntas de la encuesta electrnica.. 675

  • ABSTRACT

    1. INTRODUCTION

    As Lavid (2005) points out, information has become one of the

    basic elements in our current society, which may be called the Third

    Wave, paraphrasing Alvin Tofflers book (1996). First wave is the

    society after agrarian revolution; Second wave is industrial. Third

    Wave represents information and knowledge revolution. New

    millenniums society is information society, where Information and

    Communication(s) Technology (ICT) is of paramount importance.

    Therefore; the exchange of languages and cultures plays an important

    role in this information society. Consequently, translators and

    interpreters may become fundamental mediators on a global level.

  • M. Cristina Toledo Bez

    2

    In this context, the Internet seems an essential tool, offering

    new modes of communication and spreading scientific knowledge. In

    addition, it facilitates and improves the documentation process. The

    translator, as an information user and an information producer,

    considers the Internet to be a valuable documentation source and a

    useful communication system.

    According to Pinto Molina (2002: 2), the informational

    revolution makes it possible to compile more information in less time

    and, consequently, improve the translators efficiency. With the

    mushrooming of the quantity of online text information, triggered in

    part by the growth of the World Wide Web, it is especially useful to

    have tools which can help users digest information content.

    Nevertheless, translators have to be extremely skilful during the

    documentation process since they need to be able to distinguish and

    choose only reliable information resources. This is because the

    Internet, although it is a valuable and very useful tool, contains a large

    amount of unreliable information.

    In that regard, an abstract may be quite useful for translators

    since it helps to select the correct information in the documentation

    process. Given that translators normally must meet tight deadlines,

    abstracting articles or electronic resources is an advantageous solution

    and facilitates the translation process. Consequently, automatic

    summarization and extraction, both fields of Computational

    Linguistics, can help humans in general and translators in particular to

    deal with information overload by automatically extracting the gist of

    documents.

  • Abstract

    3

    This thesis aims to combine both automatic summarization and

    translation in order to test whether automatic summarization as a new

    translation technology could be a useful tool in a translators

    workbench.

    2. AIMS AND GOALS

    Our main research hypothesis is that term-based automatic

    summarization as a documentation resource enhances direct and

    inverse translation of specialized texts. However, as Tymoczko (2002:

    16-17) points out, the starting point in Translation Studies is not just a

    hypothesis, and, consequently, we present a tripartite hypothesis:

    I) Research on the combination of automatic summarization

    and Translation and Interpreting needs empirical studies in

    order to test its efficacy.

    II) The translation of specialized text, specifically research

    articles in the legal-technological domain in three

    languages (Spanish, English and French) and in direct and

    inverse combinations, is improved with the help of

    Term-Based Summariser.

    III) Term-based automatic summarization should be part of an

    innovative translator's workbench.

  • M. Cristina Toledo Bez

    4

    The aims listed above are achieved by setting the following list

    of general (1-2) and specific (3-11) goals:

    1. Providing a review of major work in translation

    technologies and in human and automatic summarization.

    2. Emphasising the relevance of documentation as a

    cornerstone in specialized translation.

    3. Building a representative multilingual comparable corpus

    of parallel texts from research articles on electronic

    commerce in three languages (Spanish, English and

    French).

    4. Focusing on the emerging legal-technological discourse

    from the Information Technology Law and Data

    Protection.

    5. Comparing the legal-technological discourse features in

    three languages, i.e., Spanish, English and French.

    6. Studying the research article as a textual genre.

    7. Testing whether Introduction-Material and Methods-

    Results-Discussion/Conclusion (IMRD) structure of

    English scientific articles may be valid to articles, on one

    hand, on Legal Sciences and, on the other hand, in the

    Romance languages of Spanish and French.

    8. Establishing evaluation parameters combining both

    analytic and holistic evaluation in order to find objective

    criteria in Translation Studies.

    9. Carrying out experiments with semi-professional

    translators offering quantitative results regarding three

  • Abstract

    5

    main criteria: quality criteria, lexical richness criteria and

    number of words criteria.

    10. Analysing translators impressions and opinions regarding

    the use of the Term-Based Summariser by means of a

    survey and qualitative data.

    All of these goals were achieved in this thesis by means of the

    following materials and methods.

    3. MATERIALS

    To confirm the main hypothesis, several materials are used in

    this thesis dissertation.

    3.1. Term-Based Summariser

    First of all, the main material is Term-Based Summariser

    (TBS), a modified version of the Computer-Aided Summarisation

    Tool (CAST) developed by the Research Group in Computational

    Linguistics from the University of Wolverhampton. The weighting

    method used to score the words is the term frequency and the

    tokenisation method is the word. It produces both only summary

    and the whole text with highlight results; the former is just the

    extract and the latter encompasses the sentences selected marked with

    a different colour in the text. A compression rate can also be chosen.

    A stop list is also used for each language (Spanish, English and

    French) and TBS displays the top 50 terms identified by the program

    with their raw frequency of the words in the text. To have a clear and

    user-friendly TBS interface, 20 texts in each language were selected

    and their titles are written in bullet points.

  • M. Cristina Toledo Bez

    6

    3.2. Multilingual comparable corpus

    A multilingual comparable corpus was compiled, consisting of

    a collection of parallel texts from research articles on electronic

    commerce in the three languages studied in the thesis (Spanish,

    English and French). The research articles were selected from journals

    in Spanish (Revista de Contratacin Electrnica), English (Journal of

    Information, Law and Technology and International Journal of Law

    and Information Technology) and French (Revue des techniques de

    l'information et de la communication, Revue internationale de droit

    conomique, etc.) and the distribution of articles was as follows: 150

    articles in Spanish (1,500,281 tokens), 142 articles in English

    (1,226,260 tokens) and 86 articles in French (1,277,841 tokens).

    Initially, the purpose of building the corpus was to implement

    the inverse document frequency for scoring the words, but, once the

    term frequency method was selected, the corpus was used to analyse

    the characteristics of research articles on electronic commerce in the

    three languages. Apart from that, one article in each language was

    selected as a source text for the direct and inverse translations.

    Consequently, source texts all shared the same domain

    (legal-technological discourse) and the same textual genre (research

    articles). Each article was then divided into different paragraphs and

    the same sections were selected from all the articles: on one hand,

    title, keyword and introduction (part 1 for direct translation and part 3

    for inverse translation) and, on the other hand, the section similar to

    the materials and methods one (part 2 for direct translation and part 4

    for inverse translation).

  • Abstract

    7

    3.3. Markin and evaluation

    The teaching software Markin provides tools to mark and

    annotate texts. Once our evaluation parameters were established,

    Markin was used to evaluate direct and inverse translations with a set

    of annotations. These evaluation parameters consist of both analytic

    error evaluation as well as holistic and global evaluation. The former

    pays attention to negative aspects such as source text related errors

    (wrong sense, unnecessary addition or inadequate linguistic variation),

    target text related errors (orthography, grammar, terminology or

    textual type) and also to positive aspects such as correct terms. The

    holistic evaluation evaluates the translation as a whole and it has five

    different levels regarding transfer and expression quality. The levels

    range from 1 (very poor translation) to 5 (excellent translation). The

    evaluation of the direct and inverse translations with and without TBS

    constitutes one the criteria studied in this thesis.

    3.4. WordList in Oxford WordSmith Tools

    WordList in Oxford WordSmith Tools (version 3.00.00) is used

    in this thesis to calculate the lexical richness of translated texts by

    means of the type/token ratio. It also provides other results such as

    number of types, number of tokens and number of bytes. These results

    are also discussed.

    3.5. ReCor

    ReCor 3.1 is used to assess the representativeness of the corpus

    compiled in this thesis and its results are reflected in graphics. These

    results are also discussed.

  • M. Cristina Toledo Bez

    8

    3.6. Electronic survey

    An electronic survey of 33 questions was created in order to

    generate qualitative results regarding the use of the TBS in direct and

    inverse translations. The most important questions concerned the use

    of Term-Based Summariser in both direct and inverse translations.

    Ninety-five out of ninety-five semi-professional translators filled out

    the electronic survey in a classroom environment.

    4. METHODS

    Both the methods and results sections in this abstract are

    divided into three subsections: contrastive analysis of discourse and

    domain, contrastive analysis of genre and textual type and

    experiments with semi-professional translators.

    4.1. Contrastive analysis of discourse and domain:

    legal-technological discourse

    Before translating any text, a thorough analysis of its

    terminology, lexis and textual features must be carried out in order to

    familiarise the translator with the source text. Consequently,

    legal-technological discourse in Spanish (from Spain), English (from

    the United Kingdom) and French (from France) must be approached

    in this thesis. However, before studying the discourse, the legal

    systems of the three languages must be compared due to their

    differences: English legislation belongs to the common law while

    Spanish and French are part of the civil law. Having established the

    distinction between the two legal systems, the built corpus was the

    starting point for the discourse approach.

  • Abstract

    9

    Nevertheless, since most texts in the parallel corpus share the

    same terminological and lexical features because they all belong to the

    same domain, we only analysed the discourse from the three texts

    used as source texts in the translations and the results show that the

    legal-technological discourse has common features in Spanish,

    English and French even though they belong to different legal system.

    They will be presented in the results section.

    4.2. Contrastive analysis of textual genre: research article

    As mentioned above, the textual genre of the texts analysed is

    the research article. All the literature review considers this genre to

    have a very well established structure, particularly in the field of

    Science and Technology, presenting the following sections:

    Introduction, Materials and methods, Results and Discussion (IMRD).

    It is also important to note that English is the language of scientific

    communication in the scientific community, even for non-native

    speakers, and, consequently, the IMRD structure is essential to that

    language.

    In the work undertaken in this thesis we aim to prove whether

    the IMRD structure is used in Legal Sciences and in Romance

    languages such as Spanish and French. Since all the articles were

    selected from the same journals or very similar ones and they shared

    the same structure and format, we chose the 60 articles from the TBS

    interface, 20 in each language, and we compared them in couples (first

    Spanish and English, later Spanish and French and finally English and

    French). The results of this alignment will be presented below.

  • M. Cristina Toledo Bez

    10

    4.3. Empirical experiments with semi-professional translators

    The experiments were carried out by 96 undergraduate students

    from the 4th year in Translation and Interpreting from the University

    of Mlaga. They all have similar grades (60-70 in previous courses)

    but, in order to avoid different variables, Socrates/Erasmus students

    were not allowed to take part in the experiments.

    Twenty-seven of ninety-five students study French as their first

    foreign language and sixty-nine study the English language. The

    difference between the two groups is related to the University

    restrictions for the student/language ratio: seventy-three is the

    maximum for English and forty for French. Taking into account these

    data, the sample is quite relevant.

    The experiments were carried out in a 3-hour classroom

    environment and the procedure was the same for four groups:

    1. First, experiments and Term-Based Summariser (TBS) were

    briefly explained in 15 minutes.

    2. Students translated Part 1 (title, keywords and introduction)

    from English or French into Spanish (direct translation)

    with online dictionaries. They were not allowed to use the

    TBS, nor any other parallel texts. Part 1 took 20 minutes.

    3. Students translated Part 2 (materials and methods) from

    English or French into Spanish (direct translation) with the

    TBS as the only terminological and information resource.

    Part 2 took 20 minutes.

    4. Students translated Part 3 (title, keywords and introduction)

    from Spanish into English or French (inverse translation)

  • Abstract

    11

    with online dictionaries. They were not allowed to use the

    TBS, nor any other parallel texts. Part 3 took 20 minutes.

    5. Students translated Part 4 (materials and methods) from

    Spanish into English or French (inverse translation) with the

    TBS as the only terminological and information resource.

    Part 4 took 20 minutes.

    6. Students filled out the electronic survey. This final part took

    15 minutes.

    The number of target texts (translations) comprised a subcorpus

    of 379 documents: 137 for English-Spanish translation, 135 for

    Spanish-English translation, 56 for French-Spanish translation and 51

    for Spanish-French translation. There is no sample attrition.

    It is worth describing how translators used TBS as an

    informational and terminological result. After displaying the list of the

    research article titles, each translator chose the most appropriate title

    depending on the source text. Then they summed up the parallel text

    with the TBS using either the only summary or the whole text with

    highlights options and setting the compression rate at 10-15 %

    because of the length of articles. Then, they read the result displayed

    and searched for the most suitable terms or phraseological units for

    the translation process. The process was the same in both direct and

    inverse translation.

  • M. Cristina Toledo Bez

    12

    5. RESULTS

    5.1. Results of contrastive analysis of legal-technological discourse

    A brief sample of the results after comparing the

    legal-technological discourse in Spanish, English and French is listed

    above:

    Spanish English French

    LEXICAL, TERMINOLOGICAL AND PHRASEOLOGICAL FEATURES

    Specific terms Fehaciente Plaintiff Lgislateur

    Terms in Latin Prima facie Lex fori Inter alia

    Hellenisms Sinalagmtico Politique

    Anglicisms Marketing Common law

    Gallicisms Promocin Arbitrage

    Collocations Marco contractual Overriding issue Charte majeure

    Suffixation Oferente Consumer Prestataire

    MORPHOSYNTACTICAL FEATURES

    Passive voice

    Los datos de carcter personal sern cancelados

    Consideration must be given to a

    new means

    Cette politique dharmonisation

    est base sur deux ides

    Particular use of verbs

    Aunque en razn del artculo 1

    resultare aplicable la Convencin

    It is submitted that the

    alternative requirements

    La politique de rgulation

    traditionnelle porte

    Table 1. Results of contrastive analysis of legal-technological discourse.

  • Abstract

    13

    5.2. Results of contrastive analysis of research article as genre

    After comparing the structure of the sections of 20 articles in

    Spanish, 20 in English and 20 in French, the main results below show

    the percentage of articles that follow the different structures described.

    The IMRD structure is not always used because, for instance, neither

    the result section nor the materials and methods appear in any of the

    articles analysed. However, the genre research article shares common

    features in the three languages and in the Legal Sciences, although

    some differences are found, particularly with the English language

    given that Spanish and French, as Romance languages, are more

    homogeneous:

    Spanish English French

    Title 46%: less than 8 words

    52%: less than 8 words

    70.8%: less than 8 words

    Abstract

    Problem-method-results

    17.6%

    26%

    33,%

    Introduction-problem-solution 29.4% 20% 26.6%

    Presentation of a system or analysis

    17.6%, 20% 6.6%

    Introduction-method-solution 23.5%, 13.3% 20%

    Information-objectives-results-conclusions

    11.7%, 20% 13.3%

    Introduction

    CARS structure (Swales, 1990)

    28%

    53.3%

    24%

    OARO structure (Swales, 2004)

    71% 46% 76%

  • M. Cristina Toledo Bez

    14

    Materials and methods No common structure

    No common structure

    No common structure

    Results No common structure

    No common structure

    No common structure

    Discussion/conclusions

    General results-specific results-conclusions

    66.6%

    50%

    71.4%

    General results-specific results-limitations-

    conclusions-future work

    33.3%

    25%

    28%

    Contributions-results-contradictions-implications

    16.6%

    Context-results-limitation-future work

    8.3%

    Table 2. Results of contrastive analysis of research article as genre.

    5.3. Results of the experiments with semi-professional translators

    In order to test the efficiency of the use of Term-Based

    Summariser for specialized translation, three main criteria were

    analysed: quality criteria, lexical richness and number of words.

    5.3.1. Quality criteria

    Quality criteria are related to the evaluation parameters

    developed in this thesis. Our main interest is to test whether the

    translations with TBS as terminological and informational source have

    a better quality, (i.e., fewer errors) than translations with online

    dictionaries. In order to prove that difference, all the translations were

    evaluated with the software Markin according to analytic and holistic

  • Abstract

    15

    evaluation parameters and some of them (50 for each combination)

    were selected to illustrate the main characteristics. The results are

    summed up in the following tables:

    Direct translation

    (English-Spanish)

    Translation without TBS

    Translation with TBS

    Source text related errors 239 226

    Target text related errors 301 285

    Positive aspects 198 202

    Table 3. Direct translation (English-Spanish): results for 50 best translations.

    Direct translation

    (French-Spanish)

    Translation without TBS

    Translation with TBS

    Source text related errors 215 197

    Target text related errors 276 275

    Positive aspects 154 181

    Table 4. Direct translation (French-Spanish): results for 50 translations.

    Inverse translation

    (Spanish-English)

    Translation without TBS

    Translation with TBS

    Source text related errors 305 297

    Target text related errors 318 313

    Positive aspects 103 104

    Table 5. Direct translation (French-Spanish): results for 50 translations.

  • M. Cristina Toledo Bez

    16

    Inverse translation

    (Spanish-French)

    Translation without TBS

    Translation with TBS

    Source text related errors 297 284

    Target text related errors 301 296

    Positive aspects 117 124

    Table 6. Inverse translation (Spanish-French): results for 50 best translations.

    In all the tables the translations with Term-Based Summariser

    have fewer errors than the translations with online dictionaries. The

    difference is higher in direct translation than in inverse translation

    because translators try to focus more on the text itself than on the

    documentation process or on the terminological search.

    Regarding the holistic evaluation, there are also some

    differences between the translations with Term-Based Summariser

    having fewer errors than the translations with online dictionaries. As

    noted earlier, level 1 means the translation is very poor and level 5

    implies that the translation is excellent. The results according to the

    languages are as follows:

  • Abstract

    17

    LEVEL 1 LEVEL 2 LEVEL 3 LEVEL 4 LEVEL 5

    Direct translation (English-Spanish)

    Translation without TBS

    11 13 26 10 8

    Translation with TBS

    7 8 31 10 12

    Inverse translation (Spanish-English)

    Translation without TBS

    13 15 20 12 5

    Translation with TBS

    11 18 27 14 6

    Total number of translations: 277 texts

    Table 7. Results of translations involving English language.

  • M. Cristina Toledo Bez

    18

    LEVEL 1 LEVEL 2 LEVEL 3 LEVEL 4 LEVEL 5

    Direct translation (French-Spanish)

    Translation without TBS

    3 6 8 7 4

    Translation with TBS

    2 4 10 8 5

    Inverse translation (Spanish-French)

    Translation without TBS

    4 6 9 7 2

    Translation with TBS

    2 7 10 7 2

    Total number of translations: 107 texts

    Table 8. Results of translations involving French language.

    In both tables, texts translated with TBS have better levels than

    texts translated with online dictionaries, although inverse translation

    once again presents more homogenous results in both types of

    translation. The main reason is the difficulty of translating into a non-

    mother tongue.

    5.3.2. Lexical richness criteria

    Another variable studied in this thesis is the lexical richness of

    translations, since they all have the same number of words (around

    150 words). WordList is the tool used to offer the type/token ratio in

    all the translated texts. The main results classified by translators are

    shown below:

  • Abstract

    19

    TYPE/TOKEN RATIO IN ENGLISH TRANSLATION

    English-Spanish

    Part 1

    (without TBS)

    English-Spanish

    Part 2

    (with TBS)

    Spanish-English

    Part 3

    (without TBS)

    Spanish-English

    Part 4

    (with TBS)

    48.31 50.35 54.79 46.46

    49.33 61.80 59.26 46.46

    53.44 62.61 59.26 70.53

    55.37 51.35 72.50 70.53

    52.35 58.87 57.97 57.35

    53.70 62.61 51.49 60.20

    46.43 70.00 75.00 68.06

    55.84 63.30 65.91 68.12

    48.85 61.94 71.91 80.36

    43.08 72.37 70.00 59.40

    64.52 61.80 59.79 59.40

    49.33 62.67 53.21 64.76

    48.20 58.99 75.00 52.35

    50.00 60.48 75.00 56.29

    53.08 69.59 59.43 57.38

    50.25 56.67 62.24 56.15

    53.14 72.37 57.02 56.20

    64.42 62.70 73.33 63.06

    45.45 58.39 55.62 60.14

    45.37 64.41 56.76 58.52

    46.89 57.07 54.79 63.89

    48.51 60.00 64.49 55.64

    57.82 61.29 51.64 52.67

    46.67 49.32 57,23 64.76

    50.26 64.41 55.21 64.76

    53.02 63.22 53.57 65.63

    44.17 58.25 58.82 46.91

  • M. Cristina Toledo Bez

    20

    53.70 58.87 79,52 56.15

    47.37 65.00 56.92 64.86

    45.18 62.69 57.67 66.67

    48.88 55.56 52.72 57.80

    45.14 65.25 61.72 59.74

    53.33 61.79 51.97 55.24

    47.11 60.94 59.50 45.88

    45.32 61.01 57.59 54.97

    49.57 61.42 50.48 56.41

    52.21 74.19 59.48 65.29

    49.79 59.35 60.95 50.85

    52.83 63. 56 89.13 63.95

    51.79 65. 87 48.48 56.15

    Type/token ratio rate: 7.19

    Type/token ratio rate: 9.59

    Type/token ratio rate: 7.59

    Type/token ratio rate: 8.49

    Table 9. Type/token ratio in English translation.

  • Abstract

    21

    TYPE/TOKEN RATIO IN FRENCH TRANSLATION

    French-Spanish

    Part 1

    (without TBS)

    French-Spanish

    Part 2

    (with TBS)

    Spanish-French

    Part 3

    (without TBS)

    Spanish-French

    Part 4

    (with TBS)

    57.14 62.28 66.20 62.50

    58.96 64.93 68.09 68.38

    59.63 64.20 72.73 59.52

    57.63 60.67 70.27 60.47

    59.06 66.67 66.99 63.64

    59.06 54.93 70.45 62.81

    47.83 63.57 76.19 70.89

    52.07 63.24 52.86 51.69

    57.36 56.68 79.55 79.6

    58.78 65.17 72.73 76.12

    56.35 56.28 56.64 71.59

    57.14 65.63 74.68 75.9

    66.67 69.74 71.83 72.4

    60.69 61.59 54.91 59.50

    57.58 59.75 67.01 68.7

    57.35 60.74 61.2 67.83

    57.61 63.78 65.8 69.74

    58.55 60.8 61.9 65.00

    57.56 59.57 62.3 60.98

    Type/token ratio rate: 9.67

    Type/token ratio rate: 10.82

    Type/token ratio rate: 13.89

    Type/token ratio rate: 16.10

    Table 10. Type/token ratio in French translation.

  • M. Cristina Toledo Bez

    22

    In all the tables the type/token ratio rate is higher in translations

    with TBS than in translation without TBS, even though we find

    differences depending on the language (French has better results than

    English) and on the translation direction (Direct translation has better

    results than inverse translation).

    5.3.3. Number of words translated criteria

    The differences in the total number of words translated in

    translations without TBS and translation with TBS is another indicator

    of the benefits from using the TBS. The results are shown below:

    Translation without TBS Translation with TBS

    Part 1 (direct English-Spanish translation):

    9548 words

    Part 2 (direct English-Spanish translation):

    13257 words

    Part 3 (inverse Spanish-English translation):

    9306 words

    Part 4 (inverse Spanish-English translation):

    9473 words

    Part 1 (direct French-Spanish translation):

    4855 words

    Part 2 (direct French-Spanish translation):

    6966 words

    Part 3 (inverse Spanish-French translation):

    3898 words

    Part 4 (inverse Spanish-French translation):

    5522 words

    Table 11. Number of words translated criteria.

  • Abstract

    23

    The results in the left column show that the number of words in

    translations with TBS is higher than the results with translations using

    online dictionaries. The difference in inverse translation is lower than

    in direct translation particularly in English; consequently, we infer that

    inverse translation from Spanish into French takes less time than

    inverse translation from Spanish into French. However, further studies

    are required.

    5.4. Results from the electronic survey

    A complete piece of research must also offer qualitative results

    and the survey used in this thesis consisting of 33 questions provides

    some indications on the translators impressions. The most relevant

    data concern the use of Term-Based Summariser during the

    documentation and translation process.

    The questions below are classified in a scale from 1 (almost

    nothing) to 5 (very). The most interesting results concerning the

    answers of the 95 semi-professional translators are as follows:

  • M. Cristina Toledo Bez

    24

    1 2 3 4 5

    1. How important are titles in Term-Based Summariser?

    2.1% 17.0% 38.3% 35.1% 6.4%

    2. Did Term-Based Summariser help you to familiarise yourself with the research article structure?

    12.8% 45.7% 22.3% 12.8% 6.4%

    3. How useful is Term-Based Summariser as provider of parallel texts?

    2.1% 19.1% 34.0% 29.8% 14.9%

    4. Did you feel comfortable translating with online dictionaries?

    1.1% 9.6% 42.6% 34.0% 12.8%

    5. Did you feel comfortable translating with Term-Based Summariser?

    6.4% 24.5% 30.9% 30.9% 7.4%

    6. Did Term-Based Summariser help you in the direct translation process?

    14.9% 39.4% 23.4% 16.0% 6.4%

    7. Did Term-Based Summariser help you in the inverse translation process?

    16.0% 37.2% 16.0% 21.3% 9.6%

    8. Is the top 50 terms list useful for translators?

    3.2% 7.4% 25.5% 35.1% 28.7%

    9. Do you think Term-Based Summariser is useful for the documentation process?

    1.1% 14.9% 29.8% 30.9% 23.4%

    10. How useful is the option only the summary?

    3.2% 17.0% 37.2% 35.1% 7.4%

    11. How useful is the option the whole text with highlights?

    1.1% 8.5% 29.8% 33.0% 27.7%

    12. Would you include Term-Based Summariser in a translators workbench?

    5.3% 12.8% 26.6% 33.0% 22.3%

    Table 12. Results from the electronic survey.

  • Abstract

    25

    The answers reflect the translators opinions and it is worth

    mentioning that many of them would include a Term-Based

    Summariser in a translators workbench, and that the top terms list is a

    very useful terminological tool.

    6. CONCLUSIONS AND FUTURE WORK

    6.1. Conclusions

    The main contribution of this thesis is the innovative

    combination of Computational Linguistics and Translation Studies,

    i.e., automatic summarization and specialized translation. We will

    further discuss this now that the 10 goals set out in the aim section

    have been achieved.

    Goal 1 was to review the major work in translation

    technologies and in human automatic summarization. This goal was

    completed in both Chapters 1 and 2. In Chapter 1 the main translation

    technologies were reviewed, including Natural Language Generation,

    Corpus Linguistics, Machine Translation and Information Retrieval.

    In Chapter 2 the most relevant approaches to human and automatic

    summarization are presented, although the main emphasis is on

    term-based summarisation.

    Goal 2 was to emphasise the relevance of documentation as a

    cornerstone in specialized translation. This goal was completed in

    Chapter 1 where Documentation as Science is approached, in order to

    focus on its importance for Translation Studies.

  • M. Cristina Toledo Bez

    26

    Goal 3 was to build a representative multilingual comparable

    corpus of parallel texts from research articles on electronic commerce

    in three languages (Spanish, English and French). This goal was

    completed in Chapter 2, where the process of selection and

    compilation of texts is described as well as the final result. All the

    details of the corpus are specified in Chapter 2.

    Both goals 4 and 5 share some points. Goal 4 was to focus on

    the emerging legal-technological discourse from the Information

    Technology Law and Data Protection. This goal was completed in

    Chapter 3. First, we established the difference between two important

    dichotomies: general/specialized language and word/term. Secondly,

    we studied the new legal-technological discourse explaining its

    innovative terminological appellation, describing its main features

    according to the Information Technology Law and pointing out its

    relation with Data Protection. Goal 5 was to compare the

    legal-technological discourse features in three languages, i.e., Spanish,

    English and French and this goal was also completed in Chapter 3,

    where a contrastive analysis of the legal-technological discourse in

    source texts is carried out in the three languages. Common features are

    pointed out in order to reflect the similarities of the legal-

    technological discourse.

    Goal 6 was to study the research article as a textual genre. This

    goal was completed in Chapter 4, where the notion of textual genre is

    analysed and then it is applied to the research article. We distinguish it

    from other similar concepts such as text type or register and its main

    features and structures are presented. The most common IMRD

    structure is defined and described.

  • Abstract

    27

    Goal 7 was to test whether IMRD structure of English

    scientific articles may be valid to articles both on Legal Sciences as

    well as in the Romance languages of Spanish and French. This goal

    was completed in Chapter 4, beginning with the detailed analysis of

    the IMRD structure and then the analysis of the texts from the

    comparable corpus appearing in Term-Based Summariser.

    Consequently, a contrastive analysis in the three languages (Spanish,

    English and French) is carried out, and we tested that the IMRD

    structure is also used for Legal Sciences and Romance languages, but

    with some important changes.

    Goal 8 was to establish evaluation parameters combining both

    analytic and holistic evaluation in order to find objective criteria in

    Translation Studies. This goal was completed in Chapter 5 where a

    review of major work on evaluation is provided and then our own

    evaluation parameters are detailed. Such parameters encompass both

    analytic or error evaluation as well as global or holistic evaluation.

    These evaluation parameters have been used for the translation

    evaluations.

    Goal 9 was to carry out experiments with semi-professional

    translators. This goal was completed in Chapter 5 with the description

    of the experiments in which 95 semi-professional translators from the

    University of Mlaga took part. The final results were 379 pieces of

    translation in both direct and inverse translation with four

    combinations: English-Spanish (direct translation), Spanish-English

    (inverse translation), French-Spanish (direct translation) and

    Spanish-French (inverse translation). The translators translated two

    parts without Term-Based Summariser and two parts with

    Term-Based Summariser and then results were compared with the

  • M. Cristina Toledo Bez

    28

    three criteria described in goal 9: quality criteria, lexical richness

    criteria and number of words criteria. The quality criteria are

    concerned with the evaluation parameters and imply the evaluation of

    the translations by semi-professional translator in terms of analytic

    and holistic evaluation. The teaching software Markin is used to

    evaluate the translations. The lexical richness criteria are carried out

    with WordList in Wordsmith and it provides information about the

    token/type ratio in a text. The number of words criteria compares the

    results in translations with Term-Based Summariser with the

    translations without Term-Based Summariser.

    Goal 10 was to analyse translators impressions and opinions

    regarding the use of Term-Based Summariser by means of a survey.

    This goal is achieved in Chapter 5 with the detailed description of the

    questions in the survey and the comments in regards to the qualitative

    results.

    Regarding our triple hypothesis, we have proved with

    empirical studies as well as qualitative and quantitative results that

    automatic summarization enhances specialized translation in three

    languages (Spanish, English and French) and in direct and inverse

    combinations, although with better results for direct translation, and,

    consequently, we consider that a term-based automatic summarization

    should be part of an innovative translator's workbench.

  • Abstract

    29

    6.2. Future work

    During this research a series of possible future directions have

    emerged. They are briefly discussed in this section.

    The main direction is that the empirical study carried out in this

    thesis with semi-professional translators should be carried out again

    but this time with professional translators. The results would be good

    indicators of the advantages of Term-Based Summariser as

    terminological and informational resource.

    Another line of research related to this is to learn whether the

    findings of this research are valid for other discourses and for other

    genres. We have focused on a very specific domain

    (legal-technological discourse) and genre (research articles), but it

    would be of particular interest to apply Term-Based Summariser to

    other domains and genres in order to find out whether similar results

    to the ones reported here can be obtained.

    Furthermore, a possible extension of this work is to analyse the

    results with other statistical methods such as the students t-test or the

    chi-square test. Finally, in the future it would also be interesting to

    repeat the same study with more complex and representative corpora

    in order to extrapolate the results. All these future directions will be

    developed in the current research project Ecosistema: espacio nico

    de sistemas de informacin ontolgica y tesauros sobre el medio

    ambiente (FFI2008-06080-C03-03/FILO; 2008-2011), directed by Dr.

    Corpas Pastor and Dr. Faber. The possible merging of terminology,

    ontology, and automatic summarization constitutes a fascinating field

    to be explored.

  • INTRODUCCIN

    1. MOTIVACIN

    Desearamos comenzar este trabajo que presentamos como tesis

    acadmica para la obtencin del grado de doctor exponiendo en

    primer lugar las razones que han motivado a su desarrollo, as como el

    marco investigador en el que se inscribe.

    Gracias a una beca de postgrado del Programa de Formacin

    del Profesorado Universitario (FPU)1, concedida por el Ministerio de

    Educacin y Ciencia2 en 2006, nos incorporamos como miembro

    1 La referencia de la beca es AP2005-2792 y la resolucin aparece publicada en el Boletn Oficial del Estado de 21 de abril de 2006. 2 Este Ministerio ha recibido distintas denominaciones desde la concesin de la beca. En 2006 se denomin Ministerio de Educacin y Ciencia hasta el ao 2008, cuando la competencia de la formacin de becarios de investigacin pas al Ministerio de Ciencia e Innovacin. Sin embargo, en 2009 es de nuevo el Ministerio de Educacin el encargado de convocar y gestionar las becas FPU.

  • M. Cristina Toledo Bez

    32

    investigador a, por un lado, el grupo de investigacin de excelencia

    Lexicografa y Traduccin3 (HUM-106) y, por otro, a dos proyectos

    de I+D, dirigidos, al igual que el grupo de investigacin, por la Dra.

    D. Gloria Corpas Pastor: por una parte, el proyecto nacional

    TURICOR: Compilacin de un corpus de contratos tursticos

    (alemn, espaol, ingls, italiano) para la generacin textual

    multilinge y la traduccin jurdica)4 (Ministerio de Ciencia y

    Tecnologa, BFF2003-04616, 2003-2006) y, por otra, al recin

    concedido, por esa fecha, proyecto de excelencia de la Junta de

    Andaluca La contratacin turstica electrnica multilinge como

    mediacin intercultural: aspectos legales, traductolgicos y

    terminolgicos5 (Direccin General de Investigacin, Tecnologa y

    Empresa, HUM-892, 2006-2009).

    En este marco investigador tan propicio y gracias adems a una

    estancia en Dickinson College (Pensilvania, Estados Unidos) como

    lectora de espaol que nos permiti acceder a numerosos artculos,

    libros y material de referencia, presentamos en 2006 nuestro trabajo

    de investigacin de segundo ao de doctorado6, el cual se titul

    Aproximacin a la generacin automtica multilinge de resmenes.

    3 La URL del grupo HUM-106, en la que aparecen detallados los miembros, las actividades I+D, las publicaciones y los datos de contacto es la siguiente: . La versin inglesa de esta misma pgina web est disponible en . Todas las direcciones URL citadas en el presente trabajo se encontraban operativas a fecha de 20 de junio de 2009. 4 La URL del proyecto Turicor es la siguiente: . 5 Ms informacin sobre el proyecto en . 6 Nos referimos al programa de doctorado Estudios de Traduccin: Investigacin en Traduccin e Interpretacin especializadas (bienio 2004-2006) del Departamento de Traduccin e Interpretacin de la Universidad de Mlaga, al cual se le otorg adems la mencin de calidad por parte del Ministerio de Educacin y Ciencia.

  • Introduccin

    33

    Dicho trabajo, que constituye el punto de partida para la presente

    investigacin, se centr en el estudio y comparacin de diversos

    programas de resumen automtico en lnea, gratuitos y multilinges en

    aras de mostrar su utilidad en la labor documental del traductor

    profesional, tanto en la fase semasiolgica de comprensin del sentido

    del texto, como en la onomasiolgica. Como textos objeto de estudio,

    hemos de apuntar que, a partir del macrocorpus Turicor, se compil

    un subcorpus compuesto por 22 condiciones generales de crucero en

    espaol y 27 en ingls una serie de documentos con las condiciones

    generales de los contratos de viaje combinado, especficamente de la

    modalidad de crucero, en las dos lenguas seleccionadas, esto es, ingls

    y espaol. El proyecto de investigacin nos permiti descubrir las

    mltiples facetas que el resumen automtico como aplicacin de la

    Lingstica Computacional poda ofrecer a los Estudios de

    Traduccin, de ah que marcsemos esa lnea de investigacin como

    columna vertebral de la presente tesis doctoral.

    El germen investigador que naci con el proyecto Turicor

    como marco ha madurado y crecido en la presente tesis doctoral

    gracias a una doble motivacin. Por un lado, el trabajo en el seno del

    proyecto HUM-892, donde nos incorporamos a las secciones de

    espaol, ingls y francs con la finalidad de buscar recursos

    electrnicos especficos sobre contratacin electrnica y comercio

    electrnico. De este modo, nos familiarizamos con el discurso jurdico

    y tecnolgico as como con los numerosos artculos de investigacin

    que versaban sobre esta materia, acotando as el dominio de

    especialidad y el gnero textual analizados en esta tesis. Asimismo, en

    lo que concierne al discurso jurdico, hemos bebido de las fuentes y

    enseanzas ofrecidas en el curso de postgrado titulado Especialista en

    traduccin jurdica ingls-espaol, organizado por el Departamento

  • M. Cristina Toledo Bez

    34

    de Filologa Inglesa de la Universidad de Alicante y que realizamos

    durante el curso acadmico 2006-2007. Sin duda, dicho curso afianz

    nuestros conocimientos previos sobre traduccin jurdica y nos

    permiti especializarnos en este tipo de traduccin para as

    enfrentarnos a la tesis doctoral con ms eficacia y pericia.

    El otro elemento motivador, crucial para nuestros fines

    investigadores y para la mencin de Doctorado europeo de la

    presente tesis, fue la estancia de investigacin de tres meses de

    duracin en 2007 con el grupo Research Group in Computational

    Linguistics, dirigido por el Dr. D. Ruslan Mitkov y perteneciente al

    Research Institute in Information and Language Processing de la

    Universidad de Wolverhampton (Reino Unido), la cual nos permiti

    profundizar en el tema abordado en nuestro trabajo de investigacin,

    ya que consultamos numerosa bibliografa en torno al resumen

    automtico ofrecida de primera mano por los investigadores de ms

    renombre y, adems, pudimos conocer y experimentar las tcnicas

    ms novedosas a travs del programa Computer-Assisted

    Summarization Tool (CAST), desarrollado por el Dr. D. Constantin

    Orsan, y que constituye la piedra angular de la presente tesis doctoral

    al tratarse del recurso documental y terminolgico empleado y

    adaptado a nuestras necesidades investigadoras.

    Con esta motivacin como teln de fondo, explicamos a

    continuacin los objetivos planteados en nuestra investigacin.

  • Introduccin

    35

    2. OBJETIVOS

    Nuestra hiptesis de partida es que el resumen automtico

    como recurso documental facilita la traduccin de textos

    especializados en ambos sentidos (directa e inversa). Sin embargo,

    como advierte Tymoczko (2002: 16-17), en los Estudios de

    Traduccin no se suele partir de una nica hiptesis, sino ms bien de

    una serie de hiptesis. A este respecto nuestro estudio no va a ser una

    excepcin y, por ello, partiremos de una triple hiptesis7 de trabajo:

    I) La investigacin en torno a la combinacin de la

    Lingstica Computacional y los Estudios de Traduccin

    precisa de estudios empricos y extrapolables que prueben

    su eficacia.

    II) La traduccin de textos especializados, en este caso de

    artculos de investigacin del mbito jurdico-tecnolgico,

    tanto en ingls como en francs y tanto directa como

    inversa se ve agilizada con la consulta a un programa de

    resumen automtico basado en trminos.

    III) El resumen automtico surge como recurso documental

    innovador y fiable que podra formar parte de una futura

    estacin de trabajo del traductor.

    7 En el DRAE aparece definida como la que se establece provisionalmente como base de una investigacin que puede confirmar o negar la validez de aqulla.

  • M. Cristina Toledo Bez

    36

    De nuestra hiptesis tripartita se derivan los siguientes

    objetivos generales (1-2) y especficos (3-10):

    1. Realizar un excurso por la investigacin en tecnologas de

    la traduccin en aras de establecer un marco para nuestra

    investigacin.

    2. Enfatizar la importancia de la documentacin como pilar

    fundamental en la traduccin de textos especializados.

    3. Compilar un corpus virtual, comparable y representativo de

    textos paralelos de artculos de investigacin que versen

    sobre contratacin electrnica en tres lenguas (espaol,

    ingls y francs).

    4. Estudiar la imbricacin de discurso jurdico con el discurso

    tecnolgico en el campo de la contratacin electrnica y de

    la proteccin de datos personales.

    5. Contrastar, mediante un corpus comparable, multilinge y

    representativo, las caractersticas del discurso

    jurdico-tecnolgico en las lenguas espaol, ingls y

    francs.

    6. Abordar el artculo de investigacin como gnero textual

    propio con caractersticas definidas y claras.

    7. Cotejar mediante un corpus comparable y multilinge si la

    estructura tpica del artculo de investigacin escrito en

    lengua inglesa en el campo de las ciencias se extrapola: por

    un lado, a las Ciencias Jurdicas; y, por otro, a las lenguas

    romances espaola y francesa.

  • Introduccin

    37

    8. Establecer una plantilla de evaluacin propia que combine

    la evaluacin analtica y la holstica en aras de lograr unos

    criterios claros y definidos.

    9. Llevar a cabo un estudio con un amplio nmero de