Extracción de información
-
Upload
pedro-contreras-flores -
Category
Technology
-
view
89 -
download
0
Transcript of Extracción de información
![Page 1: Extracción de información](https://reader036.fdocuments.co/reader036/viewer/2022082515/55ce2ae7bb61ebb5528b462b/html5/thumbnails/1.jpg)
Extracción de Información
Pedro Contreras Flores2015
![Page 2: Extracción de información](https://reader036.fdocuments.co/reader036/viewer/2022082515/55ce2ae7bb61ebb5528b462b/html5/thumbnails/2.jpg)
NER• El reconocimiento de nombres de entidades, Named entity
recognition (NER), es una subtarea de la recuperación de información que busca localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, localizaciones, expresiones de horas, cantidades, valores monetarios, porcentajes, etc.
• Desde 1998 existe un gran interés en el reconocimiento de entidades en las áreas de la biología molecular, bioinformática y procesamiento del lenguaje natural.
![Page 3: Extracción de información](https://reader036.fdocuments.co/reader036/viewer/2022082515/55ce2ae7bb61ebb5528b462b/html5/thumbnails/3.jpg)
Stanford
• Implementación en java, licencia GNU GPL• Reconoce person, organization, location• Con modelos de entrenamiento CoNLL2003• Utiliza Conditional Random Field (CRF)• CRF es un modelo estocástico utilizado
habitualmente para etiquetar y segmentar secuencias de datos o extraer información de documentos. En algunos contextos también se les denomina campos aleatorios de Márkov (inglés: Markov random Fields,MRF).
![Page 4: Extracción de información](https://reader036.fdocuments.co/reader036/viewer/2022082515/55ce2ae7bb61ebb5528b462b/html5/thumbnails/4.jpg)
Standford
• Software provided here is similar to the baseline local+Viterbi model
• CoNLL-2002 and CoNLL-2003 (British newswire) – Multiple languages: Spanish, Dutch, English, German – 4 entities: Person, Location, Organization, Misc
• MUC-6 and MUC-7 (American newswire) – 7 entities: Person, Location, Organization, Time, Date, Percent,
Money • ACE
– 5 entities: Location, Organization, Person, FAC, GPE • BBN (Penn Treebank)
– 22 entities: Animal, Cardinal, Date, Disease, …
![Page 5: Extracción de información](https://reader036.fdocuments.co/reader036/viewer/2022082515/55ce2ae7bb61ebb5528b462b/html5/thumbnails/5.jpg)
Modelos
• Included with Stanford NER are a 4 class model trained for CoNLL, a 7 class model trained for MUC, and a 3 class model trained on both data sets for the intersection of those class sets.– 3 class:Location, Person, Organization– 4 class:Location, Person, Organization, Misc– 7 class:Time, Location, Organization, Person, Money, Percent, Date
• As of version 3.4.1, we have a Spanish model available for NER. It is included in the Spanish corenlp models jar.
Spanish CoreNLP models
![Page 6: Extracción de información](https://reader036.fdocuments.co/reader036/viewer/2022082515/55ce2ae7bb61ebb5528b462b/html5/thumbnails/6.jpg)
Ejemplo online• http://nlp.stanford.edu:8080/ner/process
![Page 7: Extracción de información](https://reader036.fdocuments.co/reader036/viewer/2022082515/55ce2ae7bb61ebb5528b462b/html5/thumbnails/7.jpg)
Gate
![Page 8: Extracción de información](https://reader036.fdocuments.co/reader036/viewer/2022082515/55ce2ae7bb61ebb5528b462b/html5/thumbnails/8.jpg)
Intellexer• http://www.intellexer.com/intellexer1.html