Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia...
-
Upload
hernan-botero -
Category
Documents
-
view
111 -
download
2
Transcript of Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia...
Projecte AnCoraCorpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic
Mª Antònia Martí
http://clic.ub.eduhttp://clic.ub.edu/ancora
Índex
1. Descripció del corpus2. Nivells d’anotació3. Metodologia
a. Sistema d’anotaciób. Procediment d’anotació manual: guies
4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta
Descripció del corpus (espanyol)
Spanish Amount SourcesAnotation levels
Procedure
AnCora-ESP 500,000
EFE (225,000)Lexesp (75,000)
El Periódico (200,000)
PoS Automatic
Chunking Automatic
Syntax Manual
Thematic Roles
Semi-automatic
Noun senses
Manual
Descripció del corpus (català)
Catalan Amount SourcesAnnotation
levelsProcedure
AnCora-CAT
500,000
EFE (75,000)ACN (225,000)El Periódico:
(200,000)
PoS Automatic
Chunking Automatic
Syntax Manual
Thematic Roles
Semi-Automatic
Noun senses Manual
Índex
1. Descripció del corpus2. Nivells d’anotació3. Metodologia
a. Sistema d’anotaciób. Procediment d’anotació manual: guies
4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta
Anàlisi morfològica (1)
paraulalema1 tag1, lema2 tag2,lema3 tag3, ...
‘bajo’bajar VM1SIP, bajo AQ0MS, bajo PS00, bajo NCMS, …
Anàlisi morfològica (2)
Word lemma1 PoS1 lema2 PoS2 lema3 PoS3 lema4 PoS4
Si si CS si NCMS00 si RG
trabajo trabajar VMIP1S0 trabajo NCMS00
bajo bajar VMIP1S0 bajo AQ0MS0 bajo 0 CMS00 bajo SPS00
presión presión NCFS000
bajo bajar VMIP1S0 bajo AQ0MS0 bajo NCMS00 bajo SPS00
la la DA0FS0 el PP3FS00
atención atención NCFS000
. . Fp
Anàlisi morfològica. Desambiguació (3)
Word lemma PoSSi si CStrabajo trabajar VMIP1S0bajo bajo SPS00presión presión NCFS000bajo bajar VMIP1S0 la la DA0FS0atención atención NCFS000. . Fp
(S (sn (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó))
(S.NF.C (infinitiu (vmn0000 trabajar))
(sp (prep (sps00 por))
(sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))
S
sn grup.verb S.NF.C
espec.fs grup.nom.fs vmis3s0 inf sp
sa0fs0 ncfs000 vmn000
trabajarLa declaración propugnó por la
…
Anotació constituents
(S (sn-SUJ (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C-CD (infinitiu (vmn0000 trabajar)) (sp-CREG (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))
S
sn-SUJ grup.verb S.NF.C-CD
espec.fs grup.nom.fs vmis3s0 inf sp-CREG
sa0fs0 ncfs000 trabajar
La declaración propugnó por la …
Anotació constituents
(S (sn-SUJ-Arg0-AGT (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C-CD-Arg1-TEM (infinitiu (vmn0000 trabajar)) (sp-CREG-Arg2-FIN (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))
Anotació Arguments i PT
S
sn-SUJ-Arg0-AGT g.v S.NF.C-CD-Arg1-TEM
espec.fs grup.nom.fs vmis3s0 inf sp-CREG-A
sa0fs0 ncfs000 trabajar
La declaración propugnó por la …
Altres anotacions
- Sentits nominals de la xarxa semàntica WordNet
- Entitats amb nom
http://clic.ub.edu/ancora
Índex
1. Descripció del corpus2. Nivells d’anotació3. Metodologia
a. Sistema d’anotaciób. Procediment d’anotació manual: guies
4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta
Metodologia
Anotació automàtica:MorfologiaSintaxi superficial
Anotació manual:ConstituentsFuncionsArgumentsPapers temàticsWordNetEntitats amb nom
Anotació semiautomàticaArguments i papers temàtics (parcialment)
Lexicó sintàcticosemàntic
Lexicons sintàcticosemàntics
mejorar - 01LSS1.1SUJ Arg0##CAUCD Arg1##TEMCC ArgM##TMP/#ADVEJ: "obligará a mejorar la calidad del ataque"EJ: "que han mejorado las relaciones laborales"+ANTICAUSATIVA
LSS2.2SUJ Arg1##TEMCC ArgM##ADV/para#FINEJ: "Por una parte, las técnicas de diseminación han mejorado
mucho"EJ: "el mencionado proyecto de ley sea mejorado para permitir
nombres así"
Metodologia
Guies d’anotació
Anotació en paral·lel del mateix fragment de text (5-7 anotadors)
Procés iteratiu fins arribar a un grau d’acord superior al 95%
Modificació de la guia d’anotació
(Documentació a la web)
Índex
1. Descripció del corpus2. Nivells d’anotació3. Metodologia
a. Sistema d’anotaciób. Procediment d’anotació manual: guies
4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta
Dades que s’ obtenen
Pipeline d’anotació
Índex
1. Descripció del corpus2. Nivells d’anotació3. Metodologia
a. Sistema d’anotaciób. Procediment d’anotació manual: guies
4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta
Dades que s’ obtenen
The 10th most frequent lemmata are:
48.483 (10.02%) el (the)
30.178 (6.24%) de (of)
26295 (5.43%) ,
16.574 (3.43%) .
12.364 (2.56%) que (that)
11.739 (2.43%) i (and)
9.839 (2.03%) un (a, an)
9.649 (1.99%) a (to)
8.074 (1.67%) del (of the)
8.054 (1.66%) haver (to have)
The most frequent noun is ‘any’ (year) in the 28th row and the second is ‘milió’ (milion) in the 46th.
tokens % Main category
29,525 6,1 adj
23,207 4,8 conj
48,500 10,02 definite article
21,522 4,44 determiners
56,303 11,71 Punct. marks
88,716 18,34 common nouns
29,539 6,1 proper nouns
22,421 4,63 pronouns
15.421 3,19 adverbs
76.110 15,73 prepositions
14.100 2,91 v. auxiliar
44.314 9,16 vm
4.585 0,95 vs
9.250 1,9 others
Dades que s’ obtenen
Total functions: 119.318There are 32 errors. Total tags: 119.286
Syntactic Annotation – Group 1 AnCora-Ca AnCora-Es
Function tags
Gloss Tags % Tags %
Functions
Attribute 5,240 4.39 2,513 4.59
Agent complement 1,288 1.08 454 0.83
Adverbial complement
28,398 23.80 13,450 24.58
Direct object 25,128 21.06 9,856 18.01
Indirect object 2,171 1.82 1,133 2.07
Predicative 2,033 1.70 649 1.19
Prepositional complement
6,246 5,23 1,726 3.15
Subject 36,312 30,43 14,713 26.89
Total 106,816 89,51 44,494 81.31
Dades que s’ obtenen
Dades que s’ obtenenTotal amount of 119.318 tagged functions, 106.807 receive an argument (89,49%). 47 different combinations of functions and arguments 86 different combinations of function-argument and thematic role.
Syntactic Function
tokens % Arguments the function can take
ATR 5,240 4,39 Arg2
CAG 1,287 1,08 Arg0
CC 28,394 23,79 ArgM, Arg2, Arg4, Arg3, ArgL, Arg1
CD 25125 21,05 Arg1, Arg2, ArgL, Arg0
CI 2170 1,81 Arg2, Arg3, Arg0
CPRED 2033 1,71 Arg2, ArgM, Arg3, ArgL
CREG 6246 5,23 Arg2, Arg1, Arg4, ArgL, Arg3
SUJ 36312 30,43 Arg0, Arg1, Arg2, ArgA, ArgL
Total 106.807 89,49
Other 12.500 10,49 Don’t receive argument /**none**
Total 119.307 99,98
Dades que s’ obtenen
Total 'sn-ne'69.251total 'sn-ne' diferents 6 20.645(29.81%) org 17.164(24.79%) loc 16.715(24.14%) pers 8.158 (11.78%) other 3.319 (4.79%) num 3.250 (4.69%) date
Total 'np-ne'29.539total 'np-ne' diferents 5 10.137(34.32%) o 8.176 (27.68%) l 7.590 (25.69%) p 3.635 (12.31%) a 1 (0.00%) d
Índex
1. Descripció del corpus2. Nivells d’anotació3. Metodologia
a. Sistema d’anotaciób. Procediment d’anotació manual: guies
4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta
Interfície de consulta
http://clic.ub.edu/ancora