Experiencia Educativa en el Aula Satélite IEB Aldea “Ojo de Agua”
Zientziaanitz Ieb
-
Upload
hzelhuyar -
Category
Technology
-
view
511 -
download
1
Transcript of Zientziaanitz Ieb
![Page 1: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/1.jpg)
ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko
web-bilatzailea
Xabier Saralegi eta Maddalen Lopez de LacalleElhuyar I+G taldea
![Page 2: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/2.jpg)
ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko
web-bilatzailea
• Motibazioa• CLIRen beharra• CLIRen erronkak• ZientziaAnitz-en arkitektura• ZientziaAnitz-en teknologia• Ebaluazioa• Ondorioak eta etorkizuneko lanak
![Page 3: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/3.jpg)
ZientziaAnitz: Motibazioa
• Interneten Zientzia eta teknologiako albiste asko baina sakabanatuta
• Ingelesa nagusi baina ez esparru guztietan (Adib. dibulgazioa)
• Erabiltzaile euskaldunak ama hizkuntzan bilatu nahi du
• Honen gainean dagoen teknologia nagusia: CLIR (Cross-lingual information retrieval)
![Page 4: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/4.jpg)
ZientziaAnitz: CLIRen beharra
• Ezagutza partekatzea hizkuntzaren muga gaindituz
• Lingua franca ↔ ama hizkuntza• Bilaketa bakarrean hainbat hizkuntzatako
emaitzak• Bilaketaren emaitza eleaniztunak
antolatzea
![Page 5: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/5.jpg)
ZientziaAnitz: CLIRen erronkak
• Dokumentu esanguratsuak berreskuratzea (IR)–Eredu aljebraikoak (tf-idf), probabilistikoak
(Okapi,Hizkuntza-Ereduak,Indri...)
• Itzulpena: galderak vs edukiak–Galderak laburrak itzulpen-desanbiguazioa →
zaila–Edukiak luzeak itzulpena motela→
–Galdera eta edukiak itzuliz emaitzarik onenak
![Page 6: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/6.jpg)
ZientziaAnitz: CLIRen erronkak
• Itzulpena: MT (Machine Translation) vs MRD (Machine Readable Dictionaries)–MT hizkuntza bikote gutxirako–MT garestiak–Bilaketa/kontsulta asko sintaxirik gabekoak →
MRDa egokiagoa–MRDn itzulpen anbiguoak
![Page 7: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/7.jpg)
ZientziaAnitz: CLIRen erronkak• Itzulpen arazoak:
– Anbiguotasuna (MRD): corpus paraleloak, helburu-hizkuntzako corpusak, syn operadorea• Corpus paraleloak: Itzulpen probabilitateak. Adib.
p(cosecha|uzta)p(cosecha|uzta)>>p(resultado|uzta)p(resultado|uzta)• Helburu-hizkuntzako corpusak: Hautagai-
konbinazioen probabilitateak. Adib. Ozeano bare p(océano,pacífico)>p(océano,tranquilo)
• Syn operadorea: Estatistikak bateratu. Adib. Bioerregai abantaila #syn(biocombustible biocarburante ) #wsyn(ventaja beneficio)
– Out-Of-Vocabulary terminoak: kognatuen detekzioa• Adib. Antza kalkulatuz, LCSR(animali,
animal)>0,85
![Page 8: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/8.jpg)
ZientziaAnitz-en arkitektura eta teknologia
• Web aplikazioa• Moduluak:
–Bilduma osatu:• Arakatzailea: RSS+Kimatu• Indexatzailea: Indri toolkit
–Galderak prozesatu:• Lematizatzailea: Eustagger• Galdera itzultzeko modulua• Berreskuratze-motorra: Indri
![Page 9: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/9.jpg)
ZientziaAnitz-en arkitektura
![Page 10: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/10.jpg)
ZientziaAnitz-en arkitektura
![Page 11: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/11.jpg)
ZientziaAnitz: Arakatzailea
• RSS irakurgailua: RSS bitartez aurretik aukeratutako web-gunetako albiste berriak deskargatu
• Kimatu: Albisteak HTMLn: edukia markatu gabe->Boilerplate removal teknikak erabili behar dira (2. postua CLEANEVAL lehiaketan)
![Page 12: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/12.jpg)
ZientziaAnitz: Arakatzailea
• Adibidea
![Page 13: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/13.jpg)
ZientziaAnitz: Arakatzailea
• Albistearen testu zatiak
![Page 14: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/14.jpg)
ZientziaAnitz: Arakatzailea
• Zarata
![Page 15: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/15.jpg)
ZientziaAnitz-en arkitektura
![Page 16: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/16.jpg)
ZientziaAnitz: Indexatzailea
• Indexatu: Dokumentuetako hitzen ezaugarriak datu-egitura konputagarrien bidez errepresentatu (hitzaren maiztasunak, posizioa, dokumentuaren luzera... )
• Ranking-algoritmoek informazio hau erabiliko dute dokumentu bakoitzarentzat esangura-maila kalkulatzeko
![Page 17: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/17.jpg)
ZientziaAnitz-en arkitektura
![Page 18: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/18.jpg)
ZientziaAnitz: Lematizatzailea
• Eustagger: Ixak garatutako lematizatzailea
• Gako-hitzak erauzi: Izenak, adjektiboak, aditzak eta adberbioak
Adib: ”Baleak ehizatzea debekatuta dagoen Antarktikako erreserbak”/<Baleak>/<HAS_MAI>/ ("balea" IZE ARR DEK ABS NUMP MUGM )/<ehizatzea>/ ("ehizatu" ADI SIN AMM ADIZE DEK ABS NUMS MUGM )/<debekatuta>/ ("debekatu" ADI SIN AMM PART ERL MEN MOD)/<dagoen>/ ("egon" ADT A1 NR_HU ERL MEN ZHG)/<Antarktikako>/<HAS_MAI>/ ("Antarktika" IZE LIB PLU- DEK NUMS MUGM DEK GEL )/<erreserbak>/ ("erreserba" IZE ARR DEK ABS NUMP MUGM )
![Page 19: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/19.jpg)
ZientziaAnitz-en arkitektura
![Page 20: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/20.jpg)
ZientziaAnitz: Galdera itzuli
• MRD: Elhuyar hiztegiak (eu-es,eu-en)• Hitz ezezagunak (OOV): kognatuen
detekzioa• Itzulpen anbiguoak:
–Galdera egituratuak• Kontsultako hitz baten itzulpen-hautagai guztiak
multzokatu eta token bakarra bezala tratatzen dira. Pirkolaren metodoa (Pirkola, 1998)
–Konkurrentziak• Ideia nagusia: itzulpen egokien arteko elkartze-
maila beste itzulpenen artekoa baino handiagoa da. NP hard → Greedy algoritmoa (Monz eta Dorr, 2005)
![Page 21: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/21.jpg)
ZientziaAnitz: Galdera itzuli
• Adibidea– Jatorrizko galdera (lemak): balea ehiza
debekatu erreserba Antarktika –Galdera egituratua:
• whale #syn(game hunting prey) #syn(forbid forbidden #1(stave off) prevent prohibit ) #syn(reservation reserve) antarctic
–konkurrentziak• whale hunting prohibit reserve antarctic
– game:0.732299 -- hunting:1 -- prey:0.690568
![Page 22: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/22.jpg)
ZientziaAnitz-en arkitektura
![Page 23: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/23.jpg)
ZientziaAnitz: Berreskurapena
• Bilaketa-motorra: Erabiltzailearen kontsultak prozesatzen dituena. Metodo baten araberako rankingean bueltatzen ditu galderarekin bat datozen dokumentuak. – Indri eredua
• Hizkuntza-ereduak eta inferentzia sareak konbinatzen ditu.
• Galdera egituratuak onartzen ditu
![Page 24: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/24.jpg)
ZientziaAnitz: Demoa
![Page 25: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/25.jpg)
Ebaluaketa
• Metodoak: syn (Pirkola), konkurrentziak (Monz and Dorr)
• CLEF bilduma eta galderak• MAP
–Kontsulta motzak• elebakarra: 0,3176 - hizkuntz artekoa: 0,2404
%76
–Kontsulta luzeak• elebakarra: 0,3778 - hizkuntz artekoa: 0,2960
%78
![Page 26: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/26.jpg)
Ebaluaketa: Emaitzak
• (Saralegi and Lopez de Lacalle, 2009)Exekuzioa Motzak (MAP) Luzeak (MAP)
Elebakarra 0,3176 0,3778
Hiztegiko lehena 0,2118 0,2500
Galdera egituratua 0,2359 0,2960
konkurrentziak 0,2338 0,2725
Hibridoa 0,2371 0,2941
Hibridoa+Atalasea 0,2404 0,2920
![Page 27: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/27.jpg)
Ondorioak eta etorkizuneko lanak
• Zientzia eta Teknologia alorrerako bilatzaile bat euskera integratzen duena
• Galdera egituratuak emaitzarik onena• Web zerbitzua laster kaleratzea• Beste hizkuntza batzuk integratzea• Itzulpen-prozesua hobetzea• Galderaren hedapena
![Page 28: Zientziaanitz Ieb](https://reader034.fdocuments.co/reader034/viewer/2022051301/5a65d6ae7f8b9a3d248b47b7/html5/thumbnails/28.jpg)
Erreferentziak
• Christof Monz, Bonnie J. Dorr. Iterative Translation Disambiguation for Cross-Language Information Retrieval. (SIGIR 2005)
• Ari Pirkola. The Effects of Structured and Dictionary Setups in Dictionary-Based Cross-language Information Retrieval. (SIGIR 1998)
• Xabier Saralegi, Maddalen Lopez de Lacalle. Comparing different approaches to treat Translation Ambiguity in CLIR: Structured Queries vs. Target Co-occurrence-Based Selection. (TIR 2009)