Aplikazioak III Testu hizketa bihurketa
Inma Hernáez [email protected] 2003-2004 ikasturtea
otsailaren 9
0,5 kreditu
Aplikazioak III : Testu Hizketa Bihurketa 2
Aplikazioak III Testu hizketa bihurketa ........................................................................... 1 1 Sarrera....................................................................................................................... 3
1.1 Motibazioa........................................................................................................ 3 1.2 Helburuak ......................................................................................................... 3 1.3 Metodologia...................................................................................................... 3 1.4 Ebaluazioa ........................................................................................................ 4
2 Testu-ahots bihurketa ............................................................................................... 5 2.1 Historia ............................................................................................................. 5 2.2 Erabilerak ......................................................................................................... 7 2.3 TAB sistemen osagaiak .................................................................................... 9
2.3.1 Sarrera....................................................................................................... 9 2.4 Prozesadore linguistikoa................................................................................. 10
2.4.1 Sarrera..................................................................................................... 10 2.4.2 Testuaren analisia ................................................................................... 11
2.4.2.1 Testuaren normalizazioa..................................................................... 11 2.4.2.2 Analisi linguistikoa............................................................................. 12
2.4.3 Transkripzio fonetikoa............................................................................ 13 2.4.4 Modulu prosodikoa................................................................................. 14 2.4.5 THBerako markatze-lengoaiak............................................................... 16 2.4.6 Iruzkinak................................................................................................. 16
2.5 Ahotsaren sintesia........................................................................................... 17 2.5.1 Formakin sintetizagailuak ...................................................................... 17 2.5.2 Kateatze-teknikak ................................................................................... 18
2.5.2.1 Ahots-bidezko erantzun-sistemak ...................................................... 18 2.5.2.2 PSOLA teknikak................................................................................. 19 2.5.2.3 MBROLA ........................................................................................... 20 2.5.2.4 Corpus bidezko sintesia ...................................................................... 21
3 Ariketak .................................................................................................................. 22 4 Lan praktikoa.......................................................................................................... 23 5 Glosategia ............................................................................................................... 24 6 Bibliografia............................................................................................................. 25
6.1 Oinarrizko bibliografia ................................................................................... 25 6.2 Bestelako bibliografia..................................................................................... 25
Aplikazioak III : Testu Hizketa Bihurketa 3
1 Sarrera
1.1 Motibazioa
Sistema automatikoak eta konputagailuak gure eguneroko bizitzaren tresna arruntak
bihurtzen ari dira, gizartean automatizazioa gero eta handiagoa izanik. Konputagailuak
erabilpen arrunteko tresnak dira eta teknikariak ez ezik erabiltzaile arruntak ere asko
dira. Hori dela eta, saiatzen ari dira komunikabide naturalagoak bilatzen, makina eta
gizakien arteko komunikazioa errazago izan dadin. Hots, makina erabiltzeko ezagumen
espezifikoa ez litzateke beharrezkoa izango eta ikasmen-prozesua gero eta motzagoa eta
errazagoa bihurtuko litzateke. Gizakientzat komunikatzeko bide naturalena hizketa
denez, makinaren eta erabiltzailearen arteko ahozko komunikazioa lortzea helburu
garrantzitsua da arlo teknikoan, eta aurrerapen nabariak egon dira azken urteotan.
Dagoeneko gero eta prestazio gehiago dituzte garatzen diren ahots-sistemek.
Makina-erabiltzailearen ahozko komunikazioan bi prozesu desberdin daude: alde batetik
ahots-sintesia deritzona, hau da konputagailuak ahotsa sortzea, eta bestetik ahots-
ezagutza deritzona, konputagailuak ahotsak duen mezua ulertzea. Apunte hauetan,
ahots-sintesiari ekingo diegu, hizketa-tratamenduaren oinarrizko kontzeptuak jorratuz.
1.2 Helburuak
Ikastaro honen helburuak honako hauek dira:
• Hizketaren tratamenduaren aplikazio-arloak ezagutzea.
• Testu Hizketa bihurketaren oinarrizko kontzeptuak ikastea.
• Ahots-sintesirako oinarrizko teknikak ezagutzea.
• Sistema hauen osagaiak eta aplikazioak ezagutzea.
• Sistema hauen mugak aztertzea.
1.3 Metodologia
Modulu gehienetan bezala klase presentzialak eta lan praktikoa konbinatzea
proposatzen da. Dokumentazio honetan oinarrituta zenbait ariketa proposatuko dira eta
bukaeran lan praktiko bat burutu beharko da bakarrik edo taldean (gehienez 2 pertsona
Aplikazioak III : Testu Hizketa Bihurketa 4
talde bakoitzeko). Ariketak edo lan praktikoa egitean sortzen diren zalantzak e-postaz
kontsultatu daitezke irakaslearekin.
1.4 Ebaluazioa
Modulua gainditzeko asistentzia eta proposatutako lan praktikoetako bat modu egokian
aurkeztea (e-postaz bidaltzea gomendatzen da) eskatzen da. Klaseetara etortzerik ez
duenak proposatutako ariketak ebatzita ere bidali beharko ditu modulua gainditu ahal
izateko. Klaseetara datozenak ariketak egitean aurkitu dituzten arazoak kontsulta
ditzakete e-postaz.
Aplikazioak III : Testu Hizketa Bihurketa 5
2 Testu hizketa bihurketa
2.1 Historia
Ahotsaren sintesiaren historian emandako lehen urratsen ikusketa bikaina aurki daiteke
(Lingaard, 85) (Flanagan, 72) edota (Klatt, 87) erreferentzietan.
Sintetizagailu guztiek, batzuek besteek baino hobeto, gizakion ahalmen fonadorea
irudikatzen dute, garaian eskuragarriak diren baliabideez eta teknikez baliatuz. Honela,
lehenengo sintetizagailuak tramankulu mekanikoak ziren, ondoren zirkuitu elektrikoak
eta, gaur egun, sintetizagailuak teknika digitalen bidez garatzen dira, hau da, algoritmo
eta ordenadoreen bidez.
Historiako lehen sintetizagailua duela 200 urte baino gehiago eraiki zuen von
Kempelen-ek -(Flanagan, 72)-en jakinarazia- eta gizakion aparatu fonadorea irudikatzen
zuen gailu mekanikoa zen. Hauspo batez (“birikiak”), mintz bibrakor batez (“ahots-
kordak”) eta mintzak sortutako soinua modulatzen zuen azal malguko hodi batez
(“ahoa”) osatuta zegoen. Horretaz gain, txilibitu batzuk ere bazituen soinu frikariak
sortu ahal izateko, tresna hau 5 bokale eta 19 kontsonante gauzatzeko gai zelarik.
Tramankulu hauen ikerketa eta erabilerak ia XX. mendearen bigarren herenerarte iraun
zuen, 1930.ean giza aparatu fonadorearen eredu elektrikoak garatzen hasi ziren arte.
Bestalde, giza aparatu fonadore aztertu eta bere parametroak ateratzeko gai ziren
tresneria elektrikoak ere agertu ziren. Lehenengo sintetizagailu elektrikoa Bell
laborategietakoa zen (1939), eta Dudley-ren voder-a modura ezagutzen da (Dudley et
al, 1939). Ahots-seinalearen sintesia lortzeko seinale batekin paraleloan konektatuta
zeuden erresonadoreak kitzikatzen ziren; seinale hori seinale periodikoa zenean, soinu
ahostunak ekoizten ziren, eta seinalea zaratatsua zenean, soinu ahoskabeak. Seinale
periodikoaren frekuentzia pedal baten bidez doi zitekeen eta eszitazio-seinalearen
aukeraketa eskuz egin zitekeen barra bat erabiliz. Gainera, voder-ari erantsita teklatua,
eta iragazkien irabaziak kontrolatzeko zein leherkarien ekoizpenerako kontrolatzaileak
zeuden. Sistemaren erabiltzailea, beraz, trebea eta esperientziaduna izan behar zen ahots
ulergarria erdiesteko.
1952.ean, Dudley-ren voder-ean berrikuntza aipagarria egin zen, teklatua,
espektrograma batean erakutsitako anplitudeen proportzionala zen eran argiztatzen ziren
Aplikazioak III : Testu Hizketa Bihurketa 6
zelula fotoelektrikoez ordezkatzean. Makina osagarri hau patroiak entzuteko makina 1
(Cooper et al, 52) modura ezagutarazi zen. Makina honen bidez, voder-aren sarrerako
kontrolak automatikoki doitzen ziren, ahots gora irakur dezakeen lehen makina
dugularik, nahiz eta makinak irakurtzen duena ez den karaktere ortografikoz idatzitako
testua baizik eta aurretik kalkulatutako espektrograma.
60. hamarkadan, ahotsaren sintesirako sistema mota bi hasi ziren garatzen aldi berean.
Alde batetik ahots-seinalearen eredua lortzera zuzendutako sistemak garatu ziren
bukaera analogoko sintetizagailu2 modura ezagutzen direnak, eta ahots-seinalearen
bukaerako karakteristikak dituen seinalea ekoiztea dutenak helburu, seinalea lortzeko
jarraitutako prozesuak eta ahotsa ekoizteko prozesuak zerikusirik duten ala ez kontutan
hartu gabe. Beste lan-ildo batean, giza aparatu fonadorearen fisiologia modelatzera
bideratutako sistemak landu ziren (sintesi artikulatorioa). Azken teknikak
proposatutako eredua askoz malguagoa eta zientifikoki erakargarriagoa da, ahotsaren
ekoizpenaren benetako prozesuaren modelatzea ahalbidetzen baitu, baina, beste alde
batetik, datxekion zailtasuna ere askoz handiagoa da. Sintesi koartikulatorioaren
ereduak gaur egun ere aztertzen dira eta ezarpen-eremu oso interesgarria aurkitu dute
‘aurpegi hiztunen’ sintesian, non ekoiztu beharreko soinuen eta artikulatzaileen
(masailezurra, ezpainak, mihia, lepoko muskuluak...) arteko harremana ezagutzea
ezinbestekoa den irudi errealistak sortzeko. Hala ere, hain konplexuak diren prozesu
hauek modelatzeko beharrezkoa den kalkulu-ahalmena hain da handia ezen sintesi
artikulatorioko sistemetatik abiatuz ez da sistema komertzialik agertu.
Ordenadore lan-tresna modura erabiltzeak, hardware inplementazioa egin orduko,
sintetizagailuak simulatzea ahalbidetu zuen, edota baita ere hardware inplementazioaren
ordezkapena (gaur egungo sistema komertzial ugari software dira), 70. hamarkadan
sistema ugari agertu zirelarik, gehienak bukaera analogoko sintetizagailuetan
oinarrituta. Hauen artean oinarrizko mota bi azpimarratuko ditugu: formakin
sintetizagailuak, eta iragarpen linealeko tekniketan oinarritutakoak, azken teknika
hauek oso erabiliak dira seinaleen konpresioan eta kodifikazioan.
Ahotsaren ekoizpen artifizialaren modeloen garapenarekin eta ahots-seinalearen analisi
eta sintesi-tekniken hobekuntzarekin batera, 60. hamarkadan Testu-Hizketa Bihurketa
1Pattern playback machine
2 Terminal-analogue synthesizer
Aplikazioak III : Testu Hizketa Bihurketa 7
(THB) sistemek sortutako interesa handitu egin zen: hau da, ahots artifiziala lortuz
konformatu beharrean, orain helburua idatzitako mezuaren erreprodukzioa da. Une
honetan ahots-seinaleen ezaguera ez ezik, hizkuntzarena eta hautemate-prozesuena ere
kontutan hartzen hasten dira diseinu tekniketan.
80. eta 90. hamarkadetan sistema hauek bilakaera azkarra pairatu zuten, eta kalitate
handiko ahotsaren sintesiaz hitz egin daiteke, batez ere eskuragarriak diren teknika
digitalei eta kalkulu-ahalmen izugarri handiari esker. Horrela, garapen komertzial
batzuk agertu ziren, mezuak era guztiz ulergarrian irakurtzeko gai zirenak, baina
naturaltasun aldetik gabezia handiak zituztenak. Gabezia honek, sintetizatutako
ahotsaren naturaltasun edo adierazkortasun ezak, ikaragarri oztopatu du sistema hauen
hedatzea jendartean, eta erabiltzailea sistema hauekin batez ere aplikazio telefonikoen
bidez jartzen da harremanetan, non ulergarritasuna den ezaugarri garrantzitsuena eta
naturaltasuna ez den faktore erabakigarria.
Azken urteotan, konputagailuen kalkulu-ahalmena oso bizkor handitu da eta berarekin
batera, baita hizkuntzaren ereduak sortzeko aukera eta ahotsen datu-base handiak
sortzekoa ere; guzti honi esker, naturaltasuna lortu dela esan daiteke, gutxienez hitz
egiteko era neutralean. Sistema hauen erabilerak aurrera egiten duen heinean, THB
sistemek hitz egiteko era zabalagoak jazartzera joko dute halabeharrez, sintetizagailua
emozioen bidez hitz egiteko ahalmenaz hornituz.
2.2 Erabilerak
Testu-hizketa bihurketa sistemek potentzialki erabilera ugari dituzte. Hemen baztuk
aipatuko ditugu, bakoitzaren mugak adieraziz:
• Minusbaliotasunak dituzten pertsonei laguntza-ematea. Ahozko minusbaliotasun
motorea duten pertsonentzako oso handiko laguntza izan daitezke makinak:
espresuki diseinatutako teklatuaren laguntzaz eta aurretik zehaztutako zenbait
esaldiren erabilera ahalmentzen duen komando multzo batekin, THB sistemak
pertsona horrentzako ahots sintetikoa sor dezake. Adibide ezagunena Stephen
Hawking astrofisikari ospetsuarena da, era honetaz baliatzen dena bere klaseak
emateko. Pertsona itsuei ere mesede egin diezaiekete sistema hauek: THBaren
sarrera karaktereen antzemate optikoko sistema batekin akopla daiteke. OCR3ak
3 OCR: Optical Character Recognizer
Aplikazioak III : Testu Hizketa Bihurketa 8
THBak behar duen sarrera testua emango du. Pertsona itsuek THB teknologiaren
onura har dezakete ordenagailuak erabiltzeko orduan ere: pantailan irakurtzen
dugun guztia erreproduzitzea posible da. Adibidea Microsoft-ek merkaturatutako
Microsoft Reader programa da.
• Telekomunikazio-zerbitzuak. THB sistemen erabilera interesgarrienetarikoa
urrutiko testu informazio sistemak, sistema telefonikoaren bidez eskura jartzen
dituela da. Kontuan izan behar da gaur egun mundu “garatuko” populazioaren ia
%100-ak duela telefonoa. Sistema hauen erabilgarritasuna agerian jartzen da
testua ez dagoenean aurretik zehaztuta edota eman beharreko testu desberdinen
kopuruak mezu guztien grabaketa ezinezkoa egiten duenean. Adibide
esanguratsuak dira hiri bateko jazoera kulturalei buruzko (zinemak, antzokiak,
museoak) argibide-zerbitzariak, argindar edo telefono-konpainiek emandako
fakturazio-datuei buruzko argibidea, norberaren banku-kontuaren argibidea,
etab. Azken urteotan, posta elektronikoaren zabaltzea ondoren, telefono-
operadoreek posta elektronikoa irakurtzeko sistemak eskaintzen dituzte.
• Ahozko monitorizazioa. Zenbait egoeratan ahozko informazioa jasotzeak eta ez
ikusmenaren bidezkoa, arreta, beste ikus-informazio iturri batzuetan jartzea
ahalbidetzen du. Hortik, altimetro, termometro, bira-zenbatzaile eta beste
kontrol-tresna batzuei, emandako balioak ahots goran irakurtzeko
sintetizagailuak eransteko ideia.
• Hezkuntza linguistikoa. THB oso lagungarria izan daiteke hizkuntza berri bat
ikasteko orduan, ordenadore batez lagundutako hezkuntza-sistema bati akoplatuz
gero. Halere, gaur egungo sintetizagailuek ez dute oraindik mota honetako
lanetarako beharrezkoa den kalitatea eskaintzen.
• Ikerketa oinarrizkoa eta aplikatua. Testu-ahots bihurketa sistemek aparteko
tresna osatzen dute linguistentzako: hizkuntz-eredu desberdinak probatzeko
aukera ematen diete, gainontzeko parametroak kontrolpean mantenduz.
Fonetistek bereziki formakin sintetizagailuak erabili dituzte ahots-ekoizpenaren
arau akustikoak ikertzeko. Bestalde, THB sistema osatzen duen modulu
bakoitzak badu bere erabilgarritasun propioa, eta sistema beraren garapen eta
hobekuntzarako erabiltzeaz gain, itxuraz zerikusirik ez duten beste aplikazio
batzuetan ere erabiltzen dira, hala nola testuen etiketatze automatikoan,
transkripzio fonetikoan zein beste batzuetan.
Aplikazioak III : Testu Hizketa Bihurketa 9
2.3 TAB sistemen osagaiak
2.3.1 Sarrera
2.1. irudia. Ahozko irakurketa prozesuaren diagrama sinplea
2.1. irudian agertzen den diagramak testu baten irakurketan parte hartzen duten ekintzak
(ikusi, pentsatu, hitz egin eta entzun) erakusten ditu era eskematikoan. Prozesu
hauetariko batzuk besteak baino hobeto ezagutzen dira, irakurketan parte hartzen duten
kanpoko organoekin lotutako prozesuak mekanismo neurobiologikoak baino askoz
hobeto ezagutzen direlarik. Har dezagun adibidez ekoiztutako seinale akustikoaren
atzeranzko berrelikadura. Jakina da berrelikadura honek ahozko ekoizpenean eragiten
duela, eragina handia delarik haurrek hitz egiten ikasten duteneko garaian, baina baita
ekoizpen prozesu arruntetan (saia zaitez zure burua entzun barik hitz egiten). Halere,
entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen
datuen konplexutasuna eta kopurua hain dira handiak ezen prozesu honen ikerketa
izugarri konplexua bihurtzen duten.
Oro har, ahots-seinalea, konpentsazio eta doitze prozesu etengabearen emaitza da,
prozesuan muskuluak eta artikulatzaileak neuronen kinadei erantzuteko prestatzen dira,
neuronek bere aldetik belarriek hauteman eta burmuinera bidalitako estimuluei
erantzuten dietelarik. Prozesua hain konplexua izanik, ezinbestekoa da nolabait
sinplifikatzea.
Prozesu hauen konplexutasuna dela eta, gaur egungo testu-hizketa bihurketa sistemak ez
daude funtzionamendu eskema honen menpe, baizik eta testu mezuaren lokuzioa
lortzearen bukaerako helburura zuzenduta daude.
Aplikazioak III : Testu Hizketa Bihurketa 10
Gaur egungo testu-ahots bihurketa sistema gehienak 2.2. irudian aurkezten den bi
modulutako eskeman oinarrituta daude. Teorian, bi moduluek ez dute
elkar-menpekotasunik, guztiz independenteak dira. Lehenengo moduluak testuaren
tratamendua egiten du, hizketa osatzen duen soinu-katearen irudikapen egokia lortuz.
Orokorrean hizkuntzaren menpe dago erabat, eta arkitektura eleaniztunaz diseinatutako
sistemak dauden arren, beti izan beharko da kontutan hizkuntzaren berariazkoa den
aurretik zehaztutako arau, eredu eta hiztegien multzoa.
Tratamendu linguistikoa
AhotsaTestua
Formalismo linguistikoak
Eredu matematikoak
Sintesiaren robota
Testu ahots bihurgailua
Fonemak eta prosodia
Tratamendu linguistikoa
AhotsaTestua
Formalismo linguistikoak
Eredu matematikoak
Sintesiaren robota
Testu ahots bihurgailua
Fonemak eta prosodia
2.2. irudia. Testu hizketa bihurgailuaren moduluak
Bigarren moduluak, lortutako irudikapenetik abiatuz, dagokion seinale akustikoa
sortzen du, seinalearen prozesatze teknikak eta ezagutzen diren ahots-ekoizpenaren
ereduak erabiliz. Modulu honetan ahotsari izaera emango zaio (gizon -edo emakume-
ahotsa izango da, soinuak ahoskatzeko era propioa izango du...), eta datu-basean soinu
guztien irudikapen osoak baditu, mezuak edozein hizkuntzatan erreproduzitzeko gai
izan beharko litzateke.
Hurrengo ataletan modulu bi hauen funtzionamendua aztertuko da.
2.4 Prozesadore linguistikoa
2.4.1 Sarrera
Orokorrean, norbaitek testu-ahots bihurketa sistema batez pentsatzen duenean, berehala
etortzen zaio burura ahots sintetikoa sortzeko zailtasuna, zailtasun hori seinalearen
Aplikazioak III : Testu Hizketa Bihurketa 11
prozesatzeak dakartzan algoritmoekin lotuz, eta tratamendu linguistikoaren garrantzia
gutxietsiz. Haatik, tratamenduak bukaerako produktuaren kalitateari eta
erabilgarritasunari egindako ekarpena, ahots-sintesirako moduluak lortzen duen soinuen
ulergarritasunak egindakoaren mailakoa da, eta izan ere, tratamenduaren hutsegiteak
orokorrean deigarriagoak eta desatseginagoak dira (norbaitek soinu zehatz bat
zailtasunez ahoskatuz gero-adibidez errea-, azkar ohituko gara akats honetara, baina
pertsona horrek “bi zero zero bat gidoia zero bi gidoia zero zazpi” irakurtzen badu
“2001-02-07” jartzen duenean, lortuko dugu ulertzea?).
Atal honetan modulu honetan garatutako zeregin nagusiak aztertuko ditugu, horretarako
hiru multzo handitan banatuko ditugularik:
• Testuaren analisia: esaldiaren hitz edo bestelako elementu bakoitzari dagozkion
hainbat ezaugarri linguistikoaren lorpena.
• Transkripzio fonetikoa: mezuaren adierazpenari dagokion soinu-katearen
irudikapen sinbolikoaren lorpena.
• Modulu prosodikoa: ekoiztutako soinu-kateari erritmo jakin batez eta intonazio
egokiaz hornitzea.
2.4.2 Testuaren analisia
Sintetizagailuaren lehen modulua da eta beraz erabiltzaileari interfazea ematen dio.
Jarraian deskribatzen diren prozesuak segidan eta linealki egiten ohi dira gehienetan,
baina ez beti.
2.4.2.1 Testuaren normalizazioa
Testu-ahots bihurketa sistema oro zailtasun hauei aurre egiteko gai izan beharko da:
• Digitu-sekuentziak hitzetan hedatzea, konplexutasun-gradu desberdinekin
(telefono-zenbaki, agiri-zenbaki, PIN kode eta abarren interpretazioa). Era
berean, ordu, data, denbora-tarte, kirol-emaitza eta abarren interpretazioa.
• Laburdura, sigla eta bestelako esamolde arrunten hedapena.
• Karaktere berezien eta puntuazio-zeinuen (portzentai-, moneta-, parentesi-,
gidoi-zeinuak eta ohiko puntu, puntu ta koma, bi puntu...) funtzioen
interpretazioa eta anbiguotasunaren ezabapena.
• Sarrerako testua esaldi edota esaeratan segmentatzea.
Aplikazioak III : Testu Hizketa Bihurketa 12
Aipatutako lehenengo hiru funtzioak “testuaren normalizazioa” izenpean batu ohi dira
tradizionalki. Oro har, eginkizun hauek soilik forma-aspektuak hartzen dituzte kontutan
(formak ingurune ortografiko hurbilean bilatuz), egitura sintaktikoa edo morfologia
moduko beste mailako aspektuak alde batera utziz. Honek ez du beti behar bezalako
emaitzarik ematen. Esate baterako, ingelesez, “$5” adierazpena “five dollars” modura
hedatuko litzateke normalean, baina izen baten aldagai lana egiten badu: “$5 bill”,
orduan hedapen zuzena “five dollar bill” da. Zentzu horretan, euskaran anbiguotasunen
ezabapen gehienak informazio sintaktikorik gabe egin daitezke, baina atzizkiak
gehitzeko eta hitz konposatuak eratzeko gidoien erabilera zabala dela eta, gutxienez
atzizki posibleak ezagutu behar dira.
Normalizazio-modulu honen emaitza zuzenean ahoska daitezkeen karaktereen katea da,
karaktereak esaldiak edo esaerak eratuz batuta agertuko direlarik. Gainera, esaldiak edo
esaerak sailkatuta egongo dira adierazpen-perpaus, galderazko, jarraitasun-perpaus edo
bestelako modura.
2.4.2.2 Analisi linguistikoa
Modulu honen helburua behar adinako informazio linguistikoa ematea da ondorengo
transkripzio fonetikoko eta prosodikoko moduluei. Modulu honen sofistikazio-maila
oso aldakorra da: testuaren silabifikazioa egin eta azentuen esleipena soilik informazio
horretaz baliatuz egitea bezain sinplea izan daiteke, edo etiketatze morfologiko eta
sintaktiko osoa egitea bezain konplexua, sintagmak eta talde prosodikoak eratuz eta
ondoren azentuazioa eginez eta enfasia esleituz, etab... Sistema gehienak analisia
egiteko orduan bai hitzen bai lemen hiztegietaz baliatzen dira.
THB sistemetan analisia era honetan gauzatzen da:
• Lehengo eta behin, testuaren etiketatze morfologikoa egiten da. Erabiltzen diren
etiketak ez dute zertan etiketa linguistiko klasikoekin zehatz-mehatz bat egin
behar. Etiketa hau Part Of Speech (POS) modura ezagutzen da, eta hitz
bakoitzerako emaitza bat baino gehiago ematen ditu orokorrean.
• Ondoren hitz bakoitzaren etiketatzearen anbiguotasuna ezabatzen da hitza
dagoen testuinguruaren laguntzaz. Oraindik etiketatze anbiguo batzuk gera
daitezke.
• Bukatzeko, analisi sintaktikoa gauzatzen da, zeinak anbiguotasunak ezabatzen
bukatzeaz gain, hitzak sintagma eta esaeretan batuko dituen.
Aplikazioak III : Testu Hizketa Bihurketa 13
Euskararako egindako arlo honetako lan aipagarrienak IXA taldearenak dira (Ezeiza et
al., 1998). Honela, talde honen analizatzaileen bidez lortutako emaitzak euskaran etenen
topatzearen analisirako erabili dira (Navas et al., 2002).
2.4.3 Transkripzio fonetikoa
Modulu hau “hizkietatik soinuetara” modura ezagutzen da edo baita “grafemetatik
fonemetara” modura. Bere funtzionamendua ez da izenek aditzera ematen duten bezain
zuzena: ez da “hizki bat-soinu bat” prozesu bat ezta “grafema bat-fonema bat” prozesua
ere, baizik eta prozesu korapilatsu samarra da normalean.
Ahoskatzearen irudikapen sinbolikoa egiteko lehen urratsa irudikapen bakarra
aukeratzea izan da, eta honela, azken urteotan SAMPA4 alfabetoaren erabilera hedatu
da.
Azaltzen den lehen arazoa ahoskatze-arau multzoaren definizioa da. Hizkuntza guztiek
dialekto desberdinak eta intonazio-desberdintasun handiak dituzten hizkuntzaren
barietateak dituzten arren, hizkuntza gehienetan ahoskatzeko era normalizatuaren
gainean adostasuna dago. Euskara batuan, aldiz, puntu hau oraindik ez dago gaindituta,
ahoskatze-arauak zehazteko eta finkatzeko adostasunik ez delarik lortu.
Behin hizkuntza baten hitzen ahoskatzea ezagutzen edo definitzen denean, lanari
ekiteko bi era daude:
• Hiztegian oinarritutako transkripzioa: hiztegiak hitzen ahoskatzeak gordetzen
ditu. Hiztegiaren tamaina zentzuzko mugen artean mantendu ahal izateko, soilik
morfemak gordetzen dira, eta hitzen transkripzioa eratzeko eratorpenaren,
inflexioaren eta konposaketa morfofonemikoaren arauak aplikatzen dira.
MITALK sistemak (Allen et al., 87) metodo honetan datza, sarrera-hitzen %95a
betetzen duten 12000 morfema dituen hiztegia duelarik. Bell laborategietako
sistemak ere ikuspegi honi darraio (Coker et al.,90).
• Arauetan oinarritutako transkripzioa: “hizkietatik soinuetara” pasatzea
ahalbidetzen duen arau-multzoa definitzen da eta arau berezi propioak dituzten
hitzen kasurako salbuespenen hiztegia eraikiz.
Ikuspuntu biek dituzte abantaila eta desabantailak, hizkuntzaren erabat menpekoak.
Euskararen kasuan arauetan oinarritutako transkripzioa egin da AhoTTS bihurgailua
Aplikazioak III : Testu Hizketa Bihurketa 14
garatzeko. Batua ahoskatzeko araurik ez badago ere, (Oñederra 1994) eta (Alvarez
1982, 1992) erabili dira aipatutako sisteman.
2.4.4 Modulu prosodikoa
Modulu prosodikoa, ahotsa ingurune melodiko batez eta erritmo egoki batez
hornitzearen erantzulea da. Ingurune melodikoa intonazioaren kontrolaren bidez lortzen
da (zeinaren korrelatu akustikoa oinarrizko maiztasuna edo ahotsaren pitch-a den), eta
erritmoa, soinuen iraupenen esleipenaren bidez eta hitzak elkartuz eta hauetariko
batzuen artean etenak kokatuz, hitz batzuk besteen aurrean eta silaba batzuk besteen
aurrean nabarmenduz gainera.
Gertaera prosodikoak batez ere silaba mailan edo silaba-multzo eta hitzetan jazotzen
dira, gertakari prosodikoei gertakari suprasegmentalak ere deritze (segmentu-
ezaugarriak deitzen diren eta segmentu akustiko mailan ematen diren gertakariekin
kontrajarriz).
Prosodia irudikapen maila desberdinetatik azter daiteke, 2.I taulak erakusten duen
modura (Dutoit, 97):
Maila akustikoa Pertzepzio-maila Maila linguistikoa
Oinarrizko maiztasuna (F0) Pitch Tonua, intonazioa, azentuaren
aspektua
Anplitudea, energia, intentsitatea Bolumena Azentuaren aspektua
Iraupena Luzera Azentuaren aspektua
Maila dinamikoa Indarra Azentuaren aspektua
2.I. Taula: Prosodia irudikapen mailak
I taulan agertzen diren mailei jarraituz, intonazio-ereduak, erabiltzen duten irudikapen-
mailaren arabera sailka ditzakegu: eredu akustikoak (Fujisaki et al, 84)(Taylor,
2000)(Hirst et. al 94), pertzepzio-ereduak (‘t Hart et al 91)(Collier, 91) eta eredu
linguistikoak (Crystal, 69), (Delattre, 66) (Martin, 82) (Pierrehumbert, 81). Modelatze
honen emaitza, metodo bat edo beste erabilita ere, intonazioaren irudikapen sinbolikoa
da.
4 http://www.phon.ucl.ac.uk/home/sampa. IPA alfabetoa ez dago oso zabaldua informatikaren munduan, irudikapen
sinbolikoa egiteko duen zailtasuna dela eta.
Aplikazioak III : Testu Hizketa Bihurketa 15
Prosodia, hizketaren beste alde batzuekin erlazionatuta dago, hala nola sintaxiarekin,
semantikarekin eta pragmatikarekin, eta lotura hauek dira, hain zuzen, sarrera-testu
jakin batentzako, prosodia automatikoki ekoizten duten sistemak diseinatzea
baimentzen dutenak. Sintaxiaren analisia, semantikarenarekin edota
pragmatikarenarekin alderatuta, erraz samarra denez, prosodia eta sintaxiaren arteko
harremana izan da gehien aztertu dena alde handiarekin, eta THB sistemek kontutan
hartzen duten bakarra da. Zehazki, ahalegin handienak sarrera-testua intonazio-
taldeetan era zuzenean segmentatzera bideratuta daude. Talde hauen eraketa aurretiko
urratsa dela onartzen da.
Harreman hauek aurkitzeko ikuspuntu desberdinak daude: metodo heuristikoak
(Liberman et al. 92), gramatiken erabilera (Traber, 93) edo teknika estatistikoak
(Hirschberg, 91). Euskararen kasuan, azken teknika hauek probatu dira arrakastaz
(Navas et al. 00)(Navas et al. 02).
Aipatutako talde prosodikoak garatzeko, eta ondoren, aplikatzeko, intonazio-taldeetan
batzeaz gain, talde bakoitzari azentua kokatzea eta taldeen prominentzia erlatiboa
jakitea beharrezkoa izango da.
Silaba azentudunak kokatzea euskararen kasuan ez da lan erreza, euskalkien azentuaren
konplexutasunagatik alde batetik, eta euskara batuan erregela finkoen gabeziarengatik
bestetik. Zentzu honetan, Hualde-k eta Txilladergi-k eginiko proposamenak (Hualde,
1994) (Alvarez, 1986, 1987a, 1987b) zehazteko beharra dago.
Talde prosodiko bakoitzari dagokion enfasi ezartzea, esaldiaren galdegaia
ezagutzearekin lotuta dago. Euskaran oso adibide adierazgarria da galdegaiaren
posizioaren detekzioaren arazoa. Demagun honako galderazko esaldi biak ditugula:
- Nork egin du lana?
- Lana gizonak egin du?
Esaldi bakoitzari dagokion intonazioa nabariki desberdina da galdegaiaren posizio
desberdina dela eta. Honela, intonazioaren modelatzea errealitatetik hurbilago egongo
da esaldiaren galdegaiari intonazio jakin bat egokitzea lortuz gero.
Galdegaiaren posizioa beste funtzio baterako erabilgarria da baita ere, esate baterako
etenen arteko talde fonikoen edo hitz-taldeen eraketan.
Aplikazioak III : Testu Hizketa Bihurketa 16
2.4.5 THBerako markatze-lengoaiak
Testu bat tonu neutral batean irakurtzeaz gain, THB sistemak asmo handiagoko
erabilpenetan ere aplika daitezke, hala nola erabiltzailearekin elkarrizketa bat sortzeko,
edo panpina bat ahotsez hornitzeko aplikazio multimedia batean. Baina honetarako ez
da nahikoa esaldi koherenteak egiteko gai izateak enuntziatuz, galdetuz, baieztatuz...
Beharrezkoa izango da ahotsari adierazkortasuna eta emozio-ahalmena ematea: poza,
tristura, amorrua, haserrea, gogaitasuna... ahotsean nabari daitezkeen emozioak dira eta
beraz sortzeko gai izan beharko ginateke.
Sarrera-testua bada erabiltzen dugun datu-iturri bakarra, oso zaila da emozio horiek
detektatzea, beraz testuaren etiketatze sistema bat erabiltzen da, testuaren segmentu
bakoitza sistemak ze motako ahotsez edo emozioz irakurri behar duen adierazten
delarik. Gainera, etiketa hauek, sistemak automatikoki ezin edo zailki detekta ditzakeen
ezaugarriak esplizituki adierazteko erabil daitezke. Adibidez, ortografian agertzen ez
diren etenak adieraz daitezke, edo esatari-aldaketak, irakurketa-abiaduraren aldaketak...
2.4.6 Iruzkinak
Prozesadore linguistikoa osatzen duten eginkizun bakoitzaren konplexutasun-maila,
testu-hizketa bihurketa sistemari eman nahi zaion funtzionaltasunaren menpe dago
neurri handi batean. Esate baterako, hornitzaile jakin baten bezeroen posta elektronikoa
irakurri behar duen sistemak, testuan “smily”ak moduko karaktere bereziak edo
internet-eko helbideak edo posta elektronikoko helbideak agertzeko probabilitatea hartu
beharko du kontutan, eta baita berariazko esamoldeak (“salu2”-“2ba!” moduko
laburdurak) eta idazteko era tipiko eta bereizgarria – baina ez halabeharrez mundu
guztiarena- (soilik minuskulen erabilera, sinadurak, ezaugarriak...). Are gehiago,
sistema, mezuaren hizkuntza igartzeko prestatuta egon behar da, edo behintzat THB
sistemaren diseinuan parte hartu duten hizkuntzaren batean idatzita dagoen ala ez
identifikatzeko. Garbi dago eginkizun hauek ardura handiaz hartu beharko direla
kontutan modulu normalizatzailean, ez badugu bezeroa gogogabetu nahi, berez nekosoa
den eginkizunean THBa erabiltzeko orduan (gure postaren ze mezu-portzentai da gure
interesekoa?, mezu bakoitza, ingelesez idatzita dagoela eta interesatzen ez zaigun
publizitatea dela ondorioztatzeko, bi aldiz edo gehiagotan irakurtzera behartuko gintuen
sistema, jasango al genuke?).
Aplikazioak III : Testu Hizketa Bihurketa 17
Beste alde batetik, ikusmen-arazoak dituzten pertsonei liburuak irakurtzeko laguntza
ematea helburu duen sistema pertsona berak erabiliko du denbora luzez eta, nahiz eta
pertsona itsuak bezero bereziki laguntzaileak diren orokorrean, makinak intonazio
aldakorra eta adierazkorra eman beharko luke, entzulea ez aspertzeko asmotan, eta bere
arreta ez galtzeko asmotan.
Edozein kasutan ere, prozesadore linguistikoaren garapenak, dagokion hizkuntzaren
analisi- eta hizkuntzaren modelatze-tresneriak eskuragarri izatea eskatzen du. Zehatz-
mehatz, beharrezkoa da honako hauek eskura izatea:
- Analisi morfosintaktiko automatikoaren mekanismoak, zenbat eta garatuagoak
eta azkarragoak izan, hobe.
- Azentuaziorako eta hitzen ahoskerarako arau definituak.
- Landutako eredu prosodikoak.
Eredu eta tresna hauek garatzeko ahalmena, neurri handian, eskuragarriak diren
hizkuntzaren baliabide linguistiko idatzi zein ahozkoen menpe dago.
2.5 Ahotsaren sintesia
2.5.1 Formakin sintetizagailuak
Sintesi-teknika hau bai ahotsaren kalitatearen aldetik bai naturaltasun-aldetik arras
gaindituta dagoen arren, oraindik guztiz bizirik dagoen teknika-mota da eta oso erabilia.
Merkatuan, hardware sistema independente gisa dauden sintesi-sistema gehienak
formakin sintetizagailuak dira (ingeleserako MITALK (Allen et al., 87) eta JSRU
(Holmes et al., 1964), gaztelaniarako (Santos et al 1982), INFOVOX sistema
eleaniztuna (Carlson et al., 82), eta frantseserako I.N.R.S. sistema (O’Shaughnessy, 84)
edo (Bailly, et al., 88)).
Formakinen bidezko sintesi-sistema batek ahots-seinalearen sintesi osoa egiten du,
soilik ahots-ekoizpenaren sistemaren eredu bat eta ekoizpen-arau multzo bat erabiliz
(ikus (Holmes, 83) edo (Klatt, 1980) sintesi-sistemaren deskribapen osorako),
horregatik arau bidezko sintesi-sistemak modura ezagutzen dira baita ere. Kontrola
daitezkeen 60 bat parametro dago, parametroek, formakinekin eta dagozkien banda-
zabalerekin, eta iturriaren ezaugarriekin (pultsu glotala) bat egiten dute. Sintesia egiteko
orduan, arau-multzo batek, denbora-tarte laburretarako (5-10 ms), testuinguru
Aplikazioak III : Testu Hizketa Bihurketa 18
artikulatorio batean kokatutako fonema bakoitzarentzat sintetizagailuko kontroleko
parametroen balioak lortzea ahalbidetzen du.
Hain zuzen ere, formakin sintetizagailu baten diseinuaren zatirik nekosoena, sintetizatu
beharreko soinuaren ezaugarrien arabera, dagokien parametroen aldaketa egokiak
eragiten dituzten arauen lorpena da. Arauak ondorioztatu aurretik, parametroen balioen
portaera benetako ahotsaren kantitate handiaren gainean analizatzen da, benetako
ahotsak Kontsonante-Bokal-Kontsonante trantsizio ugari dituelarik. Behin sisteman
sartuta, arauak, ulergarritasuna hobetzeko eran doitzen dira, saiakuntza ta hutsegiteko
prozedura nekosoa erabiliz.
Sistemaren abantailetariko bat, iturriaren menpe dauden ahotsaren ezaugarriak
aldatzeko orduan eskeintzen duen malgutasuna da: esatari-mota, ‘ahotsaren kalitatea’
(ahots hasperendua, zakarra...), parametro gutxi batzuk aldatuz. Malgutasun honek, eta
sintetizagailuak ahots-ekoizpen eredu bati zuzenean erantzuteak, sistema hauek
hizkuntzalarien gustukoen bihurtzen dituzte ahots naturalaren ezaugarriak aztertzean eta
ezaugarriek aparatu fonadorea parametro desberdinekin dituzten harremanak ikertzean.
2.5.2 Kateatze-teknikak
Kateatze-teknika izen generikoaren barruan, seinale sintetikoa, aurretik grabatutako
seinale-segmentuak kateatuz (eta normalean seinalearen tratamendu-mota bat edo beste
aplikatuz) sortzen duen teknika oro sartzen da.
2.5.2.1 Ahots-bidezko erantzun-sistemak
Mezu berriak sortzeko mezuen segmentuak kateatzea, teknika oso erabilia da nahi diren
lokuzioak gutxi direnean, edo beraien arteko desberdintasuna soilik zati batean
dagoenean (adibidez aireportu bateko hegaldiei buruzko argibidea, edo telefono-
zenbakiak ematen duen audiotext sistema). Ez da, egiatan, ahots-sintesi teknika bat,
beste barik mezu bateko zatiak “ebaki” eta beste batean “itsastean” datza eta. Esate
baterako, demagun informazio telefonikoko sistema bat. Sistema, 10 digituen 9 zifrako
edozein konbinazio esateko prestatuta egon behar da. Kalitatezko sistema izateko, ez da
nahikoa digituak grabatu eta bata bestearen ondoren erreproduzitzea: kateko posizio
jakin batekin lotutako intonazioa beste posizio batekoaren desberdina da, digitu berak
guztiz intonazio desberdina duelarik ertaineko posizioan eta bukaerakoan. Idealena,
Aplikazioak III : Testu Hizketa Bihurketa 19
digitu bakoitza posizio posible guztietan grabatzea izango litzateke, erreprodukzioan
egokia den posiziokoa erabili ahal izateko.
2.5.2.2 PSOLA teknikak
“PSOLA” (“Pitch-Synchronous-Overlap-and-add”) (Moulines et al., 90) modura
ezagutzen diren teknikek, seinale baten aldaketa prosodikoak egitea ahalbidetzen dute
(hau da, oinarrizko maiztasuna eta iraupena), gainontzeko ezaugarrien gainean aldaketa
esanguratsurik eragin gabe. Horretarako, seinalea, pultsu glotalarekin era sinkronoan
ateratako segmentu oso txikietan deskonposatzen da; ondoren, segmentuak berriro
lotzen dira beste periodikotasun batez bere oinarrizko maiztasuna aldatu nahi izanez
gero. Aldatu nahi duguna iraupena bada, oinarrizko segmentu horiek errepikatu
(luzatzeko) edo ezabatu (laburtzeko) egingo ditugu. (3.3 irudia).
3.3. Irudia: PSOLA Teknika. pitch eta iraupenaren aldaketak.
Ezaugarri hauetako tresna baten lehenbiziko erabilera bat mezuen kateatzearen bidezko
audiotext sistema batek lortutako kalitatearen hobekuntza da: digitua dagoen
posizioaren araberako intonazioa eta iraupena ezar diezazkiokegu seinaleari.
Aplikazioak III : Testu Hizketa Bihurketa 20
Digituak kateatzen ditugun era berean, segmentu laburragoak kateatzea bururatu ahal
zaigu, edozein hitz sortzeko malgutasun handiagoa izateko asmotan. Soinu-katea
sortzeko kateatutako segmentuen tamaina hitzarena baino laburragoa bada, unitateen
kateatzearen bidezko sintesiaz hitz egiten da eta kateatzen diren segmentuei sintesi-
unitateak deritze. Unitate hauek silabak izan daitezke, baina ez dago horretarako arrazoi
berezirik (unitate ezagunak direla salbu). Berez, hobe da sintesirako bereziki
diseinatutako unitateak erabiltzea: ertzetako aldeetan egonkortasuna eskaini behar dute,
koartikulazio-efektuak barneratuta izan behar dituzte, eta ahalik eta inbentario
murriztuena osatu behar dute. Unitate oso hedatuak dira difonemak, ondoz ondoko bi
fonemen ondoz ondoko bi erdiez eratuak, unitatearen mugak (bi unitateen juntura
egingo deneko puntuak) egonkortasun handieneko zonaldeetan kokatzen direlarik
(soinuaren erdiko aldea), eta trantsizioak dituzten zonaldeak unitatearen barruan
gelditzen direlarik (beti da askoz errazagoa zonalde egonkor batean itsastea trantsizioko
zonalde batean baino). Orokorrean, sintesi-sistema hauetan ez dira soilik difonemak
erabiltzen, baizik eta baita trifonemak (bi erdifonemez inguratutako fonema),
koartikulazio handia sortzen denean, edota tamaina handiagoko unitateak ere. Era
berean, batzuetan fonema baino unitate txikiagoak ere erabiltzen dira koartikulazioa oso
txikia denan, adibidez frikarien alde egonkorren kasuan.
Esate baterako, euskararako AhoTTS sintesi-sistemak 900 bat azpifonema, difonema,
trifonema eta tetrafonemen inbentarioa erabiltzen du, eta 17 Mbyte inguru betetzen ditu
(8kHz-etan lagindutako seinaleak).
2.5.2.3 MBROLA
PSOLA sistemek lortutako kalitatea handia den arren, muga garrantzitsuak ditu:
- Sintesi-unitate bakoitza kontu handiz markatu behar da seinalearen periodo
bakoitzean. Hau lan nekosoa da, eta ohikoa da hutsegite ugari egitea gainera.
- Oso zaila da pitch markak unitate guztietan sinkronoak mantentzea, pultsu
glotala ematen duten laringografoak erabili arren. Sinkronia gabeziak kateatze-
zarata sortzen du ondoren, sintesian.
- Distortsio esanguratsua eragin gabe egin daitezkeen aldaketa prosodikoak
mugatuak dira.
Aplikazioak III : Testu Hizketa Bihurketa 21
Muga hauek gainditzeko, MBR-PSOLA modura jadanik ezagunak diren teknikek
(Dutoit et al., 93) sintesi-unitateak kodifikatu egiten dituzte, ondoren guztiak
bersintetizatzeko pitch konstantean, eta, aurretik aipatu den pitch marken sinkronismo
arazoa ezabatzen duen prozesatzea erabiliz. PSOLA sistemetan ohikoak diren zarata eta
karraskak deuseztatu egiten dira, seinale sintetiko askoz homogeneoagoa lortuz.
Sistema hau oso hedatua dago internet-eko proiektuari esker: MBROLA proiektua,
http://tcts.fpms.ac.be/synthesis/mbrola.html, MBROLA sintesi sistema doanik
eskeintzen duena, ikerkuntzan erabiltzeko.
2.5.2.4 Corpus bidezko sintesia
Aurretik aztertutako sintesi-sistema guztietan, ardura nagusienetarikoa unitateen
inbentarioaren tamaina da. Unitateen gainean egindako manipulazio guztiek distortsioa
sortzen dute, eta beraz ez dira desiragarriak, baina beharrezkoak dira, unitate baten
gauzatze posible guztiak biltzeko tokirik ez dugulako, hain zuzen ere. Zer gertatuko
litzateke toki-arazorik ez bagenu?
Hauxe da, hain justu, corpus bidezko sintesiko sistemen abiapuntua. Funtsean, nahi dena
zera da: unitate beraren gauzatze ugari, eta ez bakarra, duen unitate-inbentarioa
erabiltzea. Izan ere, ez dira unitateak bere testuingurutik kanpo bilduko, baizik eta
unitatearen erauzketa (corpus erabilgarri osoaren artetik aukeratuz), sintesiaren unean
egingo da (Campbell et al. 95, Hunt et al. 96). Datu-basea, corpus oso bat izango da,
arreta handiz diseinatuta, unitate guztiek aldakortasun fonetiko eta prosodiko handiak
(aldakortasuna, benetako ahotsaren seinale batean isladatuz) eskain ditzaten, eta sintesi-
algoritmoek unitate bat edo beste aukeratzeko irizpideak ezarriko dituzte, desiratutako
testuingurua (fonetikoa eta prosodikoa) eta eskuragarriak diren testuinguruak (hauek ere
fonetikoak eta prosodikoak) kontutan hartuz. Era honetan, datu-basea zenbat eta
handiagoa izan eta hobeto diseinatuta egon, sintesian kalitate hobea lortuko dugu.
Aplikazioak III : Testu Hizketa Bihurketa 22
3 Ariketak 1) Zenbat THB aplikazio komertzial ezagutzen dituzu? Deskriba itzazu behintzat
bi.
Aplikazioak III : Testu Hizketa Bihurketa 23
4 Lan praktikoa 1. Aurki itzazu hiru testu-ahots bihurketarako sistema edozein hizkuntzarako. Ebalua
itzazu (1 oso txarra – 5 oso ona) sistema hauetan ondoko taula betetzen sistema bakoitzeko, esaldi hauek (dagokion hizkuntzara itzuliz) erabiliz:
1. Kaixo mundua. (Hello world)
2. Ez duzu behar bezain sakonki ulertu zerbait, amamari esplikatzeko gauza ez zaren bitartean. (You do not really understand something unless you can explain it to your grandmother)
3. Garaikideok edukirik gabeko fantasiatzat dituzten eta gerora guztiz natural gertatzen diren ideien multzoari dagokio herri desberdinen artean hizkuntza komun bat sartzearena (Those ideas that seem an empty fantasy to contemporaries and obvious to posterity also include the introduction of a common language between different peoples)
X SISTEMA 1.esaldia 2. esaldia 3. esaldia
Adigarritasuna
Naturaltasuna
Ahal baduzu, gorde itzazu seinale sintetikoak eta ariketarekin batera bidali.
Komenta itzazu emaitzak.
Aplikazioak III : Testu Hizketa Bihurketa 24
5 Glosategia ahots-sintesia konputagailuak ahotsa sortzeko prozesua.
ahots-ezagutza konputagailuak ahotsak duen mezua ulertzeko prozesua.
bukaera analogoko sintetizagailua ahots-seinalearen bukaerako karakteristikak dituen seinalea ekoiztea helburu duen sintesi sistema.
espektrograma soinuen ezaugarrien adierazpen grafikoa. Ardatz horizontalak denbora adierazten du, eta ardatz bertikalak maiztasuna (Hz). Gris mailak (batzutan koloreak erabiltzen dira) maiztasun baterako soinuak duen energia erakusten du.
formakinak bokal-traktuaren erresonantziako maiztasunak
frikariak bi organo artikulatzaile hainbeste hurbiltzen direnean euren arteko airearen mugimenduak igurtzi entzungarria sortzen du. Soinu honi frikaria deitzen zaio.
pitch-aldaera esaldi osoaren doinua, galdera, baiezpen edo beste ideiak adierazteko.
prosodia ahotsaren pitch, bolumena, iraupena eta erritmoaren aldaketak.
sintesi artikulatorioa giza aparatu fonadorearen fisiologia modelatzera bideratutako sintesi sistema
soinua airearen aldaera-seriea da.
soinu ahostunak ahots korden dardararekin igortzen diren soinuak.
soinu ahoskabeak ahots korden dardararik gabe igortzen diren soinuak.
soinuaren espektroak uhin konplexuaren osagaiak adierazten ditu eta aldi berean soinu-iturriaren bibrazio-maiztasun naturalak
suprasegmental soinu bat baino gehiagotan zabaltzen den ezaugarria.
TAB Testu Ahots Bihurketa THB Testu Hizketa Bihurketa
zarata ahots-seinalearekin egoten diren gainerako soinuak.
Aplikazioak III : Testu Hizketa Bihurketa 25
6 Bibliografia Gogoratu gai hauetaz bibliografia asko Internet-en bertan dagoela. Bilatzaile arruntak
erabiliz aurkitu dezakezu (adib. www.google.com), baina badago bat horretarako propio
eraikita: Citeseer izeneko bilatzailea http://citeseer.nj.nec.com. Bertan idazlea,
izenburua edo gako-hitzen bitartez aurkituko duzu hainbat eta hainbat artikulu.
Liburuak aldiz, ezin ohi dira hemengo liburu-dendetan aurkitu, dena den irakasleari
eskatuz edo teledenda batean erosiz lor ditzakezu (www.megadenda.com,
www.amazon.com, ...).
6.1 Oinarrizko bibliografia Dutoit, T. An Introduction to Text to Speech Synthesis. Kluwer Academic Publishers. 1997
Faúndez Zanuy M. Tratamiento digital de voz e imagen y aplicación a la multimendia. Marcombo. 2000
Quilis A. Fonética Acústica de la lengua castellana. Biblioteca románica hispánica. Editorial Gredos. 1981.
Internet-en:
Thierry Dutoit, A Short Introduction to Text-to-Speech Synthesis "http://tcts.fpms.ac.be/synthesis/introtts.html", TTS Research Team, TCTS Lab.
“http://directory.google.com/Top/Computers/Speech_Technology/”, Hizketa teknologien katalogo orokorra. Produktuak, tresnak, erreferentziak.
http://cslu.cse.ogi.edu/HLTsurvey/, Survey of the State of the Art in Human Language Technology (1996)
6.2 Bestelako bibliografia Allen, J., Hunnicut, S., Klatt, D. (1987). From Text To Speech, The MITALK System. Cambridge
University Press, Cambridge.
Alvarez, J.L. (Txillardegi)(1986), Proposamen bat azentuari buruz, Euskera XXXI, 341-348.
Alvarez, J.L, (Txillardegi) (1987) Azentuari buruzko proposamen bat, ELE-2, AEK, Bilbo.
Alvarez, J.L. (Txillardegi) (1987) Euskara batua. Iruñeko proposamena azentuari buruz. Linguistika saila, UEU, Iruñea.
Bailly, G., Murllo, G., Al Dakkak, O., Guerin, B. (1988) A Text-to-Speech System for French Using Formant Synthesis. Proc. of SPEECH’88, 7th FASE Symposium, Edinburgh, pp. 255-260
Campbell, N., Black, A. (1995): Prosody and the selectrion of Source Units for Concatenative Synthesis in Progress in Speech Suynthesis, J. van Santen, R. Sproat, J. Olive and J. Hirshberg, des., Springer Verlag.
Carlson, R., Granström, B., Hunnicut, S. (1982) A Multi-Language Texto-toSpeech Module”. Proc. Fo the Int. Conf. On Acoustics, Speech, and Signal Processing, 82, Paris, vol. 3, pp. 1604-1607
Aplikazioak III : Testu Hizketa Bihurketa 26
Coker, C., Church, K., Liberman, M. (1990) Morphology and rhyming: Two powerful alternatives to letter-to-sound rules for speech synthesis. En Gérard Billy and Chirstian Benoit, editors, Proc. Of the ESCA Workshop on Speech síntesis, pp. 83-86, Autrans, France. ESCA.
Cooper, F.S., Delattre, P.C.,Liberman, A.M., Borst, J.M., Gerstman, L.J. (1952). Some Experiments on the Perception of syntheitc Speech Sounds”, Journal of the Acoustical Society of America, 24, pp.597-606
Collier, R. (1991) Multi-Language Intonation Síntesis. Journal of Phonetics, vol10, pp. 61-73.
Crystal, D. (1969) Prosodic Systems and Intonation in English. Cambridge University Press, Cambridge
Delattre, P. (1966) Les dix intonations de base du Français. French Review, nº15, pp. 1-14.
Dudley, H., Riesz, R. R., Watkins, S. A. (1939). A Synthetic Speaker, Journal of the Franklin Institute, 227, 1939, pp. 739-764.
Dutoit, T., Leich, H. (1993) : MBR-PSOLA: Text-to-Speech Syuntheiss Based on an BME Rsynthesis of the Segments Database. Speech Communications, nº13, pp. 435-440
Ezeiza N.; Aduriz I.; Alegria I.; Arriola J.M.; Urizar R., (1998). Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages. COLING-ACL'98, Montreal.
Flanagan, J.L.(1972). Speech Analysis, Synthesis, and Perception. Springer Verlag, Berlin. pp.204-210.
Fujisaki, H, Hirose, K. (1984) Analysis of voice fundamental frequency contours for declarative sentences of Japanese. Journal of Acoustic Society of Japan. vol. 5 4 pp. 233-242, 1984.
‘t Hart, J., Collier, R., Cohen, A. (1991) A perceptual Study of Intonation: an Experimental Phonetic Approach to Speech Melody. Cambridge University Press. Cambridge
Hirschberg, J. (1991). Using Text Analysis to Predict Intonational Boundaries . Proc. Of Eurospeech 91, Genoa, pp. 1275-1278.
Hirst, D.J., Ide N., Veronis, J. (1994) Coding Fundamental Frequency Patterns for Multilingual Síntesis with INTSINT in the MULTEXT Project. Proc. Of the 2nd ESCA/IEEE Workshop on Speech Síntesis, New-Paltz, NY, pp. 77-80.
Holmes, J., Mattingly, I., Shearme, J. (1964) Speech Synthesis by Rule. Language an Speech, vol. 7, pp. 127-143
Holmes, J. (1983), Formant Synthesizer- Cascade or Parallel? Speech Communication, vol 2, pp.251-273
Hualde, J.I: (1994), Euskal azentuak eta euskara batua, Euskera XXXIX, 1549-1568
Hunt, A.J., Black, A. (1996) Unit Selectrion in a Concatantive Speech syuntesis System Using a large Speech Database” Proc. Of the ICASSP 96, Atlanta.
Klatt, D. (1987). Review of Text-to-Speech Conversion for English, Journal Acoustical Society of America`, 1987, pp. 737-793.
Klatt, D., (1980) Software for a Cascade/Parallel Formant Synthesizer. Journal of the Acoustical Society of America, vol.67, pp.971-995
Liberman, M.J., Church, K.W. (1992) Text Analysis and Word Pronunciation in Text-To-Speech synthesis. En “Advances in Speech Signal Processing. S. Furui, M.M. Sondhi, des, Dedder, New Yourk, pp. 791-831.
Lingaard, R. (1985). Electronic Synthesis of Speech, Cambridge University Press, 1985, pp.1-17.
Martín, P. (1982) Phonetic Realization of Prosodic Contours in French. Speech Communications, nº1, pp.284-294.
Moulines, E., Charpentier, F. (1990): Pitch Synchronous waveform processing techniques for text to speech synthesis using diphones. Speech Communication, Vol. 9, nº4, 453-467g
Navas, E., Hernáez, I., Armenta, A., Etxebarria, B., Salaberria, J. (2000) Modelling Basque Intonation using Fujisaki and CARTs. State of the art on Speech Synthesis digest. 3/1-3/6, London 2000.
Navas, E., Hernaez, I., Ezeiza, N. (2002) Assigning Phrase Breaks Using CARTs for Basque TTS (presented to) Speech Prosody 2002, Aix-en-Provence, France.
Aplikazioak III : Testu Hizketa Bihurketa 27
O’Shaughnessy, D. (1984). Design of a Real-Time French Text-to-Speech System. Speech Communication, vol.3, pp.233-243
Oñederra, M.L.(1994), Ahoskera araupetzeaz: III.Abiaburu zehatz batzuk, Euskera XXXIX, 1533-1542
Pierrehumbert, J. (1981) Synthesizing Intonation. Journal of the Acoustical society of America. 70(4),pp. 985-995.
Santos, J.M., Nombela, J.R: (1982) Text-to-Speech Conversion in Spanish: a Complete Rule-Based System. Proc. Of the Int. Conf. On Acoustecs, Speech sand Signal Processing, 82, Paris, pp.1593-1596
Taylor, P. (2000) Analysis and Synthesis of intonation using the Tilt model. Journal of the Acoustical Society of America. vol. 107 3, pp. 1697-1714, 2000.
Traber, C. (1993) Syntactic Processing and Prosody Control in the SVOX TTS System for German. Proc. Of the Eurospeech 93, Berlin, vol.3, pp. 2099-2102.
Top Related