Naučiti računalnik jezika – Ditko.si – Digitalni jezikovni globus

Naučiti računalnik jezika

»V prihodnost ne vstopamo, lahko jo le ustvarjamo.«
John Scaar

Kako je mogoče, da računalnik govori, razume, odgovarja, prevaja? V ozadju je nekaj sklopov tehnologij, ki so tesno povezane z jezikom in jezikovnimi priročniki. V mnogih primerih s povsem istimi jezikovnimi priročniki, kot jih uporabljamo ljudje.
Da računalnik govori, omogoča sinteza govora. To je računalniški program, ki na podlagi velike baze govornih posnetkov analizira glasove v različnih kontekstih in jih nato zlepi vedno znova v nov, edinstven govorni tok. Pri tem si pomaga z raznimi jezikoslovnimi analizami, kot so fonetični zapis besed, oblikoslovne informacije, semantična prepoznava besed, skladenjska razčlemba povedi. Tako bazo posnetkov govora kot vse jezikoslovne informacije je treba zagotoviti za vsak jezik posebej, če želimo ustrezno kvaliteto računalniškega govora.

Da računalnik razume, sta potrebna dva koraka: najprej naš govor zapiše v besedilo, nato besedilo analizira.

1 Zapis govora v besedilo

Prvi korak izvede razpoznavanje govora. Da omogočimo to tehnologijo za posamezen jezik, potrebujemo podatke, kako se posamezna beseda izgovori v kontekstu, oblikoslovne informacije o besedah, dodatno pa tudi statistične podatke, kako si besede običajno sledijo v besedilih. Ob tem pa seveda še velike količine posnetkov govora najrazličnejših govorcev, ustrezno segmentirane in opremljene s podatki o izgovorjavi.

2 Analiza besedila

Drugi korak izvajajo semantične tehnologije. Te analizirajo pomene. Pri tem se opirajo na avtomatske postopke, naučene na velikih količinah besedil, na semantične leksikone, ontologije ipd. Seveda tudi na podatke o besednih vrstah, skladenjski strukturi, lastnih imenih itd.

Računalniško prevajanje imenujemo strojno prevajanje. Da lahko razvijemo strojno prevajanje za slovenščino, potrebujemo velike količine besedil in njihovih prevodov, ob tem pa še statistične informacije o tem, kako si besede v slovenščini običajno sledijo, katere so njihove besedilne vrste in oblike itd.
Če imamo vse navedene sklope tehnologij razvite do ustrezne kvalitete, nas od avatarske prihodnosti loči le še tehnološki sklop, ki bo avatarjevo komunikacijo opremil z ustrezno mimiko ust, obraza in ustreznimi gestami, da bo deloval naravno. Tudi tu poteka razvoj.
Siri, Cortana in Alexa »ne znajo« slovensko. Morda kdaj bodo, toda za to je treba razviti vse sklope tehnologij, omenjene zgoraj, to pa lahko naredimo le, če imamo ustrezne baze, korpuse, slovarje in druge jezikovne vire za slovenščino.
Te iste korpuse in slovarje, ki jih uporabljamo, ko iščemo nasvet in so bili morda sprva narejeni samo za uporabnike jezika, ne za računalniški razvoj; ali pa so bili narejeni za računalniški razvoj, pa so lahko ob prijaznem uporabniškem vmesniku tudi koristen priročnik za uporabnike jezika; pa tudi kakšne posebne, potrebne samo za računalniški razvoj. Šele ko in če bodo vsi ti viri razviti v zadostni meri, bo imel slovenski jezik polno odprta vrata v digitalni svet.

Sledi: Jezik so tehnologije?