2013. október 31., csütörtök

A magyar helyesírás négy jellemzője, hogy betűíró, a kiejtésből indul ki, szóelemző és hagyománycentrikus

A világ nyelveinek nyomtatott és internetes formában is elérhető katalógusa, a Summer Institute szerint a Földön létező mintegy 8 ezernyi nyelv közül 3200-at közvetlenül fenyeget a kihalás, bár más források szerint a nyelvek 90 százaléka van veszélyben. A hajdan az embercsoportok izolációja folytán kialakuló és egymástól elváló nyelvek a globalizálódó világ kommunikációs kapcsolatai hatására konvergálódnak, megszűnnek. Egyre több kis nyelvet mind kevesebben beszélnek. Kornai azonban továbbmegy, és becslését nem a nyelvet beszélők száma, hanem a nyelvet az interneten használók száma alapján teszi. A két kategória ugyanis jelentősen elválik egymástól. Itt van például a Szenegálban és Gambiában hivatalosként használt mandinka, mely Alex Haley Gyökerek című regénye, és az abból készült tévésorozat miatt is ismerős lehet. Hiába beszélik több millióan, hiába van ezen a nyelven tévé és rádióadás, a digitális térben a mandinka nincs jelen. Vagyis Kornai András szerint digitálisan halott. Ugyanez mondható el rokon nyelvünkről, a számiról, amelyet Skandinávia északi részén beszélnek a rénszarvasterelő törzsek. Indonéziában és Malajziában ugyanakkor az olcsó számítógépek ottani elterjedése révén, több kis nyelv digitálisan feljövőben van. Sok fejlett országbeli kis nyelv - mint például az izlandi, az észt, vagy a finn -; pedig egyenesen virul az interneten és a közösségi médiában. A kutató úgy véli, azok a nyelvek, melyek kimaradnak a kultúra fő áramlatából, nem vállalják fel a digitális kihívást, rezervátumba kényszerülnek, és bár lehet, hogy még több mint száz év múlva is lesznek, akik beszélik, nem ezek viszik a világot előre és életképtelenségre vannak ítélve.

A PLOS One-ban megjelent cikk egy részletes kutatáson alapul, melynek gyökerei évekre és a számítógépes nyelvészetre nyúlnak vissza. Kornai munkatársaival egy speciális szoftver segítségével először 15 nyelvből kezdett olyan interneten fellelhető szövegeket gyűjteni, melyek az adott nyelv minél szélesebb szókincsét reprezentálták. Matematikai modellekkel 35 paraméter segítségével (bár a tanulóalgoritmusok szerint ebből a halmazból csak 6-8 érték volt a fontos) modellezték az egyes nyelvekből vizsgált szövegeket. Ezután 50, majd 330 nyelvet pásztáztak végig, és egyre nyilvánvalóbbá vált, hogy vészesen kevés a digitális térben jelenlévő nyelv. Tavaly a magyar professzor egy európai nyelvtechnológiai fórumon is beszélt felismeréséről.

Mint Kornai András lapunknak elmondta, a nyelveket négy csoportra osztották: digitálisan mozdulatlan, örökségi, élő és viruló nyelvekre. Az első, harmadik és negyedik kategória könnyen értelmezhető, míg a második csoportba azok a nyelvek tartoznak, mint például a latin vagy az ógörög, amelyeket ugyan megtalálunk a neten, ám e szövegek valamely, spirituszban megőrzött állat maradványaihoz hasonlítanak.


Kornai András
Az amerikai cikkben közölt - már az összes létező nyelvet felölelő - és jelentős gépi erőforrással készült elemzés sokkoló megállapítása szerint a korábban hitt 600-700 nyelv helyett a digitális kort csupán 200-300 élheti túl. A PLOS-cikkben Kornai ugyan 420 nyelvről ír, mint amelyeknek esélyük van az internet világában is, ám ez a kutató szerint csupán - mundérbecsületet védő optimista jóslat-. A legkorszerűbb kommunikációs csatornák egyikén, a twitteren például alig 150 nyelv szólal meg. Az pedig a magyar kutató szerint nagyon rossz jel, ha egy nyelv nincs jelen a közösségi médiában.

A facebookon, twitteren és a blogokon tovább élő nyelvek között szerencsére ott a magyar is, melynek alapszinten nincs félnivalója. (A magyar wikipédia nagyságra jelenleg a 24., vagyis nyelvünk nemhogy az életképes 4-5 százalékban, de a felső 0,5 százalékban is bent van.) Ám az egy dolog, hogy mennyi autópályája van egy országnak, egy másik, hogy ezeken milyen autók közlekednek. És e tekintetben a magyar nem virul, csupán él. A magyar nyelvtechnológia Kornai szerint féloldalas fejlődésű. Beszédszintézisben például nemzetközi szintű eredményekkel rendelkezünk, beszédfelismerésben (gépi fordításban) már nem annyira. Az igazából csupán a magyaroknak életfontosságú szakterület további fejlődéséhez hazai fejlesztésű szoftverek kellenek, ezekhez pedig az eddiginél bőségesebb anyagi háttér. A csupán néhány tízmilliós támogatások csak az örökségi státusz felé vihetik nyelvünket.


Infó: A cikk eredeti változata a 2013.10.31-i Népszabadságban olvasható.
Népszabadság - Reviczky Zsolt

Nincsenek megjegyzések:

Megjegyzés küldése