Tantárgy adatlapja
Karakterek, kódolási szabványok. Ábécék és rendezés. A szöveg formájának és tartalmának ábrázolása. A fontosabb formanyelvek. Szövegek tartalmi ábrázolása. TEI. Szótárak és korpuszok kódolása. A természetes nyelvek számítógépes ábrázolásának kutatási problémái. A formális nyelvek alkalmazása a természetes nyelvek kutatásában. A nyelvmodellek minőségének vizsgálata: pontosság és lefedettség, túl- és alulgenerálás. A természetes nyelvek modellezésének eszközei. Lexikonok. Korpusznyelvészet. Egyértelműsítés. Véges automata, véges fordító (finite state transducer). RTN, ATN. Morfológia. Nyelvészeti alapok. FSA. Kétszintes morfológia. A magyar nyelv speciális morfológiai problémái. Az unifikációs morfológiai modell: a jegyszerkezetek és az unifikálhatóság vizsgálata. Morfológiai rendszerek fejlesztése. Minimálnyelvtan, analógiás bővítés. A morfológiai elemző programok alkalmazása: helyesírás-ellenőrzés, elválasztás, (ragozó) tezaurusz, nyelvhelyesség-ellenőrzés, szótövesítés a kereséshez. Természetes nyelvek nyelvtanai. Fontos nyelvi jelenségek. Korpusznyelvészet alkalmazása a szintaxis kutatásában. Treebank. Szintaktikai elemzési algoritmusok: szimbolikus (véges állapotú: RTN/ATN; környezetfüggetlen) és valószínűségi (elemzési erdők egyértelműsítése). Jegyszerkezetek és unifikáció: a szintaktikai elemzés unifikációs és minta-alapú (formális nyelvtanra vagy lexikonra épülő) eljárása. Átmenet a kettő között. Tudásreprezentáció: formális szemantika, taxonómiák, ontológia (világismeret) – NLP-lexikon. Jelentés-egyértelműsítés: a jelentés-szöveg modell. A fordítás problémája. A különböző nyelvek viszonya. Nyelvi jelenségek a fordítás szempontjából. Az emberi fordítás támogatása: intelligens szótárak, megértést segítő eszközök. Terminológiai adatbázisok, adminisztrációs eszközök. Párhuzamos korpuszok. Szövegek szinkronizálása. Fordítómemória. Hasonlósági keresés. Gépi fordítás. Szótárak a gépi fordítás számára. Szótárak reprezentálása. Fordítási eljárások: szintaktikai/lexikális; direkt, interlingvális, transzfer. Statisztikai és szabályalapú algoritmusok. Neurális gépi fordítás. Neurális nyelvmodellek. A természetesnyelv-feldolgozás további problémái: a pragmatika és a diskurzus modellezése. A beszédfeldolgozás és a nyelvtechnológia találkozási pontjai. Neurális módszerek és modellek nyelvészeti problémák megoldására. Szóbeágyazás.