Tantárgy adatlapja

Tárgy neve: A nyelvtechnológia alapjai
Tárgy kódja: P-ITNYE-0001
Óraszám: N: 3/0/2, L: 0/0/0
Kreditérték: 6
Az oktatás nyelve: magyar
Követelmény típus: Kollokvium
Felelős kar: ITK
Felelős szervezeti egység: Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar
Tárgyfelelős oktató: Dr. Prószéky Gábor
Tárgyleírás:

Karakterek, kódolási szabványok. Ábécék és rendezés. A szöveg formájának és tartalmának ábrázolása. A fontosabb formanyelvek. Szövegek tartalmi ábrázolása. TEI. Szótárak és korpuszok kódolása. A természetes nyelvek számítógépes ábrázolásának kutatási problémái. A formális nyelvek alkalmazása a természetes nyelvek kutatásában. A nyelvmodellek minőségének vizsgálata: pontosság és lefedettség, túl- és alulgenerálás. A természetes nyelvek modellezésének eszközei. Lexikonok. Korpusznyelvészet. Egyértelműsítés. Véges automata, véges fordító (finite state transducer). RTN, ATN. Morfológia. Nyelvészeti alapok. FSA. Kétszintes morfológia. A magyar nyelv speciális morfológiai problémái. Az unifikációs morfológiai modell: a jegyszerkezetek és az unifikálhatóság vizsgálata. Morfológiai rendszerek fejlesztése. Minimálnyelvtan, analógiás bővítés. A morfológiai elemző programok alkalmazása: helyesírás-ellenőrzés, elválasztás, (ragozó) tezaurusz, nyelvhelyesség-ellenőrzés, szótövesítés a kereséshez. Természetes nyelvek nyelvtanai. Fontos nyelvi jelenségek. Korpusznyelvészet alkalmazása a szintaxis kutatásában. Treebank. Szintaktikai elemzési algoritmusok: szimbolikus (véges állapotú: RTN/ATN; környezetfüggetlen) és valószínűségi (elemzési erdők egyértelműsítése). Jegyszerkezetek és unifikáció: a szintaktikai elemzés unifikációs és minta-alapú (formális nyelvtanra vagy lexikonra épülő) eljárása. Átmenet a kettő között. Tudásreprezentáció: formális szemantika, taxonómiák, ontológia (világismeret) – NLP-lexikon. Jelentés-egyértelműsítés: a jelentés-szöveg modell. A fordítás problémája. A különböző nyelvek viszonya. Nyelvi jelenségek a fordítás szempontjából. Az emberi fordítás támogatása: intelligens szótárak, megértést segítő eszközök. Terminológiai adatbázisok, adminisztrációs eszközök. Párhuzamos korpuszok. Szövegek szinkronizálása. Fordítómemória. Hasonlósági keresés. Gépi fordítás. Szótárak a gépi fordítás számára. Szótárak reprezentálása. Fordítási eljárások: szintaktikai/lexikális; direkt, interlingvális, transzfer. Statisztikai és szabályalapú algoritmusok. Neurális gépi fordítás. Neurális nyelvmodellek. A természetesnyelv-feldolgozás további problémái: a pragmatika és a diskurzus modellezése. A beszédfeldolgozás és a nyelvtechnológia találkozási pontjai. Neurális módszerek és modellek nyelvészeti problémák megoldására. Szóbeágyazás.  

A tárgy az alábbi képzéseken vehető fel

elméleti nyelvészet BMNB-XEN mesterképzés (MA/MSc) Nappali magyar 4 félév BTK
mérnökinformatikus BSc IANI-MI alapképzés (BA/BSc/BProf) Nappali magyar 7 félév ITK
Széchenyi 2020 - Magyarország Kormánya - Európai Unió, Európai Regionális Fejlesztési Alap - Befektetés a Jövőbe