Normo: Egy automatikus normalizáló eszköz középmagyar szövegekhez Vadász Noémi 1,2 , Simon Eszter 1 1 MTA Nyelvtudományi Intézet 2 MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport E-mail: {vadasz.noemi, simon.eszter}@nytud.mta.hu Kivonat A cikk egy automatikus normalizáló eszközt ismertet középma- gyar szövegek normalizálásához. A Normo két modulból áll: egy memó- riaalapú modulból és egy szabályalapúból, amely karakter- és tokenszin- tű környezetfüggő újraíró szabályokat tartalmaz. Az eszköz meggyorsítja és megkönnyíti a középmagyar szövegek kézi normalizálását, amelynek eredménye a további nyelvfeldolgozó eszközök bemenete. Az eszköz is- mertetése után a modulok teljesítményét külön-külön és egyben is kiér- tékeljük. Kulcsszavak: normalizálás, szabályalapú normalizálás, memóriaalapú normalizálás, történeti szövegek, középmagyar 1. Bevezetés Az annotált nyelvi erőforrások elérhetősége egyre fontosabb szerepet kap a nyel- vészet több területén: a nyelvtechnológiai fejlesztéseken kívül az elméleti és tör- téneti nyelvészeti kutatásoknak is kiváló alapanyagot szolgáltatnak a korpuszok. A történeti korpuszok az adatok és a nyelvi jelenségek gazdag tárházát adják – de csak akkor, ha a releváns információ elektronikusan interpretálható és előhívha- tó módon van tárolva bennük. A nyelvtörténészek és nyelvtechnológusok egyik legfontosabb együttműködési terepe a történeti korpuszok építése. Az elmúlt évtizedekben sorra indultak olyan projektek, melyek egy adott nyelv valamely régebbi változatának digitalizálását és feldolgozását célozták – elsősorban indo- európai nyelvekre, például [1,2]. Ebbe a sorba illeszkedik az Ómagyar Korpusz [3] is, amely tartalmazza az összes fennmaradt ómagyar kori (896–1526) szöveg- emléket, valamint bizonyos középmagyar kori (1526–1772) írott és nyomtatott szövegeket, továbbá néhány szövegemlék normalizált és morfológiailag elemzett és egyértelműsített változatát 1 . Napjainkban a korpuszépítési munkálatok során elsősorban már digitalizált szövegekből indulnak ki; de nem ez a helyzet a történeti dokumentumokkal. Az elektronikus formátumok (sőt az elektromosság) előtti korból származó szöve- gekkel való foglalkozás sokkal idő- és munkaigényesebb folyamat, és bizonyos 1 http://omagyarkorpusz.nytud.hu/