ELTE: több százezer oldalnyi erdélyi magyar sajtóanyag vált kereshetővé

Szerző: mti
2026. február 13. 12:08

Sikeresen zárult az Eötvös Loránd Tudományegyetem (ELTE) konzorciumi vezetésével működő Digitális Örökség Nemzeti Laboratórium (DH-LAB) és az Erdélyi Digitális Tudománytár (Digitéka) közös projektje, amelynek keretében több százezer oldalnyi erdélyi magyar sajtóanyag vált kereshetővé és hosszú távon megőrizhetővé korszerű digitális technológiák alkalmazásával - közölte a felsőoktatási intézmény pénteken az MTI-vel.

A közlemény szerint a felek célja az volt, hogy a történeti erdélyi sajtóforrások digitális feldolgozását új szintre emeljék, és egyúttal

hozzájáruljanak a magyar nyelvű kulturális örökség korszerű kutathatóságához.

A munka első szakaszában 26 erdélyi történeti újság mintegy 273 000 oldalnyi képfelvételén hajtották végre az optikai karakterfelismerést (OCR).

Ezt követően további több mint 60 000 oldalt küldött a partner, így összesen 333 492 oldal magyar nyelvű erdélyi sajtóanyag feldolgozása készült el - írták.

Az elkészült állományokat a Digitéka számára kétrétegű, kereshető PDF formátumban, egységes vízjellel ellátva adták át - tették hozzá.

Közölték azt is, hogy az OCR-folyamatok hatékonyságának növelése érdekében a felek - az ELTE kutatási és fejlesztési kompetenciáira és infrastruktúrájára is támaszkodva - közösen fejlesztették a dokumentumok szerkezeti felismerését végző, úgynevezett layout analysis rendszert.

Ennek keretében az Digitéka annotátorai

1007 oldalt dolgoztak fel,

amely a DH-LAB annotátorai által feldolgozott anyaggal együtt összesen 4078 annotált oldalból álló tanítóadatbázist eredményezett.

Ez az adatállomány egy olyan, kifejezetten az erdélyi és magyar történeti dokumentumokra optimalizált layout-felismerő rendszer kialakítását alapozza meg, amely számottevően javítja az OCR eredmények pontosságát - áll a közleményben.

Címkék:

Podcast