Teleki Csaba, Vicsi Klára
Többnyelvû európai híranyag-adatbázis gyûjtése és feldolgozási módszereinek kutatása multimédiás mûsorok automatikus feldolgozásához
Többnyelvû híranyag-adatbázisok (Broadcast News – BN) gyûjtése és ezek egységes elvû feldolgozási módszereinek kidolgozására nemzetközi munkacsoport jött létre a COST278 EU projekt keretein belül. A BME TMIT Beszédakusztikai Kutatólaboratóriuma a csoport tagjaként magyar híranyag-adatbázist hozott létre, amely 3 óra és 30 percnyi kép- és hanganyagot tartalmaz. Az adatbázis feldolgozásához a BN munkacsoport által kidolgozott módszereket és elôírásokat használta fel, ilyen például az átíró és annotáló szoftver, amely a NIST (National Institute of Standards and Technology) ajánlásai alapján készült. Az átiratok egységes formátumra hozása érdekében, a NIST ajánlásai mellett, pontos címkézési módszereket, szabályokat hoztunk létre. Kutatócsoportunk másik célkitûzése az volt, hogy a beszéd akusztikai paramétereire támaszkodva különbözô nyelvfüggetlen, kiértékelô eszközöket fejlesszen ki (beszéddetektálás, beszélô nemének meghatározása stb.). E tanulmányban laboratóriumunk magyar nyelvre vonatkozó feldolgozási módszereit mutatjuk be, valamint tesztelési eredményeinket hasonlítjuk össze a munkacsoport tagjai által elért eredményekkel.