Beszédadatbázisok előkészítése kutatási és fejlesztési célok hatékonyabb támogatására
Németh Géza, Olaszy Gábor, Bartalis Mátyás, Zainkó Csaba, Fék Márk, Mihajlik Péter
nemeth, olaszy, bartalis, zainko, fek, mihajlik@tmit.bme.hu
BME Távközlési és MédiainformatikaiTanszék
Németh Géza, Olaszy Gábor, Bartalis Mátyás, Zainkó Csaba, Fék Márk, Mihajlik Péter
nemeth, olaszy, bartalis, zainko, fek, mihajlik@tmit.bme.hu
BME Távközlési és MédiainformatikaiTanszék
A nagyméretű beszédadatbázisok készítése az utóbbi évtizedben vált szükségessé, hogy támogassák egyrészről a beszédkutatást, másrészről a működő beszédinformációs rendszerek fejlesztését. Az ilyen adatbázisok akkor szolgálhatják jól a tudományt, ha részletes címkézéssel is rendelkeznek. A címkézés érintheti a szegmentális szerkezetet (hanghatárok, szavak határai), valamint a szupraszegmentális szintet (hangsúlyok, dallammenetek, szünetek, prozódiai egységek). Az adatbázisok címkézési munkáit nagy méretük miatt csak jelentős szoftver-támogatással lehet költséghatékonyan elvégezni. Léteznek már évek óta magyar beszédadatbázisok, amelyeket főleg beszédfelismerő algoritmusok tanítására fejlesztettek [7, 8]. Ezekben általában sok beszélőtől vettek beszédmintát és a címkézési munkákat még többnyire jelentős mértékben kézi erővel végezték.
Jelen cikkben olyan adatbázisokkal foglalkozunk, amelyek egyetlen bemondótól felvett, sok mondatból álló anyagot tartalmaznak. Ezek címkézéséről van szó. Egyelőre a hanghatárok bejelölésével kapcsolatos szoftverrendszer fejlesztéséről és annak működési tapasztalatairól számolunk be. A rendszert a BME Távközlési és Médiainformatikai tanszékén fejlesztették és az ottani beszédadatbázisokhoz használják. Az eljárás fontos tulajdonsága, hogy szoftveres elemek és emberi erőforrás váltogatják egymást a feldolgozás során. A beszédfeldolgozás egyes pontjain még ma sem lehet kihagyni az emberi döntéshozatali tényezőt. Az eredmények igazolják, hogy ilyen hibrid eljárással elérhető a szinte hibamentes címkézés, ennek ára viszont a bonyolult, kissé időigényesebb feldolgozás. Az ilyen adatbázisokból pontos és megbízható adatok nyerhetők. A vizsgált adatbázisokról kapott információk azt is megmutatják, hogy az egyes beszélők közötti hangszintű beszédképzési eltérések számszerű adatokkal is jellemezhetők, ami a személyre szabott szoftveres beszédjellemzés egyik kísérleti megvalósításának is tekinthető.
Jelen cikkben olyan adatbázisokkal foglalkozunk, amelyek egyetlen bemondótól felvett, sok mondatból álló anyagot tartalmaznak. Ezek címkézéséről van szó. Egyelőre a hanghatárok bejelölésével kapcsolatos szoftverrendszer fejlesztéséről és annak működési tapasztalatairól számolunk be. A rendszert a BME Távközlési és Médiainformatikai tanszékén fejlesztették és az ottani beszédadatbázisokhoz használják. Az eljárás fontos tulajdonsága, hogy szoftveres elemek és emberi erőforrás váltogatják egymást a feldolgozás során. A beszédfeldolgozás egyes pontjain még ma sem lehet kihagyni az emberi döntéshozatali tényezőt. Az eredmények igazolják, hogy ilyen hibrid eljárással elérhető a szinte hibamentes címkézés, ennek ára viszont a bonyolult, kissé időigényesebb feldolgozás. Az ilyen adatbázisokból pontos és megbízható adatok nyerhetők. A vizsgált adatbázisokról kapott információk azt is megmutatják, hogy az egyes beszélők közötti hangszintű beszédképzési eltérések számszerű adatokkal is jellemezhetők, ami a személyre szabott szoftveres beszédjellemzés egyik kísérleti megvalósításának is tekinthető.