Tüske Zoltán, Mihajlik Péter, Tobler Zoltán, Fegyó Tibor, Tatai Péter
Beszéddetekciós módszerek vizsgálata és optimalizálása gépi beszédfelismerô rendszerekhez
A cikkben a küszöbszint-alapú beszéddetekcióhoz használható paramétereket vizsgáljuk. Elôször a beszéddetekció küszöbérték-érzékenységét analizáljuk egy kisebb teszthalmazon a különféle paraméterek mellett, majd az eredmények és gyakorlati megfontolások alapján választjuk ki a beszédfelismerési tesztekhez használt detekciós módszert. Az energia helyett a jóval robusztusabb spektrális entrópiát használjuk a beszéd jelenlétének kijelölésére. További különlegessége és újdonsága a megközelítésnek, hogy az entrópiaszámítás elôtt spektrális részsáv-energiákon alapuló zajspektrum becslést használunk a zaj fehérítésére. Ennek eredményeképp nagymértékben zajtûrô, entrópia-alapú beszéddetekciós módszert kaphatunk. Ezen állításunkat számos beszédfelismerési kísérlettel támasztjuk alá, amelyekben normál, illetve kifejezetten zajos telefonbeszéd-felismerést végeztünk. A javasolt beszéddetekciós eljárás alkalmazásával minden esetben javult a felismerési pontosság (maximálisan 29,5%-kal), valamint a felismerendô keretek száma is jelentôsen csökkent mind tiszta, mind zajos felvételek esetén.