Beszédtechnológia és alkalmazásai
nemeth@tmit.bme.hu
nemeth@tmit.bme.hu
Ebben a számban egyrészt a gép beszédkeltés fejlődésének aktuális kérdéseiről olvashatunk, másrészt a szélesebb értelemben vett akusztikai, beszéd- és jelfeldolgozás eredményeiből kaphatunk ízelítőt.
Az első blokk a gép beszédkeltéshez kapcsolódó négy írásból áll. Elsőként egy áttekintő jellegű cikket olvashatunk arról, hogyan lehet a beszédfelismerésben már hosszabb ideje meghonosodott rejtett Markov-modell (Hidden Markov Modell, HMM) alapú technológiát a magyar nyelvű beszédszintézis területén is alkalmazni. A gépi beszédkeltés minősége már elért arra a szintre, hogy a szövegek érthetősége ritkán jelent problémát. Hosszabb, géppel előállított felolvasás azonban általában monotonnak, robotosnak tűnik. A monotonitás csökkentésére kidolgozott új eljárást mutat be a második dolgozat. A legjobb hangminőséget ma a jelentős méretű (több óra) hanganyagot alkalmazó és többnyire kötött témakörökre kidolgozott ún. korpusz-alapú beszédszintetizátorok adják. A harmadik cikk azt vizsgálja, hogy a magyar nyelvre, kötött témakörökre kidolgozott korpusz-alapú technológiát hogyan lehetne a kötetlen szókészlet irányába kiterjeszteni. Ezt a blokkot a beszédadatbázisok pontosabb címkézésének megoldásait elemző közlemény zárja. Ennek az ad jelentőséget, hogy az adatbázisokra épülő alkalmazások teljesítménye jelentős mértékben függ az adatbázis-címkézés minőségétől.
A második blokk a beszéd- és más akusztikai jeleket változatos megközelítésben elemző öt dolgozatot tartalmaz. Először egy érdekes zajcsökkentési algoritmusról olvashatunk. Ezután a PPKE kutatóinak a Híradástechnika korábbi számaiban már részletesen ismertetett, akusztikus jelből szájmozgást modellező eljárásának egy újabb alkalmazását ismerhetjük meg. A megoldás segítségével IPTV-s jelfolyamba valós időben illeszthető a siket embereket segítő, géppel keltett szájmodell. Majd egy, a számítógépes modellezésnek a teremakusztikában történő alkalmazását konkrét példákkal illusztráló cikk következik. A természetes beszédértésben jelentős szerepe van a prozódiának, például sok esetben egy mondat kérdő vagy kijelentő jellege csak annak alapján dönthető el. A gépi beszédfelismerés azonban ennek a feldolgozására csak ritkán vállalkozik. Egy ilyen kísérletet mutat be a blokk utolsó előtti írása. A záró dolgozat egy Kempelen Farkas óta sokakat megmozgató problémára, sakkozó automata kidolgozására mutat be egy friss hazai kísérletet.
Németh Géza Szabó Csaba Attila
vendégszerkesztő főszerkesztő