Audiovizuális file-ok hangtípus szerinti szegmentálása
A beszédfelismerő inputját képző audiovizuális file-ok általában nemcsak beszédet, hanem más típusú szegmenseket/hangszakaszokat (zene, ének, stb.) is tartalmaznak. Az ALL (Alkalmazott Logikai Laboratórium) kifejlesztett egy olyan szoftver rendszert, amely az input file tartalmát hangtípus szerint szegmentálja.
A szoftver számára a különböző hangtípusok felismeréséhez szükséges tudást egy olyan (adatkomponensként integrálható) specifikus akusztikus modell biztosítja, amelynek elemei egy-egy hangtípus realizációira jellemző, az adott hangtípust más hangtípusoktól megkülönböztető akusztikus jegyeit modellezik. A hangtípus szerinti szegmentálás az akusztikus beszédfelismeréssel analóg módon működik, célja azonban nem az elhangzott beszédet leíró fonémasor kinyerése, hanem a különböző típusú hangszegmensek határainak felismerése.
A szoftver mind önálló termékként, mind a beszédfelismerő jelfeldolgozó moduljába beépítve hasznosítható. A beszédfelismerés részeként a szoftver
o a beszédszakaszok határainak detektálását, és
o a hosszabb beszédszakaszok tördelését
valósítja meg. A hosszabb beszédszakaszok tördelése az alacsony energiájú hanghullám szakaszok mentén történik.
A hangtípus szerinti szegmentálás szerves részét képzi az ALL beszédfelismerőjének. Ez a rendszer komponens teszi lehetővé a nem csupán beszédet tartalmazó audiovizuális file-ok beszédszakaszainak lokalizálását és az egyes beszédszakaszokban elhangzó beszédek felismerését, valamint a beszéd-információ vegyes tartalmú audiovizuális archívumokból való visszakereshetőségét.