FőoldalEnglish

Beszédarchívumok tematikus strukturálása/kategorizálása


Az audiovizuális file-ok (például a rádió- és/vagy TV műsorok) megőrzését szolgáló archívumok fokozatosan bővülnek, és idővel igen nagyméretűvé (akár több TByte-os nagyságúvá) válhatnak. Egy effajta archívumban a file-ok általában fizikailag elkülönülő kisebb egységekre leosztva vannak tárolva – biztosítva ezzel az archívum menedzselhetőségét és az archívumban tárolt információ későbbi visszakereshetőségét. Szokásos megoldás az, hogy az archívum strukturálása az archivált file-ok keletkezésének bázisán történik.
Az ALL (Alkalmazott Logikai Laboratórium) kifejlesztett egy olyan – beszédfelismerésre támaszkodó – eszközt, ami lehetővé teszi a (beszéd típusú hanganyaggal ellátott) archívumok tematikus kategorizálását, illetve strukturálását.
Az archívum-kategorizáló szoftvert egy (adatkomponensként integrált) ”policy” vezérli, amely az archívumban megjelenő file-okban potenciálisan előforduló szavak és frázisok bázisán definiálja a file-ok hovatartozását. A kategorizálási ”policy”-t az adott archívum struktúrájának megtervezésekor kell definiálni, de – bizonyos korlátok között – lehetőség van az utólagos módosításra.
Az archívumban megjelenő file-ok kategorizálása a file-ok indexelésével (beszéd-alapú visszakeresésre való felkészítésével) párhuzamosan elvégezhető.
A szoftver demonstrációs szinten működik.