Разработан первый российский аудиопоисковик

"Центр речевых технологий" заявил об успешном завершении работ над технологией Voice Digger - поиском "ключевых" слов в фонограммах русской речи.

15 февраля 2008 в 17:27, просмотров: 384

Таким образом, это первая в России коммерческая разработка в области audio data mining - одного из самых перспективных направлений цифрового компьютерного рынка в мире.

Созданный «Центром речевых технологий» Voice Digger - первый отечественный поиск по ключевым словам в звукозаписях русской речи. Voice Digger позволяет автоматически выделять ключевые слова и словосочетания в потоке слитной речи без предварительного прослушивания. Разработка основана на непрерывном распознавании речи, реализуемом с использованием теории скрытых марковских процессов (НММ). Ключевые слова задаются в виде обычного текста, по которому система строит НММ-модель каждого слова. На выходе VoiceDigger предоставляет ссылку на звуковой документ и местоположение искомого слова или словосочетания. 

Качество системы поиска ключевых слов определяется двумя показателями: вероятности обнаружения ключевого слова и вероятности ложного срабатывания при заданной длине искомого слова. Уровень ошибки системы составляет порядка 8%.

В ЦРТ считают, что новая технология будет пользоваться спросом в крупных системах обработки, хранения и анализа данных. Модули, созданные на базе Voice Digger, позволят оперативно обработать не только текстовые, но и мультимедиа-данные и получить на выходе систематизированные выборки по интересующей пользователя тематике.

Источник: Bybanner.



Партнеры