Вернуться к результатам поиска

3i Speaker ID SDK

Вернуться к результатам поиска
3i Speaker ID SDK
Компания:
ДСС Лаб
Производство:
Москва
В отличие от существующих подходов, например, в предлагаемой технологии оценка достоверности идентификации основана на результатах взвешенного голосования ряда отдельных независимых решателей. Благодаря этому достигнута высокая устойчивость правильной идентификации в различных каналах связи.
Специальный модуль, выделяющий речевую составляющую из звукового потока на основе определителя основного тона, обеспечивает устойчивость в условиях присутствия в звуковом потоке посторонних - не речевых - вставок.
Модификация «b» (3i-SID (b)-SDK) эффективно обрабатывает сигналы с отношением сигнал/шум (ОСШ) не менее 10 дБ с отсутствием посторонних звуков (кроме гудков). Модификация «p» (3i-SID (p)-SDK) предназначена для обработки сигналов с ОСШ не менее 7 дБ, при этом допускается присутствие посторонних неречевых звуков.
SDK реализован в виде DLL-библиотек, написанных на языке С++, позволяющих потокобезопасное встраивание функций идентификации диктора в произвольные Windows-приложения.
Скорость обработки
модификация «b» - в 150-200 раз быстрее времени звучания на одном ядре процессора;
модификация «p» - в 15-20 раз быстрее времени звучания на одном ядре процессора.
Тип обрабатываемого сигнала
WAV-файлы, буфер отсчётов;
частота дискретизации - 8 кГц;
разрядность квантования - 8 или 16 бит;
тип кодирования: A-закон, m-закон или PCM.
Требования к качеству речевого сигнала
модификация «b» - ОСШ не менее 10 дБ, отсутствие посторонних неречевых звуков (кроме гудков);
модификация «p» - ОСШ не менее 7 дБ, допускается присутствие посторонних неречевых звуков.