Вернуться к результатам поиска

3i Speech Detector SDK

Вернуться к результатам поиска
3i Speech Detector SDK
Компания:
ДСС Лаб
Производство:
Москва
В библиотеке реализовано два подхода к сегментации звукового потока.
Первый подход является аналогом VAD – Voice Activity Detection и работает на основе информации об уровне энергии в сигнале.
Второй подход основан на обнаружении в звуковом потоке признаков основного тона (PTD – Pitch Tone Detection). Присутствие в сигнале признаков основного тона, как правило, сигнализирует о наличии речи. Определение основного тона осуществляется при помощи комбинации следующих методов:
- метод частотной селекции;
- метод на основе кепстральных коэффициентов;
- метод на основе классической автокорреляционной функции (ACF – autocorrelation function);
- модифицированный автокорреляционный метод (AMDF - average magnitude difference function based method).
Комбинация четырёх указанных методов обеспечивает высокую надёжность обнаружения речевой составляющей в звуковом потоке даже в сигналах с высоким уровнем помех.
Тип обрабатываемого сигнала:
- WAV-файлы, буфер отсчётов;
- частота дискретизации 8 кГц;
- разрядность квантования 8 или 16-бит;
- тип кодирования: A-закон, m-закон или PCM.
Библиотека реализована в виде DLL-библиотеки, написанной на языке С++, позволяющей потокобезопасное встраивание функций автоматического определения пола в произвольные Windows-приложения.