Understanding deep learning

Understanding deep learning

🌱 Seed

Диаризация

Диаризация отвечает: «Кто именно говорит — А или Б?» (многоклассовая)

Диаризацию лучше делать один раз на весь файл (если влезает в RAM), или использовать более точный VAD перед ней, чтобы не резать реплики пополам.

VAD (Voice Activity Detection / Определение активности речи) — это алгоритм, который отвечает на вопрос: «В данный момент в аудио кто-то говорит или там тишина/шум?»

С VAD: Система обрабатывает только речевые сегменты:

Метрики качества VAD

Метрика Что означает
False Acceptance Тишина засчитана как речь
False Rejection Речь пропущена (особенно шепот)
Latency Задержка определения

Хороший VAD имеет ошибки <5% на чистой речи и <15% в шуме.

CNN или RNN классифицирует короткие фрагменты (20-30 мс):