Диаризация

Диаризация отвечает: «Кто именно говорит — А или Б?» (многоклассовая)

Диаризацию лучше делать один раз на весь файл (если влезает в RAM), или использовать более точный VAD перед ней, чтобы не резать реплики пополам.

VAD (Voice Activity Detection / Определение активности речи) — это алгоритм, который отвечает на вопрос: «В данный момент в аудио кто-то говорит или там тишина/шум?»

С VAD: Система обрабатывает только речевые сегменты:

Экономия VRAM (меньше тишины в батче)
Точность таймкодов растет (нет дрейфа в паузах)
Можно разбить 2-часовой фильм на логические чанки по репликам

Метрики качества VAD

Метрика	Что означает
False Acceptance	Тишина засчитана как речь
False Rejection	Речь пропущена (особенно шепот)
Latency	Задержка определения

Хороший VAD имеет ошибки <5% на чистой речи и <15% в шуме.

CNN или RNN классифицирует короткие фрагменты (20-30 мс):

Silero VAD — легкая модель (1MB), работает в реальном времени на CPU
Pyannote VAD — точнее, но тяжелее (часть pyannote.audio)
WebRTC VAD — классика от Google, встроена в браузеры

Understanding deep learning

Диаризация

Метрики качества VAD