Диаризация
Диаризация отвечает: «Кто именно говорит — А или Б?» (многоклассовая)
Диаризацию лучше делать один раз на весь файл (если влезает в RAM), или использовать более точный VAD перед ней, чтобы не резать реплики пополам.
VAD (Voice Activity Detection / Определение активности речи) — это алгоритм, который отвечает на вопрос: «В данный момент в аудио кто-то говорит или там тишина/шум?»
С VAD: Система обрабатывает только речевые сегменты:
- Экономия VRAM (меньше тишины в батче)
- Точность таймкодов растет (нет дрейфа в паузах)
- Можно разбить 2-часовой фильм на логические чанки по репликам
Метрики качества VAD
| Метрика | Что означает |
|---|---|
| False Acceptance | Тишина засчитана как речь |
| False Rejection | Речь пропущена (особенно шепот) |
| Latency | Задержка определения |
Хороший VAD имеет ошибки <5% на чистой речи и <15% в шуме.
CNN или RNN классифицирует короткие фрагменты (20-30 мс):
- Silero VAD — легкая модель (1MB), работает в реальном времени на CPU
- Pyannote VAD — точнее, но тяжелее (часть pyannote.audio)
- WebRTC VAD — классика от Google, встроена в браузеры