Почему набор данных речевых команд от Google имеет частоту дискретизации 16 кГц
Google выпустил набор данных Speech Commands. Я вижу, что все аудиофайлы имеют частоту дискретизации 16 кГц. Это означает, что любая информация от 8 кГц и выше ненадежна (человеческий слуховой диапазон от 20 Гц до 20 кГц). Это чрезвычайно важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 до 20 кГц, и их потеря означает меньшую точность и надежность распознавания голоса.
Почему Google сделал выбор в 16 кГц? я что-то пропустил?
Спасибо.
2 ответа
Это очень важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 кГц до 20 кГц
На самом деле нет, многие эксперименты демонстрируют, что почти нет улучшения от использования более высокой частоты дискретизации. Вот почему каждый использует 16 кГц.
когда я выгружаю аудио из облака Google, ширина данных составляет всего 6 кГц. Может кто-нибудь сказать почему? Я ожидаю, что ширина данных должна быть 8 кГц.