Почему набор данных речевых команд от Google имеет частоту дискретизации 16 кГц

Question

Почему набор данных речевых команд от Google имеет частоту дискретизации 16 кГц

Google выпустил набор данных Speech Commands. Я вижу, что все аудиофайлы имеют частоту дискретизации 16 кГц. Это означает, что любая информация от 8 кГц и выше ненадежна (человеческий слуховой диапазон от 20 Гц до 20 кГц). Это чрезвычайно важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 до 20 кГц, и их потеря означает меньшую точность и надежность распознавания голоса.

Почему Google сделал выбор в 16 кГц? я что-то пропустил?

Спасибо.

0

speech-recognition speech-to-text tensorflow-datasets

Источник

user6595663 07 сен '18 в 13:52

2 ответа

Решение

когда я выгружаю аудио из облака Google, ширина данных составляет всего 6 кГц. Может кто-нибудь сказать почему? Я ожидаю, что ширина данных должна быть 8 кГц.

введите описание изображения здесь

-3

Источник

29 июл '21 в 05:33

Другие вопросы по тегам speech-recognition speech-to-text tensorflow-datasets

user432021 22 сен '18 в 13:45 2018-09-22 13:45 · Accepted Answer · 2018-09-22 13:45

Это очень важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 кГц до 20 кГц

На самом деле нет, многие эксперименты демонстрируют, что почти нет улучшения от использования более высокой частоты дискретизации. Вот почему каждый использует 16 кГц.