Не стоит ли ожидать, что wav2vec превзойдет Microsoft STT

Я сравнил уровни точности как wav2vec, так и Microsoft STT в нескольких выступлениях Теда.

Уровни точности - это частота ошибок по словам

      |Video |Wav2Vec|MicrosftSTT|
|:---: |:-----:|:---------:|
|[1][1]|8.57   |3.7        |
|[2][2]|13.83  |5.8        |
|[3][3]|20.7   |11.1       |
|[4][4]|12.5   |6.6        |

Microsoft превосходит Wav2vec в два раза для каждого файла. Разве Wav2vec не должен быть современным? Что мне здесь не хватает?

Я использовал 960-часовую большую модель, предоставленную в fairseq, для создания текста.

0 ответов

Другие вопросы по тегам