Не стоит ли ожидать, что wav2vec превзойдет Microsoft STT
Я сравнил уровни точности как wav2vec, так и Microsoft STT в нескольких выступлениях Теда.
Уровни точности - это частота ошибок по словам
|Video |Wav2Vec|MicrosftSTT|
|:---: |:-----:|:---------:|
|[1][1]|8.57 |3.7 |
|[2][2]|13.83 |5.8 |
|[3][3]|20.7 |11.1 |
|[4][4]|12.5 |6.6 |
Microsoft превосходит Wav2vec в два раза для каждого файла. Разве Wav2vec не должен быть современным? Что мне здесь не хватает?
Я использовал 960-часовую большую модель, предоставленную в fairseq, для создания текста.