Что-то не так в речи к тексту в Java
Я делаю проект в речи в тексте в Java. Следующее я сделал:
1) Я прочитал байты аудиосигнала, а затем преобразовал их в двойной массив.
2) Затем я прошел через фильтр высоких частот (формула приведена ниже). х - двойной массив входного сигнала. double y[]=new double[x.length];
y[0]=x[0];
for(int i=1;i<x.length;i++)
y[i] = (0.95 * y[i-1]) + (0.95 * (x[i] - x[i-1]));
3) Затем я разбил его на кадры длительностью 0,01 с в двумерный двойной массив.
4) Затем я прошел через окно Хэмминга.
5) Затем я получаю БПФ всех кадров, суммируя все частоты строки.
6) Затем я преобразовал частоты в плавный перегон:mf=2595*Math.log10(1+(f/700));
7) Затем принимается дискретное косинусное преобразование.
8) Наконец я сопоставляю сигналы с DTW двух результатов DCT.
Вывод, который я получаю, не является удовлетворительным. подобно
для "а" я получаю "к"
для "б" я получаю "е" для "х" я получаю "с".
Что я делаю не так в этом???