Непрерывная запись / распознавание аудио с помощью Pocketsphinx/ FFMpeg
Как уже сказано в названии, я хочу непрерывно записывать необработанный звук через мой микрофон. Таким образом, идея состояла в том, чтобы запустить простую C-программу в фоновом режиме как сервис, который создавал бы фрагменты аудио и отправлял эти файлы через распознавание речи sphinx.
После этого я могу сделать некоторую обработку с распознанными словами.
Проблема в (непрерывном) признании. Я не могу просто записать аудиоблоки, содержащие 10 секунд, что я сказал, потому что, может быть, chunk[33] -> chunk[34] соединены вместе, и тогда sphinx выдаст что-то вроде:
recognized chunk[33] -> ["enable light"]
recognized chunk[34] -> ["5 with 50 percent"]
Другой подход - непрерывная запись звука, но тогда я не могу обработать большие аудиофайлы с помощью sphinx.
Я использую основной пример из pocketsphinx:
#include <pocketsphinx.h>
int main(int argc, char *argv[])
{
ps_decoder_t *ps;
cmd_ln_t *config;
FILE *fh;
char const *hyp, *uttid;
int16 buf[512];
int rv;
int32 score;
config = cmd_ln_init(NULL, ps_args(), TRUE,
"-hmm", MODELDIR "/en-us/en-us",
"-lm", MODELDIR "/en-us/en-us.lm.bin",
"-dict", MODELDIR "/en-us/cmudict-en-us.dict",
NULL);
if (config == NULL) {
fprintf(stderr, "Failed to create config object, see log for details\n");
return -1;
}
ps = ps_init(config);
if (ps == NULL) {
fprintf(stderr, "Failed to create recognizer, see log for details\n");
return -1;
}
fh = fopen("audiochunk_33.raw", "rb");
if (fh == NULL) {
fprintf(stderr, "Unable to open input file goforward.raw\n");
return -1;
}
rv = ps_start_utt(ps);
while (!feof(fh)) {
size_t nsamp;
nsamp = fread(buf, 2, 512, fh);
rv = ps_process_raw(ps, buf, nsamp, FALSE, FALSE);
}
rv = ps_end_utt(ps);
hyp = ps_get_hyp(ps, &score);
printf("Recognized: %s\n", hyp);
fclose(fh);
ps_free(ps);
cmd_ln_free_r(config);
return 0;
}
А вот основной пример использования ffmpeg для создания простого аудиофайла / чанка:
#include <stdio.h>
#include <stdint.h>
#include <math.h>
#define N 44100
void main()
{
// Create audio buffer
int16_t buf[N] = {0}; // buffer
int n; // buffer index
double Fs = 44100.0; // sampling frequency
// Generate 1 second of audio data - it's just a 1 kHz sine wave
for (n=0 ; n<N ; ++n) buf[n] = 16383.0 * sin(n*1000.0*2.0*M_PI/Fs);
// Pipe the audio data to ffmpeg, which writes it to a wav file
FILE *pipeout;
pipeout = popen("ffmpeg -y -f s16le -ar 44100 -ac 1 -i - beep.wav", "w");
fwrite(buf, 2, N, pipeout);
pclose(pipeout);
}
BR Майкл