Описание тега speech-recognition

Распознавание речи (SR) - это междисциплинарная область компьютерной лингвистики, которая объединяет знания и исследования в области лингвистики, информатики и электротехники для разработки методологий и технологий, позволяющих распознавать и переводить разговорный язык в текст с помощью компьютеров. и компьютеризированные устройства, такие как интеллектуальные технологии и робототехника
3 ответа

Ошибка в программе java sphinx

Привет я делаю программное обеспечение в Java, в котором я хочу разработать речевое программное обеспечение... Я запускаю "Hello" код сфинкса в Java. import edu.cmu.sphinx.frontend.util.Microphone; import edu.cmu.sphinx.recognizer.Recognizer; import…
2 ответа

Raspberry Pi Асинхронное / непрерывное распознавание речи в Python

Я хочу создать скрипт распознавания речи для Raspberry Pi в Python и мне нужна библиотека асинхронного / непрерывного распознавания речи. Асинхронный означает, что мне нужно бесконечно выполнять распознавание до тех пор, пока произнесенное слово не …
0 ответов

REST-API получает ошибку 403 при инициализации потоков

Я начал работать с google speech api, но когда я инициализирую streams Я все еще получаю ошибку 403. Я включил User-Agent в запросе, но, похоже, все равно выдает ошибку. Api key действительно действителен, потому что я получаю ответ при запросе в ко…
1 ответ

Распознавание речи: обнаружение японской каны (согласный + гласный)

Я хотел бы найти некоторый открытый исходный код (хотя я бы согласился на продукт с закрытым исходным кодом), чтобы преобразовать входящий аудиопоток японской каны (т.е. пары согласных + гласных) и распечатать их в значительной степени в режиме реал…
10 ноя '11 в 21:02
2 ответа

Как начать распознавание речи, как только текст прекратится.

Я хочу начать распознавание речи, как только остановится текст в речь. Ниже приведены шаги, которые я предпринял. Шаг 1: Инициализация распознавания речи. mSpeechRecognizer = SpeechRecognizer.createSpeechRecognizer(this); mSpeechRecognizer.setRecogn…
19 сен '18 в 07:54
0 ответов

Не действуй на синтезированный ответ

Я пытаюсь сделать автономного голосового управления домашним помощником. я использую pocketsphinx для речи в текст и espeak для преобразования текста в речь, например, если я дам команду "открыть браузер", он откроет браузер и ответит "обработан отк…
17 мар '17 в 12:18
1 ответ

Как изменить язык распознавания речи в Android Wear

Я хочу реализовать распознавание речи по ключевым словам, используя RecognizerIntent и пользовательский интерфейс износа Android по умолчанию. Проблема в том, что я не могу сменить язык по умолчанию, на котором слушает Android Wear Wear. Я хочу расп…
1 ответ

Как отключить микрофон после завершения распознавания речи?

Недавно я реализовал функцию распознавания речи с помощью речевого API HTML5, которая может быть интегрирована с Google Chrome. Проблема, с которой я сталкиваюсь, заключается в том, как отключить микрофон после завершения речи? Знак записи не должен…
15 июл '17 в 01:19
1 ответ

Речь Microsoft Добавить пользовательскую грамматику языка и тренироваться?

Можно ли добавить свои собственные "слова" в качестве грамматики, и могу ли я научить движок распознавать его?
01 июн '13 в 22:56
1 ответ

Кто-нибудь успешно использовал CMU Sphinx для программирования с помощью распознавания голоса

Я хочу начать делать часть своего кодирования с помощью программного обеспечения для распознавания голоса (возможно, 10-20% работы, которую я делаю). Я видел, что некоторые люди имели успех с программным обеспечением Dragon Natural Speaking (DNS), н…
1 ответ

Аудиоформат Microsoft Factory для службы распознавания речи

В документации говорится, что "звук должен быть PCM, моно, 16-битная выборка, с частотой дискретизации 8000 Гц или 16000 Гц". Скажем, я хочу использовать DataClient, я получаю аудио в байтах. Как я могу преобразовать это в это?
1 ответ

INVALID_ARGUMENT: размер полезной нагрузки запроса превышает ограничение: 10485760 байт

Я впервые использую GCS Speech API для проекта, чтобы преобразовать серию аудиофайлов в текст. Каждый файл длится около 60 минут и представляет собой человека, разговаривающего непрерывно в течение всего времени. Я установил GC SDK и использую его д…
2 ответа

Применение K-средних к коэффициентам MFCC для ASR

Я разделил свой аудиосигнал на кадр 20 мс с перекрытием 10 мс. В результате у меня 500 кадров. Я рассчитал коэффициенты MFCC для каждого кадра. Я хочу сделать векторное квантование для каждого кадра, используя алгоритм K-MEAN. У меня есть 16 коэффиц…
11 мар '17 в 17:37
0 ответов

Android в автономном режиме распознавания речи показывает только один результат?

Я установил службу распознавания речи, как показано в этом посте. Android Speech Recognition в качестве службы на Android 4.1 и 4.2, и когда я использую автономное распознавание (перевод телефона в плоский режим), он показывает только 1 результат в …
16 окт '13 в 12:53
0 ответов

Распознаватель речи сервисом WCF с клиентским приложением Xamarin для Android

Я хотел бы написать WCF Serwis, где я использую библиотеку Microsotf.Speech.Recognition, чтобы сделать сервис преобразования речи в текст. Вот мой сервисный код: public class Rozpoznawacz : IRozpoznawacz { public void AudioToText(Stream audioStr) { …
1 ответ

Как получить несколько результатов речи в sphinx 4 с помощью API SpeechResult?

result.getHypothesis() не всегда дает мне лучший результат, поэтому я хочу получить несколько результатов после распознавания. Я попробовал код ниже, он возвращает мне пустой массив. Распознаватель является объектом LiveSpeechRecognizer. SpeechResul…
1 ответ

Распознаватель речи для преобразования речи в текст во время звонка в Android

Я искал решение, которое позволило бы мне преобразовывать речь в текст во время разговора. Я хочу преобразовать голос, исходящий от говорящего, в текст, чтобы обработать эти данные для создания жизнеспособного вывода, а затем преобразовать этот текс…
0 ответов

Проблемы с использованием аудиофайла в сегменте GCP в функции transrcibe_async в облачной оболочке

У меня проблемы с получением transcribe_async функция для работы в cloudshell, Кроме того, когда я пытаюсь find файл, который я имею в ведро из командной строки в cloudshell, он говорит, что нет такого файла или каталога.
1 ответ

Распознавание речи Python дает плохие результаты

Я пытаюсь заставить мой скрипт распознавания речи работать, но он не может понять меня. import pyaudio import speech_recognition as sr def initSpeech(): r = sr.Recognizer() with sr.Microphone() as source: r.adjust_for_ambient_noise(source, duration=…
2 ответа

Используйте SpeechRecognizer с Bluetooth-гарнитурой

Я использую SpeechRecognizer в моем приложении, так что у меня нет этого раздражающего всплывающего окна Speech Input. Однако, если я пытаюсь использовать этот класс, когда подключена гарнитура Bluetooth (через AudioManager.startBluetoothSco), это д…
26 ноя '11 в 18:36