Описание тега speech-recognition
Распознавание речи (SR) - это междисциплинарная область компьютерной лингвистики, которая объединяет знания и исследования в области лингвистики, информатики и электротехники для разработки методологий и технологий, позволяющих распознавать и переводить разговорный язык в текст с помощью компьютеров. и компьютеризированные устройства, такие как интеллектуальные технологии и робототехника
3
ответа
Ошибка в программе java sphinx
Привет я делаю программное обеспечение в Java, в котором я хочу разработать речевое программное обеспечение... Я запускаю "Hello" код сфинкса в Java. import edu.cmu.sphinx.frontend.util.Microphone; import edu.cmu.sphinx.recognizer.Recognizer; import…
02 мар '12 в 11:22
2
ответа
Raspberry Pi Асинхронное / непрерывное распознавание речи в Python
Я хочу создать скрипт распознавания речи для Raspberry Pi в Python и мне нужна библиотека асинхронного / непрерывного распознавания речи. Асинхронный означает, что мне нужно бесконечно выполнять распознавание до тех пор, пока произнесенное слово не …
07 мар '15 в 17:48
0
ответов
REST-API получает ошибку 403 при инициализации потоков
Я начал работать с google speech api, но когда я инициализирую streams Я все еще получаю ошибку 403. Я включил User-Agent в запросе, но, похоже, все равно выдает ошибку. Api key действительно действителен, потому что я получаю ответ при запросе в ко…
07 окт '18 в 14:37
1
ответ
Распознавание речи: обнаружение японской каны (согласный + гласный)
Я хотел бы найти некоторый открытый исходный код (хотя я бы согласился на продукт с закрытым исходным кодом), чтобы преобразовать входящий аудиопоток японской каны (т.е. пары согласных + гласных) и распечатать их в значительной степени в режиме реал…
10 ноя '11 в 21:02
2
ответа
Как начать распознавание речи, как только текст прекратится.
Я хочу начать распознавание речи, как только остановится текст в речь. Ниже приведены шаги, которые я предпринял. Шаг 1: Инициализация распознавания речи. mSpeechRecognizer = SpeechRecognizer.createSpeechRecognizer(this); mSpeechRecognizer.setRecogn…
19 сен '18 в 07:54
0
ответов
Не действуй на синтезированный ответ
Я пытаюсь сделать автономного голосового управления домашним помощником. я использую pocketsphinx для речи в текст и espeak для преобразования текста в речь, например, если я дам команду "открыть браузер", он откроет браузер и ответит "обработан отк…
17 мар '17 в 12:18
1
ответ
Как изменить язык распознавания речи в Android Wear
Я хочу реализовать распознавание речи по ключевым словам, используя RecognizerIntent и пользовательский интерфейс износа Android по умолчанию. Проблема в том, что я не могу сменить язык по умолчанию, на котором слушает Android Wear Wear. Я хочу расп…
22 апр '15 в 08:02
1
ответ
Как отключить микрофон после завершения распознавания речи?
Недавно я реализовал функцию распознавания речи с помощью речевого API HTML5, которая может быть интегрирована с Google Chrome. Проблема, с которой я сталкиваюсь, заключается в том, как отключить микрофон после завершения речи? Знак записи не должен…
15 июл '17 в 01:19
1
ответ
Речь Microsoft Добавить пользовательскую грамматику языка и тренироваться?
Можно ли добавить свои собственные "слова" в качестве грамматики, и могу ли я научить движок распознавать его?
01 июн '13 в 22:56
1
ответ
Кто-нибудь успешно использовал CMU Sphinx для программирования с помощью распознавания голоса
Я хочу начать делать часть своего кодирования с помощью программного обеспечения для распознавания голоса (возможно, 10-20% работы, которую я делаю). Я видел, что некоторые люди имели успех с программным обеспечением Dragon Natural Speaking (DNS), н…
20 май '13 в 04:20
1
ответ
Аудиоформат Microsoft Factory для службы распознавания речи
В документации говорится, что "звук должен быть PCM, моно, 16-битная выборка, с частотой дискретизации 8000 Гц или 16000 Гц". Скажем, я хочу использовать DataClient, я получаю аудио в байтах. Как я могу преобразовать это в это?
10 май '16 в 15:22
1
ответ
INVALID_ARGUMENT: размер полезной нагрузки запроса превышает ограничение: 10485760 байт
Я впервые использую GCS Speech API для проекта, чтобы преобразовать серию аудиофайлов в текст. Каждый файл длится около 60 минут и представляет собой человека, разговаривающего непрерывно в течение всего времени. Я установил GC SDK и использую его д…
30 июл '18 в 20:17
2
ответа
Применение K-средних к коэффициентам MFCC для ASR
Я разделил свой аудиосигнал на кадр 20 мс с перекрытием 10 мс. В результате у меня 500 кадров. Я рассчитал коэффициенты MFCC для каждого кадра. Я хочу сделать векторное квантование для каждого кадра, используя алгоритм K-MEAN. У меня есть 16 коэффиц…
11 мар '17 в 17:37
0
ответов
Android в автономном режиме распознавания речи показывает только один результат?
Я установил службу распознавания речи, как показано в этом посте. Android Speech Recognition в качестве службы на Android 4.1 и 4.2, и когда я использую автономное распознавание (перевод телефона в плоский режим), он показывает только 1 результат в …
16 окт '13 в 12:53
0
ответов
Распознаватель речи сервисом WCF с клиентским приложением Xamarin для Android
Я хотел бы написать WCF Serwis, где я использую библиотеку Microsotf.Speech.Recognition, чтобы сделать сервис преобразования речи в текст. Вот мой сервисный код: public class Rozpoznawacz : IRozpoznawacz { public void AudioToText(Stream audioStr) { …
12 июн '14 в 12:41
1
ответ
Как получить несколько результатов речи в sphinx 4 с помощью API SpeechResult?
result.getHypothesis() не всегда дает мне лучший результат, поэтому я хочу получить несколько результатов после распознавания. Я попробовал код ниже, он возвращает мне пустой массив. Распознаватель является объектом LiveSpeechRecognizer. SpeechResul…
28 сен '15 в 10:06
1
ответ
Распознаватель речи для преобразования речи в текст во время звонка в Android
Я искал решение, которое позволило бы мне преобразовывать речь в текст во время разговора. Я хочу преобразовать голос, исходящий от говорящего, в текст, чтобы обработать эти данные для создания жизнеспособного вывода, а затем преобразовать этот текс…
28 май '18 в 11:32
0
ответов
Проблемы с использованием аудиофайла в сегменте GCP в функции transrcibe_async в облачной оболочке
У меня проблемы с получением transcribe_async функция для работы в cloudshell, Кроме того, когда я пытаюсь find файл, который я имею в ведро из командной строки в cloudshell, он говорит, что нет такого файла или каталога.
08 авг '18 в 22:10
1
ответ
Распознавание речи Python дает плохие результаты
Я пытаюсь заставить мой скрипт распознавания речи работать, но он не может понять меня. import pyaudio import speech_recognition as sr def initSpeech(): r = sr.Recognizer() with sr.Microphone() as source: r.adjust_for_ambient_noise(source, duration=…
13 май '18 в 14:49
2
ответа
Используйте SpeechRecognizer с Bluetooth-гарнитурой
Я использую SpeechRecognizer в моем приложении, так что у меня нет этого раздражающего всплывающего окна Speech Input. Однако, если я пытаюсь использовать этот класс, когда подключена гарнитура Bluetooth (через AudioManager.startBluetoothSco), это д…
26 ноя '11 в 18:36