Описание тега speech

Речь - это вокализированная форма человеческого общения.
1 ответ

Разработка приложения для распознавания речи Kinect для поверхности стола

В настоящее время я занимаюсь разработкой приложения для распознавания речи Kinect. Целевой платформой будет планшет Surface, хотя модель пока не определена. Само приложение позволит взаимодействовать с детьми по нескольким основным игровым сценария…
28 апр '14 в 10:28
0 ответов

Google Cloud Speech API C#

Я использую AT&T; Watson для выполнения транскрипции голоса в текст уже пару лет. Это был надежный и "нормальный" сервис, но в октябре они прекращают его. Я знаю, что MS Exchange может транскрибировать голосовую почту... Я предполагаю, что это реали…
09 авг '16 в 17:09
0 ответов

MonoTouch для iOS Микрофон Файл FLAC

Я программирую приложение для iOS который должен распознавать речь пользователя с MonoTouch, Мне нужно использовать микрофон и конвертировать Voice-File в FLAC формат, чтобы отправить его Google Speech API,
01 окт '13 в 15:08
1 ответ

Как ввести разные значения в нескольких текстовых полях через голос в C#

Мне нужно написать приложение, которое использует механизм распознавания речи. Как я могу ввести разные значения в нескольких текстовых полях с помощью голоса в C#? Я могу ввести значение в одном текстовом поле, но не во втором текстовом поле. У мен…
13 сен '12 в 05:57
3 ответа

Чтение исходного кода вслух

Увидев этот вопрос, я задумался о различных проблемах, с которыми сталкиваются слепые программисты, и о том, как некоторые из них применимы даже к зрячим программистам. В частности, проблема чтения исходного кода вслух заставляет меня задуматься. Я …
28 янв '10 в 07:49
0 ответов

Выборка Android-речи в текст с интервалами

В настоящее время функция android voice to text позволяет пользователю произносить предложение и обрабатывает его, когда пользователь делает паузу. Тем не менее, я пытаюсь выяснить, возможно ли произвести выборку пользователя через различные интерва…
28 июл '13 в 18:44
2 ответа

Применение K-средних к коэффициентам MFCC для ASR

Я разделил свой аудиосигнал на кадр 20 мс с перекрытием 10 мс. В результате у меня 500 кадров. Я рассчитал коэффициенты MFCC для каждого кадра. Я хочу сделать векторное квантование для каждого кадра, используя алгоритм K-MEAN. У меня есть 16 коэффиц…
11 мар '17 в 17:37
1 ответ

Как я могу записать голос с микрофона в волновом формате в Windows RT?

Я смог получить файл в формате mp3 и wma. Но мне нужен волновой формат.
03 апр '12 в 18:24
1 ответ

Есть ли способ позволить Applescript печатать то, что вы говорите?

Я думаю, что я не делаю это правильно, это то, что у меня есть... tell application "SpeechRecognitionServer" with timeout of (1.0E+9 * 100000000) seconds set theResponse to listen for text returned of {say "What do I have to type for you?"} with tim…
17 июл '15 в 12:49
0 ответов

Ошибки Android SpeechRecognizer ERROR_RECOGNIZER_BUSY, когда музыка приостановлена

В настоящее время я использую Android SpeechRecognizer для распознавания речи пользователя. Однако я столкнулся с действительно раздражающей ошибкой. Когда начинается воспроизведение музыки (с помощью любого музыкального проигрывателя), а затем прио…
31 янв '14 в 03:58
1 ответ

Как получить несколько результатов речи в sphinx 4 с помощью API SpeechResult?

result.getHypothesis() не всегда дает мне лучший результат, поэтому я хочу получить несколько результатов после распознавания. Я попробовал код ниже, он возвращает мне пустой массив. Распознаватель является объектом LiveSpeechRecognizer. SpeechResul…
2 ответа

Удаление частот в речи ниже 100 Гц

Я попытался удалить все частоты ниже 100 Гц из моего образца голоса (с помощью Octave), используя только БПФ (поскольку я не должен использовать какие-либо фильтры). Однако, когда я играю семпл, он звучит так, как будто сигнал искажен. После проб и …
14 окт '15 в 18:19
3 ответа

Автоматический распознаватель речи с предварительно обученным набором данных

Я хочу иметь автоматический распознаватель речи с обученной платформой, то есть голосовые моды. например:- у меня есть два очень похожих слова, поэтому система должна прослушать полное слово и любой дилакс, проверить его и дать вывод. Как это сделат…
05 июн '13 в 11:17
1 ответ

Распознаватель речи не работает с моей формой, я думаю, что они не связаны

Эй, я использую распознаватель речи, он не распознает слова в моем проекте, я имею в виду, что он распознает их в одиночку, но он не применяет это в моей форме, вот код private void Speak_Load(object sender, EventArgs e) { sr= new SpeechRecognizer()…
18 апр '14 в 10:18
2 ответа

Японский текст в речь Android?

Я программирую приложение, которое может говорить на текст на японском языке. Однако когда я пишу код, я знаю, что Android не поддерживает японский язык. Я пытаюсь использовать SVOX. Тем не менее, это не лучшее решение? Можете ли вы помочь мне решит…
31 мар '14 в 10:39
0 ответов

Непрерывное распознавание речи Как OK-Google с многоязычным

Я реализовал Google-Speak в своих проектах, но его ограничение - его ответ только 3 секунды, поэтому я зацикливаю код, но некоторое время он не отвечает должным образом. Существуют ли какие-либо библиотеки или службы, которые поддерживают непрерывно…
17 янв '18 в 06:39
1 ответ

Предварительная загрузка Web Speech API перед вызовом говорить

Итак, я заметил, что после того, как вы сделаете первый разговор, используя speechSynthesis.speakЭто значительно ускоряет процесс предоставления результатов. Итак, моя цель ниже состояла в том, чтобы ускорить его, предварительно инициализировав синт…
0 ответов

Что означает make_z в генераторе

В последнее время я читаю статью "SEGAN: Речевая сеть, способствующая улучшению речи". Когда я попытался повторить эксперимент, у меня возникла проблема. Что значит make_z означает в generator.py? Что делает эта часть? Генератор класса (объект): def…
26 фев '19 в 04:00
3 ответа

Jelly Bean Beep в распознавании речи

Я просматривал различные темы и не нашел ничего, что помогло бы мне решить проблему, с которой я столкнулся. Я хотел бы избавиться от звукового сигнала, который вы получаете, когда начинается распознавание речи. Я работаю с Jelly Bean 4.2.2, поэтому…
04 май '13 в 03:43
1 ответ

Ошибка RecognitionConfig должна быть либо неопределенной, либо соответствовать значению в аудио заголовке FLAC в речи Google для текстового API

Я уже пытался преобразовать звук из стерео в моно, но безуспешно, я пытался изменить скорость в герцах, но тоже безуспешно from pydub import AudioSegment from google.cloud import speech_v1p1beta1 as speech import os, logging import urllib.request KE…