Описание тега speech
Речь - это вокализированная форма человеческого общения.
1
ответ
Разработка приложения для распознавания речи Kinect для поверхности стола
В настоящее время я занимаюсь разработкой приложения для распознавания речи Kinect. Целевой платформой будет планшет Surface, хотя модель пока не определена. Само приложение позволит взаимодействовать с детьми по нескольким основным игровым сценария…
28 апр '14 в 10:28
0
ответов
Google Cloud Speech API C#
Я использую AT&T; Watson для выполнения транскрипции голоса в текст уже пару лет. Это был надежный и "нормальный" сервис, но в октябре они прекращают его. Я знаю, что MS Exchange может транскрибировать голосовую почту... Я предполагаю, что это реали…
09 авг '16 в 17:09
0
ответов
MonoTouch для iOS Микрофон Файл FLAC
Я программирую приложение для iOS который должен распознавать речь пользователя с MonoTouch, Мне нужно использовать микрофон и конвертировать Voice-File в FLAC формат, чтобы отправить его Google Speech API,
01 окт '13 в 15:08
1
ответ
Как ввести разные значения в нескольких текстовых полях через голос в C#
Мне нужно написать приложение, которое использует механизм распознавания речи. Как я могу ввести разные значения в нескольких текстовых полях с помощью голоса в C#? Я могу ввести значение в одном текстовом поле, но не во втором текстовом поле. У мен…
13 сен '12 в 05:57
3
ответа
Чтение исходного кода вслух
Увидев этот вопрос, я задумался о различных проблемах, с которыми сталкиваются слепые программисты, и о том, как некоторые из них применимы даже к зрячим программистам. В частности, проблема чтения исходного кода вслух заставляет меня задуматься. Я …
28 янв '10 в 07:49
0
ответов
Выборка Android-речи в текст с интервалами
В настоящее время функция android voice to text позволяет пользователю произносить предложение и обрабатывает его, когда пользователь делает паузу. Тем не менее, я пытаюсь выяснить, возможно ли произвести выборку пользователя через различные интерва…
28 июл '13 в 18:44
2
ответа
Применение K-средних к коэффициентам MFCC для ASR
Я разделил свой аудиосигнал на кадр 20 мс с перекрытием 10 мс. В результате у меня 500 кадров. Я рассчитал коэффициенты MFCC для каждого кадра. Я хочу сделать векторное квантование для каждого кадра, используя алгоритм K-MEAN. У меня есть 16 коэффиц…
11 мар '17 в 17:37
1
ответ
Как я могу записать голос с микрофона в волновом формате в Windows RT?
Я смог получить файл в формате mp3 и wma. Но мне нужен волновой формат.
03 апр '12 в 18:24
1
ответ
Есть ли способ позволить Applescript печатать то, что вы говорите?
Я думаю, что я не делаю это правильно, это то, что у меня есть... tell application "SpeechRecognitionServer" with timeout of (1.0E+9 * 100000000) seconds set theResponse to listen for text returned of {say "What do I have to type for you?"} with tim…
17 июл '15 в 12:49
0
ответов
Ошибки Android SpeechRecognizer ERROR_RECOGNIZER_BUSY, когда музыка приостановлена
В настоящее время я использую Android SpeechRecognizer для распознавания речи пользователя. Однако я столкнулся с действительно раздражающей ошибкой. Когда начинается воспроизведение музыки (с помощью любого музыкального проигрывателя), а затем прио…
31 янв '14 в 03:58
1
ответ
Как получить несколько результатов речи в sphinx 4 с помощью API SpeechResult?
result.getHypothesis() не всегда дает мне лучший результат, поэтому я хочу получить несколько результатов после распознавания. Я попробовал код ниже, он возвращает мне пустой массив. Распознаватель является объектом LiveSpeechRecognizer. SpeechResul…
28 сен '15 в 10:06
2
ответа
Удаление частот в речи ниже 100 Гц
Я попытался удалить все частоты ниже 100 Гц из моего образца голоса (с помощью Octave), используя только БПФ (поскольку я не должен использовать какие-либо фильтры). Однако, когда я играю семпл, он звучит так, как будто сигнал искажен. После проб и …
14 окт '15 в 18:19
3
ответа
Автоматический распознаватель речи с предварительно обученным набором данных
Я хочу иметь автоматический распознаватель речи с обученной платформой, то есть голосовые моды. например:- у меня есть два очень похожих слова, поэтому система должна прослушать полное слово и любой дилакс, проверить его и дать вывод. Как это сделат…
05 июн '13 в 11:17
1
ответ
Распознаватель речи не работает с моей формой, я думаю, что они не связаны
Эй, я использую распознаватель речи, он не распознает слова в моем проекте, я имею в виду, что он распознает их в одиночку, но он не применяет это в моей форме, вот код private void Speak_Load(object sender, EventArgs e) { sr= new SpeechRecognizer()…
18 апр '14 в 10:18
2
ответа
Японский текст в речь Android?
Я программирую приложение, которое может говорить на текст на японском языке. Однако когда я пишу код, я знаю, что Android не поддерживает японский язык. Я пытаюсь использовать SVOX. Тем не менее, это не лучшее решение? Можете ли вы помочь мне решит…
31 мар '14 в 10:39
0
ответов
Непрерывное распознавание речи Как OK-Google с многоязычным
Я реализовал Google-Speak в своих проектах, но его ограничение - его ответ только 3 секунды, поэтому я зацикливаю код, но некоторое время он не отвечает должным образом. Существуют ли какие-либо библиотеки или службы, которые поддерживают непрерывно…
17 янв '18 в 06:39
1
ответ
Предварительная загрузка Web Speech API перед вызовом говорить
Итак, я заметил, что после того, как вы сделаете первый разговор, используя speechSynthesis.speakЭто значительно ускоряет процесс предоставления результатов. Итак, моя цель ниже состояла в том, чтобы ускорить его, предварительно инициализировав синт…
08 апр '15 в 18:51
0
ответов
Что означает make_z в генераторе
В последнее время я читаю статью "SEGAN: Речевая сеть, способствующая улучшению речи". Когда я попытался повторить эксперимент, у меня возникла проблема. Что значит make_z означает в generator.py? Что делает эта часть? Генератор класса (объект): def…
26 фев '19 в 04:00
3
ответа
Jelly Bean Beep в распознавании речи
Я просматривал различные темы и не нашел ничего, что помогло бы мне решить проблему, с которой я столкнулся. Я хотел бы избавиться от звукового сигнала, который вы получаете, когда начинается распознавание речи. Я работаю с Jelly Bean 4.2.2, поэтому…
04 май '13 в 03:43
1
ответ
Ошибка RecognitionConfig должна быть либо неопределенной, либо соответствовать значению в аудио заголовке FLAC в речи Google для текстового API
Я уже пытался преобразовать звук из стерео в моно, но безуспешно, я пытался изменить скорость в герцах, но тоже безуспешно from pydub import AudioSegment from google.cloud import speech_v1p1beta1 as speech import os, logging import urllib.request KE…
07 дек '18 в 19:04