Является ли преобразование речи в текст невозможной мечтой?

Теоретически, можно использовать микрофон ноутбука, планшета или телефона для захвата произнесенных слов, преобразовать их в слова на экране, а затем, используя API-интерфейс, например, Google Translate, увидеть "a" (а не "the" - вряд ли когда-либо, в любом случае)) грубый "черновик" перевода этих слов (скажем, с английского на испанский или с испанского на английский).

Я думал, что это было бы полезно в зале суда - как своего рода "блокнот без рук" для судебных переводчиков.

Теоретически просто, но возможно ли это? Я вижу несколько потенциальных проблем:

Программное обеспечение должно быть сказано, какой язык является целевым, а какой является исходным языком. В противном случае возможна задержка, а иногда и неправильный вывод, если устройство оставлено на свое усмотрение (автоопределение).

Фоновые шумы и голоса должны быть отфильтрованы.

Перевод (попытка) будет действителен только после того, как говорящий закончил предложение - и как программное обеспечение узнает об этом? По длине пауз? Некоторые люди долго останавливаются в предложении; некоторые люди просто делают паузу между предложениями, так что... как это будет работать?

Люди, не говорящие ясно или с трудными для понимания акцентами.

И это даже не упоминание (кроме здесь, косвенно), что контекст часто неверно истолковывается переводчиками-роботами.

Моя интуиция заключается в том, что если бы Авраам Линкольн и Мартин Лютер Кинг говорили одновременно (что даже в зале суда иногда случается), программное обеспечение могло бы придумать что-то вроде этого:

На счет и семь лет назад я рад присоединиться к вам сегодня. Наши отцы принесли четвертое место на этом континенте, новую нацию, вошедшую в историю как величайший в Либерти, и. Посвящается поту, что демонстрация свободы у всех людей одинакова. История нашей нации.

... а потом переводится примерно так:

ПУНТУАЦИОН И ХАЙС СИТЕ АНОС КЮ ЭСТО ЭНКОД ЕНКАДЭТ ЮНИРЭЙД ХОЙ. Nuestros padres trajeron cuarto en este continente, una nueva nación, en lo que va a pasar a la historyia como el mayor concebida en la libertad, y. Посвящение в транспарентность и демострацию в защиту прав человека в семье. Историческая справка.

Я полагаю, что я говорю о том, что люди "качаются", когда дело доходит до такого рода вещей - по крайней мере, по сравнению с машинами (программным обеспечением) в их нынешнем уровне сложности, но мы или не будем "качаться" достаточно, чтобы преодолеть эту проблему? Есть ли способ преодолеть эти препятствия, по крайней мере, в достаточной степени, чтобы такая программа стоила того, чтобы ее использовать? Совершенство было бы недостижимым; Я считаю, что сопоставление человеческих навыков также было бы недостижимой целью, особенно из-за фактора контекста. Тем не менее: может ли речь-текст-контекст-перевод быть сделана даже относительно хорошо, и если да, то как?

1 ответ

Решение

Я считаю, что это возможно, и это может быть сделано относительно хорошо:

  • устройство должно быть способно понимать контекст, частично основываясь на данных, полученных от всех видов датчиков и памяти, их необходимо точно настроить, чтобы дать хороший результат, но разве это не то, что люди на самом деле делают все время? Мы оцениваем контекст на основе того, что мы видим, чувствуем, где мы находимся; что мы видели, что мы чувствовали и где мы были - умное устройство должно быть в состоянии воспроизвести это

  • устройство должно уметь угадывать, где заканчивается предложение / начинается на основе всего, что оно знает о данном языке - люди делают то же самое,

Если бы устройство имело те же датчики, знания и память, что и люди, то теоретически оно могло бы делать то же самое.

Даже мгновение может дать много контекста, я думаю, что все сводится к сложности и диапазону данных, которые устройство принимает и использует для правильного перевода текста. Чем больше он знает, тем лучше.

Другие вопросы по тегам