Каков Хороший пакет для Фонетического Представления для Различных человеческих языков?

В настоящее время я работаю над проектом, для которого, я думаю, было бы полезно придумать фонетическое представление слов на разных языках. Я знаю, что Аспелл ​​делает это довольно хорошо, но я не думаю, что есть очень простой способ получить их фонетическое представление, поэтому я спрашиваю: есть ли какой-то другой хороший пакет для получения фонетического представления слова с учетом слова и языка / диалект / акцент / откуда это?

Это не обязательно должно быть на каком-то конкретном языке, но если бы это был Perl, это было бы лучше.

Я уже пробовал Soundex, Metaphone, DoubleMetaphone и все остальное в Text:: Phonetic, и ничего из этого не было очень хорошим - определенно, далеко не так хорошо, как в Aspell.

3 ответа

В CPAN есть пакет Text::Aspell. Может быть полезным.

Первое, что приходит на ум, это Soundex. Конечно, есть и Perl-модуль Soundex. Хотя он предназначен для генерации "ключа" soundex из ввода, он может быть полезен при отображении различных вариантов в общий ключ.

Если вы пытаетесь создать систему предложений / исправлений в стиле Google, она основана не только на фонетике или искусственном интеллекте, но и на огромном количестве пользовательского ввода. Когда пользователь выполняет поиск и не щелкает по какой-либо ссылке, но исправляет ввод и выполняет поиск снова, он дает Google много данных о "правильном" написании, чем фонетический тест или словарь соответствия. Основная проблема заключается в самом человеческом языке, а не в том, что люди говорят или пишут детерминистическим образом, не говоря уже о нескольких языках. Конечно, я могу ошибаться, но если вам нужна библиотека, то давайте сделаем это:

getLanguage(string);

Я хочу увидеть, как это работает, правда.

Другие вопросы по тегам