Как обнаружить другие языки (не латинский), кроме английского в текстовом столбце в PostgreSQL?

У меня есть таблица с двумя столбцами: один идентификатор и другой текстовый столбец. Я хочу сохранить только те строки, которые имеют текстовое значение на английском языке.

Языки, о которых я говорю, это те, которые используют нелатинский алфавит, такие как арабский, китайский и кириллица. Этот вопрос был задан примерно в 2012 году, и мне было интересно, есть ли какое-то новое решение, скорее касающееся его на других языках программирования!

1 ответ

Это не простая проблема. Существует несколько библиотек для определения языка (например, langdetect), но они не работают внутри базы данных, поэтому вам придется обрабатывать все записи, выбирая их, обрабатывая на другом языке, а затем удаляя, если они не пройдут тест., Кроме того, точность невелика и уменьшается по мере сокращения текста; если ваши тексты всего пара слов, точность довольно ужасна.

Другие вопросы по тегам