Определить язык текста

Question

Определить язык текста

Существует ли библиотека C#, которая может определять язык определенного фрагмента текста? т.е. для ввода текста "This is a sentence", он должен определять язык как "English", Или для "Esto es una sentencia" он должен определять язык как "Spanish",

Я понимаю, что обнаружение языка по тексту не является детерминированной проблемой. Но и Google Translate, и Bing Translator имеют опцию "Автоопределение", которая лучше всего определяет язык ввода. Есть ли что-то подобное доступное публично, предпочтительно в C#?

22

c# language-detection

Источник

user5734 23 сен '09 в 07:00

7 ответов

Другие вопросы по тегам c# language-detection

user322042 23 май '11 в 19:04 2011-05-23 19:04 · Answer 1 · 2011-05-23 19:04

Да, действительно, TextCat очень хорош для идентификации языка. И это имеет много реализаций на разных языках.

В.Net не было портов. Итак, я написал один: NTextCat ( NuGet, Online Demo).

Это чистый.NET Framework DLL + интерфейс командной строки к нему. По умолчанию используется профиль из 14 языков.

Любая обратная связь очень ценится! Новые идеи и пожелания приветствуются тоже:)

user2026185 30 янв '13 в 16:53 2013-01-30 16:53 · Answer 2 · 2013-01-30 16:53

Вы можете найти реализацию C# на основе анализа 3grams здесь:

http://idsyst.hu/development/language_detector.html

3

Источник

user2026185 30 янв '13 в 16:53

user10320 23 сен '09 в 07:49 2009-09-23 07:49 · Answer 3 · 2009-09-23 07:49

Определение языка - довольно сложная вещь.

Некоторые языки намного легче обнаружить, чем другие просто из-за используемых диакритических знаков и диграфов / триграфов. Например, двойные острые акценты используются почти исключительно на венгерском языке. Точка без ' i ' ı ', используется исключительно [на мой взгляд] на турецком языке, t-запятая (не t-cedilla) используется только на румынском языке, а eszett' ß 'встречается только на немецком языке.

Некоторые орграфы, триграфы и тетраграфы также являются хорошим подарком. Например, вы, скорее всего, найдете 'eeuw' и 'ieuw' в основном на голландском языке, а 'tsch' и 'dsch' в основном на немецком и т. Д.

Более дешевая распродажа будет включать в себя общие слова или общие префиксы / суффиксы, используемые в конкретном языке. Иногда даже используемая пунктуация может помочь определить язык (стиль цитирования и использование и т. Д.).

Если такая библиотека существует, я бы хотел узнать об этом, так как сам над ней работаю.

user5190 23 сен '09 в 07:18 2009-09-23 07:18 · Answer 4 · 2009-09-23 07:18

Здесь у вас есть простой детектор, основанный на статистике биграмм (в основном это означает, что вы узнаете из большого набора, какие биграммы встречаются чаще на каждом языке, а затем подсчитываете их в куске текста, сравнивая с вашими ранее обнаруженными значениями):

http://allantech.blogspot.com/2007/07/automatic-language-detection.html

Это, вероятно, достаточно хорошо для многих (большинства?) Приложений и не требует доступа в Интернет.

Конечно, он будет работать хуже, чем алгоритм Google или Bing (которые сами по себе не очень хороши). Если вам нужна отличная производительность обнаружения, вам придется выполнять как много тяжелой работы, так и огромные объемы данных.

Другой вариант - использовать API Google или Bing, если у вашего приложения есть доступ в Интернет.

user300836 14 апр '10 в 13:30 2010-04-14 13:30 · Answer 5 · 2010-04-14 13:30

Я обнаружил, что "textcat" очень полезен для этого. Я использовал реализацию PHP, PHP Text Cat, основанную на этой оригинальной реализации, и нашел ее надежной. Если вы посмотрите на источники, вы обнаружите, что это не очень сложно реализовать на выбранном вами языке. Тяжелая работа - буквенные комбинации, относящиеся к определенному языку, - все это в виде данных.

user316536 14 апр '10 в 13:24 2010-04-14 13:24 · Answer 6 · 2010-04-14 13:24

Существует простой инструмент для определения языка текста: http://www.detectlanguage.com/

0

Источник

user316536 14 апр '10 в 13:24

user52273 23 сен '09 в 07:11 2009-09-23 07:11 · Answer 7 · 2009-09-23 07:11

Вы захотите алгоритм машинного обучения, основанный на скрытых цепях Маркова, обрабатывать кучу текстов на разных языках.

Затем, когда дело доходит до неопознанного текста, язык, имеющий более близкий "балл", становится победителем.

0

Источник

user52273 23 сен '09 в 07:11