Как проверить, является ли слово английским словом с Python?

Question

Как проверить, является ли слово английским словом с Python?

Я хочу проверить в программе Python, есть ли слово в словаре английского языка.

Я полагаю, что nltk интерфейс Wordnet мог бы быть способом пойти, но я понятия не имею, как использовать его для такой простой задачи.

def is_english_word(word):
    pass # how to I implement is_english_word?

is_english_word(token.lower())

В будущем я могу захотеть проверить, присутствует ли в словаре единственная форма слова (например, свойства -> свойство -> английское слово). Как бы я этого достиг?

188

python nltk wordnet

Источник

user131427 24 сен '10 в 16:01

13 ответов

Решение

Это не будет хорошо работать с WordNet, потому что WordNet не содержит все английские слова. Еще одна возможность, основанная на НЛТК без чар, - это корпус слов НЛТК

>>> from nltk.corpus import words
>>> "would" in words.words()
True
>>> "could" in words.words()
True
>>> "should" in words.words()
True
>>> "I" in words.words()
True
>>> "you" in words.words()
True

76

Источник

user2013672 28 янв '14 в 08:38

Используя NLTK:

from nltk.corpus import wordnet

if not wordnet.synsets(word_to_test):
  #Not an English Word
else:
  #English Word

Вам следует обратиться к этой статье, если у вас возникли проблемы с установкой wordnet или вы хотите попробовать другие подходы.

53

Источник

user49847 18 мар '11 в 11:29

Использование набора для хранения списка слов, потому что поиск их будет быстрее:

with open("english_words.txt") as word_file:
    english_words = set(word.strip().lower() for word in word_file)

def is_english_word(word):
    return word.lower() in english_words

print is_english_word("ham")  # should be true if you have a good english_words.txt

Чтобы ответить на вторую часть вопроса, множественное число уже было бы в хорошем списке слов, но если вы по какой-то причине хотели бы специально исключить их из списка, вы могли бы действительно написать функцию для обработки этого. Но английские правила плюрализации достаточно хитры, поэтому я бы просто включил множественное число в список слов для начала.

Что касается того, где найти списки английских слов, я нашел несколько, просто погуглив "английский список слов". Вот один из них: http://www.sil.org/linguistics/wordlists/english/wordlist/wordsEn.txt Вы можете использовать Google для британского или американского английского, если вам нужен именно один из этих диалектов.

42

Источник

user416467 24 сен '10 в 16:12

Для всех пользователей Linux/Unix

Если ваша ОС использует ядро Linux, есть простой способ получить все слова из англо-американского словаря. В каталоге/usr/share/dict у тебя есть wordsфайл. Есть также более конкретныйamerican-english а также british-englishфайлы. Они содержат все слова на этом конкретном языке. Вы можете получить доступ к этому на любом языке программирования, поэтому я подумал, что вы, возможно, захотите узнать об этом.

Теперь, для конкретных пользователей python, приведенный ниже код python должен назначать слова списка, чтобы иметь значение каждого отдельного слова:

import re
file = open("/usr/share/dict/words", "r")
words = re.sub("[^\w]", " ",  file.read()).split()

def is_word(word):
    return word.lower() in words

is_word("tarts") ## Returns true
is_word("jwiefjiojrfiorj") ## Returns False

Надеюсь это поможет!!!

17

Источник

user12584873 28 апр '20 в 15:09

Для более быстрого решения на основе NLTK вы можете хэшировать набор слов, чтобы избежать линейного поиска.

from nltk.corpus import words as nltk_words
def is_english_word(word):
    # creation of this dictionary would be done outside of 
    #     the function because you only need to do it once.
    dictionary = dict.fromkeys(nltk_words.words(), None)
    try:
        x = dictionary[word]
        return True
    except KeyError:
        return False

9

Источник

user1971399 27 июн '16 в 19:58

Я считаю, что есть 3 пакетных решения для решения проблемы. Это пиенчант, wordnet и корпус (самоопределяемые или из ntlk). Pyenchant не может быть легко установлен в win64 с py3. Wordnet работает не очень хорошо, потому что его корпус не завершен. Поэтому я выбираю решение, на которое отвечает @Sadik, и использую set(words.words()) для ускорения.

Первый:

pip install -U nltk
python
import nltk
nltk.download(words)

Затем:

from nltk.corpus import words
if "hello" in set(words.words())
>>True

9

Источник

user10482133 03 фев '19 в 03:53

С pyEnchant.checker SpellChecker:

from enchant.checker import SpellChecker

def is_in_english(quote):
    d = SpellChecker("en_US")
    d.set_text(quote)
    errors = [err.word for err in d]
    return False if ((len(errors) > 4) or len(quote.split()) < 3) else True

print(is_in_english('“办理美国加州州立大学圣贝纳迪诺分校高仿成绩单Q/V2166384296加州州立大学圣贝纳迪诺分校学历学位认证'))
print(is_in_english('“Two things are infinite: the universe and human stupidity; and I\'m not sure about the universe.”'))

> False
> True

3

Источник

user3970880 04 май '17 в 14:16

Для семантического веб-подхода вы можете выполнить запрос sparql к WordNet в формате RDF. В основном, просто используйте модуль urllib для выдачи запроса GET и возврата результатов в формате JSON, анализируйте с помощью модуля Python 'json'. Если это не английское слово, вы не получите результатов.

Как еще одна идея, вы можете запросить API Викисловаря.

1

Источник

user391678 24 сен '10 в 17:28

Ни одна из вышеперечисленных библиотек не содержит всех английских слов, поэтому я импортировал CSV-файл, содержащий все английские слова, по ссылке:->https://github.com/dwyl/english-words

И просто превратил это вpandas dataframeи сравнил их

0

Источник

Priyanshu 12 июн '23 в 20:45

вы можете увидеть эту страницу:

Как определить язык

Я рекомендую langid

0

Источник

user14392344 12 окт '21 в 22:50

Загрузите этот текстовый файл https://raw.githubusercontent.com/dwyl/english-words/master/words_alpha.txt.

затем создайте Setиз него, используя следующий фрагмент кода Python, который загружает около 370 тыс. не буквенно-цифровых слов на английском языке

      >>> with open("/PATH/TO/words_alpha.txt") as f:
>>>     words = set(f.read().split('\n'))
>>> len(words)
370106

С этого момента вы можете проверить существование в постоянное время, используя

      >>> word_to_check = 'baboon'
>>> word_to_check in words
True

Обратите внимание, что этот набор может быть неполным, но все же выполняет свою работу, пользователь должен выполнить проверку качества, чтобы убедиться, что он работает и для его варианта использования.

0

Источник

user2931946 23 май '22 в 18:19

используйте nltk.corpus вместо enchant. Энчант дает неоднозначные результаты. Например: для эталона и эталона enchant возвращает true. Предполагается, что для теста будет возвращено false.

0

Источник

10 апр '21 в 14:51

Другие вопросы по тегам python nltk wordnet

user398968 24 сен '10 в 16:26 2010-09-24 16:26 · Accepted Answer · 2010-09-24 16:26

Для (гораздо) большей мощности и гибкости используйте специальную библиотеку для проверки орфографии, такую как PyEnchant, Там есть учебник, или вы можете просто погрузиться прямо в:

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>> d.suggest("Helo")
['He lo', 'He-lo', 'Hello', 'Helot', 'Help', 'Halo', 'Hell', 'Held', 'Helm', 'Hero', "He'll"]
>>>

PyEnchant поставляется с несколькими словарями (en_GB, en_US, de_DE, fr_FR), но может использовать любой из OpenOffice, если вам нужно больше языков.

Похоже, что есть библиотека плюрализации inflect, но я понятия не имею, хорошо ли это.