У меня есть база данных и API для хинди Wordnet. Я хочу получить доступ к этой сети слов из NLTK Python. Есть ли способ добавить нашу собственную WordNet в NLTK?
У меня есть база данных и API для хинди Wordnet. Я хочу получить доступ к этой wordnet из NLTK python, чтобы использовать функции NLTK Wordnet с нашей wordnet. Есть ли способ добавить нашу собственную WordNet в NLTK? Или есть ли какие-либо инструменты для устранения неоднозначности в Word Sense на хинди (которые могут работать с любым языком Wordnet с некоторыми изменениями) (который дает наиболее подходящий смысл из Wordnet)?
1 ответ
Если вы загляните в свою папку nltk_data, то увидите, что wordnet, как и любой другой корпус NLTK, представляет собой просто набор текстовых файлов. Таким образом, должен быть способ отформатировать вашу хинди Wordnet так же, как NLTK, чтобы использовать функции. Вот выдержка из объекта nltk.corpus.reader.wordnet, где эти файлы читаются:
#: A list of file identifiers for all the fileids used by this
#: corpus reader.
_FILES = ('cntlist.rev', 'lexnames', 'index.sense',
'index.adj', 'index.adv', 'index.noun', 'index.verb',
'data.adj', 'data.adv', 'data.noun', 'data.verb',
'adj.exc', 'adv.exc', 'noun.exc', 'verb.exc', )
def __init__(self, root):
"""
Construct a new wordnet corpus reader, with the given root
directory.
"""
super(WordNetCorpusReader, self).__init__(root, self._FILES,
encoding=self._ENCODING)
Я полагаю, вам не нужно создавать все эти файлы, но что более важно, вам нужно использовать файл "index.sense" для устранения неоднозначности Word Sense. Это не сгенерировано NLTK, но должно быть предварительно обработано до этого или должно приходить с вашей хинди wordnet в следующем формате - http://wordnet.princeton.edu/wordnet/man/senseidx.5WN.html.
После того, как вы выполнили все шаги, я бы просто пошел на../nltk/corpus/reader/wordnet.py и либо создал его копию, где вы можете изменить корень и имена файлов и, возможно, некоторые другие зависимости, но все еще использовать функциональность ИЛИ изменить то, что вам нужно в существующих классах (не рекомендуется).
PS Немного погугливости дал мне ссылку на http://www.cs.utexas.edu/~rashish/cs365ppt.pdf, которая ссылается на кучу других источников на эту тему.