Описание тега lemmatization

Lemmatization in linguistics is the process of grouping together the different inflected forms of a word so they can be analyzed as a single item.
0 ответов

НЛТК слово Лемматизатор странное поведение - помощь в маркировке POS - Python 3

Пытался написать небольшую программу по анализу настроений в python3. Но во время работы со словом лемматизатор увидел странное преобразование "было" в "ва", что было совершенно неожиданным. Ниже приведен мой код предварительной обработки - пожалуйс…
1 ответ

Многоязыковая лемматизация в Python

У меня есть набор данных на нескольких языках. я могу применить лемматизацию в соответствии с ее языком? Я уже разделил данные в соответствии с их языком. Пробовал с использованием WordNet лемматизации, но он поддерживает только английский язык Для …
12 дек '18 в 06:42
2 ответа

Как получить такие слова, как *olog и *ology, чтобы получить / лемматизировать к одному корню?

Я играл с кучей стеммеров и лемматизаторов в NLTK, но никто не делает то, что я хочу. У меня есть несколько слов, таких как "радиолог", "радиология", "кардиолог", "кардиология" и т. Д., Где я бы хотел, чтобы * олог пошел в то же ведро, что и * ологи…
06 апр '16 в 23:58
1 ответ

Lucene - лемматизация поиска по умолчанию

Есть ли Lucene поиск по умолчанию сделать лемматизацию /stemming на слова? Например, при использовании кода в этом примере слова в документах используются как есть или они преобразуются в их базовую форму (например, Managing -> manag), и если да, то…
4 ответа

Существует ли самообучающийся инструмент с открытым исходным кодом?

Мне нужно реализовать какой-то стеммер / лемматизатор. У меня есть несколько слов в разных формах (несколько тысяч). Это не морфологический словарь, просто небольшая его часть. Это хорошая идея, чтобы выучить stemmer автоматически из файла иметь? Ес…
13 ответов

Как превратить множественное число в единственном числе?

Я готовлю некоторые имена таблиц для ORM и хочу превратить имена нескольких таблиц в имена отдельных сущностей. Моя единственная проблема - найти алгоритм, который делает это надежно. Вот что я сейчас делаю: Если слово заканчивается на -ies, я замен…
28 апр '09 в 06:05
1 ответ

Python NLTK: поиск вхождения слова

Я использую коричневый корпус "brown.words()", который дает мне список из 1161192 слов. Теперь я хочу найти любое вхождение слова "иметь", поэтому всякий раз, когда в корпусе есть "имеет", "имел", "не имеет" и т. Д. Я хочу сделать что-то (может быть…
01 мар '18 в 20:34
1 ответ

Почему я столкнулся с AttributeError: у объекта 'WordListCorpusReader' нет атрибута 'word' в python?

Ниже приведен метод, который я пытался закодировать. Тем не менее, в строке 3 кодов сказано, что есть ошибка атрибута, и что объект "WordListCorpusReader" не имеет атрибута "слово" в python. Пожалуйста, помогите мне взглянуть на следующие коды:(( ''…
24 окт '18 в 04:15
1 ответ

Перебирая леммы в NLTK Wordnet

Есть скрипт для получения итальянских синонимов из Wordnet, например: from nltk.corpus import wordnet as wn it_lemmas = wn.lemmas("problema", lang="ita") hypernyms = it_lemmas[0].synset().hypernyms() print(hypernyms[0].lemmas(lang="ita")) Когда я де…
09 авг '18 в 13:31
1 ответ

Как использовать Standford NLP библиотеки в Java?

Кто-нибудь знает, как использовать стандартную библиотеку NLP для лемматизации. Это дает стиль maven рамки. Тем не менее, я только хотел использовать в обычной библиотеке. Я импортировал библиотеки NLP. Тем не менее, это дает мне ClassNotFoundExcept…
16 май '16 в 05:00
1 ответ

WordNetLemmatizer не возвращает правильную лемму, если POS не является явным - Python NLTK

Я лемматизирую стенограмму набора данных Теда. Я замечаю кое-что странное: не все слова лемматизируются. Сказать, selected -> select Какой правильный. Тем не мение, involved !-> involve а также horsing !-> horse если я не введу явно атрибут…
05 окт '15 в 21:06
1 ответ

Лемматизация делает корпус огромным

Используя ipython 2.7 и корпус с не-Ascii символами. Процесс очистки кажется хорошим, но как только я использую Wordnet или Porter для лемматизации корпуса, размер файла увеличивается в геометрической прогрессии. Пожалуйста, смотрите код ниже from n…
13 авг '14 в 18:17
1 ответ

Лемматизация запросов Solr/Lucene с контекстом

Я успешно реализовал чешский лемматизатор для Lucene. Я тестирую его с Solr, и он хорошо работает во время индекса. Но он не работает так хорошо, когда используется для запросов, потому что анализатор запросов не предоставляет никакого контекста (сл…
2 ответа

Используйте sapply/lapply или foreach для доступа к атрибутам данных R

Это может быть очень простой вопрос, но, честно говоря, я попробовал несколько решений по тем же вопросам, но не смог добиться успеха в своих данных. Это может быть из-за моих данных или у меня тяжелый день, и я ничего не могу понять.:( У меня есть …
10 авг '17 в 16:05
3 ответа

python wordnetlemmatizer: не zip-файл

Я пробую следующее для лемматизации: from nltk.stem.wordnet import WordNetLemmatizer wnl = WordNetLemmatizer() wnl.lemmatize("dogs") и продолжайте получать сообщение об ошибке "BadZipFile: файл не является файлом zip". Я не могу ничего найти по этом…
04 апр '17 в 14:39
1 ответ

Основные формы слова, не включенные в основы и лемматизацию

Мне нужно найти основные формы слов. Я прошел через одинаковые вопросы. Я использую Портер Стеммер и НЛП Стэнфордского ядра для стемминга и лемматизации. Рассмотрим следующие 3 набора слов A,B,C: Set Word Stem Lemma A Verity veriti verity (For all P…
0 ответов

Ошибка в применении лемматизации

Почему я получаю эту ошибку, пожалуйста, помогите. Я новичок в машинном обучении. Это мой код, и здесь я применил лемматизацию к 20 наборам данных групп новостей. Этот код нацелен на получение 500 слов с наибольшим количеством при применении фильтра…
04 янв '18 в 17:09
0 ответов

Леммы вместо слов в Стэнфордском дереве зависимостей?

Мне интересно, есть ли способ использовать леммы в дереве зависимостей Стэнфорда вместо слов. Например, я хочу иметь dobj(see, child) вместо dobj(saw, child), Является ли это возможным? Я знаю, что могу получить леммы слов отдельно, но мне интересно…
1 ответ

Ошибка импорта для сравнения в NLTK и использования BrowServer для просмотра базы данных Wordnet NLTK для лемматизации

Расширение до варианта использования здесь - лемматизирующий слова NLTK У меня на компьютере установлен nltk (со всеми модулями и корпусом из книги). Мой вариант использования - изучить и сопоставить некоторые подходы к лемматизации и основам для мо…
1 ответ

Java инструмент для лемматизации

Мне нужно выполнить лемматизацию на английском языке, включая прилагательные: например, мексиканец -> Мексика Можете ли вы порекомендовать какие-либо инструменты, желательно на Java. Хочу подчеркнуть, что я ищу лемматизацию, а не ствол.
03 июн '11 в 09:16