Описание тега lemmatization

Вопросы с тегом

Lemmatization in linguistics is the process of grouping together the different inflected forms of a word so they can be analyzed as a single item.

0 ответов

НЛТК слово Лемматизатор странное поведение - помощь в маркировке POS - Python 3

Пытался написать небольшую программу по анализу настроений в python3. Но во время работы со словом лемматизатор увидел странное преобразование "было" в "ва", что было совершенно неожиданным. Ниже приведен мой код предварительной обработки - пожалуйс…

14 июн '18 в 15:07

1 ответ

Многоязыковая лемматизация в Python

У меня есть набор данных на нескольких языках. я могу применить лемматизацию в соответствии с ее языком? Я уже разделил данные в соответствии с их языком. Пробовал с использованием WordNet лемматизации, но он поддерживает только английский язык Для …

python-3.x nlp data-science lemmatization

12 дек '18 в 06:42

2 ответа

Как получить такие слова, как olog и ology, чтобы получить / лемматизировать к одному корню?

Я играл с кучей стеммеров и лемматизаторов в NLTK, но никто не делает то, что я хочу. У меня есть несколько слов, таких как "радиолог", "радиология", "кардиолог", "кардиология" и т. Д., Где я бы хотел, чтобы * олог пошел в то же ведро, что и * ологи…

python nltk stemming lemmatization

06 апр '16 в 23:58

1 ответ

Lucene - лемматизация поиска по умолчанию

Есть ли Lucene поиск по умолчанию сделать лемматизацию /stemming на слова? Например, при использовании кода в этом примере слова в документах используются как есть или они преобразуются в их базовую форму (например, Managing -> manag), и если да, то…

java lucene search-engine stemming lemmatization

27 ноя '14 в 11:23

4 ответа

Существует ли самообучающийся инструмент с открытым исходным кодом?

Мне нужно реализовать какой-то стеммер / лемматизатор. У меня есть несколько слов в разных формах (несколько тысяч). Это не морфологический словарь, просто небольшая его часть. Это хорошая идея, чтобы выучить stemmer автоматически из файла иметь? Ес…

nlp stemming lemmatization morphological-analysis

09 апр '13 в 16:46

13 ответов

Как превратить множественное число в единственном числе?

Я готовлю некоторые имена таблиц для ORM и хочу превратить имена нескольких таблиц в имена отдельных сущностей. Моя единственная проблема - найти алгоритм, который делает это надежно. Вот что я сейчас делаю: Если слово заканчивается на -ies, я замен…

algorithm nlp lemmatization inflection

28 апр '09 в 06:05

1 ответ

Python NLTK: поиск вхождения слова

Я использую коричневый корпус "brown.words()", который дает мне список из 1161192 слов. Теперь я хочу найти любое вхождение слова "иметь", поэтому всякий раз, когда в корпусе есть "имеет", "имел", "не имеет" и т. Д. Я хочу сделать что-то (может быть…

python nltk corpus stemming lemmatization

01 мар '18 в 20:34

1 ответ

Почему я столкнулся с AttributeError: у объекта 'WordListCorpusReader' нет атрибута 'word' в python?

Ниже приведен метод, который я пытался закодировать. Тем не менее, в строке 3 кодов сказано, что есть ошибка атрибута, и что объект "WordListCorpusReader" не имеет атрибута "слово" в python. Пожалуйста, помогите мне взглянуть на следующие коды:(( ''…

python lemmatization

24 окт '18 в 04:15

1 ответ

Перебирая леммы в NLTK Wordnet

Есть скрипт для получения итальянских синонимов из Wordnet, например: from nltk.corpus import wordnet as wn it_lemmas = wn.lemmas("problema", lang="ita") hypernyms = it_lemmas[0].synset().hypernyms() print(hypernyms[0].lemmas(lang="ita")) Когда я де…

python nlp nltk wordnet lemmatization

09 авг '18 в 13:31

1 ответ

Как использовать Standford NLP библиотеки в Java?

Кто-нибудь знает, как использовать стандартную библиотеку NLP для лемматизации. Это дает стиль maven рамки. Тем не менее, я только хотел использовать в обычной библиотеке. Я импортировал библиотеки NLP. Тем не менее, это дает мне ClassNotFoundExcept…

java text-mining lemmatization

16 май '16 в 05:00

1 ответ

WordNetLemmatizer не возвращает правильную лемму, если POS не является явным - Python NLTK

Я лемматизирую стенограмму набора данных Теда. Я замечаю кое-что странное: не все слова лемматизируются. Сказать, selected -> select Какой правильный. Тем не мение, involved !-> involve а также horsing !-> horse если я не введу явно атрибут…

python nlp nltk wordnet lemmatization

05 окт '15 в 21:06

1 ответ

Лемматизация делает корпус огромным

Используя ipython 2.7 и корпус с не-Ascii символами. Процесс очистки кажется хорошим, но как только я использую Wordnet или Porter для лемматизации корпуса, размер файла увеличивается в геометрической прогрессии. Пожалуйста, смотрите код ниже from n…

python-2.7 ipython nltk corpus lemmatization

13 авг '14 в 18:17

1 ответ

Лемматизация запросов Solr/Lucene с контекстом

Я успешно реализовал чешский лемматизатор для Lucene. Я тестирую его с Solr, и он хорошо работает во время индекса. Но он не работает так хорошо, когда используется для запросов, потому что анализатор запросов не предоставляет никакого контекста (сл…

solr lucene lemmatization query-parser word-sense-disambiguation

04 окт '16 в 10:13

2 ответа

Используйте sapply/lapply или foreach для доступа к атрибутам данных R

Это может быть очень простой вопрос, но, честно говоря, я попробовал несколько решений по тем же вопросам, но не смог добиться успеха в своих данных. Это может быть из-за моих данных или у меня тяжелый день, и я ничего не могу понять.:( У меня есть …

r nlp sapply parallel.foreach lemmatization

10 авг '17 в 16:05

3 ответа

python wordnetlemmatizer: не zip-файл

Я пробую следующее для лемматизации: from nltk.stem.wordnet import WordNetLemmatizer wnl = WordNetLemmatizer() wnl.lemmatize("dogs") и продолжайте получать сообщение об ошибке "BadZipFile: файл не является файлом zip". Я не могу ничего найти по этом…

file zip lemmatization

04 апр '17 в 14:39

1 ответ

Основные формы слова, не включенные в основы и лемматизацию

Мне нужно найти основные формы слов. Я прошел через одинаковые вопросы. Я использую Портер Стеммер и НЛП Стэнфордского ядра для стемминга и лемматизации. Рассмотрим следующие 3 набора слов A,B,C: Set Word Stem Lemma A Verity veriti verity (For all P…

java stanford-nlp lemmatization porter-stemmer

29 мар '15 в 17:53

0 ответов

Ошибка в применении лемматизации

Почему я получаю эту ошибку, пожалуйста, помогите. Я новичок в машинном обучении. Это мой код, и здесь я применил лемматизацию к 20 наборам данных групп новостей. Этот код нацелен на получение 500 слов с наибольшим количеством при применении фильтра…

python-3.x machine-learning lemmatization

04 янв '18 в 17:09

0 ответов

Леммы вместо слов в Стэнфордском дереве зависимостей?

Мне интересно, есть ли способ использовать леммы в дереве зависимостей Стэнфорда вместо слов. Например, я хочу иметь dobj(see, child) вместо dobj(saw, child), Является ли это возможным? Я знаю, что могу получить леммы слов отдельно, но мне интересно…

java machine-learning stanford-nlp lemmatization

15 мар '14 в 11:59

1 ответ

Ошибка импорта для сравнения в NLTK и использования BrowServer для просмотра базы данных Wordnet NLTK для лемматизации

Расширение до варианта использования здесь - лемматизирующий слова NLTK У меня на компьютере установлен nltk (со всеми модулями и корпусом из книги). Мой вариант использования - изучить и сопоставить некоторые подходы к лемматизации и основам для мо…

python-2.7 nltk backwards-compatibility trac lemmatization

25 авг '13 в 14:46

1 ответ

Java инструмент для лемматизации

Мне нужно выполнить лемматизацию на английском языке, включая прилагательные: например, мексиканец -> Мексика Можете ли вы порекомендовать какие-либо инструменты, желательно на Java. Хочу подчеркнуть, что я ищу лемматизацию, а не ствол.

java lemmatization

03 июн '11 в 09:16