Описание тега collocation

Описание тега Вопросы с тегом

Anything related to collocations, i.e. sequences of words in text that often appears together. This is a term widely used in linguistics and this tag should be used for related questions.

1 ответ

Подсчитайте частоту слов ngram, используя словосочетания

Я хотел бы посчитать частоту трех слов, предшествующих и следующих за конкретным словом из текстового файла, который был преобразован в токены. from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize from nltk.util import ngr…

python nltk collocation

01 фев '19 в 02:10

1 ответ

Преобразование MySQL символов

У меня есть база данных, которая, кажется, на latin1_swedish. Мне нужно добавить еще текст. Новый текст содержит несколько бразильских слов. Пример: тилапия Cachaça ... В старом тексте в БД тоже есть эти слова, но это так: tilÃ¡pia Файл PHP преобраз…

php mysql utf-8 latin1 collocation

16 янв '14 в 12:52

3 ответа

NLTK словосочетания для конкретных слов

Я знаю, как получить биграммы и триграммы, используя NLTK, и я применяю их к своим собственным корпусам. Код ниже. Однако я не уверен насчет (1), как получить словосочетания для конкретного слова? (2) имеет ли NLTK метрику коллокации на основе логар…

python nltk collocation

16 янв '14 в 15:18

1 ответ

2 словосочетания словосочетания с использованием квантида в R

Это относится к функциональности texttat_collocations в пакете quanteda в R. Я получаю более 2 словосочетаний в выводе, хотя я запрашиваю только 2 словосочетания. Необходимые шаги обработки следующие (corpus1 уже создан с использованием функции corp…

r text-processing quanteda collocation

29 янв '18 в 06:43

0 ответов

Как найти словосочетание в WordNet из предложения с Stanford NLP CollocationFinder?

Дан абзац или предложение. Задача состоит в том, чтобы найти все словосочетания, которые уже жестко запрограммированы в WordNet. Чтобы уточнить, я пытаюсь найти словосочетание, которое уже в WordNet из данного текста, я не пытаюсь извлечь словосочет…

stanford-nlp wordnet collocation

12 июн '17 в 21:29

2 ответа

Как получить n-грамм словосочетаний и ассоциации в Python NLTK?

В этой документации есть пример использования nltk.collocations.BigramAssocMeasures(), BigramCollocationFinder,nltk.collocations.TrigramAssocMeasures(), а также TrigramCollocationFinder, Существует пример метода find nbest, основанный на pmi для биг…

python nlp nltk n-gram collocation

07 сен '13 в 09:58

2 ответа

Наиболее распространенные предложения извлечения с подсчетом с использованием Python

Я хочу написать скрипт Python, который ищет все строки Excel и возвращает 10 самых распространенных предложений. Я написал основы ngrams для текстового файла. Файл содержит текст CSV с DJ лучше 4 раза, а GD 3 раза. import nltk import pandas as pd fi…

python text nltk n-gram collocation

19 ноя '18 в 12:57

0 ответов

Нахождение коллокации с использованием Apache OpenNLP

Я хотел бы найти слова с использованием Apache OpenNLP Framework. Глядя на API, кажется, что нет API для Collocation Finder. Как найти слова в заданных предложениях, используя OpenNLP. Например, в приведенном ниже предложении "Научитесь создавать ал…

opennlp collocation

11 авг '17 в 11:15

1 ответ

Ищете элегантный способ найти пересечение между двумя списками кортежей слов в разных порядках

Я думаю, что лучше всего показать пример того, что я пытаюсь сделать. Дело в том, что я ищу элегантный способ сделать это. Допустим, у меня есть два списка кортежей: x = [('a', 'c', 'e'), ('k', 'n')] y = [('e', 'd', 'w'), ('c', 'a', 'e'), ('n', 'k')…

python nlp tuples intersection collocation

29 мар '16 в 08:20

0 ответов

Данные размещения из телефонных звонков

У меня ежедневно тысячи телефонных звонков, преобразованных из речи в текст. Я попытался сгенерировать коллокационные данные, используя два варианта ниже ОПЦИЯ 1 corpus.collocations(200,2) ВАРИАНТ № 2 bigram = nltk.collocations.BigramAssocMeasures()…

python nltk collocation

20 июл '16 в 00:22

1 ответ

CouchDB: совместные виды и клавиши

На моем диване у меня есть такие пары документов: { _id: "DOCID", type: "Task", info: { k1: "v1", k2: "v2" } } { _id: "ANOTHER DOCID", type: "Final", task: "DOCID", author: "Authorname" } Для автора может существовать несколько таких пар. Теперь мне…

view couchdb collocation

25 июн '14 в 04:44

0 ответов

Python NLTK словосочетание для римских цифр

Так как в nltk есть словосочетание для чисел, таких как ('RS', '##number##') Мне интересно, есть ли такой спецификатор для римских цифр, который я хочу использовать для чего-то вроде этого: ('volume', '##roman number##') Если нет способа сделать это…

python nltk roman-numerals collocation

16 фев '17 в 17:07

8 ответов

Формирование биграмм слов в списке предложений с помощью Python

У меня есть список предложений: text = ['cant railway station','citadel hotel',' police stn']. Мне нужно сформировать биграмные пары и сохранить их в переменной. Проблема в том, что когда я это делаю, я получаю пару предложений вместо слов. Вот что …

python list nltk list-comprehension collocation

18 фев '14 в 04:41

1 ответ

N-Gram с ArrayList

Я занимаюсь проектом, в котором я анализирую "нграммы". В моей программе есть метод, который создает биграммы и триграммы. Тем не менее, они только собирают последовательные смежные слова, где я хочу, чтобы получить все комбинации слов... Например, …

java n-gram collocation

24 фев '16 в 19:35

2 ответа

Сегментация и коллокация

Я ищу новые идеи для двух функций, которые я реализую. 1.) Функция сегментации текста: Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am using normal recursion or DP solution us…

nlp data-mining text-mining text-segmentation collocation

07 фев '17 в 14:01

1 ответ

Отфильтруйте теги триграмм с помощью nltk

Я хочу выяснить триграммы корпуса, но с ограничением, что по крайней мере два слова триграмм не являются собственными существительными. Это мой код до сих пор. def collocation_finder(text,window_size): ign = stopwords.words('english') #Clean the tex…

python nlp nltk collocation

30 сен '18 в 17:15

1 ответ

Как считать документы, в которых два слова появляются в непосредственной близости в R?

Я хотел бы посчитать документы, в которых две строки появляются в пределах установленного расстояния, в пределах 10 слов друг от друга. Давайте скажем "немецкий *" и "война". Я не хочу подсчитывать общее время их появления, а только количество докум…

r text tm collocation

25 авг '16 в 08:04

2 ответа

Список словосочетаний для текстового файла

Я хочу перечислить словосочетания, о которых сообщает NLTK для Dracula.txt. Как мне это сделать? Я могу найти частоту слов, добавив ее в мой корпус. У меня тоже есть переменная DracWords dracWords = mycorpus.words('Dracula.txt') в котором есть слова…

python nlp collocation

24 янв '17 в 06:56

2 ответа

Зажечь загрузку похожих данных для конкретного экземпляра

Так что я действительно новичок в apache ignite здесь. То, что я пытаюсь сделать, это загрузить данные, имеющие свойства, аналогичные одному, а не загружать их в случайные экземпляры. Например, скажем, что некоторые данные этой формы: ROLL_NO 34569 …

ignite collocation

06 июл '17 в 12:06

1 ответ

Извлечение словосочетаний для данного слова из текстового корпуса - Python

Я пытаюсь выяснить, как извлечь словосочетания определенного слова из текста. Как в: каковы слова, которые делают статистически значимое словосочетание, например, со словом "хоббит" во всем текстовом корпусе? Я ожидаю результат, похожий на список сл…

python nltk n-gram log-likelihood collocation

17 авг '17 в 12:05