Описание тега collocation
Anything related to collocations, i.e. sequences of words in text that often appears together. This is a term widely used in linguistics and this tag should be used for related questions.
1
ответ
Подсчитайте частоту слов ngram, используя словосочетания
Я хотел бы посчитать частоту трех слов, предшествующих и следующих за конкретным словом из текстового файла, который был преобразован в токены. from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize from nltk.util import ngr…
01 фев '19 в 02:10
1
ответ
Преобразование MySQL символов
У меня есть база данных, которая, кажется, на latin1_swedish. Мне нужно добавить еще текст. Новый текст содержит несколько бразильских слов. Пример: тилапия Cachaça ... В старом тексте в БД тоже есть эти слова, но это так: tilápia Файл PHP преобраз…
16 янв '14 в 12:52
3
ответа
NLTK словосочетания для конкретных слов
Я знаю, как получить биграммы и триграммы, используя NLTK, и я применяю их к своим собственным корпусам. Код ниже. Однако я не уверен насчет (1), как получить словосочетания для конкретного слова? (2) имеет ли NLTK метрику коллокации на основе логар…
16 янв '14 в 15:18
1
ответ
2 словосочетания словосочетания с использованием квантида в R
Это относится к функциональности texttat_collocations в пакете quanteda в R. Я получаю более 2 словосочетаний в выводе, хотя я запрашиваю только 2 словосочетания. Необходимые шаги обработки следующие (corpus1 уже создан с использованием функции corp…
29 янв '18 в 06:43
0
ответов
Как найти словосочетание в WordNet из предложения с Stanford NLP CollocationFinder?
Дан абзац или предложение. Задача состоит в том, чтобы найти все словосочетания, которые уже жестко запрограммированы в WordNet. Чтобы уточнить, я пытаюсь найти словосочетание, которое уже в WordNet из данного текста, я не пытаюсь извлечь словосочет…
12 июн '17 в 21:29
2
ответа
Как получить n-грамм словосочетаний и ассоциации в Python NLTK?
В этой документации есть пример использования nltk.collocations.BigramAssocMeasures(), BigramCollocationFinder,nltk.collocations.TrigramAssocMeasures(), а также TrigramCollocationFinder, Существует пример метода find nbest, основанный на pmi для биг…
07 сен '13 в 09:58
2
ответа
Наиболее распространенные предложения извлечения с подсчетом с использованием Python
Я хочу написать скрипт Python, который ищет все строки Excel и возвращает 10 самых распространенных предложений. Я написал основы ngrams для текстового файла. Файл содержит текст CSV с DJ лучше 4 раза, а GD 3 раза. import nltk import pandas as pd fi…
19 ноя '18 в 12:57
0
ответов
Нахождение коллокации с использованием Apache OpenNLP
Я хотел бы найти слова с использованием Apache OpenNLP Framework. Глядя на API, кажется, что нет API для Collocation Finder. Как найти слова в заданных предложениях, используя OpenNLP. Например, в приведенном ниже предложении "Научитесь создавать ал…
11 авг '17 в 11:15
1
ответ
Ищете элегантный способ найти пересечение между двумя списками кортежей слов в разных порядках
Я думаю, что лучше всего показать пример того, что я пытаюсь сделать. Дело в том, что я ищу элегантный способ сделать это. Допустим, у меня есть два списка кортежей: x = [('a', 'c', 'e'), ('k', 'n')] y = [('e', 'd', 'w'), ('c', 'a', 'e'), ('n', 'k')…
29 мар '16 в 08:20
0
ответов
Данные размещения из телефонных звонков
У меня ежедневно тысячи телефонных звонков, преобразованных из речи в текст. Я попытался сгенерировать коллокационные данные, используя два варианта ниже ОПЦИЯ 1 corpus.collocations(200,2) ВАРИАНТ № 2 bigram = nltk.collocations.BigramAssocMeasures()…
20 июл '16 в 00:22
1
ответ
CouchDB: совместные виды и клавиши
На моем диване у меня есть такие пары документов: { _id: "DOCID", type: "Task", info: { k1: "v1", k2: "v2" } } { _id: "ANOTHER DOCID", type: "Final", task: "DOCID", author: "Authorname" } Для автора может существовать несколько таких пар. Теперь мне…
25 июн '14 в 04:44
0
ответов
Python NLTK словосочетание для римских цифр
Так как в nltk есть словосочетание для чисел, таких как ('RS', '##number##') Мне интересно, есть ли такой спецификатор для римских цифр, который я хочу использовать для чего-то вроде этого: ('volume', '##roman number##') Если нет способа сделать это…
16 фев '17 в 17:07
8
ответов
Формирование биграмм слов в списке предложений с помощью Python
У меня есть список предложений: text = ['cant railway station','citadel hotel',' police stn']. Мне нужно сформировать биграмные пары и сохранить их в переменной. Проблема в том, что когда я это делаю, я получаю пару предложений вместо слов. Вот что …
18 фев '14 в 04:41
1
ответ
N-Gram с ArrayList
Я занимаюсь проектом, в котором я анализирую "нграммы". В моей программе есть метод, который создает биграммы и триграммы. Тем не менее, они только собирают последовательные смежные слова, где я хочу, чтобы получить все комбинации слов... Например, …
24 фев '16 в 19:35
2
ответа
Сегментация и коллокация
Я ищу новые идеи для двух функций, которые я реализую. 1.) Функция сегментации текста: Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am using normal recursion or DP solution us…
07 фев '17 в 14:01
1
ответ
Отфильтруйте теги триграмм с помощью nltk
Я хочу выяснить триграммы корпуса, но с ограничением, что по крайней мере два слова триграмм не являются собственными существительными. Это мой код до сих пор. def collocation_finder(text,window_size): ign = stopwords.words('english') #Clean the tex…
30 сен '18 в 17:15
1
ответ
Как считать документы, в которых два слова появляются в непосредственной близости в R?
Я хотел бы посчитать документы, в которых две строки появляются в пределах установленного расстояния, в пределах 10 слов друг от друга. Давайте скажем "немецкий *" и "война". Я не хочу подсчитывать общее время их появления, а только количество докум…
25 авг '16 в 08:04
2
ответа
Список словосочетаний для текстового файла
Я хочу перечислить словосочетания, о которых сообщает NLTK для Dracula.txt. Как мне это сделать? Я могу найти частоту слов, добавив ее в мой корпус. У меня тоже есть переменная DracWords dracWords = mycorpus.words('Dracula.txt') в котором есть слова…
24 янв '17 в 06:56
2
ответа
Зажечь загрузку похожих данных для конкретного экземпляра
Так что я действительно новичок в apache ignite здесь. То, что я пытаюсь сделать, это загрузить данные, имеющие свойства, аналогичные одному, а не загружать их в случайные экземпляры. Например, скажем, что некоторые данные этой формы: ROLL_NO 34569 …
06 июл '17 в 12:06
1
ответ
Извлечение словосочетаний для данного слова из текстового корпуса - Python
Я пытаюсь выяснить, как извлечь словосочетания определенного слова из текста. Как в: каковы слова, которые делают статистически значимое словосочетание, например, со словом "хоббит" во всем текстовом корпусе? Я ожидаю результат, похожий на список сл…
17 авг '17 в 12:05