Описание тега n-gram
N-грамма - это упорядоченный набор из N элементов одного типа, обычно представленный в большом наборе многих других подобных N-граммов. Отдельные элементы обычно представляют собой слова естественного языка, хотя N-граммы применялись ко многим другим типам данных, таким как числа, буквы, генетические белки в ДНК и т. Д. Статистический анализ N-грамм обычно выполняется как часть обработки естественного языка, биоинформатика и теория информации.
3
ответа
Как генерировать би / триграммы, используя spacy/nltk
Вводимый текст всегда представляет собой список названий блюд, где есть от 1 до 3 прилагательных и существительное входные thai iced tea spicy fried chicken sweet chili pork thai chicken curry выходы: thai tea, iced tea spicy chicken, fried chicken …
31 авг '16 в 05:53
1
ответ
Ngram модель и алгоритм сглаживания
Какой алгоритм сглаживания прост и эффективен с точки зрения реализации? Мой тренировочный корпус выглядит как шестнадцатеричная свалка, 64 FA EB 63 31 D2 62 22 19 BD 64 B5 63 17 4F 48 62 A8 64 11 0F 62 15 9B 64 9B 1F E1 63 62 BE 63 Я хотел бы постр…
03 июн '15 в 00:50
7
ответов
Генерация N-граммы из предложения
Как сгенерировать n-грамм строки как: String Input="This is my car." Я хочу сгенерировать n-грамм с этим входом: Input Ngram size = 3 Выход должен быть: This is my car This is is my my car This is my is my car Дайте некоторую идею в Java, как реализ…
07 сен '10 в 07:53
2
ответа
Нахождение условной вероятности триграммы в питоне nltk
Я начал учиться NLTK отсюда я следую учебному пособию, где они находят условную вероятность, используя подобные биграммы. import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brown.words())) Однако я хо…
28 июн '16 в 06:25
2
ответа
N-грамм с частотным числом с использованием упругого поиска
Я использовал токенайзер n-грамм для создания n-грамм в эластичном поиске, но я не могу получить частоту каждого грамм, будь то биграмм или триграмм. Как мне это сделать?
15 сен '15 в 18:39
2
ответа
Алгоритм C# для N-граммы
Я собираюсь использовать n-граммовый код из этой статьи. Алгоритм дает следующие результаты триграммы: t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d для текста the quick red Однако википедия считает, что это должно быть так: the …
30 сен '10 в 08:53
1
ответ
Как преобразовать нграммы и частоты слов в строке в векторы для построения моделей SVN
Я пытаюсь использовать Python и NLTK для классификации текста по текстовым строкам, длина которых обычно составляет в среднем 10-20 слов. Я хочу вычислить частоты слов и ngrams размера 2-4 и каким-то образом преобразовать их в векторы и использовать…
31 мар '18 в 22:33
1
ответ
n-грамм с наивным байесовским классификатором Ошибка
Я экспериментировал с текстовой классификацией Python NLTK. Вот пример кода, который я практикую: http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ Вот код: from nltk import bigrams from nltk.probability import ELEPr…
06 окт '13 в 14:25
3
ответа
Elasticsearch с индексацией ngram не находит частичных совпадений
Итак, у меня есть индекс asticsearch, который был создан следующим образом: curl -XPUT 'http://localhost:9200/person' -d '{ "settings": { "number_of_shards": 1, "analysis": { "filter": { "autocomplete_filter": { "type": "edge_ngram", "min_gram": 1, …
23 апр '15 в 16:51
2
ответа
Как выделить числовой вектор биграмм из матрицы TDM
У меня большой числовой (46201 элементов, 3,3 Мб) в R. tdm_pairs.matrix <- as.matrix(tdm_pairs) top_pairs <- colSums(tdm_pairs.matrix) head(sort(top_pairs, decreasing = T),2) i know i dont i think i can i just i want 46 42 41 31 30 28 Я пыталс…
26 июл '15 в 00:46
0
ответов
Удалить похожее слово биграмм
Список биграмм, который я могу сгенерировать, содержит похожие слова биграммы и для которых они возвращаются. например (почва, почва), (земля, земля) // похожее слово bigram (защита, область), (область, защита) // возвращение биграма Как я могу удал…
09 авг '17 в 10:46
0
ответов
Вероятности вывода следующего символа в N-граммовых языковых моделях
Я ищу символьную модель языка n-грамм, которая бы: Учитывая напечатанный текст: LM.AddText("hell"); // Add typed text Выводит вероятности каждого символа: probsCharacters = LM.GetNextCharacterProbs(); // Get probability of next character probsCharac…
11 фев '19 в 00:58
1
ответ
Найти ближайшие разреженные векторы, какой индекс или БД использовать?
Я хотел бы обнаружить похожие текстовые документы. Есть функция, которая принимает текст как ввод и производит вектор как вывод. text => vector Произведенный вектор редок. Его размер огромен (точно сказать не могу, но, вероятно, будет около 10_00…
19 мар '17 в 16:23
1
ответ
Хранение ngram модели python
Я реализую языковую модель как личный вызов, как часть простого веб-приложения. Тем не менее, я избегал использования NLTK, однако столкнулся с MemoryError с достаточно большим корпусом (словарь около 50000 и количество триграмм было около 440000 - …
23 июл '17 в 12:14
1
ответ
Предсказание слов с использованием четырехугольников в питоне
В настоящее время я использую Quadgrams в Python, чтобы предсказать следующее слово предложения. Для этого я использую вложенный словарь для хранения вероятностей. Вот ссылка на код Но эта реализация принимает O(n) в худшем случае. Так есть ли друго…
31 май '17 в 10:36
3
ответа
Есть ли способ получить несколько порядков Ngram, используя NTLK вместо получения итерации по генератору?
Мне нужны нграммы. я знаю nltk.utils.ngrams может использоваться для получения ngrams, но на практике функция ngrams возвращает объект генератора. Я всегда могу перебрать его и сохранить нграммы в списке. Но есть ли другой, более прямой способ получ…
27 авг '16 в 09:47
1
ответ
Поиск в тексте с использованием ngram для минимальных символов в шаблоне поиска и выше
У меня есть индекс текста в моем эластичном сервере. Я реализовал токенайзер Ngram, как это: "analysis": { "analyzer": { "ngram_analyzer": { "type": "custom", "tokenizer": "ngram_tokenizer" } }, "tokenizer": { "ngram_tokenizer": { "type": "ngram", "…
06 дек '16 в 12:14
0
ответов
Как отсортировать результаты поиска в словаре по частоте в j2me
Это мой формат словаря: Частота слова Прошло 60 Идет 10 Go 30 До сих пор система возвращает слова, например, начиная с "g" как go30, идет10, ушел60 как список. (По алфавиту). Я хочу повысить точность системы, чтобы результаты поиска основывались на …
02 май '12 в 13:05
2
ответа
Python заполнить объект / словарь полки несколькими ключами
У меня есть список из 4 граммов, которые я хочу, чтобы заполнить объект словаря / объекта shevle: ['I','go','to','work'] ['I','go','there','often'] ['it','is','nice','being'] ['I','live','in','NY'] ['I','go','to','work'] Так что у нас есть что-то вр…
26 дек '13 в 15:02
1
ответ
Solr Shingle не виден в отладочном запросе
Я пытаюсь использовать Solr, чтобы найти точные совпадения по категориям в поиске пользователя (e.g. "skinny jeans" in "blue skinny jeans"), Я использую следующее определение типа: <fieldType name="subphrase" class="solr.TextField" positionIncrem…
25 май '16 в 10:07