Описание тега trigram

Триграммы - это частный случай N-граммы, где N равно 3. Они часто используются при обработке естественного языка для статистического анализа текстов.
0 ответов

Как сопоставить строку комбинированных заголовков, используя Trigram Similarity в Django: Python

В настоящее время я могу сопоставить содержимое одного заголовка, используя, sim = model.objects.annotate( similarity=TrigramSimilarity('tag', model.model.tag), ).filter(similarity__gt=0.1).order_by('-similarity') Но мне нужно сопоставить содержимое…
1 ответ

Postgresql BTREE_GIN индекс с опцией gin_trgm_ops?

На https://www.postgresql.org/docs/current/static/pgtrgm.html объясняется, как можно использовать специальные иды GIN с опцией gin_trgm_ops для повышения производительности оператора подобия триграмм. CREATE INDEX trgm_idx ON test_trgm USING GIN (t …
1 ответ

Как рассчитать условное_распределение_распределения и условное_распределение_проблемности для триграмм в nltk python

Я хочу рассчитать условное распределение вероятностей для моей языковой модели, но не могу этого сделать, потому что мне нужно условное распределение частот, которое я не могу сгенерировать. Это мой код: # -*- coding: utf-8 -*- import io import nltk…
09 дек '16 в 10:06
0 ответов

Превращение алгоритма Биграма-Витерби в алгоритм триграммы Витерби

Я реализовал алгоритм Витерби, используя модель перехода триграммы, однако я хочу улучшить свою точность, перейдя к модели триграммы для алгоритма Витерби. Я уже рассчитал выброс и переход. Я просто не могу понять, где изменить алгоритм. def viterbi…
21 дек '18 в 01:44
2 ответа

Как мне вставить текущий словарь в другой в python?

У меня есть дикт по умолчанию, который имеет 3 слоя вложения, который будет использоваться позже для триграммы. counts = defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:0))) Затем у меня есть цикл for, который проходит через документ и созд…
17 фев '17 в 00:18
2 ответа

Многостолбцовый индекс для совпадения строк + сходство строк с pg_trgm?

Дайте эту таблицу: foos integer id string name string type И такой запрос: select * from foos where name ilike '%bar%' Я могу сделать такой индекс pg_trgm, чтобы сделать поиск быстрее: CREATE INDEX ON foos USING gin (name gin_trgm_ops) (право?) мой …
05 фев '14 в 21:58
1 ответ

Оптимизация запроса сходства postgres (pg_trgm + индекс джина)

Я определил следующий индекс: CREATE INDEX users_search_idx ON auth_user USING gin( username gin_trgm_ops, first_name gin_trgm_ops, last_name gin_trgm_ops ); Я выполняю следующий запрос: PREPARE user_search (TEXT, INT) AS SELECT username, email, fir…
0 ответов

Джанго и приблизительная категория

Я работаю в компании, которая разрабатывает компаратор цен с Django (1.11). Мы загрузили каталоги от продавцов, и моя задача - найти соответствующую категорию для каждого продукта. Тогда на нашем сайте у нас есть около 22 категорий (товары для дома,…
01 июл '17 в 13:22
1 ответ

Как создать составные индексы pg_trgm со столбцами даты

SELECT col1, max(date) as max_date FROM table WHERE col1 ILIKE 'name' GROUP BY col1 Здесь col1 varchar и дата timestamp with time zone тип данных. Так создано расширение CREATE EXTENSION pg_trgm Затем попробовал следующие индексы и получил ошибки: 1…
23 янв '18 в 19:19
3 ответа

Триграмма дистанционных операций в sqlalchemy

В настоящее время я пытаюсь использовать операции pg_trgm % а также <->, Индексы GIN для столбцов уже доступны, но я не могу найти sqlalchemy, эквивалентный ранее упомянутым операторам. Что было бы лучшим подходом для решения этой проблемы, кр…
0 ответов

Как указать условия перед выполнением поиска триграмм в PostgreSQL?

Я довольно плохо знаком с нечетким поиском и триграммами в PostgreSQL. У меня есть несколько сотен тысяч продуктов в базе данных, и я хочу иметь возможность выбирать продукты, название которых наиболее близко к названию другого продукта. После неско…
22 апр '15 в 15:09
1 ответ

Сравнение сходства нескольких столбцов с оператором сходства триграмм%

Мне нужно выполнить фильтрацию нечетких совпадений (в предложении WHERE) в PostgreSQL с помощью оператора сходства триграмм%. Для сравнения пары полей это просто table1.field1 % table2.field2 и индексы GIN или GIST могут использоваться для значитель…
0 ответов

Нечеткое совпадение имени с 5 миллионами имен и создание списка возможных совпадений

Мне нужно сопоставить имя конкретного человека с большим списком (>5 миллионов) имен, используя нечеткое сопоставление (насколько близко оно совпадает). Один из подходов заключается в использовании расстояния редактирования между входом и каждым име…
07 дек '17 в 17:50
1 ответ

nltk.KneserNeyProbDist дает распределение вероятности 0,25 для большинства триграмм

Я работаю над моделированием языка с использованием nltk. Я использую это эссе в качестве корпуса в файле mypet.txt. Я получаю 0,25 распределения вероятности Кнезера Нея для большинства триграмм. Я не знаю почему. Это правильно? Почему это так? Это …
08 дек '16 в 12:42
0 ответов

Можно ли напрямую использовать индекс PostgreSQL Trigram pg_trgm?

Я хочу использовать свою собственную функцию для создания вектора триграмм, как для индексации, так и для запросов, возможно ли это? Как это обычно работает: indexing : text => pg_text_to_trigram_vector => submit vector to index querying : que…
20 мар '17 в 12:50
2 ответа

postgresql: читать содержимое индекса GIN

Я хотел бы прочитать список триграмм, предположительно созданный с помощью моего индекса GIN, но, похоже, нигде не могу найти команду: я пытался \di+, \dv+, \dm+ или каждый без +, Ничего не возвращается Я что-то неправильно понимаю или мой индекс пу…
16 апр '18 в 12:31
2 ответа

Python, возвращающий биграммы и триграммы

У меня есть список биграмм и триграмм: string = 'do not be sad' a_list: = ['do', 'not', 'do not', 'be', 'not be', 'do not be', 'sad', 'be sad', 'not be sad'] Мне было интересно, если есть функция, чтобы повернуть биграмму и триграмму в a_list? Я зна…
18 фев '16 в 12:18
1 ответ

Rails 4 pg_search - проблема с несколькими запросами

Я использую гем pg_search для Rails (Ruby 2.1.1, Rails 4.1.4) и пытаюсь реализовать глобальный многопользовательский поиск для некоторых из моих моделей, но продолжаю получать PG::UndefinedFunction: ERROR: operator does not exist: text % unknown ког…
14 сен '14 в 01:12
2 ответа

Получение "триграмм" в Java

У меня возникли проблемы с получением trigrams на Яве. Моя программа в настоящее время может получить bigrams хорошо, но когда я пытаюсь реализовать ту же структуру метода и изменить его, чтобы получить trigrams кажется, не работает так же хорошо. Я…
25 фев '16 в 14:19
0 ответов

Как я могу создать серию триграмм в C++, где каждая следующая триграмма начинается со второй буквы первой?

Я работал над этим некоторое время, и я не смог решить проблему. По сути, если бы пользователю был предоставлен файл ".txt", в котором было написано следующее, "tHe@doG#wENt&uP$tHE!hiLL!"конечный результат должен выглядеть следующим образом: the…
22 апр '18 в 03:10