Описание тега trigram
Триграммы - это частный случай N-граммы, где N равно 3. Они часто используются при обработке естественного языка для статистического анализа текстов.
0
ответов
Как сопоставить строку комбинированных заголовков, используя Trigram Similarity в Django: Python
В настоящее время я могу сопоставить содержимое одного заголовка, используя, sim = model.objects.annotate( similarity=TrigramSimilarity('tag', model.model.tag), ).filter(similarity__gt=0.1).order_by('-similarity') Но мне нужно сопоставить содержимое…
06 ноя '18 в 15:02
1
ответ
Postgresql BTREE_GIN индекс с опцией gin_trgm_ops?
На https://www.postgresql.org/docs/current/static/pgtrgm.html объясняется, как можно использовать специальные иды GIN с опцией gin_trgm_ops для повышения производительности оператора подобия триграмм. CREATE INDEX trgm_idx ON test_trgm USING GIN (t …
03 ноя '16 в 19:45
1
ответ
Как рассчитать условное_распределение_распределения и условное_распределение_проблемности для триграмм в nltk python
Я хочу рассчитать условное распределение вероятностей для моей языковой модели, но не могу этого сделать, потому что мне нужно условное распределение частот, которое я не могу сгенерировать. Это мой код: # -*- coding: utf-8 -*- import io import nltk…
09 дек '16 в 10:06
0
ответов
Превращение алгоритма Биграма-Витерби в алгоритм триграммы Витерби
Я реализовал алгоритм Витерби, используя модель перехода триграммы, однако я хочу улучшить свою точность, перейдя к модели триграммы для алгоритма Витерби. Я уже рассчитал выброс и переход. Я просто не могу понять, где изменить алгоритм. def viterbi…
21 дек '18 в 01:44
2
ответа
Как мне вставить текущий словарь в другой в python?
У меня есть дикт по умолчанию, который имеет 3 слоя вложения, который будет использоваться позже для триграммы. counts = defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:0))) Затем у меня есть цикл for, который проходит через документ и созд…
17 фев '17 в 00:18
2
ответа
Многостолбцовый индекс для совпадения строк + сходство строк с pg_trgm?
Дайте эту таблицу: foos integer id string name string type И такой запрос: select * from foos where name ilike '%bar%' Я могу сделать такой индекс pg_trgm, чтобы сделать поиск быстрее: CREATE INDEX ON foos USING gin (name gin_trgm_ops) (право?) мой …
05 фев '14 в 21:58
1
ответ
Оптимизация запроса сходства postgres (pg_trgm + индекс джина)
Я определил следующий индекс: CREATE INDEX users_search_idx ON auth_user USING gin( username gin_trgm_ops, first_name gin_trgm_ops, last_name gin_trgm_ops ); Я выполняю следующий запрос: PREPARE user_search (TEXT, INT) AS SELECT username, email, fir…
09 май '17 в 10:33
0
ответов
Джанго и приблизительная категория
Я работаю в компании, которая разрабатывает компаратор цен с Django (1.11). Мы загрузили каталоги от продавцов, и моя задача - найти соответствующую категорию для каждого продукта. Тогда на нашем сайте у нас есть около 22 категорий (товары для дома,…
01 июл '17 в 13:22
1
ответ
Как создать составные индексы pg_trgm со столбцами даты
SELECT col1, max(date) as max_date FROM table WHERE col1 ILIKE 'name' GROUP BY col1 Здесь col1 varchar и дата timestamp with time zone тип данных. Так создано расширение CREATE EXTENSION pg_trgm Затем попробовал следующие индексы и получил ошибки: 1…
23 янв '18 в 19:19
3
ответа
Триграмма дистанционных операций в sqlalchemy
В настоящее время я пытаюсь использовать операции pg_trgm % а также <->, Индексы GIN для столбцов уже доступны, но я не могу найти sqlalchemy, эквивалентный ранее упомянутым операторам. Что было бы лучшим подходом для решения этой проблемы, кр…
24 окт '18 в 10:50
0
ответов
Как указать условия перед выполнением поиска триграмм в PostgreSQL?
Я довольно плохо знаком с нечетким поиском и триграммами в PostgreSQL. У меня есть несколько сотен тысяч продуктов в базе данных, и я хочу иметь возможность выбирать продукты, название которых наиболее близко к названию другого продукта. После неско…
22 апр '15 в 15:09
1
ответ
Сравнение сходства нескольких столбцов с оператором сходства триграмм%
Мне нужно выполнить фильтрацию нечетких совпадений (в предложении WHERE) в PostgreSQL с помощью оператора сходства триграмм%. Для сравнения пары полей это просто table1.field1 % table2.field2 и индексы GIN или GIST могут использоваться для значитель…
01 ноя '16 в 17:17
0
ответов
Нечеткое совпадение имени с 5 миллионами имен и создание списка возможных совпадений
Мне нужно сопоставить имя конкретного человека с большим списком (>5 миллионов) имен, используя нечеткое сопоставление (насколько близко оно совпадает). Один из подходов заключается в использовании расстояния редактирования между входом и каждым име…
07 дек '17 в 17:50
1
ответ
nltk.KneserNeyProbDist дает распределение вероятности 0,25 для большинства триграмм
Я работаю над моделированием языка с использованием nltk. Я использую это эссе в качестве корпуса в файле mypet.txt. Я получаю 0,25 распределения вероятности Кнезера Нея для большинства триграмм. Я не знаю почему. Это правильно? Почему это так? Это …
08 дек '16 в 12:42
0
ответов
Можно ли напрямую использовать индекс PostgreSQL Trigram pg_trgm?
Я хочу использовать свою собственную функцию для создания вектора триграмм, как для индексации, так и для запросов, возможно ли это? Как это обычно работает: indexing : text => pg_text_to_trigram_vector => submit vector to index querying : que…
20 мар '17 в 12:50
2
ответа
postgresql: читать содержимое индекса GIN
Я хотел бы прочитать список триграмм, предположительно созданный с помощью моего индекса GIN, но, похоже, нигде не могу найти команду: я пытался \di+, \dv+, \dm+ или каждый без +, Ничего не возвращается Я что-то неправильно понимаю или мой индекс пу…
16 апр '18 в 12:31
2
ответа
Python, возвращающий биграммы и триграммы
У меня есть список биграмм и триграмм: string = 'do not be sad' a_list: = ['do', 'not', 'do not', 'be', 'not be', 'do not be', 'sad', 'be sad', 'not be sad'] Мне было интересно, если есть функция, чтобы повернуть биграмму и триграмму в a_list? Я зна…
18 фев '16 в 12:18
1
ответ
Rails 4 pg_search - проблема с несколькими запросами
Я использую гем pg_search для Rails (Ruby 2.1.1, Rails 4.1.4) и пытаюсь реализовать глобальный многопользовательский поиск для некоторых из моих моделей, но продолжаю получать PG::UndefinedFunction: ERROR: operator does not exist: text % unknown ког…
14 сен '14 в 01:12
2
ответа
Получение "триграмм" в Java
У меня возникли проблемы с получением trigrams на Яве. Моя программа в настоящее время может получить bigrams хорошо, но когда я пытаюсь реализовать ту же структуру метода и изменить его, чтобы получить trigrams кажется, не работает так же хорошо. Я…
25 фев '16 в 14:19
0
ответов
Как я могу создать серию триграмм в C++, где каждая следующая триграмма начинается со второй буквы первой?
Я работал над этим некоторое время, и я не смог решить проблему. По сути, если бы пользователю был предоставлен файл ".txt", в котором было написано следующее, "tHe@doG#wENt&uP$tHE!hiLL!"конечный результат должен выглядеть следующим образом: the…
22 апр '18 в 03:10