Описание тега sentence-similarity

Сходство предложений - это тема обработки естественного языка, которая пытается найти семантическое или синтаксическое математическое сходство между двумя или более предложениями.
0 ответов

Уменьшить список строковых значений по показателю сходства

Я сталкиваюсь с проблемой машинного обучения; Учебные данные состоят из числовых, категориальных и дат. Я начал тренироваться только на основе чисел и дат (которые я конвертировал в числа, используя эпоху, день недели, часы и т. Д.). Помимо плохой о…
1 ответ

Как найти меру сходства между двумя предложениями, используя простой коэффициент соответствия?

Я следовал за кодом по этой ссылке, чтобы найти меру сходства между входами X и Y: def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method=='smc': # SMC X,Y = binarize(X…
0 ответов

Как сопоставить предложения в двух одинаковых текстах?

У меня есть два одинаковых текста (на самом деле набор таких пар). Чтобы проиллюстрировать, в каком смысле они похожи: один из них представляет собой оригинальный письменный текст, другой получен путем распознавания речи устного чтения первого. Поэт…
3 ответа

Я хочу извлечь предложения, содержащие название наркотика и гена, из 10000 статей

Я хочу извлечь предложения, содержащие название наркотика и гена, из 10000 статей. и мой код import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/d…
14 ноя '16 в 07:10
2 ответа

Базовое сходство текста с помощью синтаксисов WorldNet для отображения / объединения таксономии

Я хотел бы реализовать базовую процедуру сходства текста с семантической дистанцией, используя WordNet и NLTK в Python. Это идея: расширить две концепции / фразы / категории A и B с помощью наборов, гипонимов, гипернимов, меронимов, метонимов и вычи…
1 ответ

Какова вероятность расчета в модели языка униграмм?

Я создал модель языка униграмм для реализации завершения предложения. У меня есть все слова с номером их вхождения. Я запутался в том, как их сравнить отсюда. Я бы подумал, что мне нужно рассчитать вероятность каждого случая и взять самый большой. Т…
01 май '16 в 13:46
1 ответ

Поезд doc2vec для сходства названий компаний

Я пытаюсь дедуплицировать огромный список компаний (более 40 млн.), Используя сходство названий. У меня 500K пар названий компаний, помеченных одинаково / не одинаково (например, IBM =International Business Machines). Модель, построенная с помощью л…
13 авг '17 в 10:20
1 ответ

Sentence2vec и Word2vec, включающие стоп-слова и именованные объекты

Я работаю над проектом НЛП, включающим в себя предложение 2век. Я предполагаю, что буду использовать предварительно обученные вложения слов для преобразования токенов в векторы, а затем приступить к встраиванию предложений. Так как мое предложение в…
27 фев '18 в 14:16
1 ответ

Сходство между двумя столбцами данных

У меня есть два кадра данных, и у каждого есть столбец с именем Song. Однако иногда песни пишутся по-разному. Как я могу использовать difflib (или что-то подобное), чтобы получить правописание песни одного кадра данных в новом столбце другого кадра …
0 ответов

Как работает функция подобия SpaCy?

Как работает функция подобия SpaCy. Учитывает ли он POS-теги, разбор зависимостей и т. Д. При нахождении показателя сходства между двумя предложениями? Если это не так, как я могу использовать функции, предоставляемые SpaCy, для лучшей семантической…
19 дек '18 в 20:36
1 ответ

Семантическое сходство предложений в тексте

Я использовал материал отсюда и предыдущую страницу форума, чтобы написать некоторый код для программы, которая автоматически вычислит семантическое сходство между последовательными предложениями по всему тексту. Вот; Код для первой части - копия, в…
0 ответов

Сходство между длинными строками

Я пытаюсь сравнить названия лекций, чтобы определить сходство между ними. Я знаю, что существует множество редактирующих уравнений расстояния, но знаете ли вы какие-нибудь, которые будут работать быстро и давать расстояние между двумя строками?
2 ответа

Экстраполировать схожесть предложений с учетом сходства слов

Предполагая, что у меня есть оценка сходства слов для каждой пары слов в двух предложениях, каков достойный подход к определению общего сходства предложений по этим оценкам? Оценка слов рассчитывается с использованием косинусного сходства из векторо…
1 ответ

Как мне сделать каждое предложение во вложенном списке?

Я работаю с текстовым файлом, который выглядит следующим образом; (Слова на шведском) ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', '…
1 ответ

Как перейти от сходства слов к общему сходству предложений

Я реализовал метод сходства предложений с использованием WS4J. Я читал о сходстве предложений в статьях, которое основано на сходстве слов в двух предложениях. Но я не смог найти метод, который вычисляет и возвращает единственное значение для общего…
1 ответ

word2vec, сумма или среднее вложение слов?

Я использую word2vec для представления маленькой фразы (от 3 до 4 слов) в качестве уникального вектора, либо путем добавления каждого отдельного вложения слова, либо путем вычисления среднего значения вложения слов. Из проведенных экспериментов я вс…
2 ответа

Сходство предложений с использованием керас

Я пытаюсь реализовать архитектуру подобия предложений на основе этой работы с использованием набора данных STS. Метки - это нормализованные оценки сходства от 0 до 1, поэтому предполагается, что это регрессионная модель. Моя проблема в том, что поте…
02 сен '16 в 09:31
0 ответов

Аналогичный алгоритм сопоставления строк: Жаккарда, Кости, Косинус и Точный

Я пытаюсь выяснить сходство между двумя английскими предложениями. Среди алгоритмов сравнения строк Jaccard, Dice, Exact и Cosine, который является лучшим, когда речь идет о сопоставлении строк или определении близости? Предложение 1: Интернет-магаз…
1 ответ

Результаты поиска asticsearch ngram и postgresql trigram не совпадают

Я создал индекс эластичного поиска так же, как ниже: "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngram", "min_gram": 3, "max_gram": 3 } }, "analyzer": { "trigrams": { "type":…
1 ответ

Tf-Idf, использующий косинусное сходство для сходства документов почти аналогичного предложения

Я использую tf-idf с косинусным сходством для вычисления сходства описания (предложения) Строка ввода: 3/4x1/2x3/4 blk mi tee Ниже приведены предложения, среди которых мне нужно найти предложение, похожее на строку ввода. smith-cooper® 33rt1…