Описание тега sentence-similarity
Сходство предложений - это тема обработки естественного языка, которая пытается найти семантическое или синтаксическое математическое сходство между двумя или более предложениями.
0
ответов
Уменьшить список строковых значений по показателю сходства
Я сталкиваюсь с проблемой машинного обучения; Учебные данные состоят из числовых, категориальных и дат. Я начал тренироваться только на основе чисел и дат (которые я конвертировал в числа, используя эпоху, день недели, часы и т. Д.). Помимо плохой о…
12 сен '18 в 17:38
1
ответ
Как найти меру сходства между двумя предложениями, используя простой коэффициент соответствия?
Я следовал за кодом по этой ссылке, чтобы найти меру сходства между входами X и Y: def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method=='smc': # SMC X,Y = binarize(X…
15 июн '17 в 07:19
0
ответов
Как сопоставить предложения в двух одинаковых текстах?
У меня есть два одинаковых текста (на самом деле набор таких пар). Чтобы проиллюстрировать, в каком смысле они похожи: один из них представляет собой оригинальный письменный текст, другой получен путем распознавания речи устного чтения первого. Поэт…
20 дек '18 в 15:16
3
ответа
Я хочу извлечь предложения, содержащие название наркотика и гена, из 10000 статей
Я хочу извлечь предложения, содержащие название наркотика и гена, из 10000 статей. и мой код import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/d…
14 ноя '16 в 07:10
2
ответа
Базовое сходство текста с помощью синтаксисов WorldNet для отображения / объединения таксономии
Я хотел бы реализовать базовую процедуру сходства текста с семантической дистанцией, используя WordNet и NLTK в Python. Это идея: расширить две концепции / фразы / категории A и B с помощью наборов, гипонимов, гипернимов, меронимов, метонимов и вычи…
08 июл '16 в 15:38
1
ответ
Какова вероятность расчета в модели языка униграмм?
Я создал модель языка униграмм для реализации завершения предложения. У меня есть все слова с номером их вхождения. Я запутался в том, как их сравнить отсюда. Я бы подумал, что мне нужно рассчитать вероятность каждого случая и взять самый большой. Т…
01 май '16 в 13:46
1
ответ
Поезд doc2vec для сходства названий компаний
Я пытаюсь дедуплицировать огромный список компаний (более 40 млн.), Используя сходство названий. У меня 500K пар названий компаний, помеченных одинаково / не одинаково (например, IBM =International Business Machines). Модель, построенная с помощью л…
13 авг '17 в 10:20
1
ответ
Sentence2vec и Word2vec, включающие стоп-слова и именованные объекты
Я работаю над проектом НЛП, включающим в себя предложение 2век. Я предполагаю, что буду использовать предварительно обученные вложения слов для преобразования токенов в векторы, а затем приступить к встраиванию предложений. Так как мое предложение в…
27 фев '18 в 14:16
1
ответ
Сходство между двумя столбцами данных
У меня есть два кадра данных, и у каждого есть столбец с именем Song. Однако иногда песни пишутся по-разному. Как я могу использовать difflib (или что-то подобное), чтобы получить правописание песни одного кадра данных в новом столбце другого кадра …
28 май '18 в 06:15
0
ответов
Как работает функция подобия SpaCy?
Как работает функция подобия SpaCy. Учитывает ли он POS-теги, разбор зависимостей и т. Д. При нахождении показателя сходства между двумя предложениями? Если это не так, как я могу использовать функции, предоставляемые SpaCy, для лучшей семантической…
19 дек '18 в 20:36
1
ответ
Семантическое сходство предложений в тексте
Я использовал материал отсюда и предыдущую страницу форума, чтобы написать некоторый код для программы, которая автоматически вычислит семантическое сходство между последовательными предложениями по всему тексту. Вот; Код для первой части - копия, в…
11 янв '17 в 15:57
0
ответов
Сходство между длинными строками
Я пытаюсь сравнить названия лекций, чтобы определить сходство между ними. Я знаю, что существует множество редактирующих уравнений расстояния, но знаете ли вы какие-нибудь, которые будут работать быстро и давать расстояние между двумя строками?
15 июн '18 в 14:48
2
ответа
Экстраполировать схожесть предложений с учетом сходства слов
Предполагая, что у меня есть оценка сходства слов для каждой пары слов в двух предложениях, каков достойный подход к определению общего сходства предложений по этим оценкам? Оценка слов рассчитывается с использованием косинусного сходства из векторо…
27 янв '15 в 04:31
1
ответ
Как мне сделать каждое предложение во вложенном списке?
Я работаю с текстовым файлом, который выглядит следующим образом; (Слова на шведском) ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', '…
09 янв '17 в 11:49
1
ответ
Как перейти от сходства слов к общему сходству предложений
Я реализовал метод сходства предложений с использованием WS4J. Я читал о сходстве предложений в статьях, которое основано на сходстве слов в двух предложениях. Но я не смог найти метод, который вычисляет и возвращает единственное значение для общего…
22 мар '16 в 14:13
1
ответ
word2vec, сумма или среднее вложение слов?
Я использую word2vec для представления маленькой фразы (от 3 до 4 слов) в качестве уникального вектора, либо путем добавления каждого отдельного вложения слова, либо путем вычисления среднего значения вложения слов. Из проведенных экспериментов я вс…
09 май '15 в 16:23
2
ответа
Сходство предложений с использованием керас
Я пытаюсь реализовать архитектуру подобия предложений на основе этой работы с использованием набора данных STS. Метки - это нормализованные оценки сходства от 0 до 1, поэтому предполагается, что это регрессионная модель. Моя проблема в том, что поте…
02 сен '16 в 09:31
0
ответов
Аналогичный алгоритм сопоставления строк: Жаккарда, Кости, Косинус и Точный
Я пытаюсь выяснить сходство между двумя английскими предложениями. Среди алгоритмов сравнения строк Jaccard, Dice, Exact и Cosine, который является лучшим, когда речь идет о сопоставлении строк или определении близости? Предложение 1: Интернет-магаз…
14 фев '18 в 11:08
1
ответ
Результаты поиска asticsearch ngram и postgresql trigram не совпадают
Я создал индекс эластичного поиска так же, как ниже: "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngram", "min_gram": 3, "max_gram": 3 } }, "analyzer": { "trigrams": { "type":…
17 июл '17 в 11:53
1
ответ
Tf-Idf, использующий косинусное сходство для сходства документов почти аналогичного предложения
Я использую tf-idf с косинусным сходством для вычисления сходства описания (предложения) Строка ввода: 3/4x1/2x3/4 blk mi tee Ниже приведены предложения, среди которых мне нужно найти предложение, похожее на строку ввода. smith-cooper® 33rt1…
19 окт '17 в 12:13