Описание тега similarity

Меры сходства количественно определяют, насколько похожи объекты (например, документы, векторы признаков).
1 ответ

Лучший алгоритм для поиска похожего текста

Я пытаюсь объединить записи в базе данных, я использую алгоритм Левенштейна и работает в некоторых случаях, Рабочий образец (расстояние <= 2): * --------- * ---------- * -------- * | Looking | Finds | Distance | * --------- * ---------- * -------- *…
30 апр '14 в 17:29
2 ответа

Найти похожие элементы в списке словарей на основе значений

Я хочу сопоставить аналогичные статьи из базы данных Django на основе тегов, которые хранятся в списке словаря следующим образом: myarticle = {'pk': 17, 'tags': [0, 1, 0, 1, 0]} allarticles = [{'pk': 1, 'tags': [0, 0, 0, 1, 0]}, {'pk': 2, 'tags': [0…
26 июл '18 в 14:34
1 ответ

Как рассчитать коварную матрицу для махадистании

Я пытаюсь реализовать дистанцию ​​махаланобисов, используя OpenCV и VC++ 2010. Я знаю алгоритм для этого, функция. (x-mean)^T*inv(covarmatrix)*(x-mean) Но когда я внедряю его в OpenCV, он просто выдает ошибки снова и снова. это мой код, где я вычисл…
11 июн '13 в 13:31
1 ответ

Получить категорию для текстов

Я хочу выбрать категорию текста (статьи)(например, спорт, экономический), строку, и я хочу знать, лучший ли это способ сделать с помощью функции Similar_text() или иным образом. Мне нужно сравнить тексты. Одна статья - это описание, которое должно б…
29 окт '11 в 20:09
1 ответ

SQLite объединяет значения похожих записей в одну

В моей базе данных SQLite есть таблица Tracks, которая состоит из следующих столбцов: artist, track, genre1, genre2, genre3. Таблица содержит много значений, которые имеют одного и того же исполнителя и значения треков с разными значениями genre1, g…
18 июн '15 в 20:53
1 ответ

Пытаясь понять LSH через пример кода Python

Краткий код Python для изучения я здесь Вопрос A @ line 8 я не очень понимаю синтаксическое значение для "res = res << 1" для цели "get_signature" Вопрос B @ строка 49 (решено мной через другой Q & A) "xor = r1 ^ r2" на самом деле не имеет никакого …
22 июн '15 в 06:07
2 ответа

Какая польза от Brown Corpus для измерения семантического сходства на основе WordNet?

Я сталкивался с несколькими методами измерения семантического сходства, которые используют структуру и иерархию WordNet, например, мера Цзяна и Конрата (JNC), мера Ресника (RES), мера Лин (LIN) и т. Д. Они измеряются с помощью NLTK: sim2=wn.jcn_simi…
09 сен '13 в 19:45
0 ответов

Эффективность сходства строк в Apache Spark

Мы новички в Apache Spark и выполняем сопоставление строк, используя методы сходства строк (JaroWinkler, Levenshtein, Cosine), мы должны сделать это для огромных данных (2,2 миллиона), хотели бы знать, является ли это правильным способом или же мы м…
2 ответа

Вычисление сходства между предложениями

У меня есть база данных с тысячами строк журналов ошибок и их описанием. Этот журнал ошибок предназначен для приложения, работающего 24/7. Я хочу создать панель мониторинга / пользовательский интерфейс для просмотра текущих распространенных ошибок, …
27 дек '10 в 17:48
2 ответа

Вычислить средний квадрат, абсолютное отклонение и пользовательскую меру сходства - Python/NumPy

У меня есть большое изображение в виде 2D-массива (предположим, что это изображение размером 500 на 1000 пикселей в оттенках серого). И у меня есть одно маленькое изображение (скажем, 15 на 15 пикселей). Я хотел бы скользить маленьким изображением п…
26 дек '16 в 11:24
1 ответ

Найдите строку с ближайшим ближайшим рейтингом (баллом) для каждой строки в таблице.

Я - пользователь-любитель SQL и хочу создать довольно продвинутый SQL-запрос для обнаружения наиболее похожих объектов в базе данных в Access Точнее, моя база данных имеет следующую структуру FID PC1 PC2 PC3 PC4 1 0.765 0.043 -0.0023 -0.0009 5 0.223…
22 май '14 в 11:51
5 ответов

Найти дубликаты PDF

Я ищу утилиту, которая поможет мне найти дубликаты PDF-файлов. Проблема: у меня есть тысячи файлов PDF. Некоторые являются дубликатами. Их нелегко обнаружить из-за различий в именах файлов и небольших различий в размере файлов. Есть ли утилита / алг…
03 окт '10 в 15:12
1 ответ

Как найти меру сходства между двумя предложениями, используя простой коэффициент соответствия?

Я следовал за кодом по этой ссылке, чтобы найти меру сходства между входами X и Y: def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method=='smc': # SMC X,Y = binarize(X…
1 ответ

Сравнить условия документов в матрице сроков документов в R

Мне нужно построить Матрицу сходства, сравнивая условия документов. Так, например, если Document1 и Document2 имеют 2 одинаковых термина, мне нужно написать 2 в моей матрице сходства в m[1, 2]. Моя матрица сходства выглядит следующим образом: [,1] […
14 янв '13 в 16:30
2 ответа

Поиск похожих / связанных текстовых алгоритмов

Я много искал в stackru и Google, но не нашел лучшего ответа на это. На самом деле, я собираюсь разработать систему чтения новостей, которая будет сканировать и собирать новости из Интернета (с помощью сканера), а затем я хочу найти похожие или похо…
21 сен '12 в 07:26
2 ответа

Если данные в столбце A похожи в двух файлах Excel, сохраните похожие данные и удалите все остальные данные во 2-м файле.

У меня есть родительский файл Excel с постоянно меняющимся диапазоном расположения точек, введенным вручную в столбец А. Для этого примера, скажем, 11. Point P1 P13 P20 P5 P17 P8 P10 P11 P3 P7 P4 У меня есть 2-й файл Excel с другим навсегда изменяющ…
10 апр '18 в 21:36
0 ответов

Как сопоставить предложения в двух одинаковых текстах?

У меня есть два одинаковых текста (на самом деле набор таких пар). Чтобы проиллюстрировать, в каком смысле они похожи: один из них представляет собой оригинальный письменный текст, другой получен путем распознавания речи устного чтения первого. Поэт…
1 ответ

Понимание np.zeros в кластеризации

Я учусь кластеризации, и я видел в нескольких уроках кое-что, чего я не совсем понимаю в части мер сходства: tfidf_vector = TfidfVectorizer() tfidf_matrix = tfidf_vector.fit_transform(file) #and/or count_vector = CountVectorizer() count_matrix = cou…
0 ответов

Solr объяснение возвращается с пустыми ключами

При выполнении поискового запроса через solr можно увидеть объяснение оценки. Solr возвращает объяснения для всех возвращенных документов. Но объяснение содержит пустые ключи: "объяснять":{ "":"qwerrewerwe", "":"qwrerfegregrh"... Я думаю, что ключ д…
30 окт '17 в 13:19
1 ответ

Обнаружение черного / пустого кадра в видео с помощью OpenCV

Я использую класс OpenCV 2.4.2 VideoCapture для захвата кадров из нескольких видео, и моя цель - сравнить кадры между видео для получения похожих видео (визуально похожих). Я сталкиваюсь с двумя проблемами. Видео содержат пустые / черные рамки. Я мо…