LSA означает скрытый семантический анализ, метод обработки естественного языка, который включает анализ отношений между документами и содержащимися в них терминами путем создания набора связанных понятий.
2 ответа

Зачем использовать LSA перед K-Means при кластеризации текста

Я изучаю этот урок из Scikit, изучая кластеризацию текста с использованием K-Means: http://scikit-learn.org/stable/auto_examples/text/document_clustering.html В этом примере необязательно LSA (с использованием SVD) используется для уменьшения размер…
22 фев '17 в 14:52
1 ответ

Обнаружение синонимов из набора документов с использованием LSA-преобразования в Ruby

После применения преобразования LSA к массиву документов, как это можно использовать для создания синонимов? Например, у меня есть следующие образцы документов: D1 = МобилизацияD2 = отражающий тротуарD3 = Обслуживание трафикаD4 = Специальный обходD5…
29 мар '11 в 02:17
0 ответов

Перечисление всех учетных записей и групп с правами

Итак, я занимаюсь созданием автоматизированного приложения для документации сервера для аварийного восстановления. Один из разделов документации - по сути, поместить следующую информацию в текстовый документ: gpedit.msc> Настройки Windows> Настройки…
03 авг '11 в 17:41
2 ответа

Почему в OSPF LSA последовательность nuber находится в диапазоне от 0x80000001 до 0x7FFFFFFF

Почему в OSPF последовательный номер LSA находится в диапазоне от 0x80000001 до 0x7FFFFFFF. Я полагаю, что это по каким-то историческим причинам, но не могу погуглить.
18 фев '13 в 19:36
1 ответ

Как получить только те элементы списка, которые соответствуют пользовательскому вводу?

Мне нужно принять ввод от пользователя, и только та группа слов должна вернуться ко мне, где происходит ввод строки. Например, если я ищу людей, то только те группы слов, где появляются люди, должны быть извлечены в качестве выходных данных. Вот мой…
15 дек '17 в 19:26
1 ответ

R LSA LSAFUN, включая проблемы

Я хотел бы использовать genericSummary функция из пакета LSAfun, Вот немецкий пример текста. library("LSAfun") text = " Gegen die Firma wurde während der letzten Woche ein Zwangsvollstreckungsverfahren eingeleitet. Darüber witzeln die Konkurrenten."…
02 ноя '17 в 09:22
2 ответа

SVD в матрице срочных документов не дают мне значений, которые я хочу

Я пытаюсь воспроизвести пример в статье под названием "Введение в АЛП": Введение в АЛП В этом примере они имеют следующую матрицу терм-документа: И тогда они применяют SVD и получают следующее: Пытаясь повторить это, я написал следующий код R: libra…
13 окт '15 в 21:20
0 ответов

Объясненная дисперсия в TruncatedSVD

Когда я попытался обдумать LSA, я обнаружил, что не могу воспроизвести результат TruncatedSVD с использованием SVD. Почему это не работает. Спасибо за помощь. import pandas as pd import numpy as np from sklearn.decomposition import TruncatedSVD # Ir…
30 авг '18 в 16:33
1 ответ

Почему LSA в text2vec каждый раз дает разные результаты?

Я использовал скрытый семантический анализ в text2vec пакет для генерации векторов слов и использования преобразования для подгонки новых данных, когда я заметил что-то странное, пробелы не выстраиваются в линию при обучении одним и тем же данным. К…
13 фев '19 в 03:10
1 ответ

Как вычислить сходство слов, используя TF-IDF или LSA с gensim?

Я знаю, что word2vec в gensim может вычислить сходство между словами. Но теперь я хочу вычислить сходство слов, используя TF-IDF или LSA с gensim. Как это сделать? примечание: вычислить сходство документов с помощью LSA с помощью gensim очень просто…
14 мар '16 в 06:49
1 ответ

СВД в БИС в книге Введение в поиск информации

В примере 18.4 из книги Введение в поиск информации. Матрица термина-документа разлагается с использованием SVD. У меня вопрос, почему в этом примере матрица 5*5? Разве это не должна быть матрица 5*6? Это неправильно? Вот ссылка на главу 18 книги "В…
11 ноя '15 в 01:28
0 ответов

java.lang.NoClassDefFoundError: org/apache/lucene/index/CorruptIndexException

Я пытаюсь реализовать семантический поиск LSA с использованием библиотеки TML. Здесь мой код, где rep1 - это папка, которую я создаю, а досье - папка, в которую я помещаю свои текстовые документы. public static void main(String[] args) throws Except…
16 май '17 в 09:27
2 ответа

Разложение по сингулярным значениям: разные результаты с Jama, PColt и NumPy

Я хочу выполнить разложение по сингулярным значениям на большой (разреженной) матрице. Чтобы выбрать лучшую (наиболее точную) библиотеку, я попытался воспроизвести приведенный здесь пример SVD, используя разные библиотеки Java и Python. Странно, я п…
16 июл '13 в 16:57
2 ответа

Факторный анализ с использованием MDP в Python

Извините за мое невежество, я очень плохо знаком с Python. Я пытаюсь выполнить факторный анализ в Python с использованием MDP (хотя я могу использовать другую библиотеку, если есть лучшее решение). У меня есть матрица m на n (называемая матрицей), и…
20 май '11 в 02:46
0 ответов

Проверьте TermDocumentMatrix, чтобы получить полный список слов / терминов в R

Я пытаюсь использовать inspect(TermDocumentMatrix()) получить список частот слов / терминов между текстовыми документами (в R) Используя пример кода из ?TermDocumentMatrix: data("crude") tdm <- TermDocumentMatrix(crude, control = list(removePunct…
02 май '17 в 23:41
1 ответ

Внедрение LSA для эластичного поискового индекса

Я только что провел последние пару дней, обдумывая реализацию скрытого семантического анализа для документов, которые проиндексированы в asticsearch. Первым шагом является построение матрицы термина-документа. Так что я думаю использовать библиотеку…
1 ответ

Результаты латентного семантического анализа

Я следую учебному пособию по LSA и переключив пример на другой список строк, я не уверен, что код работает должным образом. Когда я использую пример ввода, приведенный в руководстве, он дает разумные ответы. Однако когда я использую свои собственные…
06 сен '18 в 07:29
1 ответ

Сравните текст, хранящийся в каждой строке, по 2 столбцам в R

У меня 2 вектораа = с ("ABC", "DEF", "GHI", "JKL")Ь = с ("ABC", "Дез", "GYX", "MnO") Как я могу получить значения косинуса, чтобы сравнить соответствующие записи? В этом случае мне нужно сказать, что 1-я запись в каждом векторе абсолютно одинакова, …
24 фев '16 в 15:38
1 ответ

Сколько особых значений хранить в пакете R lsa

Я использовал функцию lsa в пакете R lsa, чтобы получить семантическое пространство. Входные данные представляют собой матрицу терм-документа. Проблема в том, что функция dimcalc_share(), используемая lsa по умолчанию, кажется неправильной. На стран…
02 янв '15 в 14:25
1 ответ

Другой подход к сходству документов (LDA, LSA, косинус)

У меня есть набор коротких документов (1 или 2 абзаца каждый). Я использовал три разных подхода к сходству документов: - простое косинусное сходство на матрице tfidf - применил LDA ко всему корпусу и затем использовал модель LDA для создания вектора…
05 янв '17 в 20:38