Описание тега latent-semantic-analysis

Скрытый семантический анализ - это метод обработки естественного языка, в частности распределительной семантики, анализа отношений между набором документов и содержащимися в них терминами путем создания набора концепций, связанных с документами и терминами. Используйте этот тег для вопросов, связанных с техникой обработки естественного языка.
0 ответов

Скрытые веса лавы

Я хотел использовать весовые коэффициенты в модели скрытых признаков (которая включает в себя модель измерения одного фактора, измеряемого четырьмя порядковыми элементами, и структурную часть фактора, регрессированного на нескольких ковариатах. По-в…
05 июл '17 в 11:55
1 ответ

Выбрать правильный метод кластеризации для скрытого семантического анализа

Я хочу объединить текстовый документ, чтобы найти документ с той же концепцией. Я сделал семантическое сходство, используя Latent Semantic Analysis (LSA), но я путаю, какой метод кластеризации я должен выбрать для своих целей. Спасибо
0 ответов

Извлечение темы из веб-страницы

Я пытаюсь научиться некоторому машинному обучению, но, к сожалению, неконтролируемое обучение плохо для меня, и я надеялся, что какое-нибудь полуобучаемое обучение благодаря Stackru может помочь мне!:) Я пытаюсь извлечь тему веб-страницы из необрабо…
1 ответ

Семантическое сходство предложений в тексте

Я использовал материал отсюда и предыдущую страницу форума, чтобы написать некоторый код для программы, которая автоматически вычислит семантическое сходство между последовательными предложениями по всему тексту. Вот; Код для первой части - копия, в…
1 ответ

Какую формулу tf-idf использует модель LSA gensim?

Существует много разных способов вычисления tf и idf. Я хочу знать, какую формулу использует gensim в своей модели LSA. Я прошёл его исходный код lsimodel.py, но для меня не очевидно, где создается матрица термина документа (возможно, из-за оптимиза…
0 ответов

Анализ скрытого текста (пакет lsa) с использованием целых документов в R

У меня есть код, который успешно выполняет анализ скрытого текста на коротких цитатах с использованием пакета lsa в R (см. Ниже). Тем не менее, я бы предпочел использовать этот метод для текста из больших документов. Копирование всего объекта в кажд…
19 фев '17 в 22:17
1 ответ

Скрытая семантическая индексация с помощью gensim

Чтобы использовать метод скрытой семантической индексации от gensim, я хочу начать с небольшого "классического" примера, такого как: import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.co…
1 ответ

Интерфейс сходства LSA

Я аспирант в области перевода и в настоящее время работаю над диссертацией. Я использую интерфейс сходства LSA как метод анализа в своей диссертации. Мой опыт в лингвистике, а не в информатике. Я пытался найти простой инструмент классификации докуме…
1 ответ

Как выполнить скрытый семантический анализ для очень большого набора данных

Я пытаюсь выполнить анализ LSA или компонента компонента на очень большом наборе данных, около 50 000 документов и более 300 000 слов / терминов, чтобы уменьшить размерность, чтобы я мог представить документы в 2-х измерениях. Я пробовал в Python и …
1 ответ

Есть ли в памяти реализация заданий SparseVectorsFromSequenceFiles, RowIdJob и RowSimilityJob

Я работал над выполнением скрытого семантического анализа с использованием SparseVectorsFromSequenceFiles, RowIdJob а также RowSimilarityJob Задания Hadoop, предоставляемые Mahout, которые запускают задания Map/Reduce. Я пытался найти эквивалентную …
0 ответов

Скрытый семантический анализ и стемминг

Предположим, что очень большой корпус любого негибкого языка. Имеет ли смысл следующее? Применяя LSA к такому корпусу, слова с похожими понятиями сходятся вместе в векторном пространстве, таким образом, наклоненные формы слов, относящиеся к одному и…
2 ответа

Моделирование тем: LDA, частота слов в каждой теме и Wordcloud

Вопрос: Как я могу вычислить и закодировать частоту слов в каждой теме? Моя цель - создать "Облако слов" из каждой темы. PS> У меня нет проблем с wordcloud. Из кода, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <…
1 ответ

В латентном семантическом анализе, как вы рекомбинируете разложенные матрицы после обрезания сингулярных значений?

Я читаю матричные декомпозиции и скрытую семантическую индексацию (онлайн-издание © 2009 Cambridge UP) Я пытаюсь понять, как вы уменьшаете количество измерений в матрице. На странице 13 есть пример, который я пытаюсь воспроизвести, используя numpy P…
1 ответ

Объединение LSA/LSI с наивным байесовским для классификации документов

Я новичок в пакетах gensim и моделях векторного пространства в целом, и я не уверен, что именно я должен делать с моим выводом LSA. Чтобы дать краткий обзор моей цели, я хотел бы улучшить Наивный байесовский классификатор, используя тематическое мод…
0 ответов

Латентный семантический анализ тем слова в C#

Я использую C#, и я написал код, который имеет дело с LSI, и он работает хорошо. Теперь я могу получить матрицы U, S и V. Тем не менее, очень важная информация для меня это знать набор слов, составляющих каждую тему или концепцию в S-матрице. Как я …
1 ответ

Использование пакета lsa в R - Ошибка в Ops.simple_triplet_matrix(m, 1): несовместимые размеры

Я пытаюсь научиться использовать пакет lsa в R. Я работаю с гораздо большим набором данных, чем в приведенном ниже примере, но это для целей воспроизводимости (опора этого человека для размещения этого кода на его сайте, это отличный ресурс). Я полу…
09 июн '15 в 15:41
1 ответ

Как скрытый семантический анализ обрабатывает семантику

Я прошел метод LSA. Говорят, что LSA можно использовать для семантического анализа. Но я не могу понять, как это работает в LSA. Может кто-нибудь, пожалуйста, скажите мне, как LSA обрабатывает семантику.
15 авг '14 в 00:49
1 ответ

Как сформировать рекомендацию с матричной факторизацией

Я читал некоторые статьи о матричной факторизации (модель скрытого фактора) в Системе рекомендаций и могу реализовать алгоритм. Я могу получить такой же результат RMSE, как в статье, указанной в наборе данных MovieLens. Однако я обнаружил, что, если…
1 ответ

gensim Генерация модели LSI вызывает "Python перестал работать"

Поэтому я пытаюсь использовать gensim для создания модели LSI вместе с corpus_lsi, следуя этому руководству. Я начинаю с корпуса и словаря, который я создал сам. Список документов слишком мал (9 строк = 9 документов), что является образцом списка, п…
1 ответ

R Супервизированный пакет скрытого распределения Dirichlet

Я использую этот пакет LDA для R. В частности, я пытаюсь сделать скрытое распределение dirichlet (slda). В связанном пакете есть slda.em функция. Однако, что меня смущает, так это то, что он запрашивает параметры альфа, эта и дисперсия. Насколько я …