Описание тега latent-semantic-analysis

Описание тега Вопросы с тегом

Скрытый семантический анализ - это метод обработки естественного языка, в частности распределительной семантики, анализа отношений между набором документов и содержащимися в них терминами путем создания набора концепций, связанных с документами и терминами. Используйте этот тег для вопросов, связанных с техникой обработки естественного языка.

0 ответов

Скрытые веса лавы

Я хотел использовать весовые коэффициенты в модели скрытых признаков (которая включает в себя модель измерения одного фактора, измеряемого четырьмя порядковыми элементами, и структурную часть фактора, регрессированного на нескольких ковариатах. По-в…

05 июл '17 в 11:55

1 ответ

Выбрать правильный метод кластеризации для скрытого семантического анализа

Я хочу объединить текстовый документ, чтобы найти документ с той же концепцией. Я сделал семантическое сходство, используя Latent Semantic Analysis (LSA), но я путаю, какой метод кластеризации я должен выбрать для своих целей. Спасибо

cluster-analysis latent-semantic-indexing latent-semantic-analysis

19 июн '15 в 02:48

0 ответов

Извлечение темы из веб-страницы

Я пытаюсь научиться некоторому машинному обучению, но, к сожалению, неконтролируемое обучение плохо для меня, и я надеялся, что какое-нибудь полуобучаемое обучение благодаря Stackru может помочь мне!:) Я пытаюсь извлечь тему веб-страницы из необрабо…

python html machine-learning classification latent-semantic-analysis

08 дек '13 в 21:04

1 ответ

Семантическое сходство предложений в тексте

Я использовал материал отсюда и предыдущую страницу форума, чтобы написать некоторый код для программы, которая автоматически вычислит семантическое сходство между последовательными предложениями по всему тексту. Вот; Код для первой части - копия, в…

python vector tf-idf sentence-similarity latent-semantic-analysis

11 янв '17 в 15:57

1 ответ

Какую формулу tf-idf использует модель LSA gensim?

Существует много разных способов вычисления tf и idf. Я хочу знать, какую формулу использует gensim в своей модели LSA. Я прошёл его исходный код lsimodel.py, но для меня не очевидно, где создается матрица термина документа (возможно, из-за оптимиза…

gensim tf-idf latent-semantic-indexing latent-semantic-analysis

01 дек '17 в 17:36

0 ответов

Анализ скрытого текста (пакет lsa) с использованием целых документов в R

У меня есть код, который успешно выполняет анализ скрытого текста на коротких цитатах с использованием пакета lsa в R (см. Ниже). Тем не менее, я бы предпочел использовать этот метод для текста из больших документов. Копирование всего объекта в кажд…

r text lsa latent-semantic-analysis

19 фев '17 в 22:17

1 ответ

Скрытая семантическая индексация с помощью gensim

Чтобы использовать метод скрытой семантической индексации от gensim, я хочу начать с небольшого "классического" примера, такого как: import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.co…

gensim wikidata bz2 latent-semantic-indexing latent-semantic-analysis

09 май '17 в 11:39

1 ответ

Интерфейс сходства LSA

Я аспирант в области перевода и в настоящее время работаю над диссертацией. Я использую интерфейс сходства LSA как метод анализа в своей диссертации. Мой опыт в лингвистике, а не в информатике. Я пытался найти простой инструмент классификации докуме…

lsa latent-semantic-indexing latent-semantic-analysis

21 дек '14 в 05:47

1 ответ

Как выполнить скрытый семантический анализ для очень большого набора данных

Я пытаюсь выполнить анализ LSA или компонента компонента на очень большом наборе данных, около 50 000 документов и более 300 000 слов / терминов, чтобы уменьшить размерность, чтобы я мог представить документы в 2-х измерениях. Я пробовал в Python и …

matlab nlp pca dimensionality-reduction latent-semantic-analysis

30 авг '12 в 10:19

1 ответ

Есть ли в памяти реализация заданий SparseVectorsFromSequenceFiles, RowIdJob и RowSimilityJob

Я работал над выполнением скрытого семантического анализа с использованием SparseVectorsFromSequenceFiles, RowIdJob а также RowSimilarityJob Задания Hadoop, предоставляемые Mahout, которые запускают задания Map/Reduce. Я пытался найти эквивалентную …

hadoop mahout semantic-analysis lsa latent-semantic-analysis

02 июл '12 в 07:52

0 ответов

Скрытый семантический анализ и стемминг

Предположим, что очень большой корпус любого негибкого языка. Имеет ли смысл следующее? Применяя LSA к такому корпусу, слова с похожими понятиями сходятся вместе в векторном пространстве, таким образом, наклоненные формы слов, относящиеся к одному и…

nlp svd lemmatization lsa latent-semantic-analysis

14 мар '17 в 23:30

2 ответа

Моделирование тем: LDA, частота слов в каждой теме и Wordcloud

Вопрос: Как я могу вычислить и закодировать частоту слов в каждой теме? Моя цель - создать "Облако слов" из каждой темы. PS> У меня нет проблем с wordcloud. Из кода, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <…

r text tidytext latent-semantic-indexing latent-semantic-analysis

08 авг '17 в 08:25

1 ответ

В латентном семантическом анализе, как вы рекомбинируете разложенные матрицы после обрезания сингулярных значений?

Я читаю матричные декомпозиции и скрытую семантическую индексацию (онлайн-издание © 2009 Cambridge UP) Я пытаюсь понять, как вы уменьшаете количество измерений в матрице. На странице 13 есть пример, который я пытаюсь воспроизвести, используя numpy P…

nlp linear-algebra svd latent-semantic-analysis

02 янв '14 в 20:33

1 ответ

Объединение LSA/LSI с наивным байесовским для классификации документов

Я новичок в пакетах gensim и моделях векторного пространства в целом, и я не уверен, что именно я должен делать с моим выводом LSA. Чтобы дать краткий обзор моей цели, я хотел бы улучшить Наивный байесовский классификатор, используя тематическое мод…

gensim naivebayes document-classification latent-semantic-indexing latent-semantic-analysis

29 апр '15 в 01:23

0 ответов

Латентный семантический анализ тем слова в C#

Я использую C#, и я написал код, который имеет дело с LSI, и он работает хорошо. Теперь я могу получить матрицы U, S и V. Тем не менее, очень важная информация для меня это знать набор слов, составляющих каждую тему или концепцию в S-матрице. Как я …

c# topic-modeling latent-semantic-indexing latent-semantic-analysis

26 апр '18 в 17:44

1 ответ

Использование пакета lsa в R - Ошибка в Ops.simple_triplet_matrix(m, 1): несовместимые размеры

Я пытаюсь научиться использовать пакет lsa в R. Я работаю с гораздо большим набором данных, чем в приведенном ниже примере, но это для целей воспроизводимости (опора этого человека для размещения этого кода на его сайте, это отличный ресурс). Я полу…

r text-mining lsa latent-semantic-analysis

09 июн '15 в 15:41

1 ответ

Как скрытый семантический анализ обрабатывает семантику

Я прошел метод LSA. Говорят, что LSA можно использовать для семантического анализа. Но я не могу понять, как это работает в LSA. Может кто-нибудь, пожалуйста, скажите мне, как LSA обрабатывает семантику.

nlp latent-semantic-analysis

15 авг '14 в 00:49

1 ответ

Как сформировать рекомендацию с матричной факторизацией

Я читал некоторые статьи о матричной факторизации (модель скрытого фактора) в Системе рекомендаций и могу реализовать алгоритм. Я могу получить такой же результат RMSE, как в статье, указанной в наборе данных MovieLens. Однако я обнаружил, что, если…

recommendation-engine latent-semantic-analysis

07 дек '12 в 05:33

1 ответ

gensim Генерация модели LSI вызывает "Python перестал работать"

Поэтому я пытаюсь использовать gensim для создания модели LSI вместе с corpus_lsi, следуя этому руководству. Я начинаю с корпуса и словаря, который я создал сам. Список документов слишком мал (9 строк = 9 документов), что является образцом списка, п…

python python-3.x gensim latent-semantic-indexing latent-semantic-analysis

23 окт '16 в 17:23

1 ответ

R Супервизированный пакет скрытого распределения Dirichlet

Я использую этот пакет LDA для R. В частности, я пытаюсь сделать скрытое распределение dirichlet (slda). В связанном пакете есть slda.em функция. Однако, что меня смущает, так это то, что он запрашивает параметры альфа, эта и дисперсия. Насколько я …

r topic-modeling dirichlet latent-semantic-analysis

27 апр '16 в 23:40