Описание тега latent-semantic-analysis
Скрытый семантический анализ - это метод обработки естественного языка, в частности распределительной семантики, анализа отношений между набором документов и содержащимися в них терминами путем создания набора концепций, связанных с документами и терминами. Используйте этот тег для вопросов, связанных с техникой обработки естественного языка.
0
ответов
Скрытые веса лавы
Я хотел использовать весовые коэффициенты в модели скрытых признаков (которая включает в себя модель измерения одного фактора, измеряемого четырьмя порядковыми элементами, и структурную часть фактора, регрессированного на нескольких ковариатах. По-в…
05 июл '17 в 11:55
1
ответ
Выбрать правильный метод кластеризации для скрытого семантического анализа
Я хочу объединить текстовый документ, чтобы найти документ с той же концепцией. Я сделал семантическое сходство, используя Latent Semantic Analysis (LSA), но я путаю, какой метод кластеризации я должен выбрать для своих целей. Спасибо
19 июн '15 в 02:48
0
ответов
Извлечение темы из веб-страницы
Я пытаюсь научиться некоторому машинному обучению, но, к сожалению, неконтролируемое обучение плохо для меня, и я надеялся, что какое-нибудь полуобучаемое обучение благодаря Stackru может помочь мне!:) Я пытаюсь извлечь тему веб-страницы из необрабо…
08 дек '13 в 21:04
1
ответ
Семантическое сходство предложений в тексте
Я использовал материал отсюда и предыдущую страницу форума, чтобы написать некоторый код для программы, которая автоматически вычислит семантическое сходство между последовательными предложениями по всему тексту. Вот; Код для первой части - копия, в…
11 янв '17 в 15:57
1
ответ
Какую формулу tf-idf использует модель LSA gensim?
Существует много разных способов вычисления tf и idf. Я хочу знать, какую формулу использует gensim в своей модели LSA. Я прошёл его исходный код lsimodel.py, но для меня не очевидно, где создается матрица термина документа (возможно, из-за оптимиза…
01 дек '17 в 17:36
0
ответов
Анализ скрытого текста (пакет lsa) с использованием целых документов в R
У меня есть код, который успешно выполняет анализ скрытого текста на коротких цитатах с использованием пакета lsa в R (см. Ниже). Тем не менее, я бы предпочел использовать этот метод для текста из больших документов. Копирование всего объекта в кажд…
19 фев '17 в 22:17
1
ответ
Скрытая семантическая индексация с помощью gensim
Чтобы использовать метод скрытой семантической индексации от gensim, я хочу начать с небольшого "классического" примера, такого как: import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.co…
09 май '17 в 11:39
1
ответ
Интерфейс сходства LSA
Я аспирант в области перевода и в настоящее время работаю над диссертацией. Я использую интерфейс сходства LSA как метод анализа в своей диссертации. Мой опыт в лингвистике, а не в информатике. Я пытался найти простой инструмент классификации докуме…
21 дек '14 в 05:47
1
ответ
Как выполнить скрытый семантический анализ для очень большого набора данных
Я пытаюсь выполнить анализ LSA или компонента компонента на очень большом наборе данных, около 50 000 документов и более 300 000 слов / терминов, чтобы уменьшить размерность, чтобы я мог представить документы в 2-х измерениях. Я пробовал в Python и …
30 авг '12 в 10:19
1
ответ
Есть ли в памяти реализация заданий SparseVectorsFromSequenceFiles, RowIdJob и RowSimilityJob
Я работал над выполнением скрытого семантического анализа с использованием SparseVectorsFromSequenceFiles, RowIdJob а также RowSimilarityJob Задания Hadoop, предоставляемые Mahout, которые запускают задания Map/Reduce. Я пытался найти эквивалентную …
02 июл '12 в 07:52
0
ответов
Скрытый семантический анализ и стемминг
Предположим, что очень большой корпус любого негибкого языка. Имеет ли смысл следующее? Применяя LSA к такому корпусу, слова с похожими понятиями сходятся вместе в векторном пространстве, таким образом, наклоненные формы слов, относящиеся к одному и…
14 мар '17 в 23:30
2
ответа
Моделирование тем: LDA, частота слов в каждой теме и Wordcloud
Вопрос: Как я могу вычислить и закодировать частоту слов в каждой теме? Моя цель - создать "Облако слов" из каждой темы. PS> У меня нет проблем с wordcloud. Из кода, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <…
08 авг '17 в 08:25
1
ответ
В латентном семантическом анализе, как вы рекомбинируете разложенные матрицы после обрезания сингулярных значений?
Я читаю матричные декомпозиции и скрытую семантическую индексацию (онлайн-издание © 2009 Cambridge UP) Я пытаюсь понять, как вы уменьшаете количество измерений в матрице. На странице 13 есть пример, который я пытаюсь воспроизвести, используя numpy P…
02 янв '14 в 20:33
1
ответ
Объединение LSA/LSI с наивным байесовским для классификации документов
Я новичок в пакетах gensim и моделях векторного пространства в целом, и я не уверен, что именно я должен делать с моим выводом LSA. Чтобы дать краткий обзор моей цели, я хотел бы улучшить Наивный байесовский классификатор, используя тематическое мод…
29 апр '15 в 01:23
0
ответов
Латентный семантический анализ тем слова в C#
Я использую C#, и я написал код, который имеет дело с LSI, и он работает хорошо. Теперь я могу получить матрицы U, S и V. Тем не менее, очень важная информация для меня это знать набор слов, составляющих каждую тему или концепцию в S-матрице. Как я …
26 апр '18 в 17:44
1
ответ
Использование пакета lsa в R - Ошибка в Ops.simple_triplet_matrix(m, 1): несовместимые размеры
Я пытаюсь научиться использовать пакет lsa в R. Я работаю с гораздо большим набором данных, чем в приведенном ниже примере, но это для целей воспроизводимости (опора этого человека для размещения этого кода на его сайте, это отличный ресурс). Я полу…
09 июн '15 в 15:41
1
ответ
Как скрытый семантический анализ обрабатывает семантику
Я прошел метод LSA. Говорят, что LSA можно использовать для семантического анализа. Но я не могу понять, как это работает в LSA. Может кто-нибудь, пожалуйста, скажите мне, как LSA обрабатывает семантику.
15 авг '14 в 00:49
1
ответ
Как сформировать рекомендацию с матричной факторизацией
Я читал некоторые статьи о матричной факторизации (модель скрытого фактора) в Системе рекомендаций и могу реализовать алгоритм. Я могу получить такой же результат RMSE, как в статье, указанной в наборе данных MovieLens. Однако я обнаружил, что, если…
07 дек '12 в 05:33
1
ответ
gensim Генерация модели LSI вызывает "Python перестал работать"
Поэтому я пытаюсь использовать gensim для создания модели LSI вместе с corpus_lsi, следуя этому руководству. Я начинаю с корпуса и словаря, который я создал сам. Список документов слишком мал (9 строк = 9 документов), что является образцом списка, п…
23 окт '16 в 17:23
1
ответ
R Супервизированный пакет скрытого распределения Dirichlet
Я использую этот пакет LDA для R. В частности, я пытаюсь сделать скрытое распределение dirichlet (slda). В связанном пакете есть slda.em функция. Однако, что меня смущает, так это то, что он запрашивает параметры альфа, эта и дисперсия. Насколько я …
27 апр '16 в 23:40