Описание тега latent-semantic-indexing

Latent semantic indexing is an indexing and retrieval method.
1 ответ

Реализация скрытого семантического индексирования в Common Lisp

Существует ли бесплатная реализация скрытой семантической индексации в Common Lisp? Я хотел бы интегрировать эту возможность в существующую систему Lisp.
20 мар '12 в 00:38
1 ответ

Выбрать правильный метод кластеризации для скрытого семантического анализа

Я хочу объединить текстовый документ, чтобы найти документ с той же концепцией. Я сделал семантическое сходство, используя Latent Semantic Analysis (LSA), но я путаю, какой метод кластеризации я должен выбрать для своих целей. Спасибо
2 ответа

Проблема для lsi

Я использую скрытый семантический анализ для сходства текста. У меня есть 2 вопроса. Как выбрать значение K для уменьшения размера? Я много читаю везде, где эта БИС работает для сходных по смыслу слов, например, автомобиль и автомобиль. Как это возм…
20 янв '10 в 22:34
1 ответ

SVD интерпретация выходных данных в mahout

Я пытаюсь запустить работу SVD в mahout. У меня есть созданная матрица (скажем, A) (термин "Документ x") размером 372053 x 21338 (21338 уникальных слов не содержат N, 372053 - "M"). Таким образом, моя матрица А имеет размер (M*N). Я запустил SVD, ис…
28 окт '13 в 05:56
1 ответ

Скрытая семантическая индексация

Я пытаюсь выяснить, как выполнить умножение матриц, полученных после реализации SVD в LSI. Мне это нужно для моих исследований. Я хочу провести кластеризацию документов.
29 июл '10 в 14:22
1 ответ

Какую формулу tf-idf использует модель LSA gensim?

Существует много разных способов вычисления tf и idf. Я хочу знать, какую формулу использует gensim в своей модели LSA. Я прошёл его исходный код lsimodel.py, но для меня не очевидно, где создается матрица термина документа (возможно, из-за оптимиза…
1 ответ

Простая двоичная текстовая классификация

Я ищу наиболее эффективный и простой способ классифицировать научные статьи на 800 000+ как релевантные (1) или нерелевантные (0) по отношению к определенному концептуальному пространству (здесь: обучение в том, что касается работы). Данные: заголов…
1 ответ

Скрытая семантическая индексация с помощью gensim

Чтобы использовать метод скрытой семантической индексации от gensim, я хочу начать с небольшого "классического" примера, такого как: import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.co…
1 ответ

Попытка разобраться в латентном семантическом индексировании (LSI)

Я нахожусь в процессе изучения разложения по сингулярным значениям и для каких целей я могу использовать эту концепцию, и в книге, которую я читаю, упоминается, что SVD используется в латентном семантическом индексировании. Я прочитал несколько стат…
10 дек '16 в 08:08
1 ответ

Латентный семантический анализ в расхождениях Python

Я пытаюсь следовать статье Википедии о скрытой семантической индексации в Python, используя следующий код: documentTermMatrix = array([[ 0., 1., 0., 1., 1., 0., 1.], [ 0., 1., 1., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0., 1., 1.], [ 0., 0., 0., 1., 0.,…
25 апр '12 в 23:24
1 ответ

Интерфейс сходства LSA

Я аспирант в области перевода и в настоящее время работаю над диссертацией. Я использую интерфейс сходства LSA как метод анализа в своей диссертации. Мой опыт в лингвистике, а не в информатике. Я пытался найти простой инструмент классификации докуме…
2 ответа

Профилирование пользователя для тематической системы рекомендаций

Я пытаюсь придумать систему рекомендаций на основе тем, чтобы предлагать пользователям соответствующие текстовые документы. Я обучил модели скрытой семантической индексации, используя gensim, в корпусе Википедии. Это позволяет мне легко преобразовыв…
1 ответ

Модуль AttributeError 'Pyro4' не имеет атрибута 'expose' при запуске распределенной LSI gensim

Поэтому я пытаюсь запустить демо-версию gensim для распределенной LSI (вы можете найти ее здесь), но всякий раз, когда я запускаю код, я получаю сообщение об ошибке AttributeError: module 'Pyro4' has no attribute 'expose' Я проверил подобные проблем…
0 ответов

Что такое "хорошее" значение для согласованности тем LSI?

Я использую библиотеку Gensim Python для работы с небольшими корпусами (около 1500 статей в прессе каждый раз). Допустим, я заинтересован в создании групп статей, связанных с теми же новостями. Таким образом, для каждого набора статей, которые я раз…
2 ответа

Как извлечь семантическую родственность из текстового корпуса

Цель состоит в том, чтобы оценить семантическую взаимосвязь между терминами в большом текстовом корпусе, например, "полиция" и "преступление" должны иметь более сильную семантическую взаимосвязь, чем "полиция" и "гора", так как они имеют тенденцию с…
0 ответов

Интерпретация SVD для анализа темы анализа текста

Фон Я учусь анализировать текст, создавая свой собственный набор инструментов для интеллектуального анализа текста - лучший способ научиться! SVD Разложение по единственному значению часто называют хорошим способом: Визуализируйте объемные данные (м…
0 ответов

Как определить, являются ли 2 фрагмента кода функционально одинаковыми?

Учитывая 2 фрагмента кода, я хочу проверить, являются ли они функционально похожими или нет. Под функциональным сходством я подразумеваю, что они должны давать один и тот же результат, если обеспечены одним и тем же входом. Я извлекаю набор функций …
3 ответа

Какие инструменты НЛП использовать для сопоставления фраз, имеющих сходное значение или семантику

Я работаю над проектом, который требует, чтобы я сопоставил фразу или ключевое слово с набором похожих ключевых слов. Мне нужно выполнить семантический анализ для того же. пример: Соответствующий QTдешевое медицинское страхованиедоступное медицинско…
03 авг '12 в 15:09
2 ответа

Моделирование тем: LDA, частота слов в каждой теме и Wordcloud

Вопрос: Как я могу вычислить и закодировать частоту слов в каждой теме? Моя цель - создать "Облако слов" из каждой темы. PS> У меня нет проблем с wordcloud. Из кода, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <…
0 ответов

Рассчитать концептуальное и относительное сходство двух слов в Java

Я реализую формулу читабельности в Java на основе этой статьи. Я достиг точки, где мне нужно вычислить концептуальное и реляционное сходство двух или более слов. Они говорят: Мы используем инструменты латентного семантического анализа (LSA) для вычи…
21 май '18 в 16:55