Описание тега latent-semantic-indexing
Latent semantic indexing is an indexing and retrieval method.
1
ответ
Реализация скрытого семантического индексирования в Common Lisp
Существует ли бесплатная реализация скрытой семантической индексации в Common Lisp? Я хотел бы интегрировать эту возможность в существующую систему Lisp.
20 мар '12 в 00:38
1
ответ
Выбрать правильный метод кластеризации для скрытого семантического анализа
Я хочу объединить текстовый документ, чтобы найти документ с той же концепцией. Я сделал семантическое сходство, используя Latent Semantic Analysis (LSA), но я путаю, какой метод кластеризации я должен выбрать для своих целей. Спасибо
19 июн '15 в 02:48
2
ответа
Проблема для lsi
Я использую скрытый семантический анализ для сходства текста. У меня есть 2 вопроса. Как выбрать значение K для уменьшения размера? Я много читаю везде, где эта БИС работает для сходных по смыслу слов, например, автомобиль и автомобиль. Как это возм…
20 янв '10 в 22:34
1
ответ
SVD интерпретация выходных данных в mahout
Я пытаюсь запустить работу SVD в mahout. У меня есть созданная матрица (скажем, A) (термин "Документ x") размером 372053 x 21338 (21338 уникальных слов не содержат N, 372053 - "M"). Таким образом, моя матрица А имеет размер (M*N). Я запустил SVD, ис…
28 окт '13 в 05:56
1
ответ
Скрытая семантическая индексация
Я пытаюсь выяснить, как выполнить умножение матриц, полученных после реализации SVD в LSI. Мне это нужно для моих исследований. Я хочу провести кластеризацию документов.
29 июл '10 в 14:22
1
ответ
Какую формулу tf-idf использует модель LSA gensim?
Существует много разных способов вычисления tf и idf. Я хочу знать, какую формулу использует gensim в своей модели LSA. Я прошёл его исходный код lsimodel.py, но для меня не очевидно, где создается матрица термина документа (возможно, из-за оптимиза…
01 дек '17 в 17:36
1
ответ
Простая двоичная текстовая классификация
Я ищу наиболее эффективный и простой способ классифицировать научные статьи на 800 000+ как релевантные (1) или нерелевантные (0) по отношению к определенному концептуальному пространству (здесь: обучение в том, что касается работы). Данные: заголов…
24 ноя '16 в 03:52
1
ответ
Скрытая семантическая индексация с помощью gensim
Чтобы использовать метод скрытой семантической индексации от gensim, я хочу начать с небольшого "классического" примера, такого как: import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.co…
09 май '17 в 11:39
1
ответ
Попытка разобраться в латентном семантическом индексировании (LSI)
Я нахожусь в процессе изучения разложения по сингулярным значениям и для каких целей я могу использовать эту концепцию, и в книге, которую я читаю, упоминается, что SVD используется в латентном семантическом индексировании. Я прочитал несколько стат…
10 дек '16 в 08:08
1
ответ
Латентный семантический анализ в расхождениях Python
Я пытаюсь следовать статье Википедии о скрытой семантической индексации в Python, используя следующий код: documentTermMatrix = array([[ 0., 1., 0., 1., 1., 0., 1.], [ 0., 1., 1., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0., 1., 1.], [ 0., 0., 0., 1., 0.,…
25 апр '12 в 23:24
1
ответ
Интерфейс сходства LSA
Я аспирант в области перевода и в настоящее время работаю над диссертацией. Я использую интерфейс сходства LSA как метод анализа в своей диссертации. Мой опыт в лингвистике, а не в информатике. Я пытался найти простой инструмент классификации докуме…
21 дек '14 в 05:47
2
ответа
Профилирование пользователя для тематической системы рекомендаций
Я пытаюсь придумать систему рекомендаций на основе тем, чтобы предлагать пользователям соответствующие текстовые документы. Я обучил модели скрытой семантической индексации, используя gensim, в корпусе Википедии. Это позволяет мне легко преобразовыв…
06 окт '12 в 20:31
1
ответ
Модуль AttributeError 'Pyro4' не имеет атрибута 'expose' при запуске распределенной LSI gensim
Поэтому я пытаюсь запустить демо-версию gensim для распределенной LSI (вы можете найти ее здесь), но всякий раз, когда я запускаю код, я получаю сообщение об ошибке AttributeError: module 'Pyro4' has no attribute 'expose' Я проверил подобные проблем…
30 июл '17 в 19:48
0
ответов
Что такое "хорошее" значение для согласованности тем LSI?
Я использую библиотеку Gensim Python для работы с небольшими корпусами (около 1500 статей в прессе каждый раз). Допустим, я заинтересован в создании групп статей, связанных с теми же новостями. Таким образом, для каждого набора статей, которые я раз…
28 янв '19 в 05:18
2
ответа
Как извлечь семантическую родственность из текстового корпуса
Цель состоит в том, чтобы оценить семантическую взаимосвязь между терминами в большом текстовом корпусе, например, "полиция" и "преступление" должны иметь более сильную семантическую взаимосвязь, чем "полиция" и "гора", так как они имеют тенденцию с…
25 май '11 в 11:11
0
ответов
Интерпретация SVD для анализа темы анализа текста
Фон Я учусь анализировать текст, создавая свой собственный набор инструментов для интеллектуального анализа текста - лучший способ научиться! SVD Разложение по единственному значению часто называют хорошим способом: Визуализируйте объемные данные (м…
12 фев '17 в 14:33
0
ответов
Как определить, являются ли 2 фрагмента кода функционально одинаковыми?
Учитывая 2 фрагмента кода, я хочу проверить, являются ли они функционально похожими или нет. Под функциональным сходством я подразумеваю, что они должны давать один и тот же результат, если обеспечены одним и тем же входом. Я извлекаю набор функций …
25 авг '15 в 18:28
3
ответа
Какие инструменты НЛП использовать для сопоставления фраз, имеющих сходное значение или семантику
Я работаю над проектом, который требует, чтобы я сопоставил фразу или ключевое слово с набором похожих ключевых слов. Мне нужно выполнить семантический анализ для того же. пример: Соответствующий QTдешевое медицинское страхованиедоступное медицинско…
03 авг '12 в 15:09
2
ответа
Моделирование тем: LDA, частота слов в каждой теме и Wordcloud
Вопрос: Как я могу вычислить и закодировать частоту слов в каждой теме? Моя цель - создать "Облако слов" из каждой темы. PS> У меня нет проблем с wordcloud. Из кода, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <…
08 авг '17 в 08:25
0
ответов
Рассчитать концептуальное и относительное сходство двух слов в Java
Я реализую формулу читабельности в Java на основе этой статьи. Я достиг точки, где мне нужно вычислить концептуальное и реляционное сходство двух или более слов. Они говорят: Мы используем инструменты латентного семантического анализа (LSA) для вычи…
21 май '18 в 16:55