Интерфейс сходства LSA
Я аспирант в области перевода и в настоящее время работаю над диссертацией. Я использую интерфейс сходства LSA как метод анализа в своей диссертации. Мой опыт в лингвистике, а не в информатике. Я пытался найти простой инструмент классификации документов LSA, но не смог найти ни одного. Я пытался играть с Gensim, я не работал. Я думаю, что моя проблема в том, чтобы связать мой корпус (текстовые файлы) с помощью инструмента Gensim для выполнения анализа (я не знаю, как сделать этот шаг). Я был бы очень признателен, если бы кто-нибудь мог помочь мне с анализом или направить меня к любому инструменту или простым учебникам, чтобы сделать это с помощью Gensim.
Я хочу сделать следующее: Я хочу применить запросы на выполнение документов, чтобы извлечь 5 наиболее важных документов из корпуса в документ запроса.
- У меня 15 документов запроса
- У меня есть один корпус (150 текстов) Тексты рассказов
Я в отчаянии, и я не решался разместить этот вопрос здесь. Я уверен, что применение LSA в переводческих исследованиях добавило бы к этой области, и это делает меня более настойчивым, чтобы найти способ сделать мой анализ.
1 ответ
Единственный действительно простой и удобный инструмент для LSA, который существует прямо сейчас, - это http://lsa.colorado.edu/. К сожалению, это только веб-инструмент, и он не позволяет вам обучать LSA в вашей собственной корпорации. Но в зависимости от ваших потребностей это может не иметь значения.
Если я вас правильно понимаю, вам нужны оценки сходства документов и документов между каждым из 15 запрашиваемых документов и каждым из 150 рассказов (всего 15*150=2250 оценок сходства). Если эти документы запроса и короткие рассказы на английском языке, то вы можете использовать версию LSA, которая обучается на корпусе TASA, используемую во многих исследованиях LSA, следующим образом:
- Перейти к http://lsa.colorado.edu/
- Выберите сравнение один-ко-многим
- Скопируйте и вставьте один из рассказов в поле "Основной текст", и 15 запросов, разделенных пустой строкой в поле "Тексты для сравнения"
- Повторите для каждого из ваших рассказов. Огромная боль? Да. Но если вы в отчаянии...
Если вы немного программируете на Python или R, другие инструменты для LSA включают http://clic.cimec.unitn.it/composes/toolkit/introduction.html и http://cran.r-project.org/web/packages/lsa/lsa.pdf и избавит вас от ручного труда из приведенного выше предложения. Кроме того, я знаю, что вы уже попробовали Gensim, но для этого есть хороший учебник по адресу http://radimrehurek.com/gensim/tutorial.html который вы можете попробовать, если еще не сделали этого.