Интерфейс сходства LSA

Я аспирант в области перевода и в настоящее время работаю над диссертацией. Я использую интерфейс сходства LSA как метод анализа в своей диссертации. Мой опыт в лингвистике, а не в информатике. Я пытался найти простой инструмент классификации документов LSA, но не смог найти ни одного. Я пытался играть с Gensim, я не работал. Я думаю, что моя проблема в том, чтобы связать мой корпус (текстовые файлы) с помощью инструмента Gensim для выполнения анализа (я не знаю, как сделать этот шаг). Я был бы очень признателен, если бы кто-нибудь мог помочь мне с анализом или направить меня к любому инструменту или простым учебникам, чтобы сделать это с помощью Gensim.

Я хочу сделать следующее: Я хочу применить запросы на выполнение документов, чтобы извлечь 5 наиболее важных документов из корпуса в документ запроса.

  1. У меня 15 документов запроса
  2. У меня есть один корпус (150 текстов) Тексты рассказов

Я в отчаянии, и я не решался разместить этот вопрос здесь. Я уверен, что применение LSA в переводческих исследованиях добавило бы к этой области, и это делает меня более настойчивым, чтобы найти способ сделать мой анализ.

1 ответ

Единственный действительно простой и удобный инструмент для LSA, который существует прямо сейчас, - это http://lsa.colorado.edu/. К сожалению, это только веб-инструмент, и он не позволяет вам обучать LSA в вашей собственной корпорации. Но в зависимости от ваших потребностей это может не иметь значения.

Если я вас правильно понимаю, вам нужны оценки сходства документов и документов между каждым из 15 запрашиваемых документов и каждым из 150 рассказов (всего 15*150=2250 оценок сходства). Если эти документы запроса и короткие рассказы на английском языке, то вы можете использовать версию LSA, которая обучается на корпусе TASA, используемую во многих исследованиях LSA, следующим образом:

  • Перейти к http://lsa.colorado.edu/
  • Выберите сравнение один-ко-многим
  • Скопируйте и вставьте один из рассказов в поле "Основной текст", и 15 запросов, разделенных пустой строкой в ​​поле "Тексты для сравнения"
  • Повторите для каждого из ваших рассказов. Огромная боль? Да. Но если вы в отчаянии...

Если вы немного программируете на Python или R, другие инструменты для LSA включают http://clic.cimec.unitn.it/composes/toolkit/introduction.html и http://cran.r-project.org/web/packages/lsa/lsa.pdf и избавит вас от ручного труда из приведенного выше предложения. Кроме того, я знаю, что вы уже попробовали Gensim, но для этого есть хороший учебник по адресу http://radimrehurek.com/gensim/tutorial.html который вы можете попробовать, если еще не сделали этого.

Другие вопросы по тегам