Ошибка чтения CSV в Stanford Topic Modeling Toolbox

Я пытаюсь использовать Stanford Topic Modeling Toolbox (TMT), чтобы опробовать тематическое моделирование [0]. Я новичок в Scala. Тем не менее, я не могу подготовить свой набор данных, прочитав файл CSV. Вот мой код

import scalanlp.io._;

val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

println(source.data.size);

Это выдает следующую ошибку

Stanford TMT\example-0-test.scala:6: error: not found: value IDColumn
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

Аналогичным образом я также получаю сообщение об ошибке в других функциях предварительной обработки данных, таких как Tokenizer. Вот код

// Stanford TMT Example 0 - Basic data loading
// http://nlp.stanford.edu/software/tmt/0.4/


import scalanlp.io._;
val source = CSVFile("pubmed-oa-subset.csv") ;
println(source.data.size);

val tokenizer = {
  SimpleEnglishTokenizer()
 }

Вот ошибка, полученная для вышеуказанного кода.

error: not found: value SimpleEnglishTokenizer
  SimpleEnglishTokenizer()

Я использую тот же файл CSV, который указан на домашней странице TMT [1]. Также скрипт и данные находятся в одной папке.

В чем проблема? Я не могу запустить точно такие же тестовые примеры с домашней страницы TMT.

[0] http://nlp.stanford.edu/software/tmt/tmt-0.4/

[1] http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv

1 ответ

Я сталкиваюсь с проблемой при запуске демоверсии, но она отличается от вашей. Моя проблема вызвана грязными символами в файле CSV ( http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv). И я открываю CSV-файл в редакторе как UTF-8 и заменяю нечитаемые символы (они представлены одним и тем же символом), и он работает нормально.

Ваша проблема выглядит как отсутствие файла класса или ошибка формата файла CSV. Я не уверен. Но вы можете попробовать мое решение, я думаю, что беспорядочные символы - распространенная проблема при загрузке файла CSV с домашней страницы. Или вы можете проверить целостность исполняемого файла JAR или файла CSV.

Если приведенные выше решения не работают. Вы можете спросить их в списке рассылки Stanford Java Java NLP. https://mailman.stanford.edu/mailman/listinfo/java-nlp-user

Другие вопросы по тегам