Ошибка чтения CSV в Stanford Topic Modeling Toolbox
Я пытаюсь использовать Stanford Topic Modeling Toolbox (TMT), чтобы опробовать тематическое моделирование [0]. Я новичок в Scala. Тем не менее, я не могу подготовить свой набор данных, прочитав файл CSV. Вот мой код
import scalanlp.io._;
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);
println(source.data.size);
Это выдает следующую ошибку
Stanford TMT\example-0-test.scala:6: error: not found: value IDColumn
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);
Аналогичным образом я также получаю сообщение об ошибке в других функциях предварительной обработки данных, таких как Tokenizer. Вот код
// Stanford TMT Example 0 - Basic data loading
// http://nlp.stanford.edu/software/tmt/0.4/
import scalanlp.io._;
val source = CSVFile("pubmed-oa-subset.csv") ;
println(source.data.size);
val tokenizer = {
SimpleEnglishTokenizer()
}
Вот ошибка, полученная для вышеуказанного кода.
error: not found: value SimpleEnglishTokenizer
SimpleEnglishTokenizer()
Я использую тот же файл CSV, который указан на домашней странице TMT [1]. Также скрипт и данные находятся в одной папке.
В чем проблема? Я не могу запустить точно такие же тестовые примеры с домашней страницы TMT.
[0] http://nlp.stanford.edu/software/tmt/tmt-0.4/
[1] http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv
1 ответ
Я сталкиваюсь с проблемой при запуске демоверсии, но она отличается от вашей. Моя проблема вызвана грязными символами в файле CSV ( http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv). И я открываю CSV-файл в редакторе как UTF-8 и заменяю нечитаемые символы (они представлены одним и тем же символом), и он работает нормально.
Ваша проблема выглядит как отсутствие файла класса или ошибка формата файла CSV. Я не уверен. Но вы можете попробовать мое решение, я думаю, что беспорядочные символы - распространенная проблема при загрузке файла CSV с домашней страницы. Или вы можете проверить целостность исполняемого файла JAR или файла CSV.
Если приведенные выше решения не работают. Вы можете спросить их в списке рассылки Stanford Java Java NLP. https://mailman.stanford.edu/mailman/listinfo/java-nlp-user