Ошибка структуры извлечения DBPedia во время извлечения DBPedia Dump

Работая над структурой извлечения DBpedia, я сталкиваюсь с проблемами с файлами csv из Core Dataset. Я заинтересован в извлечении данных (в моем случае, резюме всей страницы википедии компании) из дампов dbpedia (формат RDF). Я следую инструкциям DBpedia Abstract Extractioin Пошаговое руководство

Используемые команды:

$ git clone git://github.com/dbpedia/extraction-framework.git 
$ cd extraction-framework 
$ mvn clean install 
$ cd dump 
$ ../run download config=download.minimal.properties 
$ ../run extraction extraction.default.properties

Я получаю приведенную ниже ошибку при выполнении последней команды "./run extract extract.properties.file". Кто-нибудь может указать, что я совершаю по ошибке. Есть ли какой-либо конкретный CSV-файл, который мне нужно обработать или какая-то проблема конфигурации. У меня есть полный "mediawiki-1.24.1".

Также обратите внимание, что по адресу pages-article.xml.bz2 я загружаю его частично размером до 256 МБ. Пожалуйста помоги

parsing /opt/extraction-framework-master/DumpsD    ata/wikid    atawiki/20150113/wikipedias.csv
java.lang.reflect.Invoc    ationTargetException
    at sun.reflect.N    ativeMethodAccessorImpl.invoke0(N    ative Method)
    at sun.reflect.N    ativeMethodAccessorImpl.invoke(N    ativeMethodAccessorImpl.java:62)
    at sun.reflect.Deleg    atingMethodAccessorImpl.invoke(Deleg    atingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:483)
    at scala_maven_executions.MainHelper.runMain(MainHelper.java:164)
    at scala_maven_executions.MainWithArgsInFile.main(MainWithArgsInFile.java:26)
Caused by: java.lang.Exception: expected [15] fields, found [1] in line [%21%21%21 http://www.w3.org/2000/01/rdf-schema#label !!! l]
    at org.dbpedia.extraction.util.WikiInfo$.fromLine(WikiInfo.scala:60)
    at org.dbpedia.extraction.util.WikiInfo$$anonfun$fromLines$1.apply(WikiInfo.scala:49)
    at org.dbpedia.extraction.util.WikiInfo$$anonfun$fromLines$1.apply(WikiInfo.scala:49)
    at scala.collection.Iter    ator$class.foreach(Iter    ator.scala:743)
    at scala.collection.AbstractIter    ator.foreach(Iter    ator.scala:1195)
    at org.dbpedia.extraction.util.WikiInfo$.fromLines(WikiInfo.scala:49)
    at org.dbpedia.extraction.util.WikiInfo$.fromSource(WikiInfo.scala:36)
    at org.dbpedia.extraction.util.WikiInfo$.fromFile(WikiInfo.scala:27)
    at org.dbpedia.extraction.util.ConfigUtils$.parseLanguages(ConfigUtils.scala:83)
    at org.dbpedia.extraction.dump.sql.Import$.main(Import.scala:29)
    at org.dbpedia.extraction.dump.sql.Import.main(Import.scala)

1 ответ

Я столкнулся с вышеуказанной проблемой из-за неполной загрузки файла enwiki-20150205-pages-article.xml.bz2 с помощью

$ ../run download config=download.minimal.properties

но все же не удается решить проблему извлечения абстрактных данных, поскольку я ожидаю длинных абстрактных данных из дампа bdpedia.

$ ../run extraction extraction extraction.abstracts.properties

он полностью компилируется и выполняет извлечение на более чем 1 cr+ страницах, но не отражает никаких данных в long_abstracts_en.nt

я следовал инструкциям, чтобы поставить MediaWiki PHP и MySQL и т. д.

Другие вопросы по тегам