Извлечение инфобокса из Википедии на Яве

Question

Извлечение инфобокса из Википедии на Яве

Я с нетерпением жду возможности извлечь информационный блок Википедии из дампа Википедии и подготовить XML-файл с тегами в виде пар ключ-значение в Java.

Я успешно извлек инфобокс с помощью reg ex и stack. Тем не менее, содержание имеет разметку Википедии. Подскажите, пожалуйста, как мне отформатировать википедию в чистый текст и сохранить в виде пар ключ-значение? Очевидно, что кодирование всего удаления разметки - огромная задача, ища любой внешний API для Java.

-1

java wiki-markup

Источник

user2778173 19 ноя '13 в 04:20

2 ответа

Другие вопросы по тегам java wiki-markup

03 янв '14 в 13:33 2014-01-03 13:33 · Answer 1 · 2014-01-03 13:33

Вы можете скачать wikixmlj и извлечь информационный блок со следующим кодом:

    import edu.jhu.nlp.wikipedia.*;
    public class InfoboxParser {

    public static void main(String[] args) throws Exception{
        WikiXMLParser parser = WikiXMLParserFactory.getSAXParser("/path_to_wiki_dump/enwiki-20131202-pages-articles-multistream.xml.bz2.xml");
            parser.setPageCallback(new PageCallbackHandler() {
                public void process(WikiPage page) {
                  InfoBox infobox=page.getInfoBox();
                   //do something with info box
                }
            });
            parser.parse();
    }

}

user2528147 21 ноя '13 в 12:47 2013-11-21 12:47 · Answer 2 · 2013-11-21 12:47

Никогда и ни при каких обстоятельствах не анализируйте XML с помощью регулярных выражений.

Используйте синтаксический анализатор XML.

0

Источник

user2528147 21 ноя '13 в 12:47