Получить текстовое содержимое со страницы MediaWiki через API

Question

Получить текстовое содержимое со страницы MediaWiki через API

Я довольно новичок в MediaWiki, и теперь у меня есть небольшая проблема. У меня есть заголовок какой-то вики-страницы, и я хочу получить только текст упомянутой страницы, используя api.php, но все, что я нашел в API, - это способ получения вики-контента страницы (с помощью вики-разметки).). Я использовал этот HTTP-запрос...

/api.php?action=query&prop=revisions&rvlimit=1&rvprop=content&format=xml&titles=test

Но мне нужен только текстовый контент, без разметки вики. Это возможно с MediaWiki API?

72

mediawiki wikipedia-api mediawiki-api

Источник

user139436 26 окт '09 в 14:32

10 ответов

Решение

Использование action=parse чтобы получить HTML:

http://en.wikipedia.org/w/api.php?action=parse&page=test

Один из способов получить текст из html - загрузить его в браузер и пройтись по узлам, ища только текстовые узлы, используя JavaScript.

75

Источник

user361684 27 май '11 в 16:50

Расширение TextExtracts API делает то, что вы просите. использование prop=extracts чтобы получить убранный ответ. Например, эта ссылка даст вам очищенный текст для статьи переполнения стека. Что еще приятно, так это то, что он все еще включает теги разделов, так что вы можете идентифицировать отдельные разделы статьи.

Просто чтобы включить видимую ссылку в моем ответе, ссылка выше выглядит так:

/api.php?format=xml&action=query&prop=extracts&titles=Stack%20Overflow&redirects=true

Редактировать: Как упоминал Amr, TextExtracts является расширением MediaWiki, поэтому оно не обязательно будет доступно для каждого сайта MediaWiki.

47

Источник

user791018 18 фев '14 в 04:05

Добавление ?action=raw в конце страницы MediaWiki возвращайте последнее содержимое в необработанном текстовом формате. Например: - https://en.wikipedia.org/wiki/Main_Page?action=raw

40

Источник

user547840 06 мар '14 в 12:49

Вы можете получить вики-данные в текстовом формате из API, используя explaintext параметр. Кроме того, если вам нужен доступ ко многим данным заголовков, вы можете получить все вики-данные заголовков за один вызов. Используйте символ трубы | отделить каждый заголовок. Например, этот вызов API вернет данные со страниц "Google" и "Yahoo":

http://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exlimit=max&explaintext&exintro&titles=Yahoo|Google&redirects=

Параметры:

explaintextВозвращает выдержки в виде простого текста вместо ограниченного HTML.
exlimit=max: Вернуть более одного результата. Макс в настоящее время 20.
exintro: Вернуть только содержимое до первого раздела. Если вы хотите полные данные, просто удалите это.
redirects=: Решить проблемы с перенаправлением.

33

Источник

user3274027 10 июн '15 в 18:31

Это самый простой способ: http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=Albert%20Einstein&prop=revisions&rvprop=content

11

Источник

user696834 24 апр '12 в 18:41

Пользователи Python, приходящие на этот вопрос, могут быть заинтересованы в wikipedia модуль ( документы):

import wikpedia
wikipedia.set_lang('de')
page = wikipedia.page('Wikipedia')
print(page.content)

Каждое форматирование, кроме разделов (==) полосатый прочь

7

Источник

user562769 03 авг '17 в 06:52

Используйте action=render, чтобы получить максимально чистую страницу:

https://wiki.eclipse.org/Tip_of_the_Day/Eclipse_Tips/Now_where_was_I?action=render

против

https://wiki.eclipse.org/Tip_of_the_Day/Eclipse_Tips/Now_where_was_I

4

Источник

user1431510 27 дек '17 в 23:15

Вики-страницы без каких-либо символов форматирования не имеют большого смысла во многих случаях.

Вы можете удалить форматирование самостоятельно, если хотите, но в процессе вы нарушите некоторые вещи.

(Если вы не создаете что-то вроде поисковой системы, в этом случае вам понадобятся только текстовые части и вы можете полностью игнорировать форматирование символов)

2

Источник

user145366 26 окт '09 в 14:49

Вы можете сделать одну вещь после того, как содержимое будет перенесено на вашу страницу - вы можете использовать функцию PHP strip_tags() удалить теги HTML.

-2

Источник

user8205791 23 июн '17 в 14:50

Другие вопросы по тегам mediawiki wikipedia-api mediawiki-api

user7492 26 окт '09 в 14:51 2009-10-26 14:51 · Accepted Answer · 2009-10-26 14:51

Я не думаю, что с помощью API можно получить только текст.

Что мне помогло, так это запросить страницу HTML (используя обычный URL, который вы бы использовали в браузере) и убрать теги HTML под div содержимого.

РЕДАКТИРОВАТЬ:

У меня были хорошие результаты с использованием HTML Parser для Java. В нем есть примеры того, как вырезать теги HTML под заданным DIV.