Как разбить и разобрать конкретный текст Википедии
У меня есть следующий рабочий пример, чтобы получить конкретную страницу Википедии, которая возвращает объект SimpleXMLElement:
ini_set('user_agent', 'michael@example.com');
$doc = New DOMDocument();
$doc->load('http://en.wikipedia.org/w/api.php?action=parse&page=Main%20Page&format=xml');
$xml = simplexml_import_dom($doc);
print '<pre>';
print_r($xml);
print '</pre>';
Который возвращает:
SimpleXMLElement Object
(
[parse] => SimpleXMLElement Object
(
[@attributes] => Array
(
[title] => Main Page
[revid] => 472210092
[displaytitle] => Main Page
)
[text] => <body><table id="mp-topbanner" style="width: 100%;"...
Глупый вопрос / пустой ум. Я пытаюсь захватить элемент $xml->parse->text и, в свою очередь, разобрать его. В конечном счете, я хочу вернуть следующий объект; как мне этого добиться?
SimpleXMLElement Object
(
[body] => SimpleXMLElement Object
(
[table] => SimpleXMLElement Object
(
[@attributes] => Array
(
[id] => mp-topbanner
[style] => width:100% ...
1 ответ
Решение
После того, как я взял свежий чай и съел банан, вот решение, которое я нашел:
ini_set('user_agent','michael@example.com');
$doc = new DOMDocument();
$doc->load('http://en.wikipedia.org/w/api.php?action=parse&page=Main%20Page&format=xml');
$nodes = $doc->getElementsByTagName('text');
$str = $nodes->item(0)->nodeValue;
$html = new DOMDocument();
$html->loadHTML($str);
Это тогда позволяет мне получить значение элементов, которое я и получил. Например:
echo "Some value: ";
echo $html->getElementById('someid')->nodeValue;