Как выбрать <dei: DocumentType из XBRL с помощью Cheerio (или

Я пытаюсь получить текст (в данном случае это "10-Q") записи из XBRL, используя cheerio.js с nodejs. Строка ниже:

<dei:DocumentType contextRef="D2013Q3YTD" id="Fact-DB2A50C2A485F9CC21D51934C6E61D42">10-Q</dei:DocumentType>

Я пробовал:

$('dei:DocumentType').text

и несколько других безрезультатно. Я не вижу уникального идентификатора или чего-то еще.

Образец файла:

http://www.sec.gov/Archives/edgar/data/1018724/000144530513002495/amzn-20130930.xml

Так как же я могу извлечь этот текст? Благодарю.

2 ответа

Решение

Оказывается, что разбор файла выше очень возможен с Cheerio.

Это работает с помощью Cheerio:

$('dei\\:CurrentFiscalYearEndDate').text().trim();

Нужно избегать специальных символов, дважды, очевидно.

XBRL - это XML, и его нельзя рассматривать как HTML DOM с такими библиотеками, как cheerio. Вам понадобится парсер XML с поддержкой Xpath, такой как xpath, libxml или o3-xml

Затем вы можете получить значение с помощью выражения XPath, например:

/*/dei:DocumentType/text()
Другие вопросы по тегам