Извлеките DOI с сайта IEEEXplore, используя код Python

Question

Извлеките DOI с сайта IEEEXplore, используя код Python

Невозможно извлечь полевые данные из веб-страницы, это не распространенная проблема утилизации. Это связано с javascript, а также. Я пытался и с python-запросами, но не смог решить проблему.

Я пытаюсь извлечь doi из веб-страницы. Дои лежит в JavaScript. Я могу прочитать страницу, и код работает до {печать (суп)}. Когда я пытаюсь извлечь значение doi (в данном коде для примера веб-страницы doi выглядит следующим образом: "doi":"10.1109/LAWP.2014.2364296") я хотел напечатать "10.1109 / LAWP.2014.2364296", что извлечено из веб-страницы.

import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

При использовании веб-страницы " https://ieeexplore.ieee.org/document/6933872" вывод 10.1109/LAWP.2014.2364296. Как я могу?

0

python extraction ieee doi

Источник

user10837128 09 фев '19 в 00:17

1 ответ

Другие вопросы по тегам python extraction ieee doi

user3851392 11 фев '19 в 01:52 2019-02-11 01:52 · Answer 1 · 2019-02-11 01:52

Возможное решение, которое просто пропускает проблему очистки веб-страниц Javascript, заключается в использовании IEEE API ( https://developer.ieee.org/). Хотя для получения ключа API требуется регистрация и одобрение, после его получения гораздо проще будет отправить несколько номеров статей IEEE и получить свои DOI и другие метаданные в структурированном виде.