Извлечь текст из HTML с помощью Python

Question

Извлечь текст из HTML с помощью Python

Надеюсь, кто-нибудь может мне помочь. Я довольно новичок в Python, но я хочу собрать данные с сайта, которому, к сожалению, нужна учетная запись. Хотя я не могу извлечь дату (т.е. 2017-06-01).

<li class="latest-value-item">
  <div class="latest-value-label">Date</div>
  <div class="latest-value">2017-06-01</div>
</li>
<li class="latest-value-item">
  <div class="latest-value-label">Index</div>
  <div class="latest-value">1430</div>
</li>

Это мой код:

import urllib3 
import urllib.request
from bs4 import BeautifulSoup
import pandas as pd
import requests
import csv
from datetime import datetime

url = 'https://www.quandl.com/data/LLOYDS/BCI-Baltic-Capesize-Index'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')

Baltic_Indices = []
New_Value = []

#new = soup.find_all('div', attrs={'class':'latest-value'}).get_text()
date = soup.find_all(class_="latest value")
text1 = date.text

print(text1)

2

python beautifulsoup isodate

Источник

user8081888 02 июн '17 в 07:58

1 ответ

Решение

Другие вопросы по тегам python beautifulsoup isodate

user1453822 02 июн '17 в 08:09 2017-06-02 08:09 · Accepted Answer · 2017-06-02 08:09

date = soup.find_all(class_="latest value")

Вы используете неправильное имя класса CSS ('latest value' != 'latest-value')

 print(soup.find_all(attrs={'class': 'latest-value'}))
 # [<div class="latest-value">2017-06-01</div>, <div class="latest-value">1430</div>]

 for element in soup.find_all(attrs={'class': 'latest-value'}):
     print(element.text)
 # 2017-06-01
 # 1430

Я предпочитаю использовать attrs kwarg, но ваш метод работает так же (учитывая правильное имя класса CSS)

 for element in soup.find_all(class_='latest-value'):
     print(element.text)
 # 2017-06-01
 # 1430