Как загрузить содержимое URL в фрейме данных pandas с помощью python-twitter?

У меня есть xml, как это:

<author ="twitter" lang="english" type="xx" age_misc="xx" url="https://twitter.com/Carmen_RRHH">
    <documents count="436">
        <document id="106259332342342348513" url="https://twitter.com/Carmen_RRHH/status/106259338234048513">       </document>
        <document id="232342342342323423" url="https://twitter.com/Carmen_RRHH/status/106260629999992832">      </document>
        <document id="107084815504908291" url="https://twitter.com/Carmen_RRHH/status/107084815504908291">      </document>
        <document id="108611036164276224" url="https://twitter.com/Carmen_RRHH/status/108611036164276224">      </document>
        <document id="23423423423423" url="https://twitter.com/Carmen_RRHH/status/108611275851956224">      </document>
        <document id="109283650823423480806912" url="https://twitter.com/Carmen_RRHH/status/109283650880806912">        </document>
        <document id="10951489623423290488320" url="https://twitter.com/Carmen_RRHH/status/109514896290488320">     </document>
        <document id="1095159513234234355080704" url="https://twitter.com/Carmen_RRHH/status/109515951355080704">       </document>
        <document id="96252622234239511966720" url="https://twitter.com/Carmen_RRHH/status/96252629511966720">      </document>
    </documents>
</author>

Можно ли получить содержимое этих ссылок и поместить их в фрейм данных панд? Есть идеи, как можно подойти к этой задаче? Заранее спасибо.

1 ответ

У вас есть доступ к Python, запросы это хороший выбор:

import requests
r = requests.get("https://twitter.com/Carmen_RRHH/status/106259338234048513")

r.contents # the html

Однако, чтобы поместить их в DataFrame для панд, это содержимое должно быть структурировано (как таблица), чего обычно не будет...

Я рекомендую заглянуть в твиттер-интерфейс API или существующий твиттер-клиент (для python), например, https://github.com/bear/python-twitter, чтобы вы могли извлекать нужные вам функции (в столбцы), а не копать. их из HTML.

Другие вопросы по тегам