old.reddit выдает только 25 сообщений при использовании пакета rvest для R

Я новичок во всем этом, поэтому я не совсем знаком со всей терминологией. Я использую эту ссылку в качестве примера, чтобы очистить время публикации сообщений с https://old.reddit.com/. В нем говорится об использовании инструмента SelectorGadget для обхода изучения других языков, поэтому я так и сделал. Хотя моя страница на old.reddit показывает 100 сообщений (то есть 100 раз), из моего кода фактически извлекаются только 25 разных значений времени. Вот как выглядит мой код:

library(rvest)

url <- 'https://old.reddit.com/'

rawdata <- read_html(url)

rawtime <- html_nodes(rawdata, '.live-timestamp')
  #".live-timestamp" was obtained using the Chrome extension "SelectorGadget" 

finalresult <- bind_rows(lapply(xml_attrs(rawtime), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))

1 ответ

Кроме того, вы можете использовать PRAW для получения информации от Reddit. Это конкретное решение вашей проблемы, но может работать.

https://praw.readthedocs.io/en/latest/

И в субреддит р / реддитдев

Вам необходимо войти в систему или использовать ?limit=100 параметр, чтобы получить 100 позиций в листинге.

См. Документацию по API для получения дополнительной информации:

limit: the maximum number of items desired (default: 25, maximum: 100)

Другие вопросы по тегам