Читать HTTPS URL в R как linkedin
Я пытаюсь прочитать страницу компании LinkedIn, например, https://www.linkedin.com/company/facebook
получение названия компании, местоположения, типа отрасли и т. д.
Это мой код ниже
urlCreate1<-"https://www.linkedin.com/company/facebook"
parse_rvest<-getURL(urlCreate1,'useragent' = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36")
nameRest <- content %>%html_nodes(".industry") %>%html_text()
nameRest
и вывод, который я получаю для этого это символ (0), который из предыдущих постов я понимаю, что его не получить .industry
тег, как я прочитал код https.
Я также попробовал это
parse_rvest<-content(GET(urlCreate1),encoding='UTF-8')
но это не помогает
У меня есть код Python, который работает, но мне нужно, чтобы это было сделано в R
Это часть кода Python, который я получил онлайн
headers = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36'}
response = requests.get(url, headers=headers)
formatted_response = response.content.replace('<!--', '').replace('-->', '')
doc = html.fromstring(formatted_response)
datafrom_xpath = doc.xpath('//code[@id="stream-promo-top-bar-embed-id-content"]//text()')
if datafrom_xpath:
try:
json_formatted_data = json.loads(datafrom_xpath[0])
company_name = json_formatted_data['companyName'] if 'companyName' in json_formatted_data.keys() else None
size = json_formatted_data['size'] if 'size' in json_formatted_data.keys() else None
Пожалуйста, помогите мне в чтении страницы. Я использую гаджет селектора, чтобы получить xpath(.industry)
1 ответ
Посмотрите API LIN: https://cran.r-project.org/web/packages/Rlinkedin/Rlinkedin.pdf
Тогда вы сможете легко и законно делать все, что хотите.
Вот несколько идей, с чего можно начать.
http://thinktostart.com/analyze-linkedin-with-r/
https://github.com/hadley/httr/issues/200
https://www.reddit.com/r/datascience/comments/3rufk5/pulling_data_from_linkedin_api/