Читать HTTPS URL в R как linkedin

Я пытаюсь прочитать страницу компании LinkedIn, например, https://www.linkedin.com/company/facebook

получение названия компании, местоположения, типа отрасли и т. д.

Это мой код ниже

urlCreate1<-"https://www.linkedin.com/company/facebook"
parse_rvest<-getURL(urlCreate1,'useragent' = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36") 
nameRest <- content %>%html_nodes(".industry") %>%html_text()
nameRest

и вывод, который я получаю для этого это символ (0), который из предыдущих постов я понимаю, что его не получить .industry тег, как я прочитал код https.

Я также попробовал это

parse_rvest<-content(GET(urlCreate1),encoding='UTF-8')

но это не помогает

У меня есть код Python, который работает, но мне нужно, чтобы это было сделано в R

Это часть кода Python, который я получил онлайн

headers = {
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36'}
            response = requests.get(url, headers=headers)
            formatted_response = response.content.replace('<!--', '').replace('-->', '')
            doc = html.fromstring(formatted_response)
            datafrom_xpath = doc.xpath('//code[@id="stream-promo-top-bar-embed-id-content"]//text()')
            if datafrom_xpath:
                try:
                    json_formatted_data = json.loads(datafrom_xpath[0])
                    company_name = json_formatted_data['companyName'] if 'companyName' in json_formatted_data.keys() else None
                    size = json_formatted_data['size'] if 'size' in json_formatted_data.keys() else None

Пожалуйста, помогите мне в чтении страницы. Я использую гаджет селектора, чтобы получить xpath(.industry)

1 ответ

Посмотрите API LIN: https://cran.r-project.org/web/packages/Rlinkedin/Rlinkedin.pdf

Тогда вы сможете легко и законно делать все, что хотите.

Вот несколько идей, с чего можно начать.

http://thinktostart.com/analyze-linkedin-with-r/

https://github.com/hadley/httr/issues/200

https://www.reddit.com/r/datascience/comments/3rufk5/pulling_data_from_linkedin_api/

Другие вопросы по тегам