Как сканировать сайт, который использует JavaScript, используя beautifulsoup?
<div class="details">
<h2 class="title"><a href="{{=it.url}}">{{=it.title}}</a></h2>
<div class="author">
<span class="avatar">
<a href="{{=it.userProfileUrl}}"><img src="{{=it.userAvatarUrl}}" alt="{{=it.displayName}}" /></a>
</span>
<span class="name">By <a href="{{=it.userProfileUrl}}">{{=it.displayName}}</a></span>
</div>
<div class="meta-data">
<div class="fd-rating">
<div class="five-star">
<span class="fd-rating-percent" style="width:{{=it.percentRating}};"></span>
</div>
<span>({{=it.ratingCount}})</span>
</div>
<div class="cook-time"><i class='icon-fdc-clock'></i> {{=it.totalTime}}</div>
</div>
Приведенное выше является частью кода сайта, который я пытаюсь сканировать. Я хотел бы получить значения в = it.url. Я попытался получить все значения href, попытался найти инициализацию переменной it.url. Все они вернули пустой кортеж. Есть ли способ, которым я могу получить значение URL? Любой совет будет огромной помощью.
Используйте эту ссылку для полного кода.
1 ответ
Решение
Решив проблему с помощью селена и PhantomJS, я использовал следующий код, чтобы получить обработанный HTML-код
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(url)
time.sleep(5)
result=driver.page_source