Можно ли получить названия из веб-версии Common Crawler API?
Я пытаюсь получить URL, названия и языки с веб-страниц. К счастью, существует CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API. Но, к сожалению, я не заметил способ получить также названия.
В данный момент я запрашиваю CC как (например) http://index.commoncrawl.org/CC-MAIN-2018-47-index?url=www.example.com/*&output=json где я получаю "url" и информация о языках
Есть ли способ запросить CC через API, не загружая каждый варк и не получая названия?
Спасибо!
1 ответ
Нет. Заголовок страницы не индексируется в индексе URL Common Crawl (ни в индексе CDX, ни в столбцовом индексе).