Можно ли получить названия из веб-версии Common Crawler API?

Question

Можно ли получить названия из веб-версии Common Crawler API?

Я пытаюсь получить URL, названия и языки с веб-страниц. К счастью, существует CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API. Но, к сожалению, я не заметил способ получить также названия.

В данный момент я запрашиваю CC как (например) http://index.commoncrawl.org/CC-MAIN-2018-47-index?url=www.example.com/*&output=json где я получаю "url" и информация о языках

Есть ли способ запросить CC через API, не загружая каждый варк и не получая названия?

Спасибо!

1

amazon-web-services api web-crawler common-crawl

Источник

user9681031 30 янв '19 в 17:48

1 ответ

Другие вопросы по тегам amazon-web-services api web-crawler common-crawl

user5953351 31 янв '19 в 12:12 2019-01-31 12:12 · Answer 1 · 2019-01-31 12:12

Нет. Заголовок страницы не индексируется в индексе URL Common Crawl (ни в индексе CDX, ни в столбцовом индексе).

3

Источник

user5953351 31 янв '19 в 12:12