Понимание "типа контента" для PDF-файлов при сканировании

Question

Понимание "типа контента" для PDF-файлов при сканировании

Используя heritrix, я просканировал сайт, который содержал несколько файлов PDF. Журнал сканирования показывает, что тип содержимого для ссылки pdf - "application/ pdf", тогда как ответ в файле.warc (вывод для сканирования) показывает, что тип содержимого - "application/ http", а также "application/ pdf" (см. пример ниже:).

WARC/1.0^M
WARC-Type: response^M
WARC-Target-URI: `http://example.com/b/c/files/abc.pdf`^M
WARC-Date: 2014-05-29T10:48:03Z^M
WARC-Payload-Digest: sha1:JMRPMGSNIPHBPSBNPD2VJ2NIOGD75UUK^M
WARC-IP-Address: 86.36.67.50^M
WARC-Record-ID: <urn:uuid:00c8b80f-2851-42a1-a449-3cd9e238bfe9>^M
**Content-Type: application/http; msgtype=response^M**
Content-Length: 592173^M
WARC-Block-Digest: sha256:0a56d251257dbcbd6a54e19a528a56aae3e0c9e92a6702f4048e3b69bb3e0920^M
^M
HTTP/1.1 200 OK^M
Date: Thu, 29 May 2014 10:48:04 GMT^M
Server: Apache/2.4.4 (Unix) OpenSSL/0.9.7d PHP/5.3.12 mod_jk/1.2.35^M
Last-Modified: Wed, 20 Nov 2013 08:13:50 GMT^M
ETag: "90805-4eb975c6bcb80"^M
Accept-Ranges: bytes^M
Content-Length: 591877^M
Connection: close^M
**Content-Type: application/pdf^M** 
followed by the content of the PDF file

Я не понимаю, как это происходит. Кто-нибудь может объяснить, пожалуйста?

0

http pdf web-crawler content-type heritrix

Источник

user1555818 29 май '14 в 11:33

1 ответ

Другие вопросы по тегам http pdf web-crawler content-type heritrix

user1047835 18 мар '15 в 13:45 2015-03-18 13:45 · Answer 1 · 2015-03-18 13:45

Файл WARC содержит:

Сначала WARC-Header-Metadataот начала до первой пустой строки. Этот заголовок описывает, что следует, т.е. полный http ответ с заголовком и контентом. Отсюда тип контента для приложения /http.

Затем наступает HTTP-Response-Metadata, Этот заголовок является фактическим заголовком HTTP и описывает то, что следует, т.е. PDF документ.