GSA - даты последнего изменения документов (PDF/DOC и т. Д.)

Согласно документации GSA:

PDF or XPS documents typically have metadata such as:
<MT N="CreationDate" V="D:20040107111105Z"/>
<MT N="ModDate" V="D:20040209162220+01'00'"/>
The search appliance can automatically pick up these formats without any special formatting configuration.

Но, к сожалению, это не похоже на работу. У нас есть PDF-файлы, документы DOC и другие файлы на нашем сайте, а даты последних изменений указаны в соответствующих <MT> записи в результатах поиска GSA. Но <FS NAME="date"> имеет пустое значение, которое указывает, что GSA не смог извлечь дату. Даже указание формата даты на странице "Даты документа" в консоли GSA не помогает.

Так как же заставить GSA "видеть" даты последнего изменения документов? Обратите внимание: мы не можем использовать последние измененные значения HTTP-заголовка веб-сервера, так как в нашем случае они неверны (диспетчер AEM / вмешательство в кеширование).

1 ответ

GSA может извлекать метаданные из свойств документа, но я не уверен, что GSA может использовать этот ModDate/CreationDate для заполнения <FS NAME="date"> без настройки "Даты документов".

Вы упомянули, что "вы не можете использовать последние измененные значения HTTP-заголовка веб-сервера, поскольку в нашем случае они неверны". Означает ли это, что ваш веб-сервер возвращает последний измененный заголовок с неверными значениями?

Последний измененный заголовок ответа имеет приоритет над всеми другими метаданными в GSA. Поэтому, если ваш сервер не может вернуть правильные значения, вы должны удалить заголовок Last-Modified из ответа.

Я сталкивался со многими людьми, использующими java Simpledateformat (yy-MM-dd) при указании формата в поле "Даты документов", но GSA может понимать только формат strptime. Это одна из основных причин, по которой GSA не может заполниться <FS NAME="date">, Поэтому обязательно используйте формат даты в strptime, иначе оставьте это поле пустым, так как это поле не является обязательным.

Другие вопросы по тегам