GSA - даты последнего изменения документов (PDF/DOC и т. Д.)
Согласно документации GSA:
PDF or XPS documents typically have metadata such as:
<MT N="CreationDate" V="D:20040107111105Z"/>
<MT N="ModDate" V="D:20040209162220+01'00'"/>
The search appliance can automatically pick up these formats without any special formatting configuration.
Но, к сожалению, это не похоже на работу. У нас есть PDF-файлы, документы DOC и другие файлы на нашем сайте, а даты последних изменений указаны в соответствующих <MT>
записи в результатах поиска GSA. Но <FS NAME="date">
имеет пустое значение, которое указывает, что GSA не смог извлечь дату. Даже указание формата даты на странице "Даты документа" в консоли GSA не помогает.
Так как же заставить GSA "видеть" даты последнего изменения документов? Обратите внимание: мы не можем использовать последние измененные значения HTTP-заголовка веб-сервера, так как в нашем случае они неверны (диспетчер AEM / вмешательство в кеширование).
1 ответ
GSA может извлекать метаданные из свойств документа, но я не уверен, что GSA может использовать этот ModDate/CreationDate для заполнения <FS NAME="date">
без настройки "Даты документов".
Вы упомянули, что "вы не можете использовать последние измененные значения HTTP-заголовка веб-сервера, поскольку в нашем случае они неверны". Означает ли это, что ваш веб-сервер возвращает последний измененный заголовок с неверными значениями?
Последний измененный заголовок ответа имеет приоритет над всеми другими метаданными в GSA. Поэтому, если ваш сервер не может вернуть правильные значения, вы должны удалить заголовок Last-Modified из ответа.
Я сталкивался со многими людьми, использующими java Simpledateformat (yy-MM-dd) при указании формата в поле "Даты документов", но GSA может понимать только формат strptime. Это одна из основных причин, по которой GSA не может заполниться <FS NAME="date">
, Поэтому обязательно используйте формат даты в strptime, иначе оставьте это поле пустым, так как это поле не является обязательным.