Solr - Как добавить метаданные в индексированные двоичные файлы, которые были проиндексированы через Solr Cell?
Я создаю приложение PHP, которое позволяет пользователю искать файлы, используя Solr для поиска. Это происходит главным образом потому, что приложение требует поиска содержимого документов Word и PDF. Приложение также использует базу данных MySql для отслеживания файлов.
Я думаю, что лучший способ изначально проиндексировать все файлы (вероятно, около 20 000) - это написать скрипт PHP, который просматривает все файлы в определенном каталоге, добавляя каждый из них в индекс Solr и создавая запись для него в моем база данных.
Проблема в том, что сами файлы не содержат всех данных, которые необходимо проиндексировать. Как только имя файла, контент, автор и т. Д. Были проиндексированы с помощью Solr Cell, мне нужно, чтобы пользователи приложения могли добавлять дополнительные метаданные, такие как теги и категории.
Я понимаю, что если бы пользователи добавили эти данные в базу данных MySql, я не смог бы обновить Solr дополнительными данными, не перезаписывая уже проиндексированные данные (содержимое и т. Д.).
Итак, мой вопрос: как только Solr проиндексировал файл, как я могу добавить дополнительные метаданные к индексу, которые не могут быть извлечены из самого файла экстрактором Cell Solr?
1 ответ
Если вы используете Solr 4.0, вы можете использовать функцию частичного обновления документов, в которой вы можете добавить только обновленные поля вместо того, чтобы указывать все поля.