Индексируйте pdf файлы в сервисе AWS Elasticsearch с помощью средства поиска файловой системы Elasticsearch

Я могу индексировать pdf файлы в локальный Elasticsearch, используя Elasticsearch File System Crawler. По умолчанию параметр fscrawler имеет параметры порта, хоста и схемы, как показано ниже.

{
"name" : "job_name2",
"fs" : {
"url" : "/tmp/es",
"update_rate" : "15m",
"excludes" : [ "~*" ],
"json_support" : false,
"filename_as_id" : false,
"add_filesize" : true,
"remove_deleted" : true,
"add_as_inner_object" : false,
"store_source" : false,
"index_content" : true,
"attributes_support" : false,
"raw_metadata" : true,
"xml_support" : false,
"index_folders" : true,
"lang_detect" : false,
"continue_on_error" : false,
"pdf_ocr" : true,
"ocr" : {
  "language" : "eng"
}
},
 "elasticsearch" : {
"nodes" : [ {
  "host" : "127.0.0.1",
  "port" : 9200,
  "scheme" : "HTTP"
} ],
"bulk_size" : 100,
"flush_interval" : "5s"
},
"rest" : {
"scheme" : "HTTP",
"host" : "127.0.0.1",
"port" : 8080,
"endpoint" : "fscrawler"
}
}

Однако у меня возникают трудности с его использованием для индексации в сервисе AWSasticsearch, потому что для индексирования в AWSasticsearch мне необходимо предоставить AWS_ACCESS_KEY, AWS_SECRET_KEY, регион и сервис, как описано здесь. Любая помощь в том, как проиндексировать pdf-файлы в сервисе AWSasticsearch: высоко ценится

0 ответов

FSCrawler пока не поддерживает AWS_ACCESS_KEY или AWS_SECRET_KEY. Может стоит открыть вопрос в FSCrawler?

При этом https://cloud.elastic.co/ поддерживается, но с использованием "логина / пароля". Смотрите документацию для более подробной информации.

Другие вопросы по тегам