Описание тега elasticsearch-hadoop
Поиск и аналитика в реальном времени Elasticsearch встроены в Hadoop. Поддерживает Map/Reduce, Cascading, Apache Hive, Apache Pig, Apache Spark и Apache Storm.
1
ответ
Запись Spark в Elasticsearch с низкой производительностью
Кажется, я столкнулся с проблемой, из-за которой Spark пишет в Elasticsearch очень медленно, и на установление первоначального соединения уходит довольно много времени (около 15 минут), в течение которого Spark и Elasticsearch остаются бездействующи…
20 мар '18 в 19:02
2
ответа
java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror
java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)Lscala/reflect/api/JavaMirrors$JavaMirror; at org.elasticsearch.spark.serialization.ReflectionUtils$.org$elasticsearch$spark$serialization$ReflectionUt…
20 апр '17 в 07:25
1
ответ
Как вы читаете и пишете из / в разные кластеры ElasticSearch, используя spark и asticsearch-hadoop?
Оригинальное название: Помимо HDFS, какие еще DFS поддерживает spark (и рекомендуется)? Я с радостью использую spark и asticsearch (с драйвером asticsearch-hadoop) с несколькими гигантскими кластерами. Время от времени я хотел бы вытащить весь класт…
12 мар '15 в 01:02
2
ответа
Elasticsearch + Spark: написать JSON с пользовательским документом _id
Я пытаюсь написать коллекцию объектов в Elasticsearch от Spark. Я должен соответствовать двум требованиям: Документ уже сериализован в JSON и должен быть написан как есть Elasticsearch документ _id должен быть обеспечен Вот что я попробовал до сих п…
19 дек '17 в 17:58
1
ответ
Hivesever2 не может загрузить класс EsStorageHandler из asticsearch-hadoop
У меня есть эта конфигурация в hive-site.xml <property> <name>hive.aux.jars.path</name> <value>/path/to/elasticsearch-hadoop-2.0.1.jar</value> </property> Когда я сопоставляю данные с Elasticsearch в HiveCli, они …
27 авг '14 в 09:38
1
ответ
Elastisearch-Hadoop, как выполнить массовый поиск в программе Spark
Я пишу искровую программу, которая в основном представляет собой RDD of Strings. Что мне нужно сделать, это в основном создать запрос на строку и сделать запрос на основе эластичного поискового индекса. Так что, по сути, запрос будет отличаться по с…
07 сен '17 в 02:18
0
ответов
Как выполнить запрос к Elasticsearch, используя PySpark, не запрашивая каждый узел?
Моя конечная цель - использовать PySpark для эффективной индексации большого объема данных в Elasticsearch (ES), а затем выполнить огромное количество запросов к индексу и записать статистику по результатам. Elasticsearch version 5.6.5 Spark version…
13 фев '19 в 00:23
1
ответ
Как получить векторы терминов с помощью Elasticsearch Hadoop
Я использую ElasticSearch-Hadoop API. И я пытался получить _mtermvector используя следующий код Spark: val query= """_mtermvectors { "ids" : ["1256"], "parameters": { "fields": [ "tname" ], "term_statistics": true } }""" var idRdd = sparkContext.esR…
29 июн '16 в 15:16
0
ответов
Как Spark пишет сжатый файл паркета?
Используя Apache Spark 1.6.4, с плагином asticsearch4hadoop, я экспортирую индекс эластичного поиска (100 млн документов, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7. Я запускаю этот ETL как Java-программу с 1 исполнителем (8 CPU, 12Go RAM).…
22 дек '18 в 08:19
0
ответов
Elasticsearch-Hadoop разъем для Spark Dataframe
Я пытаюсь написать искровой фрейм данных в Elasticsearch следующим образом: df.write.format("es").save("db/test") К сожалению, я получаю следующую ошибку: Py4JJavaError: An error occurred while calling o50.save.: org.apache.spark.SparkException: Job…
17 июл '17 в 20:41
0
ответов
Ошибка Джексона в ElasticSearch Hadoop при загрузке данных в ElasticSearch
Я пытаюсь загрузить данные из HDFS в ElasticSearch с помощью elasticsearch-hadoop версия elasticsearch-hadoop-2.1.0.Beta3.jar, На Mapr была ошибка: https://github.com/elastic/elasticsearch-hadoop/issues/215 которая должна была исправить jackson вопр…
17 апр '15 в 12:56
2
ответа
Ошибка выполнения Spark - ClassDefNotFound: SparkConf
После установки и сборки Apache Spark (хотя и с несколькими предупреждениями) компиляция нашего приложения Spark (с использованием "пакета sbt") успешно завершена. Однако при попытке запустить наше приложение с помощью сценария spark-submit возникае…
01 июл '15 в 21:15
0
ответов
Количество Elasticsearch меньше, чем индексируется при использовании asticsearch-hadoop-2.2
Я создал индекс и внес в него данные, используя эластичный поиск-hadoop-2.2. HQL выглядит так: CREATE EXTERNAL TABLE es_external_table ( field1 type1, field2 type2 ) STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler' TBLPROPERTIES ( 'es.batc…
24 май '16 в 06:54
0
ответов
ES-Hadoop запрос странно ведет себя на Pyspark
Поэтому я попытался собрать данные из Elasticsearch в PySpark, используя API-интерфейс asticsearch-hadoop. Цель состоит в том, чтобы преобразовать эти данные в DataFrame Spark. DataFrame работает со схемой. При создании DF Spark выведет схему на осн…
05 окт '17 в 14:40
1
ответ
Elasticsearch-Hadoop получить неиндексированные данные
У меня есть кластер эластичного поиска, который имеет большой объем данных. Я хочу извлечь все данные из asticsearch в Hadoop(Hive). Я использовал драйвер Elasticsearch-Hadoop для извлечения данных из эластичного поиска с использованием внешней табл…
13 мар '15 в 15:45
0
ответов
Напишите Elasticsearch от Spark, неверная отметка времени
У меня есть один столбец данных Spark: <class 'pyspark.sql.dataframe.DataFrame'> StructType(List(StructField(updateDate,TimestampType,true))) При записи в asticsearch с помощью spark поле updateDate не рассматривается как дата и записывается к…
26 янв '18 в 21:24
1
ответ
Spark + Elastic - проблема с производительностью поиска и записи
Видя низкое количество записей в asticsearch с использованием искры Java. Вот конфигурации использование 13. больших машин для кластера ES 4 instances each have 4 processors. Set refresh interval to -1 and replications to '0' and other basic configu…
18 окт '17 в 15:00
3
ответа
Параметр ограничения размера соединителя эластичного поиска-искры игнорируется в запросе
Я пытаюсь запросить elasticsearch с elasticsearch-spark Разъем и я хочу вернуть только несколько результатов: Например: val conf = new SparkConf().set("es.nodes","localhost").set("es.index.auto.create", "true").setMaster("local") val sparkContext = …
12 авг '15 в 14:37
1
ответ
Pyspark, конвертирующий rdd в dataframe с нулями
Я использую pyspark (1.6) и asticsearch-hadoop (5.1.1). Я получаю свои данные из asticsearch в формате rdd через: es_rdd = sc.newAPIHadoopRDD( inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat", keyClass="org.apache.hadoop.io.NullWritable"…
13 янв '17 в 12:02
1
ответ
Можно ли записать в динамически созданный индекс Elasticsearch с отформатированной датой использование asticsearch-hadoop/spark?
В рамках отдельной искры я пытаюсь записать данные из фрейма в Elasticsearch. Хотя я могу заставить это работать, я не могу понять, как записать в динамически именованный индекс, отформатированный как "index_name-{ts_col:{YYYY-mm-dd}}", где "ts_col"…
24 фев '17 в 18:32