Описание тега elasticsearch-hadoop

Описание тега Вопросы с тегом

Поиск и аналитика в реальном времени Elasticsearch встроены в Hadoop. Поддерживает Map/Reduce, Cascading, Apache Hive, Apache Pig, Apache Spark и Apache Storm.

1 ответ

Запись Spark в Elasticsearch с низкой производительностью

Кажется, я столкнулся с проблемой, из-за которой Spark пишет в Elasticsearch очень медленно, и на установление первоначального соединения уходит довольно много времени (около 15 минут), в течение которого Spark и Elasticsearch остаются бездействующи…

20 мар '18 в 19:02

2 ответа

java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror

java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)Lscala/reflect/api/JavaMirrors$JavaMirror; at org.elasticsearch.spark.serialization.ReflectionUtils$.org$elasticsearch$spark$serialization$ReflectionUt…

scala apache-spark elasticsearch-hadoop

20 апр '17 в 07:25

1 ответ

Как вы читаете и пишете из / в разные кластеры ElasticSearch, используя spark и asticsearch-hadoop?

Оригинальное название: Помимо HDFS, какие еще DFS поддерживает spark (и рекомендуется)? Я с радостью использую spark и asticsearch (с драйвером asticsearch-hadoop) с несколькими гигантскими кластерами. Время от времени я хотел бы вытащить весь класт…

apache-spark elasticsearch hdfs dfs elasticsearch-hadoop

12 мар '15 в 01:02

2 ответа

Elasticsearch + Spark: написать JSON с пользовательским документом _id

Я пытаюсь написать коллекцию объектов в Elasticsearch от Spark. Я должен соответствовать двум требованиям: Документ уже сериализован в JSON и должен быть написан как есть Elasticsearch документ _id должен быть обеспечен Вот что я попробовал до сих п…

scala apache-spark elasticsearch elasticsearch-hadoop

19 дек '17 в 17:58

1 ответ

Hivesever2 не может загрузить класс EsStorageHandler из asticsearch-hadoop

У меня есть эта конфигурация в hive-site.xml <property> <name>hive.aux.jars.path</name> <value>/path/to/elasticsearch-hadoop-2.0.1.jar</value> </property> Когда я сопоставляю данные с Elasticsearch в HiveCli, они …

java elasticsearch hadoop hive elasticsearch-hadoop

27 авг '14 в 09:38

1 ответ

Elastisearch-Hadoop, как выполнить массовый поиск в программе Spark

Я пишу искровую программу, которая в основном представляет собой RDD of Strings. Что мне нужно сделать, это в основном создать запрос на строку и сделать запрос на основе эластичного поискового индекса. Так что, по сути, запрос будет отличаться по с…

apache-spark elasticsearch hadoop elasticsearch-hadoop

07 сен '17 в 02:18

0 ответов

Как выполнить запрос к Elasticsearch, используя PySpark, не запрашивая каждый узел?

Моя конечная цель - использовать PySpark для эффективной индексации большого объема данных в Elasticsearch (ES), а затем выполнить огромное количество запросов к индексу и записать статистику по результатам. Elasticsearch version 5.6.5 Spark version…

python apache-spark elasticsearch pyspark elasticsearch-hadoop

13 фев '19 в 00:23

1 ответ

Как получить векторы терминов с помощью Elasticsearch Hadoop

Я использую ElasticSearch-Hadoop API. И я пытался получить _mtermvector используя следующий код Spark: val query= """_mtermvectors { "ids" : ["1256"], "parameters": { "fields": [ "tname" ], "term_statistics": true } }""" var idRdd = sparkContext.esR…

scala apache-spark elasticsearch elasticsearch-hadoop

29 июн '16 в 15:16

0 ответов

Как Spark пишет сжатый файл паркета?

Используя Apache Spark 1.6.4, с плагином asticsearch4hadoop, я экспортирую индекс эластичного поиска (100 млн документов, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7. Я запускаю этот ETL как Java-программу с 1 исполнителем (8 CPU, 12Go RAM).…

apache-spark hdfs elasticsearch-hadoop

22 дек '18 в 08:19

0 ответов

Elasticsearch-Hadoop разъем для Spark Dataframe

Я пытаюсь написать искровой фрейм данных в Elasticsearch следующим образом: df.write.format("es").save("db/test") К сожалению, я получаю следующую ошибку: Py4JJavaError: An error occurred while calling o50.save.: org.apache.spark.SparkException: Job…

apache-spark-sql pyspark-sql elasticsearch-hadoop

17 июл '17 в 20:41

0 ответов

Ошибка Джексона в ElasticSearch Hadoop при загрузке данных в ElasticSearch

Я пытаюсь загрузить данные из HDFS в ElasticSearch с помощью elasticsearch-hadoop версия elasticsearch-hadoop-2.1.0.Beta3.jar, На Mapr была ошибка: https://github.com/elastic/elasticsearch-hadoop/issues/215 которая должна была исправить jackson вопр…

hive jackson apache-pig elasticsearch-hadoop

17 апр '15 в 12:56

2 ответа

Ошибка выполнения Spark - ClassDefNotFound: SparkConf

После установки и сборки Apache Spark (хотя и с несколькими предупреждениями) компиляция нашего приложения Spark (с использованием "пакета sbt") успешно завершена. Однако при попытке запустить наше приложение с помощью сценария spark-submit возникае…

scala apache-spark elasticsearch sbt elasticsearch-hadoop

01 июл '15 в 21:15

0 ответов

Количество Elasticsearch меньше, чем индексируется при использовании asticsearch-hadoop-2.2

Я создал индекс и внес в него данные, используя эластичный поиск-hadoop-2.2. HQL выглядит так: CREATE EXTERNAL TABLE es_external_table ( field1 type1, field2 type2 ) STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler' TBLPROPERTIES ( 'es.batc…

elasticsearch elasticsearch-hadoop

24 май '16 в 06:54

0 ответов

ES-Hadoop запрос странно ведет себя на Pyspark

Поэтому я попытался собрать данные из Elasticsearch в PySpark, используя API-интерфейс asticsearch-hadoop. Цель состоит в том, чтобы преобразовать эти данные в DataFrame Spark. DataFrame работает со схемой. При создании DF Spark выведет схему на осн…

python elasticsearch pyspark spark-dataframe elasticsearch-hadoop

05 окт '17 в 14:40

1 ответ

Elasticsearch-Hadoop получить неиндексированные данные

У меня есть кластер эластичного поиска, который имеет большой объем данных. Я хочу извлечь все данные из asticsearch в Hadoop(Hive). Я использовал драйвер Elasticsearch-Hadoop для извлечения данных из эластичного поиска с использованием внешней табл…

elasticsearch hadoop hadoop-streaming elastic-map-reduce elasticsearch-hadoop

13 мар '15 в 15:45

0 ответов

Напишите Elasticsearch от Spark, неверная отметка времени

У меня есть один столбец данных Spark: <class 'pyspark.sql.dataframe.DataFrame'> StructType(List(StructField(updateDate,TimestampType,true))) При записи в asticsearch с помощью spark поле updateDate не рассматривается как дата и записывается к…

elasticsearch pyspark elasticsearch-hadoop

26 янв '18 в 21:24

1 ответ

Spark + Elastic - проблема с производительностью поиска и записи

Видя низкое количество записей в asticsearch с использованием искры Java. Вот конфигурации использование 13. больших машин для кластера ES 4 instances each have 4 processors. Set refresh interval to -1 and replications to '0' and other basic configu…

apache-spark elasticsearch elasticsearch-hadoop elasticsearch-spark

18 окт '17 в 15:00

3 ответа

Параметр ограничения размера соединителя эластичного поиска-искры игнорируется в запросе

Я пытаюсь запросить elasticsearch с elasticsearch-spark Разъем и я хочу вернуть только несколько результатов: Например: val conf = new SparkConf().set("es.nodes","localhost").set("es.index.auto.create", "true").setMaster("local") val sparkContext = …

scala apache-spark elasticsearch elasticsearch-hadoop

12 авг '15 в 14:37

1 ответ

Pyspark, конвертирующий rdd в dataframe с нулями

Я использую pyspark (1.6) и asticsearch-hadoop (5.1.1). Я получаю свои данные из asticsearch в формате rdd через: es_rdd = sc.newAPIHadoopRDD( inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat", keyClass="org.apache.hadoop.io.NullWritable"…

python pyspark elasticsearch-hadoop

13 янв '17 в 12:02

1 ответ

Можно ли записать в динамически созданный индекс Elasticsearch с отформатированной датой использование asticsearch-hadoop/spark?

В рамках отдельной искры я пытаюсь записать данные из фрейма в Elasticsearch. Хотя я могу заставить это работать, я не могу понять, как записать в динамически именованный индекс, отформатированный как "index_name-{ts_col:{YYYY-mm-dd}}", где "ts_col"…

python apache-spark elasticsearch-hadoop

24 фев '17 в 18:32