Описание тега apache-spark-encoders

Вопросы с тегом

1 ответ

Как реализовать Functor[набор данных]

Я борюсь за то, как создать экземпляр Functor[Dataset]... проблема в том, что когда ты map от A в B Encoder[B] должно быть в неявном объеме, но я не уверен, как это сделать. implicit val datasetFunctor: Functor[Dataset] = new Functor[Dataset] { over…

10 фев '18 в 20:40

1 ответ

Вопрос относительно кодеров kryo и java в наборах данных

Я использую Spark 2.4 и ссылаюсь на https://spark.apache.org/docs/latest/rdd-programming-guide.html Класс бобов: public class EmployeeBean implements Serializable { private Long id; private String name; private Long salary; private Integer age; // g…

apache-spark apache-spark-dataset kryo apache-spark-encoders

04 янв '19 в 06:46

1 ответ

Spark Encoders: когда использовать бобы ()

Я столкнулся с проблемой управления памятью при использовании механизма кэширования Spark. Я в настоящее время использую EncoderМы с Крио и хотели узнать, поможет ли переключение на бины уменьшить размер моего кэшированного набора данных. В основном…

java apache-spark memory-management apache-spark-encoders

16 июл '18 в 21:22

0 ответов

Почему нет кодеров для Pyspark

Я новичок в мире Pyspark. Я понимаю, что кодировщики Spark SQl используются для последовательной сериализации десериализованных объектов с помощью Spark SQL. Я знаю, что речь идет о преобразовании объектов для внутренних типов хранения SQL. Я вижу м…

apache-spark pyspark apache-spark-sql apache-spark-encoders

16 янв '19 в 09:01

1 ответ

Как объединить два набора данных искры в один с Java-объектами?

У меня есть небольшая проблема объединения двух наборов данных в искре, у меня есть это: SparkConf conf = new SparkConf() .setAppName("MyFunnyApp") .setMaster("local[*]"); SparkSession spark = SparkSession .builder() .config(conf) .config("spark.deb…

java apache-spark apache-spark-dataset apache-spark-encoders

10 май '17 в 10:28

1 ответ

Как установить кодировщики для строки, LabeledPointData в Spark?

public static Dataset<LabeledPoint> convertRDDStringToLabeledPoint(Dataset<String> data,String delimiter) { Dataset<LabeledPoint> labeledPointData = data.map( (data1)->{ String splitter[] = data1.split(delimiter); double[] arr =…

apache-spark apache-spark-sql spark-dataframe apache-spark-dataset apache-spark-encoders

29 май '17 в 09:43

8 ответов

Как хранить пользовательские объекты в наборе данных?

В соответствии с введением наборов данных Spark: В преддверии Spark 2.0 мы планируем несколько интересных улучшений в наборах данных, в частности: ... Пользовательские кодировщики - в то время как в настоящее время мы автоматически генерируем кодиро…

scala apache-spark apache-spark-dataset apache-spark-encoders

15 апр '16 в 13:11

1 ответ

Кодировать иерархию ADT / запечатанных признаков в столбец Spark DataSet

Если я хочу сохранить алгебраический тип данных (ADT) (т. Е. Иерархию запечатанных признаков Scala) в столбце Spark DataSet, какова лучшая стратегия кодирования? Например, если у меня есть ADT, где листовые типы хранят разные виды данных: sealed tra…

scala apache-spark dataset apache-spark-dataset apache-spark-encoders

08 дек '16 в 01:03

1 ответ

How to write an Encoder for a collection in Spark 2.1?

У меня есть это: import spark.implicits._ import org.apache.spark.sql.catalyst.encoders.RowEncoder val mydata: Dataset[Row] = spark.read.format("csv").option("header", true).option("inferSchema", true).load("mydata.csv") // CSV header: Time,Area,Cit…

apache-spark apache-spark-encoders

11 мар '17 в 13:12

1 ответ

Переименуйте столбцы в spark, используя @JsonProperty при создании наборов данных

Есть ли способ переименовать имена столбцов в наборе данных, используя аннотации Джексона при создании набора данных? Мой класс кодировщика выглядит следующим образом: import com.fasterxml.jackson.annotation.JsonProperty; import lombok.*; import sca…

java scala apache-spark java-8 apache-spark-encoders

24 янв '19 в 17:33

0 ответов

Пользовательский криокодер spark, не предоставляющий схему для UDF

Следуя инструкциям Как хранить пользовательские объекты в наборе данных? и пытается зарегистрировать свой собственный кодер крио для кадра данных, я сталкиваюсь с проблемой Schema for type com.esri.core.geometry.Envelope is not supported Существует …

apache-spark apache-spark-sql spark-dataframe kryo apache-spark-encoders

24 июн '17 в 10:05

1 ответ

Иерархия типов набора данных Spark Scala

Попытка реализовать классы, расширяющие W, чтобы получить метод get, который возвращает набор данных подкласса WR. abstract class WR case class TGWR( a: String, b: String ) extends WR abstract class W { def get[T <: WR](): Dataset[T] } class TGW(…

scala apache-spark apache-spark-dataset apache-spark-encoders

11 фев '19 в 16:13

2 ответа

Как создать кодировщик для коллекции Scala (для реализации собственного Aggregator)?

Spark 2.3.0 с Scala 2.11. Я реализую кастом Aggregator в соответствии с документами здесь. Агрегатору требуется 3 типа для ввода, буфера и вывода. Мой агрегатор должен работать со всеми предыдущими строками в окне, поэтому я объявил это так: case cl…

scala apache-spark apache-spark-sql apache-spark-encoders

06 апр '18 в 19:55

1 ответ

Кодер набора данных для коллекций Scala

Я получаю исключение при попытке прочитать набор данных из s3. Класс кейса компании содержит множество с кейсом сотрудника. Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for Set[com.model.company.common.Employe…

apache-spark apache-spark-dataset apache-spark-encoders

11 июл '17 в 13:29

3 ответа

Преобразование списка Scala в DataFrame или DataSet

Я новичок в Скале. Я пытаюсь преобразовать список scala (который содержит результаты некоторых вычисленных данных в исходном DataFrame) в Dataframe или Dataset. Я не нахожу прямого способа сделать это. Тем не менее, я попытался следующий процесс для…

scala apache-spark apache-spark-sql spark-dataframe apache-spark-dataset apache-spark-encoders

08 сен '16 в 18:15

2 ответа

Ошибка кодера при попытке сопоставить строку информационного кадра с обновленной строкой

Когда я пытаюсь сделать то же самое в моем коде, как указано ниже dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Я взял вышеупомянутую ссылку отсюда: Sca…

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders

11 сен '16 в 06:21

1 ответ

Искровой неявный датчик не найден в области видимости

У меня есть проблема с spark, уже описанная в пользовательском кодировщике крио spark, который не предоставляет схему для UDF, но сейчас создал минимальный образец: https://gist.github.com/geoHeil/dc9cfb8eca5c06fca01fc9fc03431b2f class SomeOtherClas…

scala apache-spark apache-spark-sql implicit-conversion apache-spark-encoders

10 июл '17 в 14:41

2 ответа

Как использование кодировщиков намного быстрее, чем сериализация Java?

Как использование кодировщиков намного быстрее, чем сериализация java и kryo?

apache-spark serialization spark-dataframe apache-spark-encoders

05 май '18 в 08:11

4 ответа

Как отобразить строки в сгенерированный protobuf класс?

Мне нужно написать задание, которое читает DataSet[Row] и преобразует его в DataSet[CustomClass], где CustomClass является классом protobuf. val protoEncoder = Encoders.bean(classOf[CustomClass]) val transformedRows = rows.map { case Row(f1: String,…

apache-spark apache-spark-sql protocol-buffers spark-dataframe apache-spark-encoders

26 июн '17 в 21:15

0 ответов

Кодеры для коллекций в apache spark

Есть ли способ создать Encoders для типа коллекции в apache spark. Я попробовал ниже подход, но он не работает. import java.io.Serializable; public class CollectionEntity<T> implements Serializable { private T collectionData; public T getColle…

java apache-spark apache-spark-encoders

11 июн '19 в 09:23