Описание тега apache-spark-encoders

1 ответ

Как реализовать Functor[набор данных]

Я борюсь за то, как создать экземпляр Functor[Dataset]... проблема в том, что когда ты map от A в B Encoder[B] должно быть в неявном объеме, но я не уверен, как это сделать. implicit val datasetFunctor: Functor[Dataset] = new Functor[Dataset] { over…
1 ответ

Вопрос относительно кодеров kryo и java в наборах данных

Я использую Spark 2.4 и ссылаюсь на https://spark.apache.org/docs/latest/rdd-programming-guide.html Класс бобов: public class EmployeeBean implements Serializable { private Long id; private String name; private Long salary; private Integer age; // g…
1 ответ

Spark Encoders: когда использовать бобы ()

Я столкнулся с проблемой управления памятью при использовании механизма кэширования Spark. Я в настоящее время использую EncoderМы с Крио и хотели узнать, поможет ли переключение на бины уменьшить размер моего кэшированного набора данных. В основном…
0 ответов

Почему нет кодеров для Pyspark

Я новичок в мире Pyspark. Я понимаю, что кодировщики Spark SQl используются для последовательной сериализации десериализованных объектов с помощью Spark SQL. Я знаю, что речь идет о преобразовании объектов для внутренних типов хранения SQL. Я вижу м…
1 ответ

Как объединить два набора данных искры в один с Java-объектами?

У меня есть небольшая проблема объединения двух наборов данных в искре, у меня есть это: SparkConf conf = new SparkConf() .setAppName("MyFunnyApp") .setMaster("local[*]"); SparkSession spark = SparkSession .builder() .config(conf) .config("spark.deb…
1 ответ

Как установить кодировщики для строки, LabeledPointData в Spark?

public static Dataset<LabeledPoint> convertRDDStringToLabeledPoint(Dataset<String> data,String delimiter) { Dataset<LabeledPoint> labeledPointData = data.map( (data1)->{ String splitter[] = data1.split(delimiter); double[] arr =…
8 ответов

Как хранить пользовательские объекты в наборе данных?

В соответствии с введением наборов данных Spark: В преддверии Spark 2.0 мы планируем несколько интересных улучшений в наборах данных, в частности: ... Пользовательские кодировщики - в то время как в настоящее время мы автоматически генерируем кодиро…
1 ответ

Кодировать иерархию ADT / запечатанных признаков в столбец Spark DataSet

Если я хочу сохранить алгебраический тип данных (ADT) (т. Е. Иерархию запечатанных признаков Scala) в столбце Spark DataSet, какова лучшая стратегия кодирования? Например, если у меня есть ADT, где листовые типы хранят разные виды данных: sealed tra…
1 ответ

How to write an Encoder for a collection in Spark 2.1?

У меня есть это: import spark.implicits._ import org.apache.spark.sql.catalyst.encoders.RowEncoder val mydata: Dataset[Row] = spark.read.format("csv").option("header", true).option("inferSchema", true).load("mydata.csv") // CSV header: Time,Area,Cit…
11 мар '17 в 13:12
1 ответ

Переименуйте столбцы в spark, используя @JsonProperty при создании наборов данных

Есть ли способ переименовать имена столбцов в наборе данных, используя аннотации Джексона при создании набора данных? Мой класс кодировщика выглядит следующим образом: import com.fasterxml.jackson.annotation.JsonProperty; import lombok.*; import sca…
0 ответов

Пользовательский криокодер spark, не предоставляющий схему для UDF

Следуя инструкциям Как хранить пользовательские объекты в наборе данных? и пытается зарегистрировать свой собственный кодер крио для кадра данных, я сталкиваюсь с проблемой Schema for type com.esri.core.geometry.Envelope is not supported Существует …
1 ответ

Иерархия типов набора данных Spark Scala

Попытка реализовать классы, расширяющие W, чтобы получить метод get, который возвращает набор данных подкласса WR. abstract class WR case class TGWR( a: String, b: String ) extends WR abstract class W { def get[T <: WR](): Dataset[T] } class TGW(…
2 ответа

Как создать кодировщик для коллекции Scala (для реализации собственного Aggregator)?

Spark 2.3.0 с Scala 2.11. Я реализую кастом Aggregator в соответствии с документами здесь. Агрегатору требуется 3 типа для ввода, буфера и вывода. Мой агрегатор должен работать со всеми предыдущими строками в окне, поэтому я объявил это так: case cl…
1 ответ

Кодер набора данных для коллекций Scala

Я получаю исключение при попытке прочитать набор данных из s3. Класс кейса компании содержит множество с кейсом сотрудника. Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for Set[com.model.company.common.Employe…
3 ответа

Преобразование списка Scala в DataFrame или DataSet

Я новичок в Скале. Я пытаюсь преобразовать список scala (который содержит результаты некоторых вычисленных данных в исходном DataFrame) в Dataframe или Dataset. Я не нахожу прямого способа сделать это. Тем не менее, я попытался следующий процесс для…
2 ответа

Ошибка кодера при попытке сопоставить строку информационного кадра с обновленной строкой

Когда я пытаюсь сделать то же самое в моем коде, как указано ниже dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Я взял вышеупомянутую ссылку отсюда: Sca…
1 ответ

Искровой неявный датчик не найден в области видимости

У меня есть проблема с spark, уже описанная в пользовательском кодировщике крио spark, который не предоставляет схему для UDF, но сейчас создал минимальный образец: https://gist.github.com/geoHeil/dc9cfb8eca5c06fca01fc9fc03431b2f class SomeOtherClas…
2 ответа

Как использование кодировщиков намного быстрее, чем сериализация Java?

Как использование кодировщиков намного быстрее, чем сериализация java и kryo?
4 ответа

Как отобразить строки в сгенерированный protobuf класс?

Мне нужно написать задание, которое читает DataSet[Row] и преобразует его в DataSet[CustomClass], где CustomClass является классом protobuf. val protoEncoder = Encoders.bean(classOf[CustomClass]) val transformedRows = rows.map { case Row(f1: String,…
0 ответов

Кодеры для коллекций в apache spark

Есть ли способ создать Encoders для типа коллекции в apache spark. Я попробовал ниже подход, но он не работает. import java.io.Serializable; public class CollectionEntity<T> implements Serializable { private T collectionData; public T getColle…
11 июн '19 в 09:23