Описание тега apache-spark-encoders
1
ответ
Как реализовать Functor[набор данных]
Я борюсь за то, как создать экземпляр Functor[Dataset]... проблема в том, что когда ты map от A в B Encoder[B] должно быть в неявном объеме, но я не уверен, как это сделать. implicit val datasetFunctor: Functor[Dataset] = new Functor[Dataset] { over…
10 фев '18 в 20:40
1
ответ
Вопрос относительно кодеров kryo и java в наборах данных
Я использую Spark 2.4 и ссылаюсь на https://spark.apache.org/docs/latest/rdd-programming-guide.html Класс бобов: public class EmployeeBean implements Serializable { private Long id; private String name; private Long salary; private Integer age; // g…
04 янв '19 в 06:46
1
ответ
Spark Encoders: когда использовать бобы ()
Я столкнулся с проблемой управления памятью при использовании механизма кэширования Spark. Я в настоящее время использую EncoderМы с Крио и хотели узнать, поможет ли переключение на бины уменьшить размер моего кэшированного набора данных. В основном…
16 июл '18 в 21:22
0
ответов
Почему нет кодеров для Pyspark
Я новичок в мире Pyspark. Я понимаю, что кодировщики Spark SQl используются для последовательной сериализации десериализованных объектов с помощью Spark SQL. Я знаю, что речь идет о преобразовании объектов для внутренних типов хранения SQL. Я вижу м…
16 янв '19 в 09:01
1
ответ
Как объединить два набора данных искры в один с Java-объектами?
У меня есть небольшая проблема объединения двух наборов данных в искре, у меня есть это: SparkConf conf = new SparkConf() .setAppName("MyFunnyApp") .setMaster("local[*]"); SparkSession spark = SparkSession .builder() .config(conf) .config("spark.deb…
10 май '17 в 10:28
1
ответ
Как установить кодировщики для строки, LabeledPointData в Spark?
public static Dataset<LabeledPoint> convertRDDStringToLabeledPoint(Dataset<String> data,String delimiter) { Dataset<LabeledPoint> labeledPointData = data.map( (data1)->{ String splitter[] = data1.split(delimiter); double[] arr =…
29 май '17 в 09:43
8
ответов
Как хранить пользовательские объекты в наборе данных?
В соответствии с введением наборов данных Spark: В преддверии Spark 2.0 мы планируем несколько интересных улучшений в наборах данных, в частности: ... Пользовательские кодировщики - в то время как в настоящее время мы автоматически генерируем кодиро…
15 апр '16 в 13:11
1
ответ
Кодировать иерархию ADT / запечатанных признаков в столбец Spark DataSet
Если я хочу сохранить алгебраический тип данных (ADT) (т. Е. Иерархию запечатанных признаков Scala) в столбце Spark DataSet, какова лучшая стратегия кодирования? Например, если у меня есть ADT, где листовые типы хранят разные виды данных: sealed tra…
08 дек '16 в 01:03
1
ответ
How to write an Encoder for a collection in Spark 2.1?
У меня есть это: import spark.implicits._ import org.apache.spark.sql.catalyst.encoders.RowEncoder val mydata: Dataset[Row] = spark.read.format("csv").option("header", true).option("inferSchema", true).load("mydata.csv") // CSV header: Time,Area,Cit…
11 мар '17 в 13:12
1
ответ
Переименуйте столбцы в spark, используя @JsonProperty при создании наборов данных
Есть ли способ переименовать имена столбцов в наборе данных, используя аннотации Джексона при создании набора данных? Мой класс кодировщика выглядит следующим образом: import com.fasterxml.jackson.annotation.JsonProperty; import lombok.*; import sca…
24 янв '19 в 17:33
0
ответов
Пользовательский криокодер spark, не предоставляющий схему для UDF
Следуя инструкциям Как хранить пользовательские объекты в наборе данных? и пытается зарегистрировать свой собственный кодер крио для кадра данных, я сталкиваюсь с проблемой Schema for type com.esri.core.geometry.Envelope is not supported Существует …
24 июн '17 в 10:05
1
ответ
Иерархия типов набора данных Spark Scala
Попытка реализовать классы, расширяющие W, чтобы получить метод get, который возвращает набор данных подкласса WR. abstract class WR case class TGWR( a: String, b: String ) extends WR abstract class W { def get[T <: WR](): Dataset[T] } class TGW(…
11 фев '19 в 16:13
2
ответа
Как создать кодировщик для коллекции Scala (для реализации собственного Aggregator)?
Spark 2.3.0 с Scala 2.11. Я реализую кастом Aggregator в соответствии с документами здесь. Агрегатору требуется 3 типа для ввода, буфера и вывода. Мой агрегатор должен работать со всеми предыдущими строками в окне, поэтому я объявил это так: case cl…
06 апр '18 в 19:55
1
ответ
Кодер набора данных для коллекций Scala
Я получаю исключение при попытке прочитать набор данных из s3. Класс кейса компании содержит множество с кейсом сотрудника. Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for Set[com.model.company.common.Employe…
11 июл '17 в 13:29
3
ответа
Преобразование списка Scala в DataFrame или DataSet
Я новичок в Скале. Я пытаюсь преобразовать список scala (который содержит результаты некоторых вычисленных данных в исходном DataFrame) в Dataframe или Dataset. Я не нахожу прямого способа сделать это. Тем не менее, я попытался следующий процесс для…
08 сен '16 в 18:15
2
ответа
Ошибка кодера при попытке сопоставить строку информационного кадра с обновленной строкой
Когда я пытаюсь сделать то же самое в моем коде, как указано ниже dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Я взял вышеупомянутую ссылку отсюда: Sca…
11 сен '16 в 06:21
1
ответ
Искровой неявный датчик не найден в области видимости
У меня есть проблема с spark, уже описанная в пользовательском кодировщике крио spark, который не предоставляет схему для UDF, но сейчас создал минимальный образец: https://gist.github.com/geoHeil/dc9cfb8eca5c06fca01fc9fc03431b2f class SomeOtherClas…
10 июл '17 в 14:41
2
ответа
Как использование кодировщиков намного быстрее, чем сериализация Java?
Как использование кодировщиков намного быстрее, чем сериализация java и kryo?
05 май '18 в 08:11
4
ответа
Как отобразить строки в сгенерированный protobuf класс?
Мне нужно написать задание, которое читает DataSet[Row] и преобразует его в DataSet[CustomClass], где CustomClass является классом protobuf. val protoEncoder = Encoders.bean(classOf[CustomClass]) val transformedRows = rows.map { case Row(f1: String,…
26 июн '17 в 21:15
0
ответов
Кодеры для коллекций в apache spark
Есть ли способ создать Encoders для типа коллекции в apache spark. Я попробовал ниже подход, но он не работает. import java.io.Serializable; public class CollectionEntity<T> implements Serializable { private T collectionData; public T getColle…
11 июн '19 в 09:23