Преобразование шаблона даты в искровом фрейме

У меня есть столбец в искровом фрейме данных типа String (с датой в шаблоне yyyy-MM-dd). Я хочу отобразить значение столбца в шаблоне MM / dd / yyyy

Мои данные

val df = sc.parallelize(Array(
  ("steak", "1990-01-01", "2000-01-01", 150),
  ("steak", "2000-01-02", "2001-01-13", 180),
  ("fish",  "1990-01-01", "2001-01-01", 100)
)).toDF("name", "startDate", "endDate", "price")

df.show()

+-----+----------+----------+-----+
| name| startDate|   endDate|price|
+-----+----------+----------+-----+
|steak|1990-01-01|2000-01-01|  150|
|steak|2000-01-02|2001-01-13|  180|
| fish|1990-01-01|2001-01-01|  100|
+-----+----------+----------+-----+

root
 |-- name: string (nullable = true)
 |-- startDate: string (nullable = true)
 |-- endDate: string (nullable = true)
 |-- price: integer (nullable = false)

Я хочу показать endDate в шаблоне MM / dd / yyyy. Все, что я могу сделать, это преобразовать столбец в DateType из String

val df2 = df.select($"endDate".cast(DateType).alias("endDate"))

df2.show()

+----------+
|   endDate|
+----------+
|2000-01-01|
|2001-01-13|
|2001-01-01|
+----------+

df2.printSchema()

root
 |-- endDate: date (nullable = true)

Я хочу показать endDate в шаблоне MM / dd / yyyy. Единственная ссылка, которую я нашел, это то, что не решает проблему

2 ответа

Решение

Вы можете использовать функцию date_format.

  import sqlContext.implicits._
  import org.apache.spark.sql.functions._

  val df = sc.parallelize(Array(
    ("steak", "1990-01-01", "2000-01-01", 150),
    ("steak", "2000-01-02", "2001-01-13", 180),
    ("fish", "1990-01-01", "2001-01-01", 100))).toDF("name", "startDate", "endDate", "price")

  df.show()

  df.select(date_format(col("endDate"), "MM/dd/yyyy")).show

Выход:

+-------------------------------+
|date_format(endDate,MM/dd/yyyy)|
+-------------------------------+
|                     01/01/2000|
|                     01/13/2001|
|                     01/01/2001|
+-------------------------------+

Используйте pyspark.sql.functions.date_format(дата, формат):

val df2 = df.select(date_format("endDate", "MM/dd/yyyy").alias("endDate"))

Dataframe/Dataset имеет строковый столбец со значением даты в нем, и нам нужно изменить формат даты.

Для запрошенного запроса формат даты можно изменить, как показано ниже:

val df1 = df.withColumn("startDate1", date_format(to_date (col ("startDate"), "yyyy-MM-dd"), "MM / dd / yyyy"))

В Spark формат даты по умолчанию - "гггг-мм-дд", поэтому его можно переписать как

val df1 = df.withColumn("startDate1", date_format(col ("startDate"), "MM / dd / yyyy"))

(i) Применяя to_date, мы меняем тип данных этого столбца (строки) на Dateтип данных. Также информируемto_date что формат в этом строковом столбце yyyy-MM-ddпоэтому прочтите столбец соответственно.(ii) Далее мы применяемdate_format для достижения требуемого формата даты, который MM/dd/yyyy.

Когда задействован компонент времени, используйте to_timestamp вместо to_date. Обратите внимание, что "ММ" представляет месяц, а "мм" - минуты.

Другие вопросы по тегам