Ошибка Spark Cloudant: "ничего не было сохранено, потому что количество записей было 0!"
Я использую библиотеку spark-cloudant 1.6.3, которая устанавливается по умолчанию вместе с сервисом spark.
Я пытаюсь сохранить некоторые данные в Cloudant:
val df = getTopXRecommendationsForAllUsers().toDF.filter( $"_1" > 6035)
println(s"Saving ${df.count()} ratings to Cloudant: " + new Date())
val timestamp: Long = System.currentTimeMillis / 1000
val dbName: String = s"${destDB.database}_${timestamp}"
val dfWriter = df.write.format("com.cloudant.spark")
dfWriter.option("cloudant.host", destDB.host)
if (destDB.username.isDefined && destDB.username.get.nonEmpty) dfWriter.option("cloudant.username", destDB.username.get)
if (destDB.password.isDefined && destDB.password.get.nonEmpty) dfWriter.option("cloudant.password", destDB.password.get)
Тем не менее, я попал в ошибку:
Starting getTopXRecommendationsForAllUsers: Sat Dec 24 08:50:11 CST 2016
Finished getTopXRecommendationsForAllUsers: Sat Dec 24 08:50:11 CST 2016
Saving 6 ratings to Cloudant: Sat Dec 24 08:50:17 CST 2016
| _1| _2|
only showing top 5 rows
Use connectorVersion=1.6.3, dbName=recommendationdb_1482591017, indexName=null, viewName=null,jsonstore.rdd.partitions=5, + jsonstore.rdd.maxInPartition=-1,jsonstore.rdd.minInPartition=10, jsonstore.rdd.requestTimeout=900000,bulkSize=20, schemaSampleSize=1
Name: org.apache.spark.SparkException
Message: Job aborted due to stage failure: Task 2 in stage 642.0 failed 10 times, most recent failure: Lost task 2.9 in stage 642.0 (TID 409, yp-spark-dal09-env5-0049): java.lang.RuntimeException: Database recommendationdb_1482591017: nothing was saved because the number of records was 0!
at com.cloudant.spark.common.JsonStoreDataAccess.saveAll(JsonStoreDataAccess.scala:187)
Я знаю, что есть данные, потому что я также сохраняю их в файлы:
! cat recommendationdb_1482591017.json/*
1 ответ
Это дефект искрового облака 1.6.3, который исправлен в 1.6.4. Запрос на извлечение https://github.com/cloudant-labs/spark-cloudant/pull/61
Ответ - перейти на spark-cloudant 1.6.4. Посмотрите этот ответ, если вы пытаетесь сделать это в IBM Bluemix Spark Service: пакет Spark-cloudant 1.6.4, загруженный%AddJar, не используется ноутбуком