Тест Спарк с Тахионом
Я установил Tachyon и Spark в соответствии с инструкциями:
http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html
Однако, как новичок, я понятия не имею, как поместить файл "X" в файловую систему Tachyon, как они сказали:
$ ./spark-shell
$ val s = sc.textFile("tachyon-ft://stanbyHost:19998/X")
$ s.count()
$ s.saveAsTextFile("tachyon-ft://activeHost:19998/Y")
Что я сделал, так это указал на существующий файл (который я нахожу через интерфейс управления):
scala> val s = sc.textFile("tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH")
s: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21
Когда я запускаю счетчик, я получаю следующее сообщение об ошибке:
scala> s.count()
java.lang.NullPointerException: connectionString cannot be null
Я предполагаю, что мой путь был неправильным. Итак, два вопроса:
Как скопировать файл в Tachyon?
Каков правильный путь для его FS?
Извините, очень, очень новичок!!
ОБНОВЛЕНИЕ 1
Я не уверен, если tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH
это правильный путь. Я не могу получить его ни через браузер, ни wget
Это то, что я видел в браузере файловой системы
1 ответ
Я выяснил проблему. Я этого не делал
sc.hadoopConfiguration.set("fs.tachyon.impl", "tachyon.hadoop.TFS")
После того, как я прошел это упражнение http://ampcamp.berkeley.edu/5/exercises/tachyon.html, я обнаружил, что правильный путь таков:
val file = sc.textFile("tachyon://localhost:19998/LICENSE")
Таким образом, моя установка была в порядке в конце концов. Документация здесь http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html вызывала у меня много путаницы.