Тест Спарк с Тахионом

Я установил Tachyon и Spark в соответствии с инструкциями:

http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html

Однако, как новичок, я понятия не имею, как поместить файл "X" в файловую систему Tachyon, как они сказали:

$ ./spark-shell
$ val s = sc.textFile("tachyon-ft://stanbyHost:19998/X")
$ s.count()
$ s.saveAsTextFile("tachyon-ft://activeHost:19998/Y")

Что я сделал, так это указал на существующий файл (который я нахожу через интерфейс управления):

scala> val s = sc.textFile("tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH")
s: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21

Когда я запускаю счетчик, я получаю следующее сообщение об ошибке:

scala> s.count()
java.lang.NullPointerException: connectionString cannot be null

Я предполагаю, что мой путь был неправильным. Итак, два вопроса:

  1. Как скопировать файл в Tachyon?

  2. Каков правильный путь для его FS?

Извините, очень, очень новичок!!

ОБНОВЛЕНИЕ 1

Я не уверен, если tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH это правильный путь. Я не могу получить его ни через браузер, ни wget

Это то, что я видел в браузере файловой системы

введите описание изображения здесь

1 ответ

Решение

Я выяснил проблему. Я этого не делал

sc.hadoopConfiguration.set("fs.tachyon.impl", "tachyon.hadoop.TFS")

После того, как я прошел это упражнение http://ampcamp.berkeley.edu/5/exercises/tachyon.html, я обнаружил, что правильный путь таков:

val file = sc.textFile("tachyon://localhost:19998/LICENSE")

Таким образом, моя установка была в порядке в конце концов. Документация здесь http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html вызывала у меня много путаницы.

Другие вопросы по тегам