Создать проблему Dataframe в Pyspark из Windows 10
Я не могу выполнить приведенную ниже команду из окон pyspark
schemaPeople = spark.createDataFrame(people)
Я установил HADOOP_HOME для winutils. У меня есть разрешение 77 для C:/tmp/hive.
Тем не менее я получаю ошибку ниже -
Py4JJavaError: An error occurred while calling o23.applySchemaToPythonRDD.
: java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)
at org.apache.spark.sql.hive.client.HiveClientImpl.<init>(HiveClientImpl.scala:189)
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(Unknown Source)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(Unknown Source)
at java.lang.reflect.Constructor.newInstance(Unknown Source)
at org.apache.spark.sql.hive.client.IsolatedClientLoader.createClient(IsolatedClientLoader.scala:258)
at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:359)
at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:263)
at org.apache.spark.sql.hive.HiveSharedState.metadataHive$lzycompute(HiveSharedState.scala:39)
at org.apache.spark.sql.hive.HiveSharedState.metadataHive(HiveSharedState.scala:38)
at org.apache.spark.sql.hive.HiveSharedState.externalCatalog$lzycompute(HiveSharedState.scala:46)
Я прошел через много подобных вопросов, прежде чем опубликовать это, благодарю за любую помощь здесь
1 ответ
Я получил эту ошибку кучу при попытке настроить Spark на окнах с помощью файла winutils. Мне пришлось настроить Spark по-другому, чтобы обойти это.
В итоге я скачал бинарный файл Hadoop для своей версии spark и пошел оттуда. Я задокументировал все это с помощью пошагового руководства, если вам интересно. Искра на окнах
Суть в том, что официальный выпуск Hadoop от Apache не включает бинарный файл Windows, и компиляция из исходников может быть утомительной, поэтому действительно полезные люди сделали доступными скомпилированные дистрибутивы. Если вы хотите использовать Spark 2.0.2, скачайте бинарные файлы с github Стива Лофрана для 2.1.0, которые вы можете скачать отсюда, и вы сможете установить их как положено.