Как указать идентификатор ключа доступа AWS и секретный ключ доступа как часть URL-адреса amazon s3n
Я передаю входные и выходные папки в качестве параметров для mapreduce программы подсчета слов с веб-страницы.
Получение ниже ошибки:
HTTP Status 500 - Ошибка обработки запроса; Вложенное исключение - java.lang.IllegalArgumentException: идентификатор ключа доступа AWS и секретный ключ доступа должны быть указаны в качестве имени пользователя или пароля (соответственно) URL-адреса s3n или путем установки свойств fs.s3n.awsAccess KeyId или fs.s3n.awsSecretAccess Key (соответственно).
7 ответов
Документация имеет формат: http://wiki.apache.org/hadoop/AmazonS3
s3n://ID:SECRET@BUCKET/Path
Я предлагаю вам использовать это:
hadoop distcp \
-Dfs.s3n.awsAccessKeyId=<your_access_id> \
-Dfs.s3n.awsSecretAccessKey=<your_access_key> \
s3n://origin hdfs://destinations
Это также работает в качестве обходного пути для появления слэша в ключе. Параметры с идентификатором и ключом доступа должны предоставляться именно в таком порядке: после disctcp и до источника
Передача учетных данных AWS в качестве части URL-адреса Amazon s3n обычно не рекомендуется с точки зрения безопасности. Особенно, если этот код отправляется в службу хранения репозитория (например, github). В идеале установите ваши учетные данные в файле conf/core-site.xml следующим образом:
<configuration>
<property>
<name>fs.s3n.awsAccessKeyId</name>
<value>XXXXXX</value>
</property>
<property>
<name>fs.s3n.awsSecretAccessKey</name>
<value>XXXXXX</value>
</property>
</configuration>
или переустановите awscli на вашем компьютере.
pip install awscli
Для начинающих pyspark:
Подготовить
Загрузите флягу с https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws
Поместите это в папку JAR
Тогда ты можешь
1. Конфигурационный файл Hadoop
core-site.xml
export AWS_ACCESS_KEY_ID=<access-key>
export AWS_SECRET_ACCESS_KEY=<secret-key>
<configuration>
<property>
<name>fs.s3n.impl</name>
<value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value>
</property>
<property>
<name>fs.s3a.impl</name>
<value>org.apache.hadoop.fs.s3a.S3AFileSystem</value>
</property>
<property>
<name>fs.s3.impl</name>
<value>org.apache.hadoop.fs.s3.S3FileSystem</value>
</property>
</configuration>
2. Конфигурация pyspark
sc._jsc.hadoopConfiguration().set("fs.s3.awsAccessKeyId", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3.awsSecretAccessKey", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3.impl", "org.apache.hadoop.fs.s3.S3FileSystem")
пример
import sys
from random import random
from operator import add
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf
if __name__ == "__main__":
"""
Usage: S3 sample
"""
access_key = '<access-key>'
secret_key = '<secret-key>'
spark = SparkSession\
.builder\
.appName("Demo")\
.getOrCreate()
sc = spark.sparkContext
# remove this block if use core-site.xml and env variable
sc._jsc.hadoopConfiguration().set("fs.s3.awsAccessKeyId", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3.awsSecretAccessKey", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3.impl", "org.apache.hadoop.fs.s3.S3FileSystem")
# fetch from s3, returns RDD
csv_rdd = spark.sparkContext.textFile("s3n://<bucket-name>/path/to/file.csv")
c = csv_rdd.count()
print("~~~~~~~~~~~~~~~~~~~~~count~~~~~~~~~~~~~~~~~~~~~")
print(c)
spark.stop()
Создать файл core-site.xml
и поместите его в путь к классу. В файле укажите
<configuration>
<property>
<name>fs.s3.awsAccessKeyId</name>
<value>your aws access key id</value>
<description>
aws s3 key id
</description>
</property>
<property>
<name>fs.s3.awsSecretAccessKey</name>
<value>your aws access key</value>
<description>
aws s3 key
</description>
</property>
</configuration>
Hadoop по умолчанию указывает два ресурса, загружаемых по порядку из пути к классам:
core-default.xml
: Значения по умолчанию только для чтения для hadoopcore-site.xml
: Конфигурация сайта для данной установки hadoop
hadoop distcp \
-Dfs.s3a.access.key=<....> \
-Dfs.s3a.secret.key=<....> \
-Dfs.s3a.fast.upload=true \
-update \
s3a://path to file/ hdfs:///path/