Как получить доступ к общедоступному набору данных AWS с помощью Databrick?
Я новичок в сборщиках данных. Я ищу общедоступный набор данных больших данных для своего школьного проекта, потом я наткнулся на общедоступный набор данных AWS по этой ссылке: https://registry.opendata.aws/target/
Я использую Python на Databricks и не знаю, как установить соединение с данными. Я нашел следующее руководство:
Я не уверен, как найти соответствующие access_key, secret_key, AWS_bucket_name и mount_name.
1 ответ
Эта документация предназначена для закрытых сегментов S3.
Для этого набора данных вы можете просто прочитать, используя
s3://...
URL-адрес, например:
df = spark.read.format("text").load("s3://gdc-target-phs000218-2-open/")
я использовал
text
формат файла только для примера, но поскольку этот набор данных использует XML для хранения данных, вам нужно будет использовать что-то вроде библиотеки spark-xml для извлечения необходимых данных.