Как получить доступ к общедоступному набору данных AWS с помощью Databrick?

Я новичок в сборщиках данных. Я ищу общедоступный набор данных больших данных для своего школьного проекта, потом я наткнулся на общедоступный набор данных AWS по этой ссылке: https://registry.opendata.aws/target/

Я использую Python на Databricks и не знаю, как установить соединение с данными. Я нашел следующее руководство:

https://databricks.com/wp-content/uploads/2015/08/Databricks-how-to-data-import.pdf?_ga=2.25033139.881714623.1602433762-982722630.1598480448

Он упомянул

Я не уверен, как найти соответствующие access_key, secret_key, AWS_bucket_name и mount_name.

1 ответ

Решение

Эта документация предназначена для закрытых сегментов S3.

Для этого набора данных вы можете просто прочитать, используя s3://... URL-адрес, например:

df = spark.read.format("text").load("s3://gdc-target-phs000218-2-open/")

я использовал textформат файла только для примера, но поскольку этот набор данных использует XML для хранения данных, вам нужно будет использовать что-то вроде библиотеки spark-xml для извлечения необходимых данных.

Другие вопросы по тегам