Описание тега aws-databricks
По вопросам использования унифицированной аналитической платформы Databricks в облаке AWS.
3
ответа
Не удается получить доступ к /dbfs/FileStore с помощью команд оболочки в среде выполнения databricks версии 7
Во время выполнения databricks версии 6.6 я могу успешно запустить команду оболочки, подобную следующей: %sh ls /dbfs/FileStore/tables Однако в среде выполнения версии 7 это больше не работает. Есть ли способ получить прямой доступ к /dbfs/FileStore…
27 авг '20 в 05:41
1
ответ
Databricks: разница между dbfs:/ vs file:/
Я пытаюсь понять, как Databricks хранит файлы, и я немного не уверен, в чем разница между dbfs: / и file: / (см. Изображение ниже) Из того, что я смог вывести отсюда, file: / кажется областью, куда загружаются внешние файлы, загруженные через curl /…
31 авг '20 в 11:41
1
ответ
Слишком много файлов в моем кластере Databricks Community, но где?
Я начал играть с потоковой передачей на своих сборщиках данных Community Edition, но после нескольких минут создания тестовых событий я столкнулся с некоторой проблемой. Я считаю, что это как-то связано с тем, что в процессе стриминга создаются врем…
22 авг '20 в 11:02
0
ответов
Пример кода SparkNLP загружается 900 МБ очень медленно на databrcks
Я пытаюсь запустить блокнот ipython о SparkNLP по адресу https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Public/databricks_notebooks/3.SparkNLP_Pretrained_Models.ipynb Я использую его на базе данных с…
04 сен '20 в 04:17
0
ответов
Запуск отдельных операторов Python с использованием блоков данных и воздушного потока apache
Я использую pyspark на блоках данных для запуска своих ETL. Я хотел бы использовать воздушный поток apache, чтобы я мог превратить свой ETL в несколько отдельных шагов (узлы, как в воздушном потоке), где весь DAG будет создавать мои окончательные да…
18 авг '20 в 17:51
2
ответа
ускорение сильно секционированного фрейма данных до s3 на блоках данных
Я веду записную книжку на Databricks, которая создает разделенные фреймы данных PySpark и загружает их в s3. Рассматриваемая таблица содержит ~5000 файлов и имеет общий размер ~5 ГБ (она должна быть разделена таким образом, чтобы Афина могла эффекти…
24 авг '20 в 17:56
1
ответ
Получить имя класса работающего задания Databricks
Существует проект Apache Spark Scala (runnerProject), который использует другой проект в том же пакете (sourceProject). Цель исходного проекта - получить имя и версию выполняемого задания Databricks. Проблема со следующим методом является то, что, к…
08 сен '20 в 12:01
2
ответа
Локальный экземпляр Databricks для разработки
В настоящее время я работаю в небольшой команде, которая разрабатывает решение на основе Databricks. На данный момент мы достаточно малы, чтобы работать с облачными экземплярами Databricks. По мере роста группы это будет непрактично. Существует ли "…
11 сен '20 в 06:17
1
ответ
Как настроить spark.task.maxFailures на базе данных AWS?
Я хотел бы установить для spark.task.maxFailures значение больше 4. Как я могу установить это значение в среде выполнения Databricks 6.4? Когда я выполняю spark.conf.get("spark.task.maxFailures"), я получаю ошибку ниже java.util.NoSuchElementExcepti…
16 сен '20 в 13:08
1
ответ
В записной книжке Scala на Apache Spark Databricks как правильно привести массив к типу decimal(30,0)?
Я пытаюсь преобразовать массив как Decimal(30,0) для использования в динамическом выборе как: WHERE array_contains(myArrayUDF(), someTable.someColumn) Однако при использовании: val arrIds = someData.select("id").withColumn("id", …
02 ноя '20 в 15:39
1
ответ
Как получить доступ к общедоступному набору данных AWS с помощью Databrick?
Я новичок в сборщиках данных. Я ищу общедоступный набор данных больших данных для своего школьного проекта, потом я наткнулся на общедоступный набор данных AWS по этой ссылке: https://registry.opendata.aws/target/ Я использую Python на Databricks и …
11 окт '20 в 22:05
0
ответов
Pyspark- Можно ли создать фрейм данных непосредственно из файла .tar.gz в Databricks?
У меня есть файл.tar.gz в ведре S3. Файлы.tar.gz содержат несколько файлов.tsv. Я хочу создать фрейм данных Spark (а не фрейм данных pandas) из одного из файлов.tsv в блоках данных, не распаковывая и не распаковывая его и не сохраняя во временном пу…
10 сен '20 в 20:22
0
ответов
Подключение Databricks к Ebean
Я пытаюсь подключиться к кластеру Databricks с помощью EBEAN. Ниже приведено объявление свойства конфигурации сервера. val sc = ServerConfig().apply { loadFromProperties() addPackage("models") setAutoReadOnlyDataSource(true) isDefaultServe…
26 ноя '20 в 16:09
0
ответов
процесс предоставления доступа к Metastore для Databricks
Мы планируем внедрить централизованный механизм метастора в нашей среде. В этом случае Попытка понять архитектуру / процесс, за которым предоставляется доступ к метастору для Databricks. Не могли бы вы помочь мне получить информацию по этому поводу.
07 окт '20 в 18:57
0
ответов
Перемещение данных из неизменяемого сегмента s3 в дельта-формат на блоках данных
Я новичок в delta lake и пытаюсь преобразовать часто используемые файлы паркета, хранящиеся на S3, в delta. Наша проблема в том, что исходное ведро S3 доступно только для чтения. Мы загружаем это ведро инкрементными данными с каждой загрузкой. Мой в…
09 сен '20 в 08:44
1
ответ
Как получить доступ к ключу-значению из AWS Key Management Service в блоках данных
Я создаю решение на основе блоков данных AWS и хотел получить доступ к идентификатору пользователя и паролю RDS из AWS KMS. Кто-нибудь создал этот сценарий, пожалуйста, помогите.
14 сен '20 в 15:31
2
ответа
Клей для AWS: развертывание модели в среде AWS
В соответствии с нашей средой AWS у нас есть 2 разных типа SAG(группа сервисных аккаунтов) для хранения данных. Один SAG предназначен для общего хранилища, другой SAG - для защищенных данных, которые будут содержать только PII или ограниченные данны…
06 окт '20 в 01:27
0
ответов
AWS S3 China не удается создать точку монтирования в Azure databricks
Я пытаюсь создать точку монтирования для ведер AWS S3 в США и Китае на базе данных Azure eastus2 Фрагмент: dbutils.fs.mount(s"s3n://$AccessKey:$EncodedSecretKey@$AwsBucketName", s"/mnt/$MountName") Для региона AWS S3 в США точка …
22 окт '20 в 16:41
0
ответов
удалена корзина хранилища aws, используемая модулями данных для развертывания
В настройках хранилища AWS я случайно удалил корзину, используемую для развертывания. Невозможно создать новое развертывание с новым сегментом. Я попытался полностью удалить развертывание... но теперь он просит меня зарегистрироваться на https://dat…
22 ноя '20 в 14:58
0
ответов
Регистрация событий щелчка мыши в блоках данных
Я пытаюсь зафиксировать события щелчка мыши на географической карте в моем кластере данных, но не смог найти способ и пробовал различные библиотеки географических карт, такие как folium, matplotlib, ipyleaflet и т. Д. Я хотел бы знать, поддерживает …
25 фев '21 в 14:28