Описание тега cdsw

Вопросы с тегом

Платформа для масштабной совместной науки о данных, созданная Cloudera: https://www.cloudera.com/products/data-science-and-engineering/data-science-workbench.html

0 ответов

Получить статус работы в cdsw

У меня есть несколько сценариев R и Python в CDSW "Cloudera-Data-Science-Workbench", я создаю сценарий оболочки для запуска этих сценариев с curl -v -XPOST, Как получить статус задания из API CDSW?

cloudera cdsw

28 ноя '18 в 15:01

0 ответов

Scala Jar, созданный в Intellij, не работает в CDSW- ошибка (объект Predef не имеет члена classOf)

У меня проблемы с запуском Scala jar-файлов, созданных intellij, на CDSW Например, у меня есть простой проект Scala Idea Project в Intellij 2019. Это простая программа "Hello World", которая отлично строится и работает. Я создал Jar и прикрепил к не…

08 июл '20 в 11:46

2 ответа

Ошибка объекта, который не вызывается | Где функция

Я пытаюсь выполнить запрос ниже: df3 = df1.join(df2, df1["DID"] == df2["JID"],'inner')\ .select(df1["DID"],df1["amt"]-df2["amt"]\ .where(df1["DID"]== "BIG123")).show() Я получаю сообщение об ошибке, как показано ниже: TypeError: объект 'Column' не в…

dataframe apache-spark-sql pyspark-sql cdsw

14 фев '20 в 12:48

1 ответ

Формат чтения pyspark jdbc генерирует ORA-00903: ошибка неверного имени таблицы

Когда pysqpark запущен на удаленном сервере, я могу подключиться к базе данных Oracle на другом сервере с помощью jdbc, но любой действительный запрос, который я выполняю, возвращает ORA-00903: invalid table name Error. Я могу подключиться к базе да…

oracle apache-spark pyspark jdbc cdsw

05 сен '19 в 12:05

1 ответ

относительный импорт на CDSW

python-3.x relative-import cdsw

12 май '20 в 12:02

0 ответов

преобразование кадра данных в CSV вызывает ошибку pyspark

У меня огромный фрейм данных около 7 ГБ записей. Я пытаюсь получить количество данных и загрузить его как csv Оба они приводят к ошибке ниже. есть ли другой способ загрузки фрейма данных без нескольких разделов print(df.count()) df.coalesce(1).write…

dataframe apache-spark pyspark pyspark-dataframes cdsw

26 май '20 в 23:03

1 ответ

Куст RJDBC, сбой подключения

Я выполнил несколько руководств, чтобы попытаться безуспешно подключиться к Hive с помощью RJDBC. Вот что у меня есть: library(DBI) library(rJava) library(RJDBC) driver <- JDBC('org.apache.hive.jdbc.HiveDriver', classPath = list.files("/home/cdsw…

hive rjava rjdbc cdsw

03 фев '20 в 14:03

0 ответов

вычисление пропущенных значений в искровом кадре данных

У меня есть фрейм данных, и мне нужно рассчитать количество пропущенных значений и их%. У меня есть код, написанный на Python; это не работает на cdsw код, как показано ниже: def missing_values_table(dataset): mis_val = df.isnull().sum() mis_val_per…

apache-spark pyspark pyspark-dataframes cdsw

25 фев '20 в 18:04

0 ответов

Загрузка файлов sas7bdat в pyspark / hdfs

У меня есть огромный файл sas7bdat, который нужно прочитать на cdsw, однако он выдает ошибку "Java Classnot found error exception", так же как: Чтение данных SAS sas7bdat с помощью Spark кто-нибудь пробовал загружать файлы sas на cdsw? Можете ли вы …

apache-spark pyspark file-format data-lake cdsw

07 май '20 в 10:37

0 ответов

автоматически завершить сеанс в cdsw

Я использую cdsw в своей компании. Многие люди уходят с работы, продолжая сеанс. Я хотел бы создать какую-то работу, чтобы автоматически убивать сеансы в 19:00. Их сеансы могут запускать какой-то эксперимент, следовательно, не бездействовать, поэтом…

automation cdsw

30 июл '20 в 18:01

0 ответов

Код исчезает в Cloudera Data Science Workbench (pyspark)

Я работаю с Cloudera Data Science Workbench v1.5.0.849870, и когда я редактирую код Python, половина моего кода удаляется из ниоткуда. Я нажал Ctrl+Z, чтобы отменить изменения, но ничего не произошло. Может причина в утечке памяти, потому что я рабо…

python apache-spark pyspark cloudera cdsw

29 янв '20 в 17:28

0 ответов

Как открыть локальный исполняемый файл с помощью Cloudera Data Science Workbench

Я попытался использовать subprocess.Popen и передать os.environ("PATH") и имя исполняемого файла в качестве аргументов, но, к сожалению, он не смог найти исполняемый файл в указанном пути / каталоге. Файл представляет собой dot.exe, полученный из gr…

python graphviz cloudera popen cdsw

26 ноя '20 в 12:11

0 ответов

Как передать тип структуры в CSV-файл

У меня около 300 переменных, и я пытаюсь передать таможенную схему через csv. Ниже приведен пример кода, который я использую. Однако при загрузке схемы через файлы csv ... Вывод не содержит списка столбцов: Output : StructType(List(StructField(Struc…

apache-spark pyspark cdsw

26 апр '21 в 13:32

0 ответов

Подключение к внешней СУБД (MySQL) с использованием Python в CDSW

Я пытаюсь подключить свою внешнюю базу данных (mySQL) с помощью python в CDSW (Cloudera Data Science Workbench). Я использовал этот код для подключения моего локального Python к базе данных mysql, но этот код бесполезен в облаке для CDSW. cnx = mysq…

python mysql cloudera cdsw

30 апр '21 в 07:24

0 ответов

Python - переименовать функцию тестирования нового столбца

Я тестирую приведенный ниже «режим if», который кто-то написал с помощью входных значений, чтобы увидеть, работает ли функция должным образом. def modify_col(self, tbl, new_col, mode, left, right): if mode == 'rename_column': self.df[tbl] = self.df[…

python pyspark rename columnsorting cdsw

29 июн '21 в 08:08

0 ответов

Проблема кодирования строк в Cloudera Workbench

Я беру изменения из репозитория git, где мой коллега вставлял коды R из своих локальных окон. word <- gsub("=gesellschaftmitbeschränkterhaftung=","",fixed = T,x = word) Код содержит странные буквы, такие как «German Umlaute», например «ä» в приве…

r encoding character-encoding cloudera cdsw

06 июл '21 в 12:59

0 ответов

Использование памяти PySpark в CDSW / CDP

Если я создам фрейм данных pyspark, как показано ниже, будет ли этот фрейм данных pyspark занимать память CDSW (например, фрейм данных pandas)? или память от CDP заберет? У меня проблема с памятью при создании большого фрейма данных pyspark, как пок…

pyspark cdp cdsw

25 июл '21 в 11:54

0 ответов

f-строка приводит к ошибке с переносом строки на CDSW/linux

У меня странная проблема. Это работает: a = 3 f"""a= {a}""" # works Но этого нет в Cloudera Data Science Workbench (система unix): f"""a= {a}""" # error Engine, line 1 " ^ SyntaxError: EOL while scanning string literal В Windows я не могу воссоздать…

python linux cdsw

29 июл '21 в 18:49

0 ответов

экспоненциальная функция в pyspark не работает

требование: data test2; set demo1; p1=amt; p2=(1-amt); p3=(1-amt)**(-0.5); run; Я пытаюсь воспроизвести то же самое в pyspark; однако результаты меняются Код: print(-0.5 ** exp(0.7058815841)) print(exp(0.7058815841)* (-0.5))

apache-spark pyspark apache-spark-sql exponential cdsw

30 июл '21 в 01:35

1 ответ

ОШИБКА: Вы должны указать хотя бы одно требование для установки - CDSW

Я пытаюсь установить пакеты в свою среду cdsw. Я поместил пакеты в папку cd / home / и запускаю команду ниже: pip install --no-index --find-links=/home/cdsw/Package/scipy-1.7.1-cp37-cp37m-manylinux_2_5_i686.manylinux1_i686.whl Я получаю сообщение об…

pyspark apache-spark-sql pip cdsw

18 авг '21 в 11:53