Описание тега cdsw
Платформа для масштабной совместной науки о данных, созданная Cloudera:
https://www.cloudera.com/products/data-science-and-engineering/data-science-workbench.html
0
ответов
Получить статус работы в cdsw
У меня есть несколько сценариев R и Python в CDSW "Cloudera-Data-Science-Workbench", я создаю сценарий оболочки для запуска этих сценариев с curl -v -XPOST, Как получить статус задания из API CDSW?
28 ноя '18 в 15:01
0
ответов
Scala Jar, созданный в Intellij, не работает в CDSW- ошибка (объект Predef не имеет члена classOf)
У меня проблемы с запуском Scala jar-файлов, созданных intellij, на CDSW Например, у меня есть простой проект Scala Idea Project в Intellij 2019. Это простая программа "Hello World", которая отлично строится и работает. Я создал Jar и прикрепил к не…
08 июл '20 в 11:46
2
ответа
Ошибка объекта, который не вызывается | Где функция
Я пытаюсь выполнить запрос ниже: df3 = df1.join(df2, df1["DID"] == df2["JID"],'inner')\ .select(df1["DID"],df1["amt"]-df2["amt"]\ .where(df1["DID"]== "BIG123")).show() Я получаю сообщение об ошибке, как показано ниже: TypeError: объект 'Column' не в…
14 фев '20 в 12:48
1
ответ
Формат чтения pyspark jdbc генерирует ORA-00903: ошибка неверного имени таблицы
Когда pysqpark запущен на удаленном сервере, я могу подключиться к базе данных Oracle на другом сервере с помощью jdbc, но любой действительный запрос, который я выполняю, возвращает ORA-00903: invalid table name Error. Я могу подключиться к базе да…
05 сен '19 в 12:05
1
ответ
относительный импорт на CDSW
У меня есть проект на CDSW, организованный следующим образом: /home/cdsw/my_project_v2.1 |_>input |_>output |_>scr |_>__init__.py |_>main.py |_>utils |_>__init__.py |_>helpers.py в моем текущем коде я использую sys.path.appen…
12 май '20 в 12:02
0
ответов
преобразование кадра данных в CSV вызывает ошибку pyspark
У меня огромный фрейм данных около 7 ГБ записей. Я пытаюсь получить количество данных и загрузить его как csv Оба они приводят к ошибке ниже. есть ли другой способ загрузки фрейма данных без нескольких разделов print(df.count()) df.coalesce(1).write…
26 май '20 в 23:03
1
ответ
Куст RJDBC, сбой подключения
Я выполнил несколько руководств, чтобы попытаться безуспешно подключиться к Hive с помощью RJDBC. Вот что у меня есть: library(DBI) library(rJava) library(RJDBC) driver <- JDBC('org.apache.hive.jdbc.HiveDriver', classPath = list.files("/home/cdsw…
03 фев '20 в 14:03
0
ответов
вычисление пропущенных значений в искровом кадре данных
У меня есть фрейм данных, и мне нужно рассчитать количество пропущенных значений и их%. У меня есть код, написанный на Python; это не работает на cdsw код, как показано ниже: def missing_values_table(dataset): mis_val = df.isnull().sum() mis_val_per…
25 фев '20 в 18:04
0
ответов
Загрузка файлов sas7bdat в pyspark / hdfs
У меня есть огромный файл sas7bdat, который нужно прочитать на cdsw, однако он выдает ошибку "Java Classnot found error exception", так же как: Чтение данных SAS sas7bdat с помощью Spark кто-нибудь пробовал загружать файлы sas на cdsw? Можете ли вы …
07 май '20 в 10:37
0
ответов
автоматически завершить сеанс в cdsw
Я использую cdsw в своей компании. Многие люди уходят с работы, продолжая сеанс. Я хотел бы создать какую-то работу, чтобы автоматически убивать сеансы в 19:00. Их сеансы могут запускать какой-то эксперимент, следовательно, не бездействовать, поэтом…
30 июл '20 в 18:01
0
ответов
Код исчезает в Cloudera Data Science Workbench (pyspark)
Я работаю с Cloudera Data Science Workbench v1.5.0.849870, и когда я редактирую код Python, половина моего кода удаляется из ниоткуда. Я нажал Ctrl+Z, чтобы отменить изменения, но ничего не произошло. Может причина в утечке памяти, потому что я рабо…
29 янв '20 в 17:28
0
ответов
Как открыть локальный исполняемый файл с помощью Cloudera Data Science Workbench
Я попытался использовать subprocess.Popen и передать os.environ("PATH") и имя исполняемого файла в качестве аргументов, но, к сожалению, он не смог найти исполняемый файл в указанном пути / каталоге. Файл представляет собой dot.exe, полученный из gr…
26 ноя '20 в 12:11
0
ответов
Как передать тип структуры в CSV-файл
У меня около 300 переменных, и я пытаюсь передать таможенную схему через csv. Ниже приведен пример кода, который я использую. Однако при загрузке схемы через файлы csv ... Вывод не содержит списка столбцов: Output : StructType(List(StructField(Struc…
26 апр '21 в 13:32
0
ответов
Подключение к внешней СУБД (MySQL) с использованием Python в CDSW
Я пытаюсь подключить свою внешнюю базу данных (mySQL) с помощью python в CDSW (Cloudera Data Science Workbench). Я использовал этот код для подключения моего локального Python к базе данных mysql, но этот код бесполезен в облаке для CDSW. cnx = mysq…
30 апр '21 в 07:24
0
ответов
Python - переименовать функцию тестирования нового столбца
Я тестирую приведенный ниже «режим if», который кто-то написал с помощью входных значений, чтобы увидеть, работает ли функция должным образом. def modify_col(self, tbl, new_col, mode, left, right): if mode == 'rename_column': self.df[tbl] = self.df[…
29 июн '21 в 08:08
0
ответов
Проблема кодирования строк в Cloudera Workbench
Я беру изменения из репозитория git, где мой коллега вставлял коды R из своих локальных окон. word <- gsub("=gesellschaftmitbeschränkterhaftung=","",fixed = T,x = word) Код содержит странные буквы, такие как «German Umlaute», например «ä» в приве…
06 июл '21 в 12:59
0
ответов
Использование памяти PySpark в CDSW / CDP
Если я создам фрейм данных pyspark, как показано ниже, будет ли этот фрейм данных pyspark занимать память CDSW (например, фрейм данных pandas)? или память от CDP заберет? У меня проблема с памятью при создании большого фрейма данных pyspark, как пок…
25 июл '21 в 11:54
0
ответов
f-строка приводит к ошибке с переносом строки на CDSW/linux
У меня странная проблема. Это работает: a = 3 f"""a= {a}""" # works Но этого нет в Cloudera Data Science Workbench (система unix): f"""a= {a}""" # error Engine, line 1 " ^ SyntaxError: EOL while scanning string literal В Windows я не могу воссоздать…
29 июл '21 в 18:49
0
ответов
экспоненциальная функция в pyspark не работает
требование: data test2; set demo1; p1=amt; p2=(1-amt); p3=(1-amt)**(-0.5); run; Я пытаюсь воспроизвести то же самое в pyspark; однако результаты меняются Код: print(-0.5 ** exp(0.7058815841)) print(exp(0.7058815841)* (-0.5))
30 июл '21 в 01:35
1
ответ
ОШИБКА: Вы должны указать хотя бы одно требование для установки - CDSW
Я пытаюсь установить пакеты в свою среду cdsw. Я поместил пакеты в папку cd / home / и запускаю команду ниже: pip install --no-index --find-links=/home/cdsw/Package/scipy-1.7.1-cp37-cp37m-manylinux_2_5_i686.manylinux1_i686.whl Я получаю сообщение об…
18 авг '21 в 11:53