Описание тега sparklyr

NoneSparklyr - альтернативный интерфейс R для Apache Spark
1 ответ

Как получить доступ к данным S3 из RStudio на EC2, используя аутентификацию роли IAM?

Я запускаю RStudio на экземпляре EC2, с которым связана роль IAM, которая разрешает полный доступ к S3. Я хочу прочитать в файле из S3 в RStudio. Я пытался сделать это через sparklyr следующее: spark_install(version = "2.1.0") sc <- spark_connect…
1 ответ

Нужна ли локальная версия Spark при подключении к другому искровому кластеру через sparklyr?

У меня есть производственный кластер R с установленным Rstudio. Пользователи сбалансированы по нагрузке на R-сервер и пишут код там. У меня также есть отдельный кластер Spark, который имеет 4 узла. Используя sparklyr, я легко могу подключиться к сво…
24 май '18 в 18:33
1 ответ

Замедление при многократных вызовах в память

Скажи у меня 40 сплошных (DoubleType) переменные, которые я сгруппировал в квартили, используя ft_quantile_discretizer, Идентификация квартилей по всем переменным выполняется очень быстро, так как функция поддерживает выполнение нескольких переменны…
21 авг '18 в 23:23
1 ответ

Как получить особенность важности лучшей модели от перекрестного валидатора в sparklyr?

Я могу тренировать случайный лесной крест валидатор в sparklyr но не могу найти способ получить значение функции для лучшей модели. Если я обучаю простую модель случайного леса, я могу использовать: fit <- ml_random_forest(...) feature_imp <- …
19 июн '18 в 11:03
0 ответов

Sparklyr: принудительное распределение для использования таких функций, как n_distinct, match

У меня есть датафрейм Spark, и я использую sparklyr. Я хочу использовать такие функции, как n_distinct (доступно на dplyr) и match (например, чтобы найти индекс элемента e столбца x в столбце y). Теперь я понимаю, что это не совсем соответствует иде…
02 июл '18 в 17:58
1 ответ

H20: как использовать градиентное усиление для текстовых данных?

Я пытаюсь реализовать очень простую проблему обучения ML, где я использую текст, чтобы предсказать какой-то результат. В R некоторые основные примеры будут: импортировать поддельные, но забавные текстовые данные library(caret) library(dplyr) library…
14 июн '17 в 21:28
1 ответ

Импорт таблицы cassandra в spark через sparklyr - можно выбрать только несколько столбцов?

Я работал с sparklyr чтобы зажечь большие столы кассандры, зарегистрируйте их в R и проведите dplyr операции на них. Я успешно импортировал таблицы Кассандры с кодом, который выглядит следующим образом: # import cassandra table into spark cass_df &l…
02 мар '17 в 15:07
1 ответ

Sparklyr не может ссылаться на таблицу в spark_apply

Я хочу использовать spark_apply, чтобы пройти через ряд процессов данных для генерации объектов. Для этого мне нужно сослаться на таблицы, уже загруженные в spark, но получить следующую ошибку: ОШИБКА sparklyr: RScript (3076) неожиданно завершил раб…
11 окт '18 в 06:40
1 ответ

Sparklyr заполняет NA/NULL в искровом фрейме

Я хотел бы назначить NA/NULL в кадре данных искры своему ближайшему соседу. Я пришел из R фона, поэтому я использую sparklyr, но не могу придумать, как это сделать. Вот пример кода: set.seed(1) example <- data.frame (ID = 1:10, Cat = letters[1:5]…
08 авг '17 в 13:00
1 ответ

Последние строки из фрейма данных Spark (с использованием sparklyr & dplyr)

Хотел бы напечатать последние 50 строк приведенного ниже кадра данных, используя что-то вроде tail function ниже по диапазону строк, используя sparklyr, без arrange или же collect - некоторые из моих кадров большие и не имеют последовательных столбц…
12 дек '16 в 19:06
1 ответ

Как прочитать все файлы в папке / корзине S3, используя sparklyr в R?

Я попробовал приведенный ниже код и его комбинации, чтобы прочитать все файлы, указанные в папке S3, но, похоже, ничего не работает. Чувствительная информация / код удалена из приведенного ниже сценария. Есть 6 файлов каждый с 6,5 ГБ. #Spark Connect…
03 дек '18 в 06:42
1 ответ

Простая команда для извлечения имен столбцов в sparklyr (R+spark)

В базе r легко извлечь имена столбцов (переменных) из фрейма данных > testdf <- data.frame(a1 = rnorm(1e5), a2 = rnorm(1e5), a3 = rnorm(1e5), a4 = rnorm(1e5), a5 = rnorm(1e5), a6 = rnorm(1e5)) > names(testdf) [1] "a1" "a2" "a3" "a4" "a5" "a…
11 окт '16 в 13:56
1 ответ

R - Невозможно собрать данные из Spark с помощью Sparklyr

Я использую Spark 2.0.2 в сочетании с sparklyr 0.5.4-9004 на RStudio, на сервере windows. Время от времени, когда я пытаюсь собрать, прочитать или записать данные с сервера Spark, я получаю следующую ошибку: Error in UseMethod("invoke") : no applica…
01 июн '17 в 20:50
1 ответ

Чтение CSV-файлов, сохраненных в формате hdf, с использованием sparklyr с локального рабочего стола

Мы пытаемся загрузить файл csv, который хранится в HDFS, с помощью функции spark_read_csv, доступной в sparklyr. Код R выполняется на рабочем столе Windows и настроен для подключения к удаленному кластеру пряжи в режиме клиента пряжи для отправки и …
13 июл '17 в 18:27
1 ответ

Работает ли сейчас использование set.seed с Sparklyr?

В последний раз, когда я играл со Sparklyr (октябрь 17 года), была проблема с использованием set.seed при работе со Sparklyr. Я не уверен, в чем именно заключалась проблема, и я не могу ничего найти об этом где-либо. Правильно ли работает set.seed с…
04 фев '18 в 23:02
0 ответов

Как поместить определенные запросы в каждое приложение label-ShinyR

Итак, я пытаюсь вывести определенные запросы в каждом из вариантов ввода в моем приложении ShinyR. Я пытаюсь сопоставить метки abcd2,abc3,audit_process с заданным запросом: queryString <- sprintf("select * from sndbx_test.audit_process_group_1_11…
22 фев '19 в 16:49
1 ответ

r sparklyr spark_apply Ошибка: org.apache.spark.sql.AnalysisException: ссылка 'id' является неоднозначной

Я пытаюсь использовать spark_apply на кластере искр для вычисления kmeans на данных, сгруппированных по двум столбцам. Данные запрашиваются из Hive и выглядят так > samplog1 # Source: lazy query [?? x 6] # Database: spark_connection id time1 lati…
08 ноя '17 в 08:07
2 ответа

Ошибка нехватки памяти при сборе данных из кластера Spark

Я знаю, что в SO много вопросов об ошибках нехватки памяти в Spark, но я не нашел своего решения. У меня есть простой рабочий процесс: читать в ORC файлы из Amazon S3 filter до небольшого подмножества строк select небольшое подмножество столбцов col…
25 авг '17 в 01:35
1 ответ

Как получить список подпапок в папке hdfs?

Предположим, что мои паркет хранится следующим образом: hdfs://root/folder1/pqt1.pqt hdfs://root/folder2/pqt2.pqt hdfs://root/folder3/pqt3.pqt hdfs://root/folder4/part1/pqt4part1.pqt hdfs://root/folder4/part2/pqt4part1.pqt ... Как мне перечислить по…
19 сен '18 в 07:38
7 ответов

SparkR vs sparklyr

Есть ли у кого-нибудь обзор относительно преимуществ / недостатков SparkR по сравнению со sparklyr? Google не дает удовлетворительных результатов, и оба кажутся довольно похожими. Испытывая оба, SparkR выглядит намного более громоздким, тогда как sp…
14 сен '16 в 15:35