Описание тега apache-spark-2.1.1

2 ответа

Как использовать оконную функцию для подсчёта дней недели в Pyspark 2.1

С помощью приведенного ниже набора данных pyspark (2.1), как использовать оконную функцию, которая будет подсчитывать, сколько раз день недели текущей записи появлялся в течение последних 28 дней. Пример кадра данных: from pyspark.sql import functio…
06 июн '18 в 21:33
1 ответ

Сохраненная модель: LinearRegression не работает

Я использую версию Azure и Spark '2.1.1.2.6.2.3-1 Я сохранил свою модель, используя следующую команду: def fit_LR(training,testing,adl_root_path,location,modelName): training.cache() lr = LinearRegression(featuresCol = 'features',labelCol = 'ZZ_TIME…
1 ответ

Spark2 - org.apache.spark.sql.catalyst.parser.ParseException

Получение ниже: org.apache.spark.sql.catalyst.parser.ParseException: посторонний ввод '' ожидание {'(', 'ВЫБРАТЬ', 'ОТ', 'ДОБАВИТЬ', 'AS', 'ВСЕ', 'ОТЛИЧИТЬ', 'ГДЕ ',' GROUP ',' BY ',' GROUPING ',' SETS ',' CUBE ',' ROLLUP ',' ORDER ',' HAVING ',' LI…
0 ответов

R SparkDataFrame POSIXlt не знает, как преобразовать 'x' в класс POSIXlt

Я пытаюсь получить числовой год из POSIXct SparkDataFrame с библиотекой lubridate, но получаю ошибку. Странно то, что он работает с обычными фреймами данных, но не с SparkDataFrames. см. код ниже. Это несколько похожих вопросов о стековом потоке, но…
14 мар '18 в 08:54
0 ответов

Spark2 Datetime поиск эффективной структуры данных

У меня есть приложение Spark с записями, которые содержат следующую информацию: Hash - некоторый уникальный идентификатор для элемента Местоположение - местоположение объекта От - Дата, когда предмет был впервые замечен в местоположении. To - Null, …
1 ответ

Как выполнить chi2 (khi2) на 2 столбцах кадра данных

Я на Spark версии 2.1.1 Мне нужно выполнить chi2 на 2 столбцах (col1 и col2) моего df. Я пытался импортировать ChiSquareTest, но я получаю сообщение об ошибке... scala> import org.apache.spark.ml.stat.ChiSquareTest <console>:23: error: obje…
31 янв '19 в 16:36
0 ответов

Сохраненная модель: используется модель LinearRegression, но новые данные имеют другой размер вектора

Я использую версию Azure и Spark '2.1.1.2.6.2.3-1 Я сохранил свою модель, используя следующую команду: def fit_LR(training,testing,adl_root_path,location,modelName): training.cache() lr = LinearRegression(featuresCol = 'features',labelCol = 'ZZ_TIME…
0 ответов

Создать семантический хэш-код из оптимизированного плана spark sql

В моем случае я использую кеширование с поддержкой Spark SQL. Мне нужно кешировать результаты SQL против оптимизированного плана для запроса. Теперь проблема заключается в том, что всякий раз, когда я анализирую SQL с помощью искрового парсера, сген…
1 ответ

Pyspark считывает данные - java.util.NoSuchElementException: spark.sql.execution.pandas.respectSessionTimeZone

У меня есть программа, которая работает в командной строке, но я пытаюсь настроить PyCharm для индивидуального тестирования его функциональных возможностей. Я, должно быть, настроил что-то не так, потому что всякий раз, когда я пытаюсь прочитать как…
0 ответов

Проблема с блоком try и кроме pyspark

Я использую spark-2.1 . Ниже мой код delta="insert overwrite table schema1.table1 select * from schema2.table2" try: spark.sql(delta) except Exception as e: spark.sql("drop table schema2.table2") print("Overall load failed for schema1.table1", e) sq…
3 ответа

Невозможно загрузить pyspark внутри virtualenv

Я установил pyspark в python virtualenv. Я также установил jupyterlab, который был недавно выпущен http://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html в virtualenv. Я не смог запустить pyspark внутри jupyter-notebook таким о…
1 ответ

Возможно ли выставить / добавить ваши пользовательские API в конечные точки REST существующего драйвера Spark?

Spark предоставляет определенные конечные точки API (обычно смонтированные в /api/v1). Являются ли они каким-то образом для предоставления пользовательских конечных точек, используя тот же сервер спарк? (Использование Spark 2.1.1, Структурированная …
18 фев '19 в 06:39
0 ответов

Запись результатов пакетных запросов в Kafka для Spark версии 2.1.1

Может кто-нибудь дать мне подсказки о том, как я могу загрузить выходные данные Batch Queries в kafka. Я много исследовал в stackru и других статьях, но я не смог ничего найти для Spark 2.1.1 . Для более высоких версий spark существует простой спосо…
0 ответов

Обеспечение искрового глубокого обучения внешней банки для зажигания с питоном на amazon-EMR

Я пытался заставить библиотеку глубокого обучения работать на моем кластере EMR, чтобы иметь возможность читать изображения параллельно с Python 2.7. Я искал это в течение достаточно долгого времени, и мне не удалось найти решение. Я попытался устан…
0 ответов

Неравномерное распределение заданий среди искровых исполнителей

Я использую Spark-Streaming 2.2.1 на производстве, и в этом приложении я читаю данные из RabbitMQ и выполняю дальнейшую обработку и, наконец, сохраняю их в кассандре. Итак, я сталкиваюсь с этой странной проблемой, когда количество задач не распредел…
0 ответов

Ускоряет ли трансляция (ASLModel) преобразование в pyspark 2.1.1?

В моем сценарии pyspark я загрузка всех пользователей (около 17 миллионов) загрузка всех предметов (около 60000) запуск элементов через сохраненную StringIndexerModel загрузка модели ALSModel и выполнение преобразования user_id_df = user_item_matrix…