Описание тега joblib

Joblib - это набор инструментов для облегчения конвейерной обработки в Python.
1 ответ

Параллель python - joblib: повторное использование рабочих с оператором "with"

Я использую модуль Multiprocessing в JobLib. Я кодирую итеративный алгоритм, где мне нужно вызывать Parallel на каждой итерации. Я подозреваю, что я страдаю от большого количества накладных расходов, потому что я создаю и уничтожаю пул рабочих на ка…
2 ответа

Выборочная повторная памятка фреймов данных

Скажем, я настроил памятку с Joblib следующим образом (используя решение, представленное здесь): from tempfile import mkdtemp cachedir = mkdtemp() from joblib import Memory memory = Memory(cachedir=cachedir, verbose=0) @memory.cache def run_my_query…
23 сен '14 в 14:56
1 ответ

Подбор моделей склеарна и использование их в веб-приложении

Я создал модель sklearn, которую хотел бы добавить в свое веб-приложение nodejs. Я создал модель с python3 и упаковал ее в файл pkl с помощью joblib. from sklearn.externals import joblib joblib.dump(clf, 'RandomForest_jul30.pkl', protocol=2) Я испол…
07 авг '17 в 16:12
1 ответ

Загрузить сериализованные файлы из Django

У меня есть несколько обученных моделей машинного обучения, сохраненных в проекте django, в нем задействовано несколько файлов (xp + x_01.npy + ... + x_0n.npy), и я пытаюсь загрузить их в views.py, полученный файл не найден Исключение, интересно, ка…
19 окт '16 в 22:24
1 ответ

joblib parallel_backend с ресурсами dask

Всякий раз, когда я представляю dask задача, я могу указать необходимые ресурсы для этой задачи. например client.submit(process, d, resources={'GPU': 1}) Однако, если я абстрагирую dask планировщик прочь как joblib.parallel_backendне понятно, как ук…
14 янв '19 в 19:53
0 ответов

Joblib auto memmap

Я использую joblib.Parallel, чтобы получить результат нескольких двоичных классификаторов, работающих на одном наборе данных. Каждый классификатор имеет свой собственный векторизатор, поэтому я передаю набор данных каждому процессу в виде списка стр…
24 июл '18 в 18:57
0 ответов

Чем обусловлена ​​разница во времени исполнения между маринованным трансфомером и обычным?

Я обучил модели уменьшения размерности в scikit-learn. Это применяет PCA на частотах термина от текста. После того, как он был обучен, запуск модели занимает около 1,7 с. Когда я теперь использую picklib, используя joblib или dill, а затем открываю …
07 май '18 в 11:52
1 ответ

Данные перепутаны при попытке передать их в arangodb

Я пытаюсь передать ок. 10 ГБ данных json (твиты в моем случае) в коллекцию в arangodb. Я также пытаюсь использовать для этого joblib: from ArangoConn import ArangoConn import Userdata as U import encodings from joblib import Parallel,delayed import …
16 ноя '17 в 21:50
1 ответ

Правильный способ кешировать только некоторые методы класса с помощью joblib

Я пишу класс, который имеет некоторые вычислительные методы и некоторые параметры, которые пользователь захочет настраивать итеративно и не зависит от вычислений. Фактическое использование для визуализации, но вот пример мультфильма: class MyClass(o…
06 мар '14 в 17:38
0 ответов

Параллельные вычисления на Python с использованием joblib

У меня возникают проблемы при попытке заставить мою параллельную обработку работать в функции, которая может быть вызвана из командной строки. Функция загружает данные с веб-сайта, выполняет некоторую обработку и сохраняет данные на диск, поэтому мн…
04 авг '14 в 17:04
1 ответ

Почему я не могу получить выгоды от распараллеливания с большим количеством процессов?

У меня есть этот простой код, который просто вычисляет сумму матриц после некоторого умножения матриц def serial_decohere(K, rho, n): """ :param K: List of bumpy matrices of size 2^n by 2^n :param rho: A matrix of size 2^n by 2^n :param n: Integer :…
03 сен '18 в 18:06
2 ответа

Лучший подход для проблем ввода-вывода?

В настоящее время я выполняю код в кластере HPC, который записывает несколько файлов по 16 МБ на диск (один и тот же каталог) в течение короткого периода времени, а затем удаляет его. Они записываются на диски и затем удаляются последовательно. Одна…
18 апр '18 в 00:20
1 ответ

Как разделить переменную в библиотеке Python 'joblib'

from joblib import Parallel, delayed def func(v): temp.append(v) return temp = [] Parallel(n_jobs=4)(delayed(func)(v) for v in range(10)) print temp Я хочу сделать переменную общей памяти. Но значение temp пусто []. Как мне это сделать? Для другого …
05 фев '15 в 12:28
2 ответа

Как добиться более быстрого времени загрузки tfidfvectorizer в представлении Django?

У меня есть подогрев TfidfVectorizer с ~120000 функций, которые я сохраняю в файл, используя joblib.dump, Позже я загружаю эту модель из представления django, используя joblib.load но это слишком медленно (занимает ~2 секунды). Каков наилучший спосо…
09 янв '17 в 01:35
0 ответов

В приложении PyQt5 возможно ли запускать sklearn с параллельными заданиями без зависания

Можно ли запускать в приложении qt, не замораживая графический интерфейс, скажем, поиск sklearn gird, который использует несколько заданий параллельно (n_jobs > 1)? Проблема в том, что joblib, который используется для распараллеливания кода sklea…
2 ответа

Разница между сохранением классификатора с помощью pickle и joblib.dump?

При хранении классификатора, обученного с помощью sklearn, у меня есть выбор между pickle (или cPickle) и joblib.dump(). Есть ли какие-либо преимущества помимо производительности для использования joblib.dump()? Может ли классификатор, сохраненный с…
22 апр '16 в 13:20
0 ответов

Сохранить большую модель PCA на диске: struct.error: в формате 'i' требуется -2147483648 <= число <= 2147483647

У меня есть подмножество большого набора данных из примерно 2,5 миллионов примеров, называемого моим набором данных, где я взял 10000 выборок, таких что: sample_dataset.shape (10000,28980) Я хотел бы применить PCA для уменьшения размерности (и остав…
29 авг '18 в 12:15
1 ответ

В чем разница между numpy.save() и joblib.dump() в Python?

Я сохранил много автономных моделей / матриц / массивов в Python и наткнулся на эти функции. Может ли кто-нибудь помочь мне, перечислив плюсы и минусы numpy.save() и joblib.dump()?
05 ноя '14 в 20:34
0 ответов

Параллель Python с общим массивом NumPy

Я пишу итерационный алгоритм, где наиболее трудоемкой частью является выполнение функции oneiter() который выглядит следующим образом: def oneiter(M,h): res = [] for i in range(M.shape[2]): res.append(f(M[:,:,i],h)) return res где M большой n на n м…
19 июн '17 в 16:12
1 ответ

Как распараллелить этот смущающий параллельный цикл с Python

У меня смущающе параллельный цикл: # Definitions def exhaustiveExplorationsWithSimilarityAll(inputFolder, outputFolder, similarityMeasure): phasesSpeedupDictFolder=parsePhasesSpeedupDictFolder(inputFolder) avgSpeedupProgramDict=computeAvgSpeedupProg…
04 июл '16 в 15:20