Куда идет проект pydata BLAZE?

Я нахожу блестящую экосистему * удивительной, потому что она охватывает большинство случаев использования данных. В период 2015–2016 годов эти проекты, безусловно, вызывали большой интерес, но в последнее время они игнорировались. Я говорю это, глядя на коммиты на репозитории github.

Так что мой вопрос к сообществу

- Что случилось в 2016 году, что привело к потере интереса?

Есть ли другие библиотеки на основе Python, которые заменили Blaze?

пылающая экосистема:

  • Blaze: интерфейс для запроса данных в разных системах хранения
  • Dask: параллельные вычисления через планирование задач и заблокированные алгоритмы
  • Datashape: язык описания данных
  • DyND: библиотека C++ для динамических многомерных массивов
  • Odo: миграция данных между различными системами хранения

ссылки: http://blaze.pydata.org/

1 ответ

Я могу дать некоторую часть картины, хотя другие были более вовлечены. Blaze был одновременно зонтичным проектом для инкубирования идей разработки данных в выпущенные пакеты oss, и сам пакет фокусировался на символических манипуляциях с фреймами данных и переводил их в различные механизмы выполнения бэкэнда, в частности, в службы баз данных. Критически, Blaze хотел быть (началом) решения для очень широкого круга проблем! В частности, уровень перевода стал очень большим и сложным в обслуживании, и, пытаясь угодить всем, ограничил диапазон операций, которые мог бы предложить символический уровень.

В плане зонтичного проекта Blaze имел успех. Многие идеи, которые начались в Blaze, проникли в экосистему. Вероятно, наиболее заметный проект Blaze - это Dask, который изначально планировался как уровень выполнения для Blaze, в котором реализован еще больший API операций с фреймами данных, а также другие высокоуровневые коллекции и произвольные манипуляции с графами. В Dask существуют даже полностью символические оптимизации, хотя, возможно, это не так полно. Другие проекты, устойчивые к Anaconda, такие как numba и bokeh, находились под влиянием Blaze, но я не буду говорить о них здесь.

Что касается datashape/dynd, то это довольно многолюдное пространство со многими другими смежными проектами (xnd, uarray и т. Д.) И идеями, которые можно свободно воспринимать как "numpy 2" (т. Е. Более всестороннее, гибкое представление сложных данных. макеты и их описание). Сообщество еще не приняло это, почти все используют систему типов numpy (заметное исключение из того, что делает стрелка внутри).

Наконец, для форматов данных и Odo, я призываю вас рассмотреть Intake, который может показаться преемником, который может предложить гораздо больше функциональных возможностей, таких как каталогизация источников данных, и он делает это, ограничивая область действия стороной чтения. Большая сеть взаимодействий, то есть Odo, была также проблемой многих для многих, которую стало сложно поддерживать, и, упрощая вещи, Intake надеется стать де-факто слоем над библиотеками загрузки данных и основным способом описания местоположения., описание и параметризация данных. Одо не мертв, поэтому, если преобразование файлов именно то, что вам нужно, вы все равно можете использовать его.

Я искал проект, похожий на odo, для загрузки данных csv в различные источники. Проблема odo ( https://github.com/blaze/odo/issues/614) рекомендовала d6tstack, который, похоже, в настоящее время поддерживается.

На практике часто так же просто запустить собственный загрузчик csv, и в этом случае очень удобен проект tablechema. Он автоматизирует определение типов данных из файлов csv.

Другие вопросы по тегам