Ibis - это платформа анализа данных с открытым исходным кодом от Cloudera, цель которой - обеспечить расширенный анализ данных в 100% стеке Python с полной точностью данных. Используйте для вопросов, связанных с настройкой Ibis, или проблем с использованием Ibis, которые не описаны в официальном руководстве.

С http://docs.ibis-project.org/:

Ibis: платформа для повышения производительности анализа данных Python

Ibis - это набор инструментов для преодоления разрыва между локальными средами Python (такими как pandas и scikit-learn) и системами удаленного хранения и выполнения, такими как компоненты Hadoop (такие как HDFS, Impala, Hive, Spark) и базами данных SQL (Postgres и т. Д.). Его цель - упростить аналитические рабочие процессы и повысить вашу продуктивность.

У нас есть несколько конкретных приоритетных направлений:

  • Позволяет аналитикам данных переводить локальные идиомы данных с одним узлом в масштабируемые представления вычислений (например, SQL или Spark)
  • Интеграция с пандами и другими компонентами экосистемы данных Python
  • Предоставляйте высокоуровневые API-интерфейсы аналитики и инструменты рабочего процесса для повышения производительности и оптимизации обычных или утомительных задач.
  • Интеграция со стандартными форматами данных сообщества (например, Parquet и Avro)
  • Абстрагируйтесь от различий SQL, связанных с базой данных

На основе ibis/README.md в настоящее время он поддерживает следующее:

  • Apache Impala
  • Апач Куду
  • Распределенная файловая система Hadoop (HDFS)
  • PostgreSQL (экспериментальный)
  • SQLite
  • Прямое выполнение выражений ibis для объекта pandas (экспериментально)
  • Clickhouse

Ссылки