Описание тега apache-pig

Apache Pig - это платформа для анализа больших наборов данных, состоящая из языка высокого уровня для выражения программ анализа данных, а также инфраструктуры для оценки этих программ. Важным свойством программ Pig является то, что их структура поддается существенному распараллеливанию, что позволяет им обрабатывать очень большие наборы данных.

Apache Pig - это платформа для анализа больших наборов данных, состоящая из языка высокого уровня для выражения программ анализа данных в сочетании с инфраструктурой для оценки этих программ. Важным свойством программ Pig является то, что их структура поддается существенному распараллеливанию, что позволяет им обрабатывать очень большие наборы данных.

Pig работает в двух режимах выполнения: локальном режиме и режиме MapReduce. Скрипт Pig может быть написан в двух режимах: интерактивном режиме и пакетном режиме.

В настоящее время уровень инфраструктуры Pig состоит из компилятора, который создает последовательности программ Map-Reduce, для которых уже существуют крупномасштабные параллельные реализации (например, подпроект Hadoop). Уровень языка Pig в настоящее время состоит из текстового языка под названием Pig Latin, который имеет следующие ключевые свойства:

  • Легкость программирования. Достичь параллельного выполнения простых, "досадно параллельных" задач анализа данных - тривиальная задача. Сложные задачи, состоящие из нескольких взаимосвязанных преобразований данных, явно кодируются как последовательности потоков данных, которые легко писать и понимать.
  • Возможности оптимизации. Декларативный способ кодирования задач позволяет системе автоматически оптимизировать план выполнения, позволяя пользователю сосредоточиться на семантике, а не на эффективности.
  • Расширяемость. Пользователи могут создавать свои собственные функции для специальной обработки.

Официальный веб-сайт: https://pig.apache.org/

Полезные ссылки: