Настройка свиной HbaseStorage
Как я могу настроить HbaseStorage для сценария свиньи? На самом деле я хочу выполнить некоторую бизнес-логику над данными, прежде чем загружать их в сценарий pig. Это было бы что-то вроде пользовательского хранилища поверх HbaseStorage.
например, у меня мой ключ строки имеет такую структуру A_B_C. В настоящее время я передаю ключ A_B_C в HbaseStorage в своем сценарии PIG, но я хочу выполнить некоторую логику, такую как фильтрация и т. Д. Для ключа, такого как A_B_C_D, перед передачей входных данных в настоящий сценарий PIG. Как это возможно
2 ответа
Возможно, вам придется в конечном итоге взглянуть на Java-класс HBaseStorage и реализовать свои собственные классы на его основе. В зависимости от того, как были написаны HBaseStorage и связанные классы, это может варьироваться от простого (просто расширить сам HBaseStorage и перезаписать при необходимости) до настоящей головной боли.
Затем вы должны убедиться, что.jar, содержащий ваш код, находится на пути к классу pig.
Я нахожу HbaseStorage реальной болью, поэтому я пишу обычные задания Java MR для запросов к HBase и создания файлов пользовательских последовательностей, которые я затем использую из Pig с помощью простого пользовательского загрузчика. Я считаю, что это экономит массу времени, поскольку файл последовательности может многократно использоваться в течение дня для получения быстрых результатов, вместо того, чтобы сканировать все в Hbase для каждого сценария Pig.