Установите максимальное количество картографов на 1 в Hive

Мне нужно сделать вид сопоставления из строки в целочисленный идентификатор, я думал, чтобы сделать функцию UDF и передать эту строку бросить ее. Чтобы это работало, мне нужен один картограф.

Как мне заблокировать мапперы на 1?

Спасибо за помощь

1 ответ

Я понимаю, что вы пытаетесь сделать, но ваш подход, основанный на UDF, не очень хорошо масштабируется, потому что эта таблица строка-id должна находиться в памяти. Это может быть проще, если использовать задание map-redund для передачи строк из преобразователя в один редуктор. Экземпляр редуктора просто хранит инкрементный счетчик, который он использует, чтобы связать все строки, переданные методу Reduce (все те же строки), со следующим целочисленным значением счетчика.

Может быть, кто-то еще знает, как ограничить формат ввода простым разделением (чтобы получить один маппер).

Другие вопросы по тегам