Установите максимальное количество картографов на 1 в Hive
Мне нужно сделать вид сопоставления из строки в целочисленный идентификатор, я думал, чтобы сделать функцию UDF и передать эту строку бросить ее. Чтобы это работало, мне нужен один картограф.
Как мне заблокировать мапперы на 1?
Спасибо за помощь
1 ответ
Я понимаю, что вы пытаетесь сделать, но ваш подход, основанный на UDF, не очень хорошо масштабируется, потому что эта таблица строка-id должна находиться в памяти. Это может быть проще, если использовать задание map-redund для передачи строк из преобразователя в один редуктор. Экземпляр редуктора просто хранит инкрементный счетчик, который он использует, чтобы связать все строки, переданные методу Reduce (все те же строки), со следующим целочисленным значением счетчика.
Может быть, кто-то еще знает, как ограничить формат ввода простым разделением (чтобы получить один маппер).