MapReduce - RecordReader для неровных линий

Я работаю над написанием пользовательского RecordReader для обработки ежедневных наборов данных, которые будут содержать сотни тысяч записей. Большинство записей будет проходить через одну строку, оканчивающуюся символом LF. Отдельные поля в записи хранят электронную почту, сгенерированный пользователем текст и даже xml. Часто в этой конкретной области я получаю символы CR, которые разбивают запись на несколько строк. Моя первая мысль - написать специальное устройство для чтения записей, которое будет обрабатывать эту ситуацию, разбивая его только на символы LF, а затем удаляя символы CR, оставляя мне по одной записи на строку.

Является ли пользовательский читатель записи лучшим вариантом здесь? Существуют ли API, которые я мог пропустить, предназначенные для этой цели? Если мне нужен пользовательский читатель - какие советы о том, как лучше удалить CR и вернуть несколько строк обратно в одну строку, оканчивающуюся LF?

0 ответов

Другие вопросы по тегам