Как мне конвертировать EBCDIC в TEXT, используя Hadoop Mapreduce

Question

Как мне конвертировать EBCDIC в TEXT, используя Hadoop Mapreduce

Мне нужно проанализировать формат входного файла EBCDIC. Используя Java, я могу прочитать это, как показано ниже:

InputStreamReader rdr = new InputStreamReader(new FileInputStream("/Users/rr/Documents/workspace/EBCDIC_TO_ASCII/ebcdic.txt"), java.nio.charset.Charset.forName("ibm500"));

Но в Hadoop Mapreduce мне нужно разобрать через RecordReader который не работал до сих пор.

Может ли кто-нибудь предоставить решение этой проблемы?

0

java hadoop mapreduce ebcdic recordreader

Источник

user5342217 19 янв '16 в 05:32

3 ответа

Другие вопросы по тегам java hadoop mapreduce ebcdic recordreader

user3067411 22 авг '18 в 19:26 2018-08-22 19:26 · Answer 1 · 2018-08-22 19:26

Вы можете попытаться разобрать его через Spark, возможно, используя Cobrix, который является источником данных COBOL с открытым исходным кодом для Spark.

2

Источник

user3067411 22 авг '18 в 19:26

user4567324 19 янв '16 в 06:00 2016-01-19 06:00 · Answer 2 · 2016-01-19 06:00

Лучшее, что вы можете сделать, - это сначала преобразовать данные в ASCII, а затем загрузить в HDFS.

0

Источник

user4567324 19 янв '16 в 06:00

user646723 19 янв '16 в 07:14 2016-01-19 07:14 · Answer 3 · 2016-01-19 07:14

Почему файл в EBCDIC???, он должен быть???

Если это просто текстовые данные, почему бы не преобразовать их в ascii, когда вы отправляете / извлекаете файл из мэйнфрейма / AS400???.

Если файл содержит двоичные или числовые поля Кобола, у вас есть несколько вариантов

Конвертируйте файл в обычный текст на мэйнфрейме (утилита сортировки мэйнфреймов хороша в этом), затем отправьте файл и конвертируйте его (в ascii) .
Если это файл Cobol, есть несколько проектов с открытым исходным кодом, которые вы можете посмотреть по адресу https://github.com/tmalaska/CopybookInputFormat или https://github.com/ianbuss/CopybookHadoop
Существуют коммерческие пакеты для загрузки данных мэйнфрейма-Cobol в hadoop.