Загрузка Outlook экспорта TSV в MarkLogic с использованием RecordLoader
Я получаю следующее при загрузке TSV экспорта Microsoft Outlook 2010 в папку "Входящие" в MarkLogic с помощью RecordLoader. Это проблема кодирования? Я пробовал другие способы загрузки (mlcp, Java, XQuery), но все они потерпели неудачу из-за проблем с кодированием. Есть ли способ конвертировать сгенерированный Microsoft файл TSV в файл, совместимый с MarkLogic? Я пробовал некоторые онлайн-конвертеры, но они не работали. Также я попытался преобразовать файл в UTF-8 с помощью Notepad++, но когда я нажимаю кнопку "преобразовать в UTF-8", все данные исчезают. Это моя последняя попытка в MarkLogic, и я переключусь на другую платформу, если я не смогу найти способ загрузить эти данные. Помогите!
SEVERE: java.nio.charset.MalformedInputException: Input length = 1
java.nio.charset.MalformedInputException: Input length = 1
at java.nio.charset.CoderResult.throwException(CoderResult.java:277)
at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:338)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:177)
at java.io.InputStreamReader.read(InputStreamReader.java:184)
at java.io.BufferedReader.fill(BufferedReader.java:154)
at java.io.BufferedReader.readLine(BufferedReader.java:317)
at java.io.BufferedReader.readLine(BufferedReader.java:382)
at com.marklogic.recordloader.xcc.DelimitedDataLoader.process(DelimitedDataLoader.java:115)
at com.marklogic.recordloader.AbstractLoader.call(AbstractLoader.java:96)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:744)
1 ответ
По умолчанию RecordLoader использует кодировку языка Java по умолчанию. Но вы можете установить кодировку в соответствии с вашими данными. Например, набор INPUT_ENCODING=Cp1252
если это кодировка windows 1252.
INPUT_ENCODING
задокументировано (слегка) по адресу http://marklogic.github.io/recordloader/ а имена кодировок Java перечислены по адресу http://docs.oracle.com/javase/8/docs/technotes/guides/intl/encoding.doc.html