Специальные символы (акцент, апостроф, трема) работают в пользовательских тестах Source, но больше не применяются при развертывании в докеризованных наборах потоков

Я написал собственный источник Streamsets. Некоторые записи содержат такие символы, как é или ë. При выполнении моих автоматических тестов я могу проверить, что данные отправляются в виде списка записей SDC, как и предполагалось.

Однако когда я использую свое собственное начало координат в конвейере на сборщике данных потоковых наборов, все эти специальные символы отображаются в пользовательском интерфейсе (предварительный просмотр) и помещаются в мою цель как "?".

Streamsets интерпретирует вывод моего происхождения и применяет некоторую кодировку символов?

1 ответ

Проблема была не в пользовательском источнике или Streamsets, а скорее в самом контейнере Docker. Официальный контейнер Streamsets, от которого я наследую, основан на Alpine Linux. По умолчанию поддержка языкового стандарта не установлена, поэтому вы можете добавить ее самостоятельно.

Этот пост помог мне установить его в моем контейнере и настроить контейнер. Потом все заработало как положено.

Другие вопросы по тегам