Специальные символы (акцент, апостроф, трема) работают в пользовательских тестах Source, но больше не применяются при развертывании в докеризованных наборах потоков
Я написал собственный источник Streamsets. Некоторые записи содержат такие символы, как é или ë. При выполнении моих автоматических тестов я могу проверить, что данные отправляются в виде списка записей SDC, как и предполагалось.
Однако когда я использую свое собственное начало координат в конвейере на сборщике данных потоковых наборов, все эти специальные символы отображаются в пользовательском интерфейсе (предварительный просмотр) и помещаются в мою цель как "?".
Streamsets интерпретирует вывод моего происхождения и применяет некоторую кодировку символов?
1 ответ
Проблема была не в пользовательском источнике или Streamsets, а скорее в самом контейнере Docker. Официальный контейнер Streamsets, от которого я наследую, основан на Alpine Linux. По умолчанию поддержка языкового стандарта не установлена, поэтому вы можете добавить ее самостоятельно.
Этот пост помог мне установить его в моем контейнере и настроить контейнер. Потом все заработало как положено.