Очевидно, tFuzzyMatch не работает с арабскими текстовыми строками.

Я создал работу в talend open studio для интеграции данных v5.5.1.

Я пытаюсь найти совпадения между двумя столбцами имен клиентов, один из которых является поиском, а другой содержит грязные данные.

Работа выполняется, как и ожидалось, когда имена клиентов указаны на английском языке. Тем не менее, для арабских имен, только точные совпадения найдены независимо от используемого мной алгоритма соответствия (левенштейна, метафона, двойного метафона), даже со свободными границами для алгоритма Левенштейна мин 1 макс 50).

Я подозреваю, что это связано с кодировкой символов. Как мне поступить? каким-либо образом я могу работать с использованием Unicode или даже UTF-8 интерпретации в Talend?

Я использую источники данных Excel через tFileInputExcel

1 ответ

Я решил проблему, переместив данные в mysql с сопоставлением UTF-8. Каким-то образом ввод в Excel не сохранял параметры сортировки.

Другие вопросы по тегам