Очевидно, tFuzzyMatch не работает с арабскими текстовыми строками.

Question

Очевидно, tFuzzyMatch не работает с арабскими текстовыми строками.

Я создал работу в talend open studio для интеграции данных v5.5.1.

Я пытаюсь найти совпадения между двумя столбцами имен клиентов, один из которых является поиском, а другой содержит грязные данные.

Работа выполняется, как и ожидалось, когда имена клиентов указаны на английском языке. Тем не менее, для арабских имен, только точные совпадения найдены независимо от используемого мной алгоритма соответствия (левенштейна, метафона, двойного метафона), даже со свободными границами для алгоритма Левенштейна мин 1 макс 50).

Я подозреваю, что это связано с кодировкой символов. Как мне поступить? каким-либо образом я могу работать с использованием Unicode или даже UTF-8 интерпретации в Talend?

Я использую источники данных Excel через tFileInputExcel

0

talend arabic fuzzy-search fuzzy-comparison data-quality

Источник

user1841571 26 авг '14 в 07:48

1 ответ

Другие вопросы по тегам talend arabic fuzzy-search fuzzy-comparison data-quality

user1841571 26 авг '14 в 17:12 2014-08-26 17:12 · Answer 1 · 2014-08-26 17:12

Я решил проблему, переместив данные в mysql с сопоставлением UTF-8. Каким-то образом ввод в Excel не сохранял параметры сортировки.

0

Источник

user1841571 26 авг '14 в 17:12