Нечеткое совпадение на миллиард + записей
У меня более миллиарда записей в Oracle, и мне нужно эффективно провести нечеткое сопоставление со списком из пары тысяч записей и сопоставить отчеты с соотношением совпадений> 95%. Справочные записи индексируются. Я знаю, что oracle предоставляет пакет UTL_MATCH для нечеткого сопоставления расстояния Левенштейна, как я могу эффективно сделать это в oracle для такого большого набора данных? Есть ли эффективный способ сделать то же самое в Python или Java, предполагая, что я храню эталонный набор данных в наборе файлов и индексирую их?