Как проверить схожесть строк из двух таблиц с вводом нескольких слов в BigQuery
У меня есть две таблицы, содержащие список названий компаний. Первая - это индексная таблица, поэтому значение внутри будет чистым, а формат согласованным. Во второй таблице содержится информация о компании, введенная пользователем, поэтому возможны опечатки и несоответствия формата.
Первый (индексная таблица) выглядит примерно так:
company_name | industry
Apple Inc Technology
Amazon Inc Retail
Kraft Heinz Food Processing
New York Life Insurance Company Insurance
Tesla Inc Tesla
Walmart Inc Retail
Вторая таблица (таблица пользовательского ввода) выглядит примерно так
company_name
Apple
Apple Inc.
Amazon, Inc
Kraft
New York Life
Tsla
Walmart
Обратите внимание, что во второй таблице нет
industry
столбец, так как основной целью было бы добавить
industry
столбец во вторую таблицу, но поскольку ключа нет, мы не можем просто объединить две таблицы.
Я думаю, что первым делом нужно сравнить сходство между
company_name
и если это достаточно похоже, мы можем просто предположить, что это то же самое.
Я провел небольшое исследование и думаю, что нам нужно использовать расстояние Левенштейна. Честно говоря, я не очень знаком с этим методом, но, исходя из моего ограниченного понимания, мне интересно, применим ли он для входных данных, содержащих несколько слов (например, New York Life Insurance Company), или он просто эффективен для ввода одним словом (например, Apple).
Будем очень признательны за любые предложения или рекомендации.