Как проверить схожесть строк из двух таблиц с вводом нескольких слов в BigQuery

Question

Как проверить схожесть строк из двух таблиц с вводом нескольких слов в BigQuery

У меня есть две таблицы, содержащие список названий компаний. Первая - это индексная таблица, поэтому значение внутри будет чистым, а формат согласованным. Во второй таблице содержится информация о компании, введенная пользователем, поэтому возможны опечатки и несоответствия формата.

Первый (индексная таблица) выглядит примерно так:

company_name                         |      industry
Apple Inc                                   Technology
Amazon Inc                                  Retail
Kraft Heinz                                 Food Processing
New York Life Insurance Company             Insurance
Tesla Inc                                   Tesla
Walmart Inc                                 Retail

Вторая таблица (таблица пользовательского ввода) выглядит примерно так

company_name
Apple
Apple Inc.
Amazon, Inc
Kraft
New York Life
Tsla
Walmart

Обратите внимание, что во второй таблице нет industry столбец, так как основной целью было бы добавить industry столбец во вторую таблицу, но поскольку ключа нет, мы не можем просто объединить две таблицы.

Я думаю, что первым делом нужно сравнить сходство между company_name и если это достаточно похоже, мы можем просто предположить, что это то же самое.

Я провел небольшое исследование и думаю, что нам нужно использовать расстояние Левенштейна. Честно говоря, я не очень знаком с этим методом, но, исходя из моего ограниченного понимания, мне интересно, применим ли он для входных данных, содержащих несколько слов (например, New York Life Insurance Company), или он просто эффективен для ввода одним словом (например, Apple).

Будем очень признательны за любые предложения или рекомендации.

0

google-bigquery bigquery-udf

Источник

user13115519 05 окт '20 в 15:04

0 ответов

Другие вопросы по тегам google-bigquery bigquery-udf