Как можно найти похожие имена с помощью Интернета?
Я занимаюсь вопросами устранения неоднозначности имен. Мне интересно, есть ли способ найти все обычные употребления слова с помощью Интернета, чтобы "краудсорсировать" эти связанные имена.
Например, в моих данных у меня есть термин "Калифорнийский университет в Беркли". Могу ли я использовать поиск Google (или приложение другого типа), чтобы найти все распространенные синонимы "UC Berkeley", такие как "University of California Berkeley", "Berkeley", "UCB" и т. Д.?
Я могу представить, что это может не вписываться непосредственно в вопрос о типе переполнения стека. Я более чем готов сделать репост в другом месте или на форуме. Пожалуйста, просто скажи мне, где.
1 ответ
Вы можете использовать FreeBase. Например, страница "Университет Калифорнии, Беркли": https://www.freebase.com/m/02zd460
имеет поле: / common / topic / alias
в котором перечислены различные общие названия для этого университета, хотя некоторые из них могут быть шумными:
UC Berkeley
Cal
Università della California (Berkeley) it
Universiteit van Californië - Berkeley nl
Universitato de Kalifornio, Berkeley eo
Berkeley
University of California, Berkeley Campus
University of California, Berkeley main campus
Berkeley Üniversitesi tr
California tr
加州大學柏克萊分校 zh-CN
Університет Каліфорнії uk
加州大学伯克利分校 zh-CN
Калифорнийски университет, Бъркли bg
University of California, Berkeley pl
Universiteit van Californië - Berkeley nl
Universitat de Califòrnia a Berkeley ca
Πανεπιστήμιο της Καλιφόρνιας, Μπέρκλεϋ el
加州大學柏克萊分校 zh-TW