Код языка Twitter "в"
Я получаю твиты от API потокового твиттера и обнаружил, что некоторые из них имеют языковой код "in" в качестве параметра. Код языка должен соответствовать стандарту ISO 639-1, но я не смог найти, какому языку он соответствует. Кто-нибудь знает это?
3 ответа
Согласно Википедии, "in" - это прежний код языка ISO 639-1 для индонезийского языка ("id" используется с 3 ноября 1989 года), но это кажется странным.
Что я сделал, так это поиск: он дает вам кучу твитов на этом странном "на" языке, и вам просто нужно щелкнуть по серой штуке "показать перевод", чтобы Bing сделал всю работу за вас. Поскольку все твиты, на которые я нажал, написаны либо на малайском, либо на индонезийском языке (это, кажется, стандартизированный регистр малайского языка, что бы это ни значило), я бы сказал, что "в" охватывает оба из них, которые, по-видимому, являются двумя основными языками, на которых говорят в Индонезии.
В большинстве случаев, когда вы не знаете, что такое язык, просто добавьте несколько строк в Google Translate и попросите его автоматически определить язык для вас, что должно по крайней мере дать вам подсказку.
Как описано в документации для разработчиков Twitter, in используется для индонезийского языка (ссылка на веб-архив для дальнейшего использования):
В своей документации они говорят, что используют стандарт BCP 47, который в терминологии относится к ISO 639, из которого, как упоминалось в одном из других ответов, только в древней версии индонезийский язык упоминается как «in». Похоже, они что-то разработали, а потом попытались найти стандарт, который бы описывал то, что они разработали ...
В любом случае, я не знаю о точности определения языка in в Twitter, поэтому, прежде чем вы сделаете это важным фактором в своем приложении, проверьте сами, насколько хорошо это работает. По собственному опыту я знаю, что твитам на языке суахили, которые не поддерживаются функцией определения языка Twitter, часто присваивается тагальский (tl), что делает классификацию tl довольно ненадежной ...
Я транслировал около 6 часов твитов с геолокацией в Азии и смотрел - раздражающе, код 'in' улавливает твиты на индонезийском (бахаса, Индонезия), малайском (бахаса, Малайзия) - двух похожих языках - а также на хинди, но набранных на латинском языке. буквы (я уточнял у кого-то, кто свободно говорит на хинди).
Я также просмотрел твиты, помеченные как поступающие из Малайзии (код страны «MY»), где основным языком является малайский / бахаса Малайзия (код «мой»), и подавляющее большинство твитов были помечены как «входящие». Учитывая, насколько близки эти два языка, я не удивлен, что все, что Twitter сделал здесь с кодом 'in', классифицирует их как один и тот же язык.
Кроме того, в индонезийском есть довольно много заимствованных слов из хинди.