Код языка Twitter "в"

Я получаю твиты от API потокового твиттера и обнаружил, что некоторые из них имеют языковой код "in" в качестве параметра. Код языка должен соответствовать стандарту ISO 639-1, но я не смог найти, какому языку он соответствует. Кто-нибудь знает это?

3 ответа

Согласно Википедии, "in" - это прежний код языка ISO 639-1 для индонезийского языка ("id" используется с 3 ноября 1989 года), но это кажется странным.

Что я сделал, так это поиск: он дает вам кучу твитов на этом странном "на" языке, и вам просто нужно щелкнуть по серой штуке "показать перевод", чтобы Bing сделал всю работу за вас. Поскольку все твиты, на которые я нажал, написаны либо на малайском, либо на индонезийском языке (это, кажется, стандартизированный регистр малайского языка, что бы это ни значило), я бы сказал, что "в" охватывает оба из них, которые, по-видимому, являются двумя основными языками, на которых говорят в Индонезии.

В большинстве случаев, когда вы не знаете, что такое язык, просто добавьте несколько строк в Google Translate и попросите его автоматически определить язык для вас, что должно по крайней мере дать вам подсказку.

Как описано в документации для разработчиков Twitter, in используется для индонезийского языка (ссылка на веб-архив для дальнейшего использования):

http://web.archive.org/web/20210123205307/https://developer.twitter.com/en/docs/twitter-api/enterprise/powertrack-api/guides/operators

В своей документации они говорят, что используют стандарт BCP 47, который в терминологии относится к ISO 639, из которого, как упоминалось в одном из других ответов, только в древней версии индонезийский язык упоминается как «in». Похоже, они что-то разработали, а потом попытались найти стандарт, который бы описывал то, что они разработали ...

В любом случае, я не знаю о точности определения языка in в Twitter, поэтому, прежде чем вы сделаете это важным фактором в своем приложении, проверьте сами, насколько хорошо это работает. По собственному опыту я знаю, что твитам на языке суахили, которые не поддерживаются функцией определения языка Twitter, часто присваивается тагальский (tl), что делает классификацию tl довольно ненадежной ...

Я транслировал около 6 часов твитов с геолокацией в Азии и смотрел - раздражающе, код 'in' улавливает твиты на индонезийском (бахаса, Индонезия), малайском (бахаса, Малайзия) - двух похожих языках - а также на хинди, но набранных на латинском языке. буквы (я уточнял у кого-то, кто свободно говорит на хинди).

Я также просмотрел твиты, помеченные как поступающие из Малайзии (код страны «MY»), где основным языком является малайский / бахаса Малайзия (код «мой»), и подавляющее большинство твитов были помечены как «входящие». Учитывая, насколько близки эти два языка, я не удивлен, что все, что Twitter сделал здесь с кодом 'in', классифицирует их как один и тот же язык.

Кроме того, в индонезийском есть довольно много заимствованных слов из хинди.

Другие вопросы по тегам