Почему 行ける разбирается в один токен, а 見られる разбивается на 2(見+られる)?

Оба представляют одну и ту же форму различных типов глаголов - не должны ли они анализировать один токен? Даже если 2 токена имеют больше смысла, они должны быть последовательными, и я думаю, что оба разбиваются на 2.

Редактировать: в комментариях было отмечено, что 見られる также может быть пассивным - другим примером будет 食べれる, который также токенизируется на 2 токена (食べ+れる), но, безусловно, потенциально.

1 ответ

Краткий ответ: потому что 行ける/見える есть в словаре, а 見られる нет. (примечание: это касается как ipadic, так и unidic.)

В случае 行 け る и 見られる различие довольно простое - 行く - это 五 five / пятиступенчатый глагол, а 見る - нет. В Unidic и IPAdic стволы пятиступенчатых глаголов регистрируются благодаря способу обработки окончаний глаголов. Окончания глаголов - это в основном все all (распознаваемые единицы, такие как ら れ る, которые не могут стоять в одиночестве) или 補助 like (такие вещи, как しま can, которые могут стоять в одиночестве), но окончания словарной формы, такие как る или う, не рассматриваются как таковые, поэтому они не получайте свою часть речевого тега и не формируйте один токен с корнем глагола.

С 見 え る ситуация немного сложнее - 見える трактуется как корневой глагол, а не просто как потенциальная форма 見る. Если вы посмотрите на lex.csv например, в Unidic вы увидите группу сопряжений 見 え る, где 見 え る задано в качестве базовой формы. Глядя на словари, кажется, что え え common имеет собственную запись, частично по историческим причинам (отметьте まみえる).

Для более подробного объяснения того, как и почему глаголы разбиваются на несколько жетонов, ищите подробности коротких слов единиц, слов средних единиц, слов длинной единицы и Бунсетсу. Документация от NINJAL охватывает концепции, но с небольшими подробностями для глаголов; Comainu - это система, которая может обнаружить все эти классы; и эта длинная статья дает хороший обзор истории на английском языке.

Надеюсь, это поможет!

Другие вопросы по тегам