Как интегрировать встроенные аннотированные теги в аннотацию отступления?
Я делаю некоторые пользовательские аннотации на платформе GATE. Допустим, у меня есть предложение, чтобы пометить ниже.
Необработанный текст
Макдональдс на китайском означает "Chinese". так что "Я хочу Макдональдс " на китайском означает " 我 想吃 麦当劳 ".
Используя GATE, я пометил 4 конкретных токена (McDonald's и 麦当劳) из вышеприведенного предложения тегом "Entity". GATE будет автоматически генерировать файл аннотации отступления XML на основе расположения символов, как показано ниже.
<TextWithNodes>the <Node id="4"/>McDonald's<Node id="14"/> is '<Node id="19"/>麦当劳<Node id="22"/>'in Chinese. so "I want some <Node id="51"/>McDonald's<Node id="61"/>" is "我想吃<Node id="70"/>麦当劳<Node id="73"/>" in Chinese.</TextWithNodes>
<!-- The default annotation set -->
<AnnotationSet>
<Annotation Id="0" Type="Entity" StartNode="19" EndNode="22">
</Annotation>
<Annotation Id="1" Type="Entity" StartNode="4" EndNode="14">
</Annotation>
<Annotation Id="2" Type="Entity" StartNode="70" EndNode="73">
</Annotation>
<Annotation Id="3" Type="Entity" StartNode="51" EndNode="61">
</Annotation>
</AnnotationSet>
</GateDocument>
встроенная маркировка POS
Далее я хочу POS-тег для необработанного текста на Python. Необработанный текст в качестве входных данных, теггер будет возвращать теговое предложение, как показано ниже.
/DT McDonald's/NN - это /BE '麦当劳'/NN in/PP Chinese/NN ./PW
Проблема заключается в том, что я хочу добавить этот результат POS-тегирования в файл аннотации отступа GATE, который включает каждый тег POS, помеченный начальным и конечным смещением. Например,
<Annotation Id="4" POS="DT" StartNode="0" EndNode="2">
<Annotation Id="5" POS="NN" StartNode="4" EndNode="14">
…
</Annotation>
Причина, по которой я скорее придерживаюсь аннотации отступления, чем встроенной аннотации, заключается в том, что я все еще хочу использовать GATE для удобства задачи межаннотации (вручную помечать тег "Entity"), но, к сожалению, китайский тег POS не может быть реализован в GATE. И нежелательно сначала делать POS-тег, а потом делать ручную аннотацию в GATE, потому что разные POS-теги будут давать разные результаты POS-тегов, и это может испортить смещения необработанного текста. Пожалуйста, кто-нибудь подскажет, как интегрировать встроенные результаты POS-тегов в аннотацию отступа XML, или полезные инструменты для изменения аннотации отступа на основе расположения символов в Python.