Соответствует байтам из аннотации в текстовый документ, Python или Java

Question

Соответствует байтам из аннотации в текстовый документ, Python или Java

Я использую свод мнений MPQA, в котором аннотации и документы сохраняются в отдельных файлах. Файлы аннотаций содержат смещения символов (байтов) в документах
например, 850 861

string  GATE_direct-subjective   
expression-intensity="medium"
attitude-link="a4"
nested-source="w, patient" 
intensity="medium" 
polarity="negative"

Как я могу сопоставить эти байты в текстовом документе? Я благодарен за любые идеи! Я предпочитаю использовать Python, но решение на Java тоже подойдет.

0

python java nlp byte tagged-corpus

Источник

user2587333 16 июл '13 в 12:42

1 ответ

Другие вопросы по тегам python java nlp byte tagged-corpus

user2453606 16 июл '13 в 17:47 2013-07-16 17:47 · Answer 1 · 2013-07-16 17:47

Я не уверен на 100%, что правильно понимаю вопрос, но если вам нужна подстрока и у вас есть положение символов, решение простое.

Решение Python:

>>> sometext = "Grant D is a great guy."
>>> character_offset = [0, 7]
>>> subString = sometext[character_offset[0]:character_offset[1]]
>>> print subString
Grant D
>>>

0

Источник

user2453606 16 июл '13 в 17:47