Как получить данные обучения в правильном формате для извлечения отношений Стэнфорда
Я хочу обучить экстрактору отношений Стэнфорда своими собственными данными. Мне удалось обучить свою собственную модель, и я хочу использовать ее для обозначения именованных сущностей и в то же время создать желаемый результат и формат, который будет снова использоваться для обучения экстрактора отношений.
Что будет лучшим вариантом для этого? Я знаю, что это или аналогичные вопросы были заданы. Но, похоже, нет стандартной процедуры для создания требуемого формата данных:
> 0 Other 0 O JJ Palestinian O O O 0 O 1 O NNP Uprising O O O
> 0 O 2 O NNP Affects O O O 0 Other 3 O NNP Israeli O O O
> 0 O 4 O NNP Artists O O O
>
>
> 1 O 0 O IN By O O O 1 Peop 1 O NNP/NNP RONI/RABIN O O O
>
>
> 2 Org 0 O NNP/NNP Associated/Press O O O 2 O 1 O NNP Writer O O O
>
>
> 3 O 0 O DT The O O O 3 O 1 O JJ long O O O
> 3 Other 2 O JJ Palestinian O O O 3 O 3 O NN uprising O O O
> 3 O 4 O VBZ has O O O 3 O 5 O VBN brought O O O
> 3 O 6 O NN bitterness O O O 3 O 7 O TO to O O O
> 3 Other 8 O JJ Israeli O O O 3 O 9 O NN humor O O O
> 3 O 10 O , COMMA O O O 3 O 11 O CC and O O O 3 O 12 O DT the O O O
> 3 O 13 O NN comedian O O O 3 O 14 O POS 's O O O
> 3 O 15 O NN opener O O O 3 O 16 O VBD was O O O 3 O 17 O RB not O O O
> 3 O 18 O VBN meant O O O 3 O 19 O TO to O O O 3 O 20 O VB put O O O
> 3 O 21 O PP$ his O O O 3 O 22 O NN audience O O O 3 O 23 O IN at O O O
> 3 O 24 O NN ease O O O 3 O 25 O . . O O O
>
>
> 4 O 0 O `` ` O O O
В прошлом здесь была проблема, когда у кого-то был похожий вопрос, и я думаю, что ему удалось получить данные в формате выше. Смотрите ссылку
Я не знаю много о Java и нуждаюсь в помощи о том, как запустить код Java с помощью моего пользовательского классификатора. В случае, если код, указанный в посте, будет работать для меня.
Вкратце, как мне получить мои данные обучения в формате conll, принятом StanfordNLP, и как запустить конвейер StanfordcoreNLP с нашей нер-моделью для извлечения отношений.
Я опен для некоторых других реализаций для этого, может быть, Python?
Спасибо за любой совет.