Эффективное хранение данных CoNLL в базе данных
CoNLL выглядит следующим образом ( источник), но он также может содержать фактические подсказки структурам зависимостей (например, по использованию индекса):
# sent_id = en_partut-ud-2
# text = Creative Commons Corporation is not a law firm and does not provide legal services.
1 Creative Creative PROPN SP _ 3 nmod _ _
2 Commons Commons PROPN SP _ 1 flat:name _ _
3 Corporation corporation NOUN S Number=Sing 8 nsubj _ _
4 is be AUX V Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 8 cop _ _
5 not not PART PART Polarity=Neg 8 advmod _ _
6 a a DET RI Definite=Ind|Number=Sing|PronType=Art 8 det _ _
7 law law NOUN S Number=Sing 8 nmod _ _
8 firm firm NOUN S Number=Sing 0 root _ _
9 and and CCONJ CC _ 12 cc _ _
10 does do AUX VM Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 12 aux _ _
11 not not PART PART Polarity=Neg 12 advmod _ _
12 provide provide VERB V Mood=Ind|Number=Plur|Tense=Pres|VerbForm=Fin 8 conj _ _
13 legal legal ADJ A Degree=Pos 14 amod _ _
14 services service NOUN S Number=Plur 12 obj _ SpaceAfter=No
15 . . PUNCT FS _ 8 punct _ _
# sent_id = en_partut-ud-7
# text = The work (as defined below) is provided under the terms of this Creative Commons Public License ("CCPL" or "License").
1 The the DET RD Definite=Def|PronType=Art 2 det _ _
2 work work NOUN S Number=Sing 9 nsubj:pass _ _
3 ( ( PUNCT FB _ 5 punct _ SpaceAfter=No
4 as as ADP E _ 5 mark _ _
5 defined define VERB V Tense=Past|VerbForm=Part 2 acl _ _
6 below below ADV B _ 5 advmod _ SpaceAfter=No
7 ) ) PUNCT FB _ 5 punct _ _
8 is be AUX VA Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 9 aux:pass _ _
9 provided provide VERB V Tense=Past|VerbForm=Part 0 root _ _
10 under under ADP E _ 12 case _ _
11 the the DET RD Definite=Def|PronType=Art 12 det _ _
12 terms term NOUN S Number=Plur 9 obl _ _
13 of of ADP E _ 18 case _ _
14 this this DET DD Number=Sing|PronType=Dem 18 det _ _
15 Creative Creative PROPN SP _ 18 nmod _ _
16 Commons Commons PROPN SP _ 15 flat:name _ _
17 Public public ADJ A Degree=Pos 18 amod _ _
18 License license NOUN S Number=Sing 12 nmod _ _
19 ( ( PUNCT FB _ 21 punct _ SpaceAfter=No
20 " " PUNCT FB _ 21 punct _ SpaceAfter=No
21 CCPL CCPL PROPN SP _ 18 appos _ SpaceAfter=No
22 " " PUNCT FB _ 21 punct _ _
23 or or CCONJ CC _ 25 cc _ _
24 " " PUNCT FB _ 25 punct _ SpaceAfter=No
25 License license NOUN S Number=Sing 21 conj _ SpaceAfter=No
26 " " PUNCT FB _ 25 punct _ SpaceAfter=No
27 ) ) PUNCT FB _ 21 punct _ SpaceAfter=No
28 . . PUNCT FS _ 9 punct _ _
# sent_id = en_partut-ud-12
# text = 1. Definitions.
1 1 1 NUM N NumType=Card 3 nummod _ SpaceAfter=No
2 . . PUNCT FF _ 1 punct _ _
3 Definitions definition NOUN S Number=Plur 0 root _ SpaceAfter=No
4 . . PUNCT FS _ 3 punct _ _
Таким образом, это простой и компактный формат для хранения языковых деревьев. Однако, как можно запросить это или поместить такую структуру в базу данных? Я искал базы данных CoNLL, но не могу их найти. Моей интуицией было бы преобразовать данный корпус CoNLL в XML и использовать базу данных XML, такую как BaseX, для запросов. Есть ли лучший, надежный способ сохранить данные CoNLL в базе данных?