Эффективное хранение данных CoNLL в базе данных

CoNLL выглядит следующим образом ( источник), но он также может содержать фактические подсказки структурам зависимостей (например, по использованию индекса):

# sent_id = en_partut-ud-2
# text = Creative Commons Corporation is not a law firm and does not provide legal services.
1   Creative    Creative    PROPN   SP  _   3   nmod    _   _
2   Commons Commons PROPN   SP  _   1   flat:name   _   _
3   Corporation corporation NOUN    S   Number=Sing 8   nsubj   _   _
4   is  be  AUX V   Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   8   cop _   _
5   not not PART    PART    Polarity=Neg    8   advmod  _   _
6   a   a   DET RI  Definite=Ind|Number=Sing|PronType=Art   8   det _   _
7   law law NOUN    S   Number=Sing 8   nmod    _   _
8   firm    firm    NOUN    S   Number=Sing 0   root    _   _
9   and and CCONJ   CC  _   12  cc  _   _
10  does    do  AUX VM  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   12  aux _   _
11  not not PART    PART    Polarity=Neg    12  advmod  _   _
12  provide provide VERB    V   Mood=Ind|Number=Plur|Tense=Pres|VerbForm=Fin    8   conj    _   _
13  legal   legal   ADJ A   Degree=Pos  14  amod    _   _
14  services    service NOUN    S   Number=Plur 12  obj _   SpaceAfter=No
15  .   .   PUNCT   FS  _   8   punct   _   _

# sent_id = en_partut-ud-7
# text = The work (as defined below) is provided under the terms of this Creative Commons Public License ("CCPL" or "License").
1   The the DET RD  Definite=Def|PronType=Art   2   det _   _
2   work    work    NOUN    S   Number=Sing 9   nsubj:pass  _   _
3   (   (   PUNCT   FB  _   5   punct   _   SpaceAfter=No
4   as  as  ADP E   _   5   mark    _   _
5   defined define  VERB    V   Tense=Past|VerbForm=Part    2   acl _   _
6   below   below   ADV B   _   5   advmod  _   SpaceAfter=No
7   )   )   PUNCT   FB  _   5   punct   _   _
8   is  be  AUX VA  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   9   aux:pass    _   _
9   provided    provide VERB    V   Tense=Past|VerbForm=Part    0   root    _   _
10  under   under   ADP E   _   12  case    _   _
11  the the DET RD  Definite=Def|PronType=Art   12  det _   _
12  terms   term    NOUN    S   Number=Plur 9   obl _   _
13  of  of  ADP E   _   18  case    _   _
14  this    this    DET DD  Number=Sing|PronType=Dem    18  det _   _
15  Creative    Creative    PROPN   SP  _   18  nmod    _   _
16  Commons Commons PROPN   SP  _   15  flat:name   _   _
17  Public  public  ADJ A   Degree=Pos  18  amod    _   _
18  License license NOUN    S   Number=Sing 12  nmod    _   _
19  (   (   PUNCT   FB  _   21  punct   _   SpaceAfter=No
20  "   "   PUNCT   FB  _   21  punct   _   SpaceAfter=No
21  CCPL    CCPL    PROPN   SP  _   18  appos   _   SpaceAfter=No
22  "   "   PUNCT   FB  _   21  punct   _   _
23  or  or  CCONJ   CC  _   25  cc  _   _
24  "   "   PUNCT   FB  _   25  punct   _   SpaceAfter=No
25  License license NOUN    S   Number=Sing 21  conj    _   SpaceAfter=No
26  "   "   PUNCT   FB  _   25  punct   _   SpaceAfter=No
27  )   )   PUNCT   FB  _   21  punct   _   SpaceAfter=No
28  .   .   PUNCT   FS  _   9   punct   _   _

# sent_id = en_partut-ud-12
# text = 1. Definitions.
1   1   1   NUM N   NumType=Card    3   nummod  _   SpaceAfter=No
2   .   .   PUNCT   FF  _   1   punct   _   _
3   Definitions definition  NOUN    S   Number=Plur 0   root    _   SpaceAfter=No
4   .   .   PUNCT   FS  _   3   punct   _   _

Таким образом, это простой и компактный формат для хранения языковых деревьев. Однако, как можно запросить это или поместить такую ​​структуру в базу данных? Я искал базы данных CoNLL, но не могу их найти. Моей интуицией было бы преобразовать данный корпус CoNLL в XML и использовать базу данных XML, такую ​​как BaseX, для запросов. Есть ли лучший, надежный способ сохранить данные CoNLL в базе данных?

0 ответов

Другие вопросы по тегам