Используйте этот тег для вопросов, касающихся формата данных CoNLL, например, для данных CoNLL-X или CoNLL-U.
0 ответов

Отображение тегов POS Универсальный (CoNLL-U) в WordNet?

Кто-нибудь знает о стандартном протоколе для отображения универсального ( http://universaldependencies.org/u/pos/) или стандартного nltk POS (часть речевых тегов) на wordnet? Я бродил по сети, но не нашел ничего, поэтому подумал, что я просто провер…
05 дек '18 в 15:09
1 ответ

Каков список возможных тегов с описанием задачи NER CoNLL 2003?

Мне нужно сделать NER. Я нашел библиотеку DeepPavlov, которая делает это. Вот пример из документации: from deeppavlov import configs, build_model ner_model = build_model(configs.ner.ner_ontonotes, download=True) ner_model(['Bob Ross lived in Florida…
26 дек '18 в 15:16
0 ответов

Эффективное хранение данных CoNLL в базе данных

CoNLL выглядит следующим образом ( источник), но он также может содержать фактические подсказки структурам зависимостей (например, по использованию индекса): # sent_id = en_partut-ud-2 # text = Creative Commons Corporation is not a law firm and does…
18 июн '18 в 14:28
0 ответов

Получить данные перехода из входного предложения из CoNLL для анализатора зависимостей на основе перехода

Я пытаюсь воспроизвести Чен и анализатор нейронной зависимости Мэннинга -2014. Для этого мне нужна конфигурация стека и буфера на каждом временном шаге, например, первые три элемента стека и буфера и т. Д., Из которых я могу предсказать следующее де…
09 авг '18 в 15:23
1 ответ

Пространство, идентифицирующее пробелы как сущности

Я только начинаю работать со Spacy и написал текст, чтобы проверить, как он работает с PDF, который я распечатал с AntFileConverter. TXT-файл (пример ниже - будет прикреплен, но не знаю, как) выглядит нормально, находится в UTF-8. Однако, когда я вы…
17 окт '18 в 16:07
2 ответа

Как сгенерировать.conllu из объекта Doc?

Где я могу найти пример файла.conllu, который Spacy примет? или пример как его сгенерировать? с IOB? Попытка преобразовать файл.conllu, сгенерированный мной, в.json для обучения модели, следующим образом: head_ix = token.head.i - sent[0].i + 1 conll…
12 авг '19 в 19:44
0 ответов

Как использовать преобразование Spacy, чтобы сохранить информацию абзаца из файлов conllu?

Я пытаюсь конвертировать файлы conllu в формат Spacy jsonl. Эти файлы conllu содержат информацию об абзацах, указанную на веб-сайте Universal Dependencies. Проблема в том, что информация абзаца не переносится в преобразованный файл jasonl, где кажды…
08 июл '19 в 19:44
0 ответов

NoneXlsx , содержащий предложения в каждой строке. Я был в состоянии пометить тег IOB и существительное фразу отдельно. Как я могу объединить их?

У меня есть таблица xlsx с одним столбцом, который содержит предложения в каждой строке. Я успешно размечал / помечал POS каждую строку и смог пометить тег IOB и имя-фразу, но по отдельности. Мне нужно объединить их, чтобы создать базу данных, котор…
14 авг '19 в 00:37
0 ответов

Как объединить три файла Conllu с библиотекой Conllu python?

Я впервые работаю с файлами conllu. Я не могу найти способ объединить эти файлы в библиотеке Py thon Conllu. Любые зацепки были бы полезны. Спасибо.
19 мар '20 в 21:32
1 ответ

Преобразование сгенерированной Spacy зависимости в формат CoNLL не может обрабатывать более одного ROOT?

Я использовал библиотеку SpaCy для генерации зависимостей и сохранения ее в формате CoNLL, используя приведенный ниже код. import pandas as pd import spacy df1 = pd.read_csv('cleantweets', encoding='latin1') df1['tweet'] = df1['tweet'].astype(str) t…
04 сен '19 в 01:50
1 ответ

Как импортировать текст из формата CoNNL с именованными объектами в spaCy, вывести объекты с моей моделью и записать их в тот же набор данных (с Python)?

У меня есть набор данных в формате CoNLL NER, который в основном представляет собой файл TSV с двумя полями. Первое поле содержит токены из некоторого текста - по одному токену на строку (каждый символ пунктуации также считается там токеном), а втор…
09 окт '19 в 11:08
0 ответов

Преобразование текстовых предложений в формат CONLL

Я хочу преобразовать обычный английский текст в формат CONLL-U для maltparser для поиска зависимости в тексте в Python. Я пробовал использовать java, но мне это не удалось, вот формат, который я ищу: String[] tokens = new String[11]; tokens[0] = "1\…
03 сен '19 в 15:18
1 ответ

Добавить в цикл for не работает для хранения списков токенов

В приведенном ниже цикле for я читаю файлы.dat из папки и разбираю каждый файл для извлечения списка токенов, а затем сохраняю его в списке. Мой код делает это, но для отдельных файлов. У меня 1187 файлов, но ud_file.append() просто добавляет токены…
20 мар '20 в 01:36
0 ответов

CRF++ несколько обучающих файлов

Я использую CRF++ с файлами CoNLL как способ добавить дополнительные функции к токенам в тексте. На данный момент у меня все хорошо, но теперь, когда у меня появляется все больше и больше данных, можно ли обучить модель, а затем загрузить и переобуч…
26 мар '20 в 19:02
1 ответ

Измените формат распознавания именованных сущностей с ENAMEX на CoNLL

У меня есть набор данных в формате ENAMEX, например: <ENAMEX TYPE="LOCATION">Italy</ENAMEX>'s business world was rocked by the announcement <TIMEX TYPE="DATE">last Thursday</TIMEX> that Mr. <ENAMEX TYPE=„PERSON">Verdi&l…
06 май '20 в 04:51
1 ответ

Как создать TokenList с помощью библиотеки conllu?

Я пытаюсь создать файл CoNLL-U, используя библиотеку conllu как часть проекта тегов Universal Dependency, над которым я работаю. У меня есть несколько предложений в списках Python. Они содержат подсписки токенов, лемм, тегов POS, функций и т. Д. Нап…
08 май '20 в 03:28
1 ответ

Как преобразовать текстовое предложение в формат CoNLL-U?

Я изучаю синтаксический анализ зависимостей с использованием формата CoNLL-U. Я могу найти, как обрабатывать синтаксический анализатор CoNLL-U или список токенов, но я не могу найти, как преобразовать текстовое предложение в формат CoNLL-U. Я пробов…
14 май '20 в 09:10
1 ответ

Разбор отсутствующей аннотации CoNLL-U (разное)

Я пытаюсь проанализировать файлы.ConLL из этого репозитория github, пример моего кода синтаксического анализа: from io import open from conllu import parse_tree_incr import glob import os for filename in glob.glob('./licenses-conll-format/22-MIT/MIT…
03 апр '20 в 13:43
3 ответа

Почему я не могу прочитать файл .conll с помощью Python (запутанная ошибка синтаксического анализа)?

from pyconll import load_from_file data = load_from_file("filename.conll") data Я слежу за документацией pyconll, чтобы прочитать в .conllфайл, но возникает следующая ошибка, и я не понимаю, что это значит. Набор данных должен быть удобочи…
29 окт '20 в 13:44
0 ответов

Почему я получаю "ValueError: Несоответствующее количество столбцов" при чтении предложений из файла .ConLL?

from nltk.corpus.reader.conll import ConllCorpusReader READER = ConllCorpusReader(root="./", fileids=".conll", columntypes=('words','pos','tree','chunk','ne','srl','ignore') ) READER_sents(myConLLfile) Я извлекаю предложение как …
30 окт '20 в 01:09