Набор данных синтаксиса турецкого языка для несуществующих файлов карт

Я новичок в Syntaxnet, и я попытался использовать предварительно обученную модель турецкого языка с помощью инструкций здесь

Точка 1: Хотя я установил переменную среды MODEL_DIRECTORY, tokenize.sh не нашел связанный путь и выдает ошибку, как показано ниже:

root@4562a2ee0202:/opt/tensorflow/models/syntaxnet# echo "Eray eve geldi." | syntaxnet/models/parsey_universal/tokenize.sh
F syntaxnet/term_frequency_map.cc:62] Check failed: ::tensorflow::Status::OK() == (tensorflow::Env::Default()->NewRandomAccessFile(filename, &file)) (OK vs. **Not found: label-map**)

Пункт 2: Итак, я изменил tokenize.sh, прокомментировав MODEL_DIR=$1, и установил путь к модели турецкого языка, как показано ниже:

PARSER_EVAL=bazel-bin/syntaxnet/parser_eval
CONTEXT=syntaxnet/models/parsey_universal/context.pbtxt
INPUT_FORMAT=stdin-untoken
MODEL_DIR=$1
MODEL_DIR=syntaxnet/models/etiya-smart-tr

Пункт 3: После этого, когда я запускаю его, как сказано, выдает ошибку, как показано ниже:

root@4562a2ee0202:/opt/tensorflow/models/syntaxnet# echo "Eray eve geldi" | syntaxnet/models/parsey_universal/tokenize.sh
I syntaxnet/term_frequency_map.cc:101] Loaded 29 terms from syntaxnet/models/etiya-smart-tr/label-map.
I syntaxnet/embedding_feature_extractor.cc:35] Features: input.char input(-1).char input(1).char; input.digit input(-1).digit input(1).digit; input.punctuation-amount input(-1).punctuation-amount input(1).punctuation-amount 
I syntaxnet/embedding_feature_extractor.cc:36] Embedding names: chars;digits;puncts
I syntaxnet/embedding_feature_extractor.cc:37] Embedding dims: 16;16;16
F syntaxnet/term_frequency_map.cc:62] Check failed: ::tensorflow::Status::OK() == (tensorflow::Env::Default()->NewRandomAccessFile(filename, &file)) (OK vs. **Not found: syntaxnet/models/etiya-smart-tr/char-map**)

Я загрузил турецкий пакет, проследив шаблон ссылки, указанный как download.tensorflow.org/models/parsey_universal/.zip, и список файлов языковых карт, как показано ниже:

  • -rw-r ----- 1 root root 50646 Sep 22 07:24 char-ngram-map

    -rw-r ----- 1 root root 329 сен 22 07:24 label-map

    -rw-r ----- 1 корневой корень 133477 сен 22 07:24 morph-label-set

    -rw-r ----- 1 корневой корень 5553526 сент. 22 07:24 morpher-params

    -rw-r ----- 1 корень корень 1810 сен 22 07:24 карта морфологии

    -rw-r ----- 1 root root 10921546 Sep 22 07:24 parser-params

    -rw-r ----- 1 корневой корень 39990 сен 22 07:24 префикс-таблица

    -rw-r----- 1 root root 28958 Sep 22 07:24 Суффикс-таблица

    -rw-r ----- 1 корневой корень 561 сен 22 07:24 tag-map

    -rw-r ----- 1 корневой корень 5234212 сент. 22 07:24 tagger-params

    -rw-r ----- 1 корневой корень 172869 сент. 22 07:24 word-map

ВОПРОС-1: Я знаю, что в каталоге нет файла char-map, поэтому я получил ошибку, написанную @ Point-3 выше. Итак, есть ли у кого-нибудь мнение о том, как можно было бы пройти тест по турецкому языку, и результат был получен, например, как 93,363% для части речи?

ВОПРОС-2: Как я могу найти файл char-map для турецкого языка?

ВОПРОС-3: Если нет файла char-map, должен ли я пройти обучение по отслеживанию шагов, обозначенных как "Получение данных и обучение" в SyntaxNet?

ВОПРОС-4: Есть ли способ генерировать файлы word-map, char-map... и т.д.? Является ли это общеизвестным подходом word2vec, который можно использовать для создания файлов карт, которые можно обрабатывать? Синтаксические токенизаторы?

1 ответ

Решение

Попробуйте эту проблему https://github.com/tensorflow/models/issues/830 - она ​​содержит (на данный момент) временное решение.

Другие вопросы по тегам