spaCy token.tag_ полный список
Официальная документация token.tag_
в spaCy
как следует:
Мелкозернистый, более подробный тег, представляющий класс слов и некоторую базовую морфологическую информацию для токена. Эти теги в первую очередь предназначены для использования в последующих моделях, особенно в синтаксическом парсере. Они зависят от языка и дерева. Тегер обучается предсказывать эти мелкозернистые теги, а затем таблица сопоставления используется для их уменьшения до грубых тегов.pos.
Но он не перечисляет полные доступные теги и объяснение каждого тега. Где я могу найти его?
6 ответов
Наконец я нашел это внутри spaCy
Исходный код: tag_map.json. И эта ссылка объясняет значение различных тегов.
Доступные значения для token.tag_
зависят от языка. Под языком здесь я не имею в виду английский или португальский, я имею в виду en_core_web_sm или pt_core_news_sm. Другими словами, они зависят от языковой модели и определены в TAG_MAP, который можно настраивать и обучать. Если вы не настроите его, для этого языка будет использоваться значение TAG_MAP по умолчанию.
На момент написания этого ответа http://spacy.io/models перечисляет все предварительно обученные модели и их схему маркировки.
Теперь объяснения. Если вы работаете с английским или немецким текстом, вам повезло! Вы можете использовать spacy.explain() или получить полный список в его глоссарии на github. Если вы работаете с другими языками,token.pos_
значения всегда соответствуют универсальным зависимостям и будут работать независимо.
В заключение, если вы работаете с другими языками, для полного объяснения тегов вам придется искать их в источниках, перечисленных на странице моделей, для вашей интересующей модели. Например, для португальского языка мне пришлось отслеживать объяснения тегов в португальском UD Bosque Corpus, которые использовались для обучения модели.
Вот список тегов:
TAG_MAP = [
".",
",",
"-LRB-",
"-RRB-",
"``",
"\"\"",
"''",
",",
"$",
"#",
"AFX",
"CC",
"CD",
"DT",
"EX",
"FW",
"HYPH",
"IN",
"JJ",
"JJR",
"JJS",
"LS",
"MD",
"NIL",
"NN",
"NNP",
"NNPS",
"NNS",
"PDT",
"POS",
"PRP",
"PRP$",
"RB",
"RBR",
"RBS",
"RP",
"SP",
"SYM",
"TO",
"UH",
"VB",
"VBD",
"VBG",
"VBN",
"VBP",
"VBZ",
"WDT",
"WP",
"WP$",
"WRB",
"ADD",
"NFP",
"GW",
"XX",
"BES",
"HVS",
"_SP",
]
Вот список тегов и POS Spacy, которые использует ссылка ниже.
https://spacy.io/api/annotation
- Универсальные части речевых тегов
- английский
- Немецкий
Вы можете получить объяснение, используя
from spacy import glossary
tag_name = 'ADP'
glossary.explain(tag_name)
Версия:
3.3.0
Источник: https://github.com/explosion/spaCy/blob/master/spacy/glossary.py
Вы можете использовать ниже:
директор (spacy.parts_of_speech)