spaCy token.tag_ полный список

Официальная документация token.tag_ в spaCy как следует:

Мелкозернистый, более подробный тег, представляющий класс слов и некоторую базовую морфологическую информацию для токена. Эти теги в первую очередь предназначены для использования в последующих моделях, особенно в синтаксическом парсере. Они зависят от языка и дерева. Тегер обучается предсказывать эти мелкозернистые теги, а затем таблица сопоставления используется для их уменьшения до грубых тегов.pos.

Но он не перечисляет полные доступные теги и объяснение каждого тега. Где я могу найти его?

6 ответов

Решение

Наконец я нашел это внутри spaCyИсходный код: tag_map.json. И эта ссылка объясняет значение различных тегов.

Доступные значения для token.tag_зависят от языка. Под языком здесь я не имею в виду английский или португальский, я имею в виду en_core_web_sm или pt_core_news_sm. Другими словами, они зависят от языковой модели и определены в TAG_MAP, который можно настраивать и обучать. Если вы не настроите его, для этого языка будет использоваться значение TAG_MAP по умолчанию.

На момент написания этого ответа http://spacy.io/models перечисляет все предварительно обученные модели и их схему маркировки.

Теперь объяснения. Если вы работаете с английским или немецким текстом, вам повезло! Вы можете использовать spacy.explain() или получить полный список в его глоссарии на github. Если вы работаете с другими языками,token.pos_ значения всегда соответствуют универсальным зависимостям и будут работать независимо.

В заключение, если вы работаете с другими языками, для полного объяснения тегов вам придется искать их в источниках, перечисленных на странице моделей, для вашей интересующей модели. Например, для португальского языка мне пришлось отслеживать объяснения тегов в португальском UD Bosque Corpus, которые использовались для обучения модели.

Вот список тегов:

TAG_MAP = [
    ".",        
    ",",        
    "-LRB-",    
    "-RRB-",    
    "``",       
    "\"\"",     
    "''",       
    ",",        
    "$",        
    "#",        
    "AFX",      
    "CC",       
    "CD",       
    "DT",       
    "EX",       
    "FW",       
    "HYPH",     
    "IN",       
    "JJ",       
    "JJR",      
    "JJS",      
    "LS",       
    "MD",       
    "NIL",      
    "NN",       
    "NNP",      
    "NNPS",     
    "NNS",   
    "PDT",   
    "POS",   
    "PRP",   
    "PRP$",  
    "RB",    
    "RBR",   
    "RBS",   
    "RP",    
    "SP",    
    "SYM",   
    "TO",    
    "UH",    
    "VB",    
    "VBD",  
    "VBG",  
    "VBN",  
    "VBP",  
    "VBZ",  
    "WDT",  
    "WP",   
    "WP$",  
    "WRB",  
    "ADD",  
    "NFP",   
    "GW",    
    "XX",    
    "BES",   
    "HVS",   
    "_SP",   
]

Вот список тегов и POS Spacy, которые использует ссылка ниже.

https://spacy.io/api/annotation

  1. Универсальные части речевых тегов
  2. английский
  3. Немецкий

Вы можете получить объяснение, используя

      from spacy import glossary
tag_name = 'ADP'
glossary.explain(tag_name)

Версия: 3.3.0

Источник: https://github.com/explosion/spaCy/blob/master/spacy/glossary.py

Вы можете использовать ниже:

директор (spacy.parts_of_speech)

Другие вопросы по тегам