Таксономия Извлечение текстовых данных в R

Я хочу сделать таксономию Извлечение сырого большого корпуса со множеством сокращений в тексте.

Существует пакет R под названием taxize. Этот пакет позволяет пользователям искать во многих источниках таксономических данных названия видов.

library('taxize')

#Get immediate children of Salmo
children("Salmo", db = 'ncbi')

#> $Salmo
#>    childtaxa_id                   childtaxa_name childtaxa_rank
#> 1       1509524  Salmo marmoratus x Salmo trutta        species
#> 2       1484545 Salmo cf. cenerinus BOLD:AAB3872        species
# 

# Get synonyms
synonyms("Acer drummondii", db="itis")

Мой вопрос здесь: возможно ли использовать taxize (или любой другой альтернативный пакет) для выделения таксономии текстовых данных с учетом множества сокращений в тексте? Например, как я могу найти непосредственных детей определенной аббревиатуры или концепции, которая часто встречается в моих текстовых данных, но не указана в источниках таксономических данных, таких как "ncbi" и "itis".

Ценю ваши комментарии и ответы.

Спасибо Сэм

0 ответов

Другие вопросы по тегам