Таксономия Извлечение текстовых данных в R
Я хочу сделать таксономию Извлечение сырого большого корпуса со множеством сокращений в тексте.
Существует пакет R под названием taxize. Этот пакет позволяет пользователям искать во многих источниках таксономических данных названия видов.
library('taxize')
#Get immediate children of Salmo
children("Salmo", db = 'ncbi')
#> $Salmo
#> childtaxa_id childtaxa_name childtaxa_rank
#> 1 1509524 Salmo marmoratus x Salmo trutta species
#> 2 1484545 Salmo cf. cenerinus BOLD:AAB3872 species
#
# Get synonyms
synonyms("Acer drummondii", db="itis")
Мой вопрос здесь: возможно ли использовать taxize (или любой другой альтернативный пакет) для выделения таксономии текстовых данных с учетом множества сокращений в тексте? Например, как я могу найти непосредственных детей определенной аббревиатуры или концепции, которая часто встречается в моих текстовых данных, но не указана в источниках таксономических данных, таких как "ncbi" и "itis".
Ценю ваши комментарии и ответы.
Спасибо Сэм