Как назначить номер токена словам?

Question

Как назначить номер токена словам?

Я только начал работать с tidytext пакет для интеллектуального анализа текста с использованием r. Мне нравится, как меньше строк кода преобразует текст в аккуратный формат. Однако я не смог найти, как назначить номера токенов для каждого слова. Например, следующий код:

library(tidytext)
library(dplyr)
tinycorpus <- c("A tiny corpus for asking question.", 
                "The corpus has two sentences only.")
tinycorpus_df <- data_frame(line=1:2, text=tinycorpus)
tidyText <- tinycorpus_df %>% unnest_tokens(words, text)
tidyText

результаты в:

# A tibble: 12 x 2
    line     words
   <int>     <chr>
 1     1         a
 2     1      tiny
 3     1    corpus
 4     1       for
 5     1    asking
 6     1  question
 7     2       the
 8     2    corpus
 9     2       has
10     2       two
11     2 sentences
12     2      only

Есть ли способ для постепенного присвоения каждому слову предложения номера токена следующим образом:

    line    token   words
 1     1      1      a
 2     1      2      tiny
 3     1      3      corpus
 4     1      4      for
 5     1      5      asking
 6     1      6      question
 7     2      1      the
 8     2      2      corpus
 9     2      3      has
10     2      4      two
11     2      5      sentences
12     2      6      only

0

r text-mining tidytext

Источник

user923194 31 окт '17 в 07:25

0 ответов

Другие вопросы по тегам r text-mining tidytext