Как назначить номер токена словам?
Я только начал работать с tidytext
пакет для интеллектуального анализа текста с использованием r. Мне нравится, как меньше строк кода преобразует текст в аккуратный формат. Однако я не смог найти, как назначить номера токенов для каждого слова. Например, следующий код:
library(tidytext)
library(dplyr)
tinycorpus <- c("A tiny corpus for asking question.",
"The corpus has two sentences only.")
tinycorpus_df <- data_frame(line=1:2, text=tinycorpus)
tidyText <- tinycorpus_df %>% unnest_tokens(words, text)
tidyText
результаты в:
# A tibble: 12 x 2
line words
<int> <chr>
1 1 a
2 1 tiny
3 1 corpus
4 1 for
5 1 asking
6 1 question
7 2 the
8 2 corpus
9 2 has
10 2 two
11 2 sentences
12 2 only
Есть ли способ для постепенного присвоения каждому слову предложения номера токена следующим образом:
line token words
1 1 1 a
2 1 2 tiny
3 1 3 corpus
4 1 4 for
5 1 5 asking
6 1 6 question
7 2 1 the
8 2 2 corpus
9 2 3 has
10 2 4 two
11 2 5 sentences
12 2 6 only