Как получить группировку прямо в R с помощью Plotly
У меня есть некоторые проблемы, чтобы сгруппировать мои данные в Plotly под R. Для начала я использовал локальные данные из CSV-файла, читая их с помощью:
geogrid_data <- read.delim('geogrid.csv', row.names = NULL, stringsAsFactors = TRUE)
и заговор прошел хорошо, используя следующее:
library(plotly)
library(RColorBrewer)
x <- list(
title = 'Date'
)
p <- plotly::plot_ly(geogrid_data,
type = 'scatter',
x = ~ts_now,
y = ~absolute_v_sum,
text = paste('Table: ', geogrid_data$table_name,
'<br>Absolute_v_Sum: ', geogrid_data$absolute_v_sum),
hoverinfo = 'text',
mode = 'lines',
color = list(
color = colorRampPalette(RColorBrewer::brewer.pal(11,'Spectral'))(
length(unique(geogrid_data$table_name))
)
),
transforms = list(
list(
type = 'groupby',
groups = ~table_name
)
)
) %>% layout(showlegend = TRUE, xaxis = x)
Вот вывод:
Затем я собирался изменить источник данных в таблице базы данных Oracle, читая данные следующим образом, используя пакет ROracle:
# retrieve data into resultSet object
rs <- dbSendQuery(con, "SELECT * FROM GEOGRID_STATS")
# fetch records from the resultSet into a data.frame
geogrid_data <- fetch(rs)
# free resources occupied by resultSet
dbClearResult(rs)
dbUnloadDriver(drv)
# remove duplicates from dataframe (based on TABLE_NAME, TS_BEFORE, TS_NOW, NOW_SUM)
geogrid_data <- geogrid_data %>% distinct(TABLE_NAME, TS_BEFORE, TS_NOW, NOW_SUM, .keep_all = TRUE)
# alter date columns in place
geogrid_data$TS_BEFORE <- as.Date(geogrid_data$TS_BEFORE, format='%d-%m-%Y')
geogrid_data$TS_NOW <- as.Date(geogrid_data$TS_NOW, format='%d-%m-%Y')
и корректируя график для:
p <- plotly::plot_ly(
type = 'scatter',
x = geogrid_data$TS_NOW,
y = geogrid_data$ABSOLUTE_V_SUM,
text = paste('Table: ', geogrid_data$TABLE_NAME,
'<br>Absolute_v_Sum: ', geogrid_data$ABSOLUTE_V_SUM,
'<br>Date: ', geogrid_data$TS_NOW),
hoverinfo = 'text',
mode = 'lines',
color = list(
color = colorRampPalette(RColorBrewer::brewer.pal(11,'Spectral'))(
length(unique(geogrid_data$TABLE_NAME))
)
),
transforms = list(
list(
type = 'groupby',
groups = geogrid_data$TABLE_NAME
)
)
) %>% layout(showlegend = TRUE, xaxis = x)
К сожалению, это приводит к некоторой проблеме с группировкой, как кажется.
Как видно из текста метки при наведениикурсора на точку данных, точка представляет данные из NY_SKOV_PLANTEB_MW_POLY, а легенда настроена на отображение данных из NY_BYGN_MW_POLY. Глядя на другие точки данных на этом графике, я обнаружил дикое сочетание точек всех видов на этом графике, некоторые из которых представляют данные NY_BYGN_MW_POLY, большинство из которых нет.
Кроме того, построение графика относительно временной шкалы больше не работает, например, данные строятся с началом 11 декабря - 10 декабря - 10 декабря - 12 декабря - 20 декабря - 17 декабря - 16 декабря - 15 декабря
Где я могу ошибиться при обработке данных, и что я должен сделать, чтобы сделать это правильно?
1 ответ
Конечно, нужно посмотреть на данные... спасибо Марко, после твоего вопроса я посмотрел на свои данные.
Есть некоторые моменты, в которых я просто предполагал вещи. Причина, по которой все данные отображаются с данными из CSV-файла, проста. Вся информация, собранная вручную в файле CSV, поступила из информации в электронных письмах, которые были упорядочены по дате. Следовательно, я скомпилировал данные в CSV-файле, упорядоченный по дате, и у Plotly нет проблем с группировкой данных по table_name.
Посмотрев свои данные, я привел в порядок, сохранив только те данные, которые мне нужны для отображения на графике, и использовал dplyr для сортировки данных по времени.
geogrid_data <- dplyr::arrange(geogrid_data, TS_NOW)
Это только по времени, а не по времени и имени таблицы, потому что сортировка по имени таблицы в любом случае выполняется Plotly и оператором groupby.