Юлия DataFrame: удалить столбец по имени
Тип DataFrame в Julia позволяет обращаться к нему как к массиву, поэтому можно удалить столбцы с помощью индексации:
df = df[:,[1:2,4:end]] # remove column 3
Проблема такого подхода заключается в том, что я часто знаю только имя столбца, а не его индекс в таблице.
Есть ли встроенный способ удалить столбец по имени?
В качестве альтернативы, есть ли лучший способ сделать это, чем это?
colind = findfirst(names(df), colsymbol)
df = df[:,[1:colind-1,colind+1:end]]
Вышесказанное склонно к сбоям; Есть несколько крайних случаев (один столбец, первый столбец, последний столбец, символ отсутствует в таблице и т. д.)
Спасибо
1 ответ
Ты можешь использовать delete!
:
julia> df = DataFrame(A = 1:4, B = ["M", "F", "F", "M"], C = 2:5)
4x3 DataFrame
|-------|---|-----|---|
| Row # | A | B | C |
| 1 | 1 | "M" | 2 |
| 2 | 2 | "F" | 3 |
| 3 | 3 | "F" | 4 |
| 4 | 4 | "M" | 5 |
julia> delete!(df, :B)
4x2 DataFrame
|-------|---|---|
| Row # | A | C |
| 1 | 1 | 2 |
| 2 | 2 | 3 |
| 3 | 3 | 4 |
| 4 | 4 | 5 |
Для более общих операций помните, что вы также можете передать массив символов или массив bool, а также произвольно сложные варианты выбора, такие как
julia> df[~[(x in [:B, :C]) for x in names(df)]]
4x1 DataFrame
|-------|---|
| Row # | A |
| 1 | 1 |
| 2 | 2 |
| 3 | 3 |
| 4 | 4 |
julia> df[setdiff(names(df), [:C])]
4x1 DataFrame
|-------|---|
| Row # | A |
| 1 | 1 |
| 2 | 2 |
| 3 | 3 |
| 4 | 4 |
тоже будет работать.
Поскольку delete!
выдает предупреждение об устаревании, предлагающее использовать select!
:
julia> d = DataFrame(a=1:3, b=4:6)
3×2 DataFrame
│ Row │ a │ b │
│ │ Int64 │ Int64 │
├─────┼───────┼───────┤
│ 1 │ 1 │ 4 │
│ 2 │ 2 │ 5 │
│ 3 │ 3 │ 6 │
julia> select!(d, Not(:a))
3×1 DataFrame
│ Row │ b │
│ │ Int64 │
├─────┼───────┤
│ 1 │ 4 │
│ 2 │ 5 │
│ 3 │ 6 │
Начиная с Julia 1.0, вы захотите использовать deletecols!
:
https://juliadata.github.io/DataFrames.jl/stable/lib/functions.html!
julia> d = DataFrame(a=1:3, b=4:6)
3×2 DataFrame
│ Row │ a │ b │
│ │ Int64 │ Int64 │
├─────┼───────┼───────┤
│ 1 │ 1 │ 4 │
│ 2 │ 2 │ 5 │
│ 3 │ 3 │ 6 │
julia> deletecols!(d, 1)
3×1 DataFrame
│ Row │ b │
│ │ Int64 │
├─────┼───────┤
│ 1 │ 4 │
│ 2 │ 5 │
│ 3 │ 6 │