Как использовать категориальные метки данных при частичной маркировке (полууправляемый UMAP)?
Я действительно новичок в науке о данных в целом, в настоящее время я пробую частично контролируемое обучение с использованием UMAP для моих данных о потреблении энергии, поскольку я хочу классифицировать, какие устройства включаются в определенный интервал времени. Набор данных выглядит так:
| time | value | label | description |
------------------------------------------------------
| 1582761600 | 4628.8 | 1 | 2 ACs, 4 computers |
| 1582761601 | 4624.98 | 2 | 1 AC, 2 computers |
| 1582761602 | 4624.98 | | |
Обратите внимание, что не все показания имеют метки и описания. Я уже читал документацию по полу-контролируемому обучению с использованием UMAP по адресу https://umap-learn.readthedocs.io/en/latest/supervised.html, проблема в том, что они использовали набор данных fashion-mnist (https://github.com/zalandoresearch/fashion-mnist), и его формат набора данных отличается от того, что у меня есть сейчас. Возьмем, к примеру, этот фрагмент кода:
mndata = MNIST('fashion-mnist/data/fashion')
train, train_labels = mndata.load_training()
test, test_labels = mndata.load_testing()
data = np.array(np.vstack([train, test]), dtype=np.float64) / 255.0
target = np.hstack([train_labels, test_labels])
classes = [
'T-shirt/top',
'Trouser',
'Pullover',
'Dress',
'Coat',
'Sandal',
'Shirt',
'Sneaker',
'Bag',
'Ankle boot']
Я попытался найти подробное объяснение того, что означает каждая часть кода, но безрезультатно. До сих пор я мог разделить набор данных для обучения и тестирования с соотношением 80-20, но кроме этого, я не смог найти ни одного учебника, в котором люди делали бы это с простым файлом.csv. У меня вопрос, как мне использовать свои метки данных, чтобы я мог классифицировать кластеры, которые я уже смог построить с помощью UMAP. Спасибо огромное! Я буду более чем счастлив скорректировать этот пост, если что-то неясно.