Kubernetes распараллелить несколько образцов в каталоге
Я смог получить задание kubernetes и запустить его на AKS (использует образ докера-концентратора для обработки биологического образца и затем загружает вывод в хранилище BLOB-объектов - это делается с помощью команды bash, которую я предоставляю в разделе args моего файла yaml). Тем не менее, у меня есть 20 выборок, и я хотел бы развернуть 20 узлов, чтобы я мог обрабатывать выборки параллельно (по одной выборке на узел). Как отправить каждый образец на другой узел? Параметр "параллелизм" в файле yaml обрабатывает все 20 выборок на каждом из 20 узлов, а это не то, что мне нужно.
Спасибо вам за помощь.
2 ответа
Если вы хотите, чтобы каждый экземпляр задания находился на отдельном узле, вы можете использовать daemonSet, это именно то, что он делает, предоставляя 1 модуль на рабочий узел.
apiVersion: apps/v1
kind: DaemonSet
metadata:
name: fluentd-elasticsearch
namespace: kube-system
labels:
k8s-app: fluentd-logging
spec:
selector:
matchLabels:
name: fluentd-elasticsearch
template:
metadata:
labels:
name: fluentd-elasticsearch
spec:
tolerations:
- key: node-role.kubernetes.io/master
effect: NoSchedule
containers:
- name: fluentd-elasticsearch
image: k8s.gcr.io/fluentd-elasticsearch:1.20
resources:
limits:
memory: 200Mi
requests:
cpu: 100m
memory: 200Mi
volumeMounts:
- name: varlog
mountPath: /var/log
- name: varlibdockercontainers
mountPath: /var/lib/docker/containers
readOnly: true
terminationGracePeriodSeconds: 30
volumes:
- name: varlog
hostPath:
path: /var/log
- name: varlibdockercontainers
hostPath:
path: /var/lib/docker/containers
https://kubernetes.io/docs/concepts/workloads/controllers/daemonset/
Еще один способ сделать это - использование антиаффинности pod:
affinity:
podAntiAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: "app"
operator: In
values:
- zk
topologyKey: "kubernetes.io/hostname"
Поле requiredDuringSchedulingIgnoredDuringExecution сообщает планировщику Kubernetes, что он никогда не должен совместно размещать два модуля, которые имеют метку приложения как zk в домене, определенном посредством topologyKey. TopologyKey kubernetes.io/hostname указывает, что домен является отдельным узлом. Используя различные правила, метки и селекторы, вы можете расширить эту технику, чтобы распространить свой ансамбль на физические, сетевые и доменные зоны сбоя.
Как / где хранятся образцы? Вы можете загрузить их (или указатель на фактический образец) в очередь, подобную Kafka, и позволить приложению получить каждый образец один раз и загрузить его в большой двоичный объект после вычисления. Затем вы даже можете убедиться, что в случае сбоя вычислений другой модуль подберет его и перезапустит вычисление.