Задание не выполнено на Cloud ML после успешного завершения 1000

Я прошел этот урок по cloudML по данным переписи: cloud.google.com/ml-engine/docs/how-tos/getting-started-training-prediction, в котором задание было успешным. Тем не менее, когда я прохожу этот учебник по данным об цветочных изображениях: https://cloud.google.com/blog/big-data/2016/12/how-to-classify-images-with-tensorflow-using-google-cloud-machine-learning-and-cloud-dataflow моя учебная задача кажется успешной на основе выполнения 1000 шагов из журнала. Тем не менее, после завершения из этого снимка журналов StackDriver, он говорит, что задание не удалось. Я попытался использовать ту же структуру, заменив аргументы командной строки из пошагового руководства по переписи, удалил и заново создал пользовательский аргумент JOB_ID и --output_path, использовал уровень шкалы STANDARD_1, но безрезультатно. Буду признателен за любую помощь, которую я могу получить от сообщества. Спасибо!

Ниже приведены ошибки, которые вы можете увидеть в конце снимка журналов:

* {textPayload: "Мастер реплики 0 завершил работу с ненулевым состоянием 1. Причина прекращения: Ошибка. Трассировка (последний вызов был последним): файл"/usr/lib/python2.7/runpy.py", строка 162, в файле _run_module_as_main "__main__", fname, loader, pkg_name) Файл "/usr/lib/python2.7/runpy.py", строка 72, в исполняемом коде _run_code в файле run_globals "/root/.local/lib/python2.7/site-packages/trainer/task.py", строка 542, в файле tf.app.run()"/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", строка 44, в прогоне _sys.exit(main(_sys.argv[:1] + flags_passthrough)) Файл" /root/.local/lib/python2.7/site-packages/trainer/task.py ", строка 305, в главном прогоне (модель, argv) Файл "/root/.local/lib/python2.7/site-packages/trainer/task.py", строка 436, в диспетчере прогона (аргументы, модель, кластер, задача) Файл "/root/.local/lib/python2.7/site-packages/trainer/task.py", строка 477, в диспетчере рассылки (аргументы, модель, кластер, задача).run_training() File "/root/.local/lib/python2.7/site-packages/trainer/task.py", строка 241, в r un_training self.eval (session) Файл "/root/.local/lib/python2.7/site-packages/trainer/task.py", строка 283, в eval self.model.format_metric_values ​​(self.evaluator.evaluate())) Файл "/root/.local/lib/python2.7/site-packages/trainer/task.py", строка 95, в файле оценки возврата metric_values ​​"/usr/lib/python2.7/contextlib.py", строка 35, в __exit__ self.gen.throw(тип, значение, трассировка) Файл "/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/supervisor.py", строка 960, в managed_session Файл self.stop(close_summary_writer=close_summary_writer) "/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/supervisor.py", строка 788, в файле stop_grace_period_secs=self._stop_grace_secs) "/ usr / local / lib / python2.7 / dist-packages / tenorflow / python / training /ordinator.py ", строка 386, в файле соединения six.reraise (self._exc_info_to_raise)"/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/queue_runner_impl.py", строка 234, в файле _run sess.run(enqueue_op)" / usr / local / lib / python2.7 / dist-packages / tenorflow/python/client/session.py", строка 767, в run run_metadata_ptr) Файл"/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", строка 965, в _run feed_dict_string, options, run_metadata) Файл" /usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py ", строка 1015, в _do_run target_list, options, run_metadata) Файл "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", строка 1035, в _do_call поднять тип (e)(node_def, op, message)) NotFoundError: Ошибка выполнения HTTP-запроса (код ответа HTTP 404, код ошибки 0, сообщение об ошибке '') при чтении gs://project-166422-ml/User/flowers_User_20170522_121407/preproc/eval [[Node: ReaderReadUpToV2 = ReaderReadUpToV2[_device="/job:localhost/replica:0/task:0/cpu:0"](TFRecordReaderV2, input_producer, ReaderReadUpToV2/num_records)]]] Вызвано op u'ReaderReadUpToV2', определено в: File "/usr/lib/python2.7/runpy.py", строка 162, в _run_module_as_main" __main__ ", fname, loader, pkg_name) Файл "/usr/lib/python2.7/runpy.py", строка 72, в исполняемом коде _run_code в файле run_globals "/root/.local/lib/python2.7/site-packages/trainer /task.py ", строка 542, в файле tf.app.run()"/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", строка 44, в запуске _sys.exit(main(_sys.argv[:1] + flags_passthrough)) Файл "/root/.local/lib/python2.7/site-packages/trainer/task.py", строка 305, в главном запуске (модель, argv) Файл "/root/.local/lib/python2.7/site-packages/trainer/task.py", строка 436, в диспетчерском запуске (аргументы, модель, кластер, задача) Файл "/root/.local /lib/python2.7/site-packages/trainer/task.py ", строка 477, в диспетчере рассылки (аргументы, модель, кластер, задача). Файл" run_training () "/root/.local/lib/python2.7 /site-packages/trainer/task.py ", строка 241, в файле run_training self.eval(session) Файл" /root/.local/lib/python2.7/site-packages/trainer/task.py ", строка 283, в eval self.model.format_metric_values ​​(self.evaluator.evaluate())) Файл "/root/.local/lib/python2.7/site-packa ges / trainer / task.py ", строка 57, в файле self.eval_batch_size для оценки) Файл"/root/.local/lib/python2.7/site-packages/trainer/model.py", строка 310, в build_eval_graph возвращает self Файл.build_graph(data_paths, batch_size, GraphMod.EVALUATE) "/root/.local/lib/python2.7/site-packages/trainer/model.py", строка 231, в build_graph num_epochs= Нет, если is_training, еще 2) Файл "/root/.local/lib/python2.7/site-packages/trainer/util.py", строка 52, в файле read_examples filename_queue, batch_size) /usr/local/lib/python2.7/dist-packages/ tenorflow/python/ops/io_ops.py", строка 226, в read_up_to name=name) Файл"/usr/local/lib/python2.7/dist-packages/tensorflow/python/ops/gen_io_ops.py", строка 380, в _reader_read_up_to_v2 num_records=num_records, name=name) Файл "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/op_def_library.py", строка 763, в файле apply_op op_def=op_def) /usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py", строка 2327, в create_op original_op = self._d efault_original_op, op_def = op_def) Файл "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py", строка 1226, в __init__ self._traceback = _extract_stack() NotFoundError (см. выше для трассировки): Ошибка выполнения HTTP-запроса (код ответа HTTP 404, код ошибки 0, сообщение об ошибке '') при чтении gs: // project-166422-ml / User / flowers_User_20170522_121407 / preproc / eval [[Node: ReaderReadUpToV2 = ReaderReadUpToV2 [_device = "/ job: localhost / replica: 0 / task: 0 / cpu: 0"] (TFRecordReaderV2, input_producer, ReaderReadUpToV2 / num_records)]] Чтобы узнать больше о причинах выхода из вашей работы, проверьте журналы: console.cloud.google.com/ журналы / зритель? проект =123456234& ресурс =ml_job%2Fjob_id%2Fflowers_User_20170524_145125&advancedFilter=resource.type%3D%22ml_job%22%0Aresource.labels.job_id%3D%22flowers_User_20170524_145125%22"

1 ответ

Решение

Ошибка указывает на 404 не найден при попытке прочитать

gs://project-166422-ml/User/flowers_User_20170522_121407/preproc/eval

Этот файл существует?

На основании названия я предполагаю, что это оценочные данные. Так что я предполагаю, что вы выполняете оценку только каждые 1000 шагов, поэтому 1000 шагов успешно завершены. Затем он пытается выполнить оценку, и это не удается, потому что данные не существуют.