Hadoop NameNode в HA аварийно завершает работу каждый раз после большого количества отложенных ошибочных блоков
Я получаю много -
2018-02-13 03: 16: 50,843 ИНФОРМАЦИЯ org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: Повторное сканирование отложенных ошибочных блоков завершено за 56 мсек. Осталось 8749610 блоков. 1 блок перемещается.
и тогда я получаю дамп потока -
2018-02-13 03:16:44,732 ИНФОРМАЦИЯ org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: Повторное сканирование отложенных ошибочных блоков завершено за 47 мсек. Осталось 8749611 блоков. 0 блоков удалены. 2018-02-13 03:16:47,787 ИНФОРМАЦИЯ org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: Повторное сканирование отложенных ошибочных блоков завершено за 54 мсек. Осталось 8749611 блоков. 0 блоков удалены. 2018-02-13 03:16:50,843 ИНФОРМАЦИЯ org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: Повторное сканирование отложенных ошибочных блоков завершено за 56 мсек. Осталось 8749610 блоков. 1 блок удален. 2018-02-13 03:16:51,512 ИНФОРМАЦИЯ org.apache.hadoop.http.HttpServer2: Дамп потока процесса: jsp запросил 232 активных потока Поток 1143 (802274748@qtp-1636050357-2): Состояние: RUNNABLE Количество заблокированных: 10 emoved, 2018-02-13 03:16:44,732 ИНФОРМАЦИЯ org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: Повторное сканирование отложенных ошибочных блоков завершено за 47 мсек. Осталось 8749611 блоков. 0 блоков перемещены. 2018-02-13 03:16:47,787 ИНФОРМАЦИЯ org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: Повторное сканирование отложенных ошибочных блоков завершено за 54 мсек. Осталось 8749611 блоков. 0 блоков перемещены. 2018-02-13 03:16:50,843 ИНФОРМАЦИЯ org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: Повторное сканирование отложенных ошибочных блоков завершено за 56 мсек. Осталось 8749610 блоков. 1 блок перемещается. 2018-02-13 03:16:51,512 ИНФОРМАЦИЯ org.apache.hadoop.http.HttpServer2: Дамп потока процесса: jsp запросил 232 активных потока Поток 1143 (802274748@qtp-1636050357-2): Состояние: RUNNABLE Количество заблокированных: 10 Ожидание количество: 10 Стек: sun.management.ThreadImpl.getThreadInfo1(собственный метод) sun.management.ThreadImpl.getThreadInfo(ThreadImpl.java:178) sun.management.ThreadImpl.getThreadInfo(ThreadImpl.java:139) org.apache.hadoop.util.ReflectionUtils.printThreadInfo(ReflectionUtils.java:165) org.apache.hadoop.util.ReflectionUtils.logThreadInfo(ReflectionUtils.java:219) org.apache.hadoop.http.HttpServer2$StackServlet.doGer2.p64.jt64: Ht javax.servlet.http.HttpServlet.service(HttpServlet.java:707) javax.servlet.http.HttpServlet.service(HttpServlet.java:820) org.mortbay.jetty.servlet.ServletHolder.Herder.Holder.5 org.mortbay.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1221) org.apache.hadoop.security.AuthenticationWithProxyUserFilter.doFilter(AuthenticationWithProxyUserFilter.java:96) org.apache.hadoop.security.authentication.server.AuthenticationFilter.doFilter(AuthenticationFilter.java:574) org.mortbay.jetty.servlet.ServletHandler$CachedChain.doFil12: Serg.jerg.apache.hadoop.http.HttpServer2$QuotingInputFilter.doFilter(HttpServer2.java:1296) org.mortbay.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1212) orgo.doter.achef NoCacheFilter.java:45) org.mortbay.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1212) org.apache.hadoop.http.NoCacheFilter.doFilter(NoCacheFilter.jetb.45): servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1212) org.mortbay.jetty.servlet.ServletHandler.handle(ServletHandler.java:399) Поток 1126 (Соединение RMI TCP (56)-127.0.0.1): Состояние: RU
Количество заблокированных: 0 Число ожидающих: 1 Стек: java.net.SocketInputStream.socketRead0(собственный метод) java.net.SocketInputStream.socketRead(SocketInputStream.java:116) java.net.SocketInputStream.read(SocketInputStream.java:170) java.net.SocketInputStream.read(SocketInputStream.java:141) java.io.BufferedInputStream.fill(BufferedInputStream.java:246) java.io.BufferedInputStream.read(BufferedInputStream.java:265) java.io.FilterInputStreamStread (фильтр).java:83) sun.rmi.transport.tcp.TCPTransport.handleMessages(TCPTransport.java:550) sun.rmi.transport.tcp.TCPTransport$ConnectionHandler.run0(TCPTransport.java:826) sun.rmi.transport.tcp.TCPTransport$ConnectionHandler.lambda$run$0(TCPTransport.java:683) sun.rmi.transport.tcp.TCPTransport$ConnectionHandler$$Lambda$10/626277472.run(неизвестный источник) java.security.AccessController.doPrivileged Native () sun.rmi.transport.tcp.TCPTransport$ConnectionHandler.run(TCPTransport.java:682) java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) java.lang.Thread.run(Thread.java:745) Поток 1054 (Очиститель корзины): Состояние: TIMED_WAITING Заблокированный счетчик: 0 Число ожидающих: 1 Стек: java.lang.Thread.sleep(собственный метод) org.apache.hadoop.fs.TrashPolicyDefault$Emptier.run(TrashPolicyDefault.java:242) java.lang.Thread.run(Thread.java:745) Поток 1053 (Поток-914): Состояние: RUNNABLE Число заблокированных: 0 Число ожидающих: 0 Стек: org.apache.hadoop.net.unix.DomainSocketWatcher.doPoll0(собственный метод) org.apache.hadoop.net.unix.DomainSocketWatcher.access$900(DomainSocketWatcher.java:52) org.apache.hadoop.net.unix.DomainSocketWatcher$2.run(DomainSocketWatcher.java:509) java.lang.Thread.run(Thread.java:745) Поток 1052 (org.apache.hadoop.fs.FileSystem$Statistics$StatisticsDataReferenceCleaner): Состояние: WAITING Количество заблокированных: 0 Число ожидающих: 1 Ожидание java.lang.ref.ReferenceQueue$Lock@416fed41 Стек: java.lang.Object.wait(Native Метод) java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:143) java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:164)
Один и тот же набор событий происходит как на узлах NameNode в нашей установке HA, так и на сбоях NameService. Могут ли люди помочь мне понять, что происходит?