Извлечение изображений из HTML из <div> с помощью Tika
У меня есть следующий файл xhtml, который содержит около 30-40 изображений. Файл генерируется автоматически, и номера изображения изменяются, но содержание {html text}, которое действительно должно быть, не меняется. Я надеялся, что кто-то может указать мне правильное направление.
Я пытаюсь разобрать / найти эти изображения, чтобы переименовать их из image#.png в {html text}.png.
Подстрока HTML:
<div class="s8a6d62e8" style="">Top 10 ARP sources in terms of bits.</div>
<div class="sbeea9846" style="">
<img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_34.Png"></img>
</div>
<div class="s306f0049" style="">Figure 3 - Top Ten ARP MAC Sources</div>
<div class="s12d95b95" style="">
<a name="Top Ten ARP MAC Destinations"><br></a>
</div>
<div class="s1a75bf07" style="">Top Ten ARP MAC Destinations</div>
<div class="s8a6d62e8" style="">Top 10 ARP destinations in terms of bits.</div>
<div class="sbeea9846" style="">
<img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_35.Png"></img>
</div>
<div class="s306f0049" style="">Figure 4 - Top Ten ARP MAC Destinations</div>
<div class="s1a75bf07" style="">ARP MAC Conversations</div>
<div class="s8a6d62e8" style="">Conversation ring with ARP endpoints and conversations.</div>
<div class="sbeea9846" style="">
<img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_36.Png"></img>
</div>
<div class="s306f0049" style="">Figure 5 - ARP MAC Conversations</div>
Я хотел бы получить следующий вывод:
Final Test Report_3.files\Top Ten ARP MAC Sources.Png
Final Test Report_3.files\Top Ten ARP MAC Destinations.Png
Final Test Report_3.files\ARP MAC Conversations.Png
так далее.,