Httrack неисправен при обнаружении закодированных японских URL

Question

Httrack неисправен при обнаружении закодированных японских URL

У меня обычно нет проблем с Httrack, но на этот раз я обнаружил, что ему не удается захватить страницы с символами не ascii, такими как этот японский URL:

domain.com/ リーク情報の真偽のほ /

(читается браузером следующим образом: domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% до н.э.%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83% до н.э.% E3% 83% A0% E3% 81% A7% E3% 81% AE% E6% 9C% 80% E9% 81% A9% E3% 81% AA-2 /)

Httrack может захватить 50% папок, но все html-файлы внутри них - 0 КБ. Остальные 50% имеют полностью искаженные строки, а также пустые.

Затем я попробовал опции пауков DOS/ISO, но это слишком сильно меняет структуру (и делает все файлы / папки прописными).

Есть ли способ заставить httrack правильно работать с этими URL?

1

url character-encoding httrack

Источник

user1114025 29 сен '16 в 01:47

0 ответов

Другие вопросы по тегам url character-encoding httrack