JTidy HTML в XHTML не обрабатывает содержимое файла
Я пытаюсь проанализировать HTML-файл, используя JTidy, но, похоже, он игнорирует содержимое файла в выходных данных, хотя в выходном журнале показано, как JTidy просматривает содержимое файла.
public static void Main(String args[]) throws FileNotFoundException, UnsupportedEncodingException {
File file = new File("C:\folder\file.html");
InputStream in = inputStream(file);
OutputStream out = null;
Document doc = cleanData(in, out);
}
public static Document cleanData(InputStream in, OutputStream out) throws UnsupportedEncodingException {
Tidy tidy = new Tidy();
tidy.setXHTML(true);
tidy.setQuiet(true);
tidy.setShowWarnings(false);
tidy.setForceOutput(true);
tidy.parseDOM(in, out);
Document dom = tidy.parseDOM(in, out);
return dom;
}
public static InputStream inputStream(File file) throws FileNotFoundException {
FileInputStream fis = new FileInputStream(file);
return fis;
}
но это только вывод
<?xml version="1.0" encoding="UTF-8" standalone="no"?><html xmlns=""><head><meta content="HTML Tidy for Java (vers. 2009-12-01), see jtidy.sourceforge.net" name="generator"/><title/></head><body/></html>
Кто-нибудь знает, что я делаю не так?