В скрипте Google Apps, как анализировать HTML, который настолько плохо структурирован, что не проверяет?
Используя скрипт Google Apps, мне нужно собрать некоторые данные с веб-сайта, который имеет очень плохо структурированную информацию. HTML
документ, так XmlService.parse()
не в состоянии разобрать его.
Вот как выглядит "документ", я снял много строк, но сохранил структуру.
<html>
<head>
<link href="css/bootstrap.min.css" rel="stylesheet">
<title> Funny Site </title>
</head>
<body>
<!DOCTYPE html>
<html>
<title> Funny Site</title>
<head>
<meta charset="utf-8">
</head>
<body>
<div class="mainhead">
<div class="leftHead">
</div>
<script>
$(document).ready(function(){
//$( ".overlay" ).show();
});
</script>
<div class="contain">
<div class="maine">
</div>
<div class="maine2">
<div class="footer1">
<div class="footer2">
<div class="data">
<div class="dc">
<div class="smalltxt">Field1</div>
<div class="largetxt">value1</div>
</div>
<div class="dc">
<div class="smalltxt">Field2</div>
<div class="largetxt">value2</div>
</div>
<div class="dc">
<div class="smalltxt">Field3</div>
<div class="largetxt adjFont" id ="someId">value3</div>
</div>
<div class="dc" >
<div class="smalltxt">Field4</div>
<div class="largetxt adjFont">value4</div>
</div>
<div class="dc" style="border:none;">
<div class="smalltxt">Field5</div>
<div class="largetxt">value5</div>
</div>
</div>
</div>
</body>
</html>
Данные, которые я хотел бы получить, находятся в div
с классом data
, value1
через value5
,
Как ты можешь хотя бы схватить data
учебный класс? Единственное, что я могу придумать, это применить регулярные выражения, но есть ли лучший способ, чем это?
1 ответ
Вы можете попробовать реализовать XSLT.
Из википедии:
XSLT (Преобразования расширяемого языка таблиц стилей) - это язык для преобразования документов XML в другие документы XML или другие форматы, такие как HTML для веб-страниц, простой текст или в объекты форматирования XSL.
Вы можете использовать это для удаления или изменения атрибутов, значений или даже элементов, которые вы хотите изменить.
Вы можете проверить учебник и тестеров на печально известном сайте w3schools