Поток Запись между двумя тегами HTML
Если в этом примере я сначала перебираю каталог файлов, чтобы получить все файлы, которые еще не были переименованы, я делаю это, идентифицируя файлы с текущим годом на нем (потому что он создается с отметкой времени), как только это В завершение он извлекает эти файлы во временный каталог, откуда я хочу прочитать страницу индекса в файлах и записать ее в текстовый файл, чтобы затем я мог переименовать предыдущий извлеченный zip-файл на основе информации, которую имеет индекс. Я попал в ловушку, потому что не могу придумать достаточно точную логику, чтобы выделить часть HTML, которую я хочу извлечь. Что я знаю, так это 1. Информация расположена между второй парой тегов и первыми тремя словами после тега "Запись людей". Любая помощь в выделении и написании только этого тега будет принята с благодарностью.
-Метод, который я уже пробовал, заключался в том, чтобы полностью удалить все HTML, но я обнаружил, что это противоречиво и громоздко
Option Explicit On
Option Strict Off
Imports System
Imports System.Text
Imports System.IO
Imports System.Xml
Imports System.Diagnostics
Imports System.IO.Compression
Модуль Modulel
Sub Main()
Dim year As String
year = Date.Today.Year
Dim sc As New Shell32.Shell()
'Dim EFMD As String() = Directory.GetFiles("C:\Users\Pepper\Desktop\In")
Dim di As DirectoryInfo = New DirectoryInfo("C:\Users\Pepper\Desktop\In")
For Each fi In di.GetFiles("*" + year + "*")
'Dim startPath As String = "c:\example\start"
Dim zipPath As String = "C:\Users\Pepper\Desktop\In\" + fi.ToString
Dim extractPath As String = "C:\Users\Pepper\Desktop\Out\" + fi.ToString + "\"
ZipFile.ExtractToDirectory(zipPath, extractPath)
Console.WriteLine(fi)
Next
Console.WriteLine()
Dim di_t As DirectoryInfo = New DirectoryInfo("C:\Users\Pepper\Desktop\Out")
For Each fi In di_t.GetFiles("*" + year + "*")
Dim g As String = "C:\Users\Pepper\Desktop\OUT\" + fi.ToString + "\INDEX.HTM"
Dim h As String = "C:\Users\Pepper\Desktop\OUT\" + fi.ToString + "\INDEX" + fi.ToString + ".TXT"
Dim sw As StreamWriter
Dim sr As StreamReader = New StreamReader(g)
sw = New StreamWriter(h)
Dim line As String
Do
line = sr.ReadLine
sw.WriteLine(line)
Loop Until line.Trim = 'need logic here
sw.WriteLine(line)
sr.Close()
Next
End Sub
End Module 'Разархивируйте файл, подтверждающий личность человека, после проверки переименуйте исходный файл с именем и идентификатором человека. "Вернитесь и удалите извлеченные файлы, поместите файлы во временную папку". Чтение / запись файла, пока мы не получим имя человека, поэтому мы можем использовать его для переименования
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" " "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:xsi="http://www.w3.org/2001/XMLSchema- instance" xmlns:voc="urn:hl7-org:v3/voc" xmlns:n2="urn:hl7-org:v3/meta/voc" xmlns:n1="urn:hl7-org:v3">
<head>
<title>Person Identification Sheet</title>
<style type="text/css">
body
{
font-family: Arial, Helvetica, sans-serif;
font-size: 12px;
color: black;
}
td
{
font-size: 12px;
}
h2
{
font-size: 14px;
}
.dHeader
{
background-color: #FFFFFF;
}
.dFooter
{
background-color: #e4e7f1;
}
.dSectionTitle
{
font-weight: bold;
font-size: 14px;
}
.dTable
{
border: 0px #ffffff solid;
border-collapse: collapse;
}
.dTableHeading
{
font-weight: bold;
font-size: 12px;
text-align: left;
}
.dTableHeadingCell
{
padding-right: 20px;
}
.dTableRow0
{
background-color: #f6f6f6;
}
.dTableRow1
{
}
.dTableCell
{
padding-right: 20px;
}
.pHeader
{
background-color: #2f3c6e;
}
.pHeaderLabel
{
font-weight: normal;
color: white;
}
.pHeaderValue
{
font-weight: bold;
color: white;
}
.pHeaderName
{
font-size: 22px;
font-weight: bold;
color: white;
}
</style>
</head>
<body>
<h2> Person record for Jon D. Doe ( PID: 2813308004 ) </h2>
<b> Gender: </b>Male<b> DOB: </b>June 10, 2011<br />