HTML agility pack - удаление ненужных тегов без удаления контента?

Question

HTML agility pack - удаление ненужных тегов без удаления контента?

Я видел несколько связанных вопросов здесь, но они точно не говорят о той же проблеме, с которой я сталкиваюсь.

Я хочу использовать HTML Agility Pack для удаления ненужных тегов из моего HTML без потери содержимого внутри тегов.

Так, например, в моем сценарии я хотел бы сохранить теги "b","i" а также "u".

И для входа, как:

my paragraph <div>and my div</div> are italic and bold

Полученный HTML должен быть:

my paragraph and my div are italic and bold

Я пытался с помощью HtmlNode"s Remove метод, но он также удаляет мой контент. Какие-либо предложения?

51

c# html-agility-pack

Источник

user553609 08 окт '12 в 18:32

5 ответов

Решение

Как рекурсивно удалить заданный список нежелательных тегов HTML из строки HTML

Я взял ответ @mathias и улучшил его метод расширения, чтобы вы могли предоставить список тегов для исключения в виде List<string> (например {"a","p","hr"}). Я также исправил логику, чтобы она работала рекурсивно правильно:

public static string RemoveUnwantedHtmlTags(this string html, List<string> unwantedTags)
    {
        if (String.IsNullOrEmpty(html))
        {
            return html;
        }

        var document = new HtmlDocument();
        document.LoadHtml(html);

        HtmlNodeCollection tryGetNodes = document.DocumentNode.SelectNodes("./*|./text()");

        if (tryGetNodes == null || !tryGetNodes.Any())
        {
            return html;
        }

        var nodes = new Queue<HtmlNode>(tryGetNodes);

        while (nodes.Count > 0)
        {
            var node = nodes.Dequeue();
            var parentNode = node.ParentNode;

            var childNodes = node.SelectNodes("./*|./text()");

            if (childNodes != null)
            {
                foreach (var child in childNodes)
                {
                    nodes.Enqueue(child);                       
                }
            }

            if (unwantedTags.Any(tag => tag == node.Name))
            {               
                if (childNodes != null)
                {
                    foreach (var child in childNodes)
                    {
                        parentNode.InsertBefore(child, node);
                    }
                }

                parentNode.RemoveChild(node);

            }
        }

        return document.DocumentNode.InnerHtml;
    }

17

Источник

user1649501 03 фев '15 в 12:23

Попробуйте следующее, вы можете найти его немного лучше, чем другие предлагаемые решения:

public static int RemoveNodesButKeepChildren(this HtmlNode rootNode, string xPath)
{
    HtmlNodeCollection nodes = rootNode.SelectNodes(xPath);
    if (nodes == null)
        return 0;
    foreach (HtmlNode node in nodes)
        node.RemoveButKeepChildren();
    return nodes.Count;
}

public static void RemoveButKeepChildren(this HtmlNode node)
{
    foreach (HtmlNode child in node.ChildNodes)
        node.ParentNode.InsertBefore(child, node);
    node.Remove();
}

public static bool TestYourSpecificExample()
{
    string html = "<p>my paragraph <div>and my <b>div</b></div> are <i>italic</i> and <b>bold</b></p>";
    HtmlDocument document = new HtmlDocument();
    document.LoadHtml(html);
    document.DocumentNode.RemoveNodesButKeepChildren("//div");
    document.DocumentNode.RemoveNodesButKeepChildren("//p");
    return document.DocumentNode.InnerHtml == "my paragraph and my <b>div</b> are <i>italic</i> and <b>bold</b>";
}

11

Источник

user740378 23 июл '14 в 14:29

Перед удалением узла, получите его родителя и его InnerTextзатем удалите узел и переназначьте InnerText к родителю.

var parent = node.ParentNode;
var innerText = parent.InnerText;
node.Remove();
parent.AppendChild(doc.CreateTextNode(innerText));

5

Источник

user1583 08 окт '12 в 18:34

Если вы не хотите использовать пакет гибкости Html и все еще хотите удалить нежелательный тег Html, вы можете сделать это, как указано ниже.

public static string RemoveHtmlTags(string strHtml)
    {
        string strText = Regex.Replace(strHtml, "<(.|\n)*?>", String.Empty);
        strText = HttpUtility.HtmlDecode(strText);
        strText = Regex.Replace(strText, @"\s+", " ");
        return strText;
    }

3

Источник

user2318354 04 май '15 в 08:54

Другие вопросы по тегам c# html-agility-pack

user553609 11 окт '12 в 10:00 2012-10-11 10:00 · Accepted Answer · 2012-10-11 10:00

Я написал алгоритм, основанный на предложениях Одеда. Вот. Работает как шарм.

Удаляет все теги, кроме strong, em, u и необработанные текстовые узлы.

internal static string RemoveUnwantedTags(string data)
{
    if(string.IsNullOrEmpty(data)) return string.Empty;

    var document = new HtmlDocument();
    document.LoadHtml(data);

    var acceptableTags = new String[] { "strong", "em", "u"};

    var nodes = new Queue<HtmlNode>(document.DocumentNode.SelectNodes("./*|./text()"));
    while(nodes.Count > 0)
    {
        var node = nodes.Dequeue();
        var parentNode = node.ParentNode;

        if(!acceptableTags.Contains(node.Name) && node.Name != "#text")
        {
            var childNodes = node.SelectNodes("./*|./text()");

            if (childNodes != null)
            {
                foreach (var child in childNodes)
                {
                    nodes.Enqueue(child);
                    parentNode.InsertBefore(child, node);
                }
            }

            parentNode.RemoveChild(node);

        }
    }

    return document.DocumentNode.InnerHtml;
}