Как извлечь информацию из HTML в C#?

Question

Как извлечь информацию из HTML в C#?

Может ли кто-нибудь научить меня извлекать информацию из HTML в C#? Я работаю с библиотекой классов WinRT в C#.

Я хочу извлечь основной контент и изображение из http://lifehacker.com/5923026/remains-of-the-day-google-image-search-gets-knowledge-graph-integration.

Вот частичный код сайта,

<html xmlns="http://www.w3.org/1999/xhtml" class="feature_chompcommentimages feature_s3upload feature_switch feature_powwowtest" xmlns:fb="http://www.facebook.com/2008/fbml">
    <head>

  **<title>Remains of the Day: Google Image Search Gets Knowledge Graph Integration</title>**
          <meta http-equiv="content-type" content="text/html; charset=utf-8" />
  <meta http-equiv="content-language" content="en" />
  <meta http-equiv="refresh" content="86400" />
  <meta name="robots" content="all" />
                      <meta name="keywords" content="For What It&#039;s Worth, remainders, in brief, Lifehacker" />
                  <meta property="fb:page_id" content="7568536355" />
                              <meta name="title" content="Remains of the Day: Google Image Search Gets Knowledge Graph Integration" />
      **<meta name="description" content="Google updates Image Search with Knowledge Graph integration, VLC for OS X now supports Retina display, Sparrow updates with Retina display and Mountain Lion support, and Amazon introduces barcode scanning app Flow for iOS. " />**
                      <link rel="image_src" href="http://img.gawkerassets.com/img/17rm77tdcfd31jpg/original.jpg" />
          <meta property="og:image" content="http://img.gawkerassets.com/img/17rm77tdcfd31jpg/xlarge.jpg" />
                  <meta property="og:site_name" content="Lifehacker"/>
      <meta property="og:title" content="Remains of the Day: Google Image Search Gets Knowledge Graph Integration" />
      <meta property="og:description" content="Google updates Image Search with Knowledge Graph integration, VLC for OS X now supports Retina display, Sparrow updates with Retina display and Mountain Lion support, and Amazon introduces barcode scanning app Flow for iOS." />
      <meta property="og:type" content="article" />

Я могу использовать SyndicationFeed.Title.Text (используя Windows.Web.Syndication;) для извлечения "Остатков дня": Google Image Search получает интеграцию графа знаний

пожалуйста, помогите мне извлечь

<meta name="description" content="Google updates Image Search with Knowledge Graph integration, VLC for OS X now supports Retina display, Sparrow updates with Retina display and Mountain Lion support, and Amazon introduces barcode scanning app Flow for iOS. " />*

Мне также нужно извлечь основной контент внутри

<div id="container"> <script type="text/javascript">

<!-- %JUMP:More &raquo;% --><\/p>\n<ul>\n<li><a href=\"http:\/\/insidesearch.blogspot.com\/2012\/07\/find-smarter-more-comprehensive-search.html\">Find Smarter, More Comprehensive Search by Image Results<\/a> <i>Google updated its Image Search with a couple of new features. One being an expanded view that lets searchers see the text around matching images, and the other being added support for Knowledge Graph to image search results, which means Google will attempt to identity any photo that you upload or link to and provide more information about the subject.<\/i> [Google Blog]<\/li>\n<li>

Контент: "Поиск более интеллектуального и расширенного поиска по результатам поиска изображений" "Google обновил свой Поиск изображений с помощью пары новых функций. Одна из них представляет собой расширенное представление, позволяющее поисковикам видеть текст вокруг подходящих изображений, а другой - добавленную поддержку графа знаний. к результатам поиска изображений, что означает, что Google будет пытаться идентифицировать любую фотографию, на которую вы загружаете или ссылаетесь, и предоставлять дополнительную информацию по этому вопросу. [Блог Google]"

Большое спасибо!!

[7/4/12]
извините, ребята, я пытаюсь извлечь текст (в виде строки) и изображение (ссылка или BitmapImage) из HTML, анализируя непосредственно из HTML или анализировать его, сначала преобразовав его в XML.

Я использую HtmlAgilityPack из htmlagilitypack.codeplex.com с руководством от 4guysfromrolla.com/articles/011211-1.aspx. Хотя мне все еще интересно, есть ли лучшее решение для приложения в стиле Metro, поскольку в HtmlAgilityPack отсутствует некоторая поддержка для него. Например, у него есть метод для преобразования html в xml, но WinRT больше не поддерживает XmlTextReader из.NET.

еще раз спасибо

0

c# html syndication syndication-feed

Источник

user1384978 03 июл '12 в 02:39

1 ответ

Решение

Другие вопросы по тегам c# html syndication syndication-feed

user1484750 03 июл '12 в 03:04 2012-07-03 03:04 · Accepted Answer · 2012-07-03 03:04

Джерри, а не анализировать этот XML, я бы порекомендовал вам использовать библиотеку RSS. Посмотрите на RssToolkit.

0

Источник

user1484750 03 июл '12 в 03:04