Html Agility Pack

取り込み方
DocumentNode.SelectNodes
DocumentNode.SelectSingleNode
Xpathの書き方
- 「特定タグの取り込み」
- 全体のつながりを狙った取り込み
トラブルシューティング

どうも断片的な記事しかないみたいなので、かき集めたネタをまとめておくわね。

取り込み方†

ふたつの書き方まで覚えてるわ。

DocumentNode.SelectNodes†

string source = "(HTMLソース)";
string xpath = "xpathコード";
string r = "";
HtmlAgilityPack.HtmlDocument html = new HtmlAgilityPack.HtmlDocument();
html.LoadHtml(source);
try
{
  var articles = html.DocumentNode.SelectNodes(@xpath)
    .Select(a => new
    {
      Data = a.InnerText
    });
  foreach (var a in articles)
  {
    string kg = "\r\n";
    string x1 = a.Data + kg;
    r += x1;
  }

うちでよく使う方法ね。対象のブツが一つでも複数あっても処理次第だから。

↑

DocumentNode.SelectSingleNode†

こちらは、単発のデータでゲットするみたい。たとえば。

HtmlNode doc = html.DocumentNode.SelectSingleNode(@"//title");
Console.WriteLine(doc.InnerText);

タイトルを探し出して取り込む。最初からひとつとわかってる場合は便利よね。

↑

Xpathの書き方†

ついでにこっちも。今まで見たパターンね。

↑

「特定タグの取り込み」†

//a

ページ内部にある、全ての aタグを探すの。

ただ、これだけだと使いにくいのよね。たとえば、こんな感じかしら。

var articles = html.DocumentNode.SelectNodes(@xpath)
   .Select(a => new
    {
     Html = a.InnerText,
     Link = a.Attributes["href"].Value.Trim()
    });

foreach (var a in articles)
{
  string kg = "\r\n";
  string x1 = a.Html + "(" + a.Link + ")" + kg;
  r += x1;
}

Attributesの意味は属性が近いのかしら。HTMLのAタグにとつて囲い込んだテキストが値であって、リンクの書かれた href は属性情報という事ね。

ちなみに、class=やid=のついた a タグだけ取り込むなら、こう。