[php]スクレイピングならHTMLScraping→SimpleXML→xpath

カテゴリ: php / author: uechoco / 2009年01月20日 16:11:20
この記事を読む時間:133くらい

野暮用でphpのスクレイピングについていろいろと調べて、いくつかライブラリを見つけました。

この中で、個人的に気に行ったのはHTMLScrapingです。このライブラリの手順は以下の通りです。

  1. HTTP_RequestでHTML文書を取得します。
  2. サーバにTidy拡張が導入済みならTidy関数でHTMLをXMLに変換(修正)します。導入されていなければHTMLParserという同じ作者が作ったHTMLをXMLに整形するライブラリを用いてXML化します。
  3. XML化した文書をSimpleXMLとして出力します。
  4. お好みでCache_Liteに保存できます。

HTMLScrapingライブラリを使えば、サーバにTidyが入っているかどうかにかかわらず、HTML文書をSimpleXMLオブジェクトに変換することができます。あとは、SimpleXMLでxpathでも使えばいい感じにスクレイピングできるのではないでしょうか。とか言ってる私は、さっきxpathを初めて使いましたが。。。

rhacoのSimpleTagも気にはなりましたが、今回はちょっと急ぎだったのでHTMLScrapingに逃げました。おかげで手作業を自動化することができました。ミニツールはたくさん持って置いて損はないですね。


コメントはまだありません »

コメントはまだありません。

この投稿へのコメントの RSS フィード。 TrackBack URI

コメントする

Copyright © 2012 うえちょこ@ぼろぐ. WP Theme created by Web Top.