ruby のスクレイピングツールキット scrAPI

user-pic
0
mizzuさん

> DOMでスクレイピングしたいのですが、rubyでいいライブラリないですか?


僕は2nd lifeさんのruby のスクレイピングツールキット scrAPIを参考にこんなコードを書いてたようです。
ちょっと中身忘れてしまいましたが。

RSSをクローリングし、記事データの中からリンク先と画像のパスを取り出してDBに保存しまくる、みたいなソースの一部です。

  # HTMLパース
  require 'scrapi'

  def extract_img_uri(html)
    img_scrapper = Scraper.define do
      process "img[src]", "uris[]"=>"@src"
      result :uris
    end
    return img_scrapper.scrape(html,:parser => :html_parser)
  end
  
  def extract_link_uri(html)
    a_href_scrapper = Scraper.define do
      process "a[href]", "uris[]"=>"@href"
      result :uris
    end
    return a_href_scrapper.scrape(html,:parser => :html_parser)
  end

ねむい。。

トラックバック(0)

トラックバックURL: http://blog.io/mt/mt-tb.cgi/246

コメントする

このブログ記事について

このページは、CHoが2008年3月29日 04:43に書いたブログ記事です。

ひとつ前のブログ記事は「task it - 直感的なタスク管理グループウェア」です。

次のブログ記事は「なんとか崩壊」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。