仕事: 2008年3月アーカイブ

mizzuさん

> DOMでスクレイピングしたいのですが、rubyでいいライブラリないですか?


僕は2nd lifeさんのruby のスクレイピングツールキット scrAPIを参考にこんなコードを書いてたようです。
ちょっと中身忘れてしまいましたが。

RSSをクローリングし、記事データの中からリンク先と画像のパスを取り出してDBに保存しまくる、みたいなソースの一部です。

  # HTMLパース
  require 'scrapi'

  def extract_img_uri(html)
    img_scrapper = Scraper.define do
      process "img[src]", "uris[]"=>"@src"
      result :uris
    end
    return img_scrapper.scrape(html,:parser => :html_parser)
  end
  
  def extract_link_uri(html)
    a_href_scrapper = Scraper.define do
      process "a[href]", "uris[]"=>"@href"
      result :uris
    end
    return a_href_scrapper.scrape(html,:parser => :html_parser)
  end

ねむい。。

このアーカイブについて

このページには、2008年3月以降に書かれたブログ記事のうち仕事カテゴリに属しているものが含まれています。

前のアーカイブは仕事: 2007年4月です。

次のアーカイブは仕事: 2008年6月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。