しおりの更新チェックを使う

しおりではサイトの更新チェックを行うことができ、チェック方法には以下の3種類があります。

  1. サーバーに日付を知らせて更新があるかどうかをチェックしてもらう(If-Modified-Since)。(サーバーが対応している必要あり)
  2. サーバーの提供する更新日付と最終閲覧日を比較してチェックする(サーバーが正確なファイル更新日を返す必要あり)
  3. ページ内容でチェックする。(しおりの場合は正規表現で、RSSの場合はRSSファイルの内容でチェック)

しおりとして保存するURLとチェックするページのURLは別々に指定できますので、更新履歴ページやRSSファイルでチェックして開く時はトップページを開く、などの使い方ができます。


正規表現

正規表現によるチェックでは、ページのHTMLから改行とタブを除去して正規表現による検索をかけ、ヒットした全てのグルーピング(括弧で囲まれた部分)文字列でMD5のハッシュ値を作成して、その値が異なるか否かで変更の有無をチェックします。
また、大文字小文字を区別しません。
正規表現が入力されていない場合は、ページのHTMLから改行とタブを除去した文字列でMD5のハッシュ値を作成しチェックします。

大抵の場合、
チェックしたい文字列の直前までの文字列(.+)チェックしたい文字列より後ろの文字列
という正規表現で事足りると思います。
”(.+)”の部分がチェック対象となる文字列です。
この時、”チェックしたい文字列の直前までの文字列”と”チェックしたい文字列より後ろの文字列”はそのページ内で複数存在しないようにしなけれうまくチェックできません。

ただ、”チェックしたい文字列より後ろの文字列”がうまく取れない場合は少し複雑な正規表現が必要になります。
例えばWWWCのmetaタグでチェックする場合であれば、
<meta name="wwwc" content="[^"]+">
となります。
詳しくはWebで検索して下さい。