Privoxy経由でソーシャルパーツを除去してサイトを丸ごと保存 特集その4

サイトを丸ごと保存するとき、広告などの不要な部分まで保存してしまうと、ダウンロードに余計な時間がかかってしまうし、閲覧時に貴重な表示面積を専有されてしまう。

除外URLなどを指定することで、ある程度は削除できるが、設定が面倒くさい。

手軽に広告を除去したければ、プロキシサーバ型の広告除去ツールを利用するといい。ダウンロードツールとサーバの通信を仲介し、HTML中の広告っぽい部分を除去してくれるぞ。オススメの広告除去プロキシは「Privoxy」だ。現在でも更新が続けられており、初期状態でも最近の広告への対応度が高くなっている。

local_401Privoxyをインストールし起動したら、メニューの「Options」→「Edit Main Configuration」から設定ファイルを開こう。

local_402「enable-edit-actions」という行を探し、後ろの数字を「1」に書き換えよう。一旦Privoxyを終了してから、設定ファイルを上書き保存し、Privoxyを再起動すれば、変更が反映される。

local_403ブラウザのプロキシ設定で、アドレス「localhost」、ポート「8118」を指定し、Privoxy経由でアクセスを行なうように設定する。保存したいページにアクセスして、ブロックを漏れている広告や不要コンテンツのURLを調べておこう。

local_404Privoxyにブロック対象を追加するには、アドレスバーに「p.p」と入力して、PrivoxyのWebベース設定画面に進もう。

local_405「View & change the current configuration」をクリックして、設定ファイルの一覧に進んだら、「.\user.action」の行の「Edit」をクリック。

local_406アクション設定画面で、「+block」となっているセクションを探し、「URL patterns:」の下の「Add」をクリックしよう。

local_407入力欄にブロックしたいドメインなどを指定すると。ドメイン名の最初を「.」にすると、すべてのサブドメインがブロック対象になるぞ。

local_408最後に、「Actions」の下の「Edit」をクリックすると表示される画面で、「handle-as-empty-document」の行の一番左の緑の列のラジオボタンにチェックし、ページ最上部の「submit」を押して変更を反映させれば、設定完了だ。

local_409巡集でPrivoxyを使うには、取得設定の「HTTP」のページで「Proxyを使う」にチェックを入れ、アドレス「localhost」ポート「8118」を設定する。

local_410wgetでProvoxyを経由させるには、オプションに「-e HTTP_PROXY=localhost:8080」を加えよう。

local_411「.twitter.com」や「.facebook.com」をブロックするように設定したPrivoxy経由で保存させたところ、ソーシャルサイトのブログパーツなどが除去され、ページが軽量化されたぞ。

Privoxy
巡集


関連記事

2011年07月15日17時52分 公開 | カテゴリー: ネット情報活用 | キーワード: | Short URL
このエントリーをはてなブックマークに追加

最新記事