转:privoxy 简明教程


我估计八成人第一遍看 Privoxy 手册,只一头雾水。

我此前写过两篇相关教程,介绍 Privoxy 中屏蔽网页广告、视频广告的用法,较为具体。这里概括性地写一篇简明教程。所谓「站得高,看得远」,一旦对 Privoxy 整体结构有把握,自然胸有成竹,做得到有的放矢地查阅手册,而不是一头栽进茫茫的配置项中。

Privoxy 用途

Privoxy 是一个代理软件,代理 – 简单说,就是进出你电脑的流量的中介。借由它,我们可以控制出去的请求、返回的响应。不必要的请求 – 比如视频广告的地址、图片广告的地址,我们可以直接 block 掉;不必要的响应内容 – 比如页面中的文字广告,我们可以借由 filter 过滤掉,不让其显示。

当然,上面只是 Privoxy 最常见、最普通的用法,Privoxy 还有其它用法,这里且按下。

Privoxy 安装

Privoxy 支持的平台非常多:

Windows 95 and later versions (98, ME, 2000, XP, Vista, Windows 7 etc.), GNU/Linux (RedHat, SuSE, Debian, Fedora, Gentoo, Slackware and others), Mac OS X (10.4 and upwards on PPC and Intel processors), OS/2, Haiku, DragonFly, FreeBSD, NetBSD, OpenBSD, Solaris, and various other flavors of Unix.

Windows 平台的安装自不用说,下载一个 exe 文件一路点击下一步;Linux 平台多数可以通过仓库安装。

比如 Ubuntu:

sudo apt-get install privoxy

又比如 openSUSE:

sudo zypper install privoxy

一般也建议使用仓库安装。

或者你实在愿意折腾,那就下载源代码自己编译安装。

启动 Privoxy

安装完 Privoxy 后,需要启动它,因为各平台下的各个系统情况不一,这里就不一一介绍,请看手册说明

openSUSE 下按 Alt + F1 搜索并打开 Service Manager,查找 privoxy 项,启用并启动它,Privoxy 就会以系统服务的形态运行。

配置浏览器

大部分时候,我们可能只需要浏览器走 Privoxy 代理,则打开浏览器的代理设置,将 HTTP 与 SSL 代理设置为 127.0.0.1,端口为 8118。

如果想省事,也可以配置系统代理。

配置完浏览器后,在浏览器中打开 http://p.p 网址,看是否显示如下内容:

This is Privoxy 3.0.21 on unknown (127.0.0.1), port 8118, enabled

如果有,说明 Privoxy 正常运行且浏览器配置正确。

设置 Privoxy

以上准备就绪后,可以开始定制我们的 Privoxy 了。

一切从 config 文件说起。

config 文件在各种系统下位置、名称可能并不一样,比如 Windows 系统下,它其实叫 config.txt,在 openSUSE 系统下,它所在的目录为 /etc/privoxy,这个目录是个软链接,指向 /var/lib/privoxy/etc

但通常,我们并不需要修改 config 文件,这里且让它默认着。

再来介绍两类文件:

  1. action 文件
    1. match-all.action
    2. default.action
    3. user.action
  2. filter 文件
    1. default.filter
    2. user.filter

match-all.action、default.action、default.filter 这几个文件,建议不要做修改,因为 Privoxy 升级时会覆盖掉。所以把我们的配置内容写到 user.action 及 user.filter 中 – 这也是为什么两个文件叫 user.* 的缘故。

action 文件

action 文件定义 Privoxy 的动作,比如 {+block}

{+block{干掉陈三的 blog}}
.zfanw.com

这一句,把我的网址挡掉,凡是 zfanw.com 的请求,均会返回 403 – Privoxy 直接返回一个被 blocked 的提示页面,内容大概如下:

Your request for http://www.zfanw.com/blog/ was blocked. Block reason: .zfanw.com

分析下代码的意义:

  1. 第一行,{+block} 是一个指令,block后的 {} 写的是要 block 的原因,不写也可以,作用类似于注释。
  2. 第二行, .zfanw.com,这是一个上述指令要应用的网址,分两个部分,一个 domain,一个 path,domain 部分支持部分通配符,比如 *?[0-9][a-z];path 部分是指第一个 / 后的部分网址,支持 POSIX 1003.2 正则表达式,比 domain 部分灵活。具体见手册

filter 文件

filter 文件定义过滤响应的规则,比如:

FILTER: blockBaiduAd 去除百度推广广告
s|</head>|<style type=text/css>\#content_left>table,[id*='00'],\#ec_im_container,\#ec_im_container+div,.ad-block,.EC_zwd_table{display: none !important;}</style></head>|g
s|</body><script.*</script></html>|</body></html>|g

第一行中,大写的 FILTER 表示定义一个过滤规则,blockBaiduAd 表示规则名称,再后面是说明。

第二行及第三行,是对返回的页面进行修改。比如你用过 Vi/Vim 或 sed 等工具,应该对 s 这个替换命令很熟悉。简单说,上面的语句就是把页面内的代码作过更换,这样一些文字广告就不在浏览器中显示了。

但是,user.filter 中只是定义过滤的规则,规则的应用,还是要在 action 文件中,所以以上规则写到 user.action 中,如下:

# 清理百度推广广告
{+filter{blockBaiduAd}}
.baidu.com

我想看过 action 文件配置结构的话,就已经知道这一句是什么意思:# 后是一个注释,filter 是指令,要求执行 blockBaiduAd 这条规则,.baidu.com 是应用到的网址。

在整个使用过程中,要多多借助 Privoxy 提供的工具,比如 http://config.privoxy.org/show-url-info,可以查看你定义的规则是否对某一条 URL 生效。

最后,如果已经看明白 Privoxy 的用法,并且打算自定义一些规则,欢迎关注我 Github 上的配置文件库

作者:
时间:
主题:Privoxy

Archives