Apache > HTTP Server > 文档 > 版本2.2 > 模块
   致谢 | 本篇译者:金步国(其他作品) | 本页最后更新:2009年6月8日[查看最新版本]

Apache模块 mod_rewrite

说明一个基于一定规则的实时重写URL请求的引擎
状态扩展(E)
模块名rewrite_module
源文件mod_rewrite.c
兼容性仅在 Apache 1.3 及以后的版本中可用

概述

此模块提供了一个基于正则表达式分析器的重写引擎来实时重写URL请求。它支持每个完整规则可以拥有不限数量的子规则以及附加条件规则的灵活而且强大的URL操作机制。此URL操作可以依赖于各种测试,比如服务器变量、环境变量、HTTP头、时间标记,甚至各种格式的用于匹配URL组成部分的查找数据库。

此模块可以操作URL的所有部分(包括路径信息部分),在服务器级的(httpd.conf)和目录级的(.htaccess)配置都有效,还可以生成最终请求字符串。此重写操作的结果可以是内部子处理,也可以是外部请求的转向,甚至还可以是内部代理处理。

但是,所有这些功能和灵活性带来一个问题,那就是复杂性,因此,不要指望一天之内就能看懂整个模块。

更多的讨论、细节、示例,请查看详细的URL重写文档

特殊字符的引用

在Apache 1.3.20中,TestStringSubstitution中的特殊字符可以用前导斜杠(\)来实现转义(即忽略其特殊含义而视之为普通字符)。 比如,Substitution可以用"\$"来包含一个美元符号,以避免mod_rewrite把它视为反向引用。

环境变量

此模块会跟踪两个额外的(非标准)CGI/SSI环境变量,SCRIPT_URLSCRIPT_URI。他们包含了当前资源的逻辑网络视图,而标准CGI/SSI变量SCRIPT_NAMESCRIPT_FILENAME包含的是物理系统视图。

注意:这些变量保持的是其最初被请求时的URI/URL,即在任何重写操作之前的URI/URL。其重要性在于他们是重写操作重写URL到物理路径名的原始依据。

示例

SCRIPT_NAME=/sw/lib/w3s/tree/global/u/rse/.www/index.html
SCRIPT_FILENAME=/u/rse/.www/index.html
SCRIPT_URL=/u/rse/
SCRIPT_URI=http://en1.engelschall.com/u/rse/

实用方案

我们提供了URL重写指南高级URL重写指南文档,列举了许多基于URL的问题的实用方案,其中你可以找到真实有用的规则集。

RewriteBase 指令

说明设置目录级重写的基准URL
语法RewriteBase URL-path
默认值参见使用方法
作用域directory, .htaccess
覆盖项FileInfo
状态扩展(E)
模块mod_rewrite

RewriteBase指令显式地设置了目录级重写的基准URL。在下文中,你将看到RewriteRule可以用于目录级的配置文件中(.htaccess)并在局部范围内起作用,即规则实际处理的只是剥离了本地路径前缀的一部分。处理结束后,这个路径会被自动地附着回去。默认值是"RewriteBase physical-directory-path"。

在对一个新的URL进行替换时,此模块必须把这个URL重新注入到服务器处理中。为此,它必须知道其对应的URL前缀或者说URL基准。通常,此前缀就是对应的文件路径。但是,大多数网站URL不是直接对应于其物理文件路径的,因而一般不能做这样的假定! 所以在这种情况下,就必须用RewriteBase指令来指定正确的URL前缀。

如果你的网站服务器URL不是与物理文件路径直接对应的,你必须在每个使用RewriteRule.htaccess文件中使用RewriteBase指令。

例如,目录级配置文件内容如下:

# /abc/def/.htaccess -- /abc/def 目录的配置文件
# 注意:/abc/def 是 /xyz 的物理路径(例如存在一条'Alias /xyz /abc/def'指令)。

RewriteEngine On

# 让服务器知道我们使用的是 /xyz 而不是物理路径 /abc/def
RewriteBase   /xyz

# 重写规则
RewriteRule   ^oldstuff\.html$  newstuff.html

上述例子中,对/xyz/oldstuff.html的请求被正确地重写为对物理文件/abc/def/newstuff.html的请求。

仅供Apache Hacker们参考

以下列出了内部处理的详细步骤:

请求:
  /xyz/oldstuff.html

内部处理过程:
  /xyz/oldstuff.html     -> /abc/def/oldstuff.html  (per-server Alias)
  /abc/def/oldstuff.html -> /abc/def/newstuff.html  (per-dir    RewriteRule)
  /abc/def/newstuff.html -> /xyz/newstuff.html      (per-dir    RewriteBase)
  /xyz/newstuff.html     -> /abc/def/newstuff.html  (per-server Alias)

结果:
  /abc/def/newstuff.html

虽然这个过程看来很繁复,但是由于目录级重写的到来时机已经太晚了,它不得不把这个(重写)请求重新注入到Apache核心中,所以Apache内部确实是这样处理的。但是:它的开销并不象看起来的那样大,因为重新注入完全在Apache服务器内部进行,而且这样的过程在Apache内部也为其他许多操作所使用。所以,你可以充分信任其设计和实现是正确的。

RewriteCond 指令

说明定义重写发生的条件
语法 RewriteCond TestString CondPattern [flags]
作用域server config, virtual host, directory, .htaccess
覆盖项FileInfo
状态扩展(E)
模块mod_rewrite

RewriteCond指令定义了规则生效的条件,即在一个RewriteRule指令之前可以有一个或多个RewriteCond指令。条件之后的重写规则仅在当前URI与Pattern匹配并且满足此处的条件(TestString能够与CondPattern匹配)时才会起作用。

TestString是一个纯文本的字符串,但是还可以包含下列可扩展的成分:

其它注意事项:

  1. SCRIPT_FILENAME和REQUEST_FILENAME包含的值是相同的——即Apache服务器内部的request_rec结构中的filename字段。 第一个就是大家都知道的CGI变量名,而第二个则是REQUEST_URI(request_rec结构中的uri字段)的一个副本。
  2. 特殊形式:%{ENV:variable} ,其中的variable可以是任意环境变量。它是通过查找Apache内部结构或者(如果没找到的话)由Apache服务器进程通过getenv()得到的。
  3. 特殊形式:%{SSL:variable} ,其中的variable可以是一个SSL环境变量的名字,无论mod_ssl模块是否已经加载都可以使用(未加载时为空字符串)。比如:%{SSL:SSL_CIPHER_USEKEYSIZE}将会被替换为128
  4. 特殊形式:%{HTTP:header} ,其中的header可以是任意HTTP MIME头的名称。它总是可以通过查找HTTP请求而得到。比如:%{HTTP:Proxy-Connection}将被替换为Proxy-Connection:HTTP头的值。
  5. 预设形式:%{LA-U:variable}variable的最终值在执行一个内部(基于URL的)子请求后确定。 当需要使用一个目前未知但是会在之后的过程中设置的变量的时候,就可以使用这个方法。

    例如,需要在服务器级配置(httpd.conf文件)中根据REMOTE_USER变量进行重写, 就必须使用%{LA-U:REMOTE_USER}。因为此变量是由URL重写(mod_rewrite)步骤之后的认证步骤设置的。 但是另一方面,因为mod_rewrite是通过API修正步骤来实现目录级(.htaccess文件)配置的, 而认证步骤先于API修正步骤,所以可以用%{REMOTE_USER}

  6. 预设形式:%{LA-F:variable}variable的最终值在执行一个内部(基于文件名的)子请求后确定。 大多数情况下和上述的LA-U是相同的。

CondPattern是条件模式,即一个应用于当前TestString实例的正则表达式。TestString将被首先计算,然后再与CondPattern匹配。

注意:CondPattern是一个perl兼容的正则表达式,但是还有若干增补:

  1. 可以在CondPattern串的开头使用'!'(惊叹号)来指定不匹配
  2. CondPatterns有若干特殊的变种。除了正则表达式的标准用法,还有下列用法:
    • '<CondPattern'(词典顺序的小于)
      CondPattern视为纯字符串,与TestString按词典顺序进行比较。如果TestString小于CondPattern则为真。
    • '>CondPattern'(词典顺序的大于)
      CondPattern视为纯字符串,与TestString按词典顺序进行比较。如果TestString大于CondPattern则为真。
    • '=CondPattern'(词典顺序的等于)
      CondPattern视为纯字符串,与TestString按词典顺序进行比较。如果TestString等于CondPattern(两个字符串逐个字符地完全相等)则为真。如果CondPattern""(两个双引号),则TestString将与空字符串进行比较。
    • '-d'(目录)
      TestString视为一个路径名并测试它是否为一个存在的目录。
    • '-f'(常规文件)
      TestString视为一个路径名并测试它是否为一个存在的常规文件。
    • '-s'(非空的常规文件)
      TestString视为一个路径名并测试它是否为一个存在的、尺寸大于0的常规文件。
    • '-l'(符号连接)
      TestString视为一个路径名并测试它是否为一个存在的符号连接。
    • '-x'(可执行)
      TestString视为一个路径名并测试它是否为一个存在的、具有可执行权限的文件。该权限由操作系统检测。
    • '-F'(对子请求存在的文件)
      检查TestString是否为一个有效的文件,而且可以在服务器当前的访问控制配置下被访问。它使用一个内部子请求来做检查,由于会降低服务器的性能,所以请谨慎使用!
    • '-U'(对子请求存在的URL)
      检查TestString是否为一个有效的URL,而且可以在服务器当前的访问控制配置下被访问。它使用一个内部子请求来做检查,由于会降低服务器的性能,所以请谨慎使用!

    注意

    所有这些测试都可以用惊叹号作前缀('!')以实现测试条件的反转。
  3. 还可以在CondPattern之后追加特殊的标记[flags]作为RewriteCond指令的第三个参数。flags是一个以逗号分隔的以下标记的列表:
    • 'nocase|NC'(忽略大小写)
      它使测试忽略大小写,扩展后的TestStringCondPattern中'A-Z' 和'a-z'是没有区别的。此标记仅用于TestStringCondPattern的比较,而对文件系统和子请求的检查不起作用。
    • 'ornext|OR'(或下一条件)
      它以OR方式组合若干规则的条件,而不是隐含的AND。典型的例子如下:
      RewriteCond %{REMOTE_HOST}  ^host1.*  [OR]
      RewriteCond %{REMOTE_HOST}  ^host2.*  [OR]
      RewriteCond %{REMOTE_HOST}  ^host3.*
      RewriteRule ... 针对这3个主机的规则集 ...
      
      如果不用这个标记,你就必须要书写三次条件/规则对。

举例

如果要按请求头中的"User-Agent:"重写一个站点的主页,可以这样写:

RewriteCond  %{HTTP_USER_AGENT}  ^Mozilla.*
RewriteRule  ^/$                 /homepage.max.html  [L]

RewriteCond  %{HTTP_USER_AGENT}  ^Lynx.*
RewriteRule  ^/$                 /homepage.min.html  [L]

RewriteRule  ^/$                 /homepage.std.html  [L]

解释:如果你使用的浏览器识别标志是'Mozilla',则你将得到内容最大化的主页(含有Frames等等)。如果你使用的是(基于终端的)Lynx,则你得到的是内容最小化的主页(不含table等等)。如果上述条件都不满足(使用的是其他浏览器),则你得到的是一个标准的主页。

RewriteEngine 指令

说明打开或关闭运行时的重写引擎
语法RewriteEngine on|off
默认值RewriteEngine off
作用域server config, virtual host, directory, .htaccess
覆盖项FileInfo
状态扩展(E)
模块mod_rewrite

RewriteEngine指令打开或关闭运行时的重写引擎。如果设置为off,则此模块在运行时不执行任何重写操作, 同时也不更新SCRIPT_URx环境变量。

使用该指令可以使此模块无效,而无须注释所有的RewriteRule指令!

注意:默认情况下,重写配置是不可继承的,也就是必须在每个需要使用重写引擎的虚拟主机中设置一个RewriteEngine on指令。

RewriteLock 指令

说明设置RewriteMap同步所使用的锁文件名
语法RewriteLock file-path
作用域server config
状态扩展(E)
模块mod_rewrite

此指令设置mod_rewrite为了和RewriteMap程序通讯而使用的同步锁文件的名称。 在需要使用重写映射表程序(rewriting map-program)时,它必须是一个本地路径(而不能是一个NFS挂接设备)。对其他类型的重写映射表(rewriting map),则无此要求。

RewriteLog 指令

说明设置重写引擎日志的文件名
语法RewriteLog file-path
作用域server config, virtual host
状态扩展(E)
模块mod_rewrite

RewriteLog指令设置用于记录所有重写操作的日志文件的名称。如果此文件名不以斜杠('/')开头,则它是相对于Server Root的,此指令应该在每个服务器级别的配置中仅仅出现一次。

如果要关闭对重写操作的记录,不推荐将Filename设为/dev/null ,因为,虽然重写引擎不能输出记录了,但仍会在内部建立这个日志文件,这样会使服务器速度降低,而且对管理员毫无益处!要关闭日志,可以删除或注解RewriteLog指令, 或者使用"RewriteLogLevel 0"的设置

安全

参见安全方面的提示文档,其中讲述了为什么如果存放日志的目录对除了启动服务器以外的用户是可写的会带来安全隐患。

示例

RewriteLog "/usr/local/var/apache/logs/rewrite.log"

RewriteLogLevel 指令

说明设置重写日志的详细程度
语法RewriteLogLevel Level
默认值RewriteLogLevel 0
作用域server config, virtual host
状态扩展(E)
模块mod_rewrite

RewriteLogLevel指令设置重写引擎日志的详细程度的级别。0(默认级别)意味着不记录,而9或更大的值意味着记录所有操作。

要关闭重写引擎日志,可以简单地将Level设为0,以关闭所有重写操作的记录。

较高的Level值会使Apache服务器速度急剧下降!大于2的Level值只用于调试目的!

示例

RewriteLogLevel 3

RewriteMap 指令

说明定义用于关键词查找的映射函数
语法RewriteMap MapName MapType:MapSource
作用域server config, virtual host
状态扩展(E)
模块mod_rewrite
兼容性Apache 2.0.41 及以后的版本中可以使用不同的dbm类型

RewriteMap指令定义了一个映射表(Rewriting Map),映射函数将使用该表来查找关键字然后插入/替换字段。此查找操作的源可以是多种类型。

MapName是映射表的名称,指定了一个映射函数,用于重写规则的字符串替换,它可以是下列形式之一:

${MapName:LookupKey}
${MapName:LookupKey|DefaultValue}

如果使用了这样的形式,则会在MapName中查找关键词LookupKey。如果找到了,则被替换成SubstValue; 如果没有找到,则被替换成DefaultValue,如果没有指定DefaultValue,则被替换成空字符串。

例如,你可能定义这样一个RewriteMap

RewriteMap examplemap txt:/path/to/file/map.txt

然后你就可以像下面这样在RewriteRule中使用该映射:

RewriteRule ^/ex/(.*) ${examplemap:$1}

可以使用下列MapTypeMapSource的组合:

RewriteMap指令可以多次出现。对每个映射函数都可以使用一个RewriteMap指令来定义其重写映射表。虽然不能在目录上下文(per-directory context)中定义映射表,但是完全可以在其中使用映射表。

注意

对于纯文本和DBM格式的文件,已经查找过的关键词会被缓存在内核中,直到映射表的mtime改变了或者服务器重启了。这样,你可以把每个请求都会用到的映射函数放在规则中,这是没有问题的,因为外部查找只进行一次。

RewriteOptions 指令

说明为重写引擎设置一些特殊的选项
语法RewriteOptions Options
作用域server config, virtual host, directory, .htaccess
覆盖项FileInfo
状态扩展(E)
模块mod_rewrite
兼容性MaxRedirects在2.1及以后的版本中已经不可用

RewriteOptions指令为当前服务器级和目录级的配置设置一些选项。Option当前仅可以是如下值:

inherit
此值强制当前配置继承其父配置。在虚拟主机级配置中,它意味着主服务器的映射表、条件和规则可以被继承。在目录级配置中,它意味着其父目录的.htaccess中的条件和规则可以被继承。

RewriteRule 指令

说明为重写引擎定义重写规则
语法RewriteRule Pattern Substitution [flags]
作用域server config, virtual host, directory, .htaccess
覆盖项FileInfo
状态扩展(E)
模块mod_rewrite
兼容性cookie-flag在Apache 2.0.40及以后的版本中可用

RewriteRule指令是重写引擎的根本。此指令可以多次使用。每个指令定义一个简单的重写规则。这些规则的定义顺序尤为重要——在运行时,规则是按这个顺序逐一生效的。

Pattern是一个作用于当前URL的perl兼容的正则表达式。"当前URL"是指该规则生效时刻的URL的值。它可能与被请求的URL截然不同,因为其他规则可能在此之前已经发生匹配并对它做了改动。

正则表达式的一些用法示例:

文本
  .           任意一个单字符
  [chars]     字符类: "chars"中的任意一个字符
  [^chars]    字符类: 不在"chars"中的字符
  text1|text2 选择: text1 或 text2

量词
  ?           前面的字符出现 0 或 1 次
  *           前面的字符出现 0 或 N 次(N > 0)
  +           前面的字符出现 1 或 N 次(N > 1)

分组
  (text)      text 组
              (常用于设置一个选择的边界,或用于生成后引用:
               在RewriteRule中可以用 $N 引用第N个分组)


  ^           锚定到行首
  $           锚定到行尾

转义
  \c          对给定的字符c进行转义
              (比如对".[]()"进行转义,等等)

更多有关正则表达式的资料请参见perl正则表达式手册页("perldoc perlre")。另外,在mod_rewrite中,还可以使用否字符('!')前缀实现反转。比如:"如果当前URL与模式相匹配"它用于使用否定式匹配模式较容易描述的某些情况,或者作为最后一条规则。

注意

使用否字符以反转匹配模式时,匹配模式中不能使用分组的通配成分。由于模式不匹配而使分组的内容是空的,所以它是不可能实现的。 因此,如果使用了否定式匹配模式,那么后继的字符串中就不能使用$N

重写规则中的Substitution是当原始URL与Pattern相匹配时,用来替代(或替换)的字符串。除了纯文本,还可以包含:

  1. Pattern的反向引用($N)
  2. 对最后匹配的RewriteCond的反向引用(%N)
  3. 规则条件测试字符串(%{VARNAME})中的服务器变量
  4. 映射函数调用(${mapname:key|default})

反向引用的$N(N=0..9)是指用Pattern匹配的第N组的内容去替换URL。服务器变量与RewriteCond指令的TestString相同。映射函数由RewriteMap指令决定,其说明也参见该指令。这三种类型变量按上面列表中的顺序被展开。

如上所述,所有的重写规则都是按配置文件中的定义顺序作用于Substitution的。URL被Substitution完全替换,并继续处理直到所有规则处理完毕,除非用L标记显式地终结(见下文)。

'-'是一个特殊的替换串,意思是不替换。它可以用于仅仅匹配某些URL而无须替换的情况,比如,在发生替换前,允许以C(chain)标记连接的多个匹配模式同时起作用。

此外,在Substitution之后还可以追加[flags]标记作为RewriteRule指令的第三个参数。Flags是一个包含以逗号分隔的下列标记的列表:

目录级重写

为了在.htaccess文件中针对特定目录使用重写引擎,你必须同时设置"RewriteEngine On"和"Options FollowSymLinks"。如果管理员禁止了该目录的FollowSymLinks特性,重写引擎将不会工作,这样做的原因是处于安全方面的考虑。

在服务器级配置中,模式匹配是作用于整个URL的。但是在目录级配置文件.htaccess中使用重写引擎的时候,目录前缀(一般总是和特定的目录名称相同)将会在模式匹配前被自动移除并在替换完成后被自动添加回去。这个特性对于重写来说是非常重要的,否则你就被迫必须总是对父目录进行匹配,而这并不总是可行的。这里有一个例外:如果替换字符串以"http://"开头,则不会添加目录前缀,而是强制执行一个外部重定向或代理操作(如果使用了P标志的话)。参见RewriteBase指令以获得更多信息。

还可以在<Directory>配置段中使用重写引擎,前缀匹配规则与在.htaccess中使用重写引擎时完全相同,并且这种做法更加简单。然而,为了避免前缀替换复杂化,我们还是建议尽量将重写规则放置在主服务器或虚拟主机配置部分,而不是放置在<Directory>配置段中。

虽然重写规则在语法上允许放置在<Location>配置段中,但这不是必须的,并且我们也反对这样做。

注意:绝对URL的替换

当替换字段以"http://thishost[:thisport]"作为前缀时,mod_rewrite会将它自动剥离出去。在配合生成主机名部分的映射函数使用的时候,这个对隐含的外部重定向URL的简化操作是有用的而且是重要的。下面的第一个例子有助于理解这点。

谨记:由于此功能的存在,以"http://thishost"为前缀的无条件外部重定向到自身所在的服务器是无效的。要实现一个到自身的重定向,必须使用R标记。

注意:查询字符串

Pattern不会按照查询字符串进行匹配。为了达到这个目的,你必须使用一个带有%{QUERY_STRING}变量的RewriteCond指令。当然,你也可以在替换字符串中创建包含查询字符串的URL:在替换字符串串中使用问号,以标明其后的部分应该被重新注入到QUERY_STRING中。而要删除一个已有的请求串,则可以用问号来终结替换字符串。为了联合新旧查询字符串,请使用[QSA]标志。

以下是所有可能的替换组合及其含义:

在服务器级配置中(httpd.conf)
对给定的请求"GET /somepath/pathinfo":

给定的规则                                       得到的替换字符串
----------------------------------------------  ----------------------------------
^/somepath(.*) otherpath$1                      非法,不被支持

^/somepath(.*) otherpath$1  [R]                 非法,不被支持

^/somepath(.*) otherpath$1  [P]                 非法,不被支持
----------------------------------------------  ----------------------------------
^/somepath(.*) /otherpath$1                     /otherpath/pathinfo

^/somepath(.*) /otherpath$1 [R]                 http://thishost/otherpath/pathinfo
                                                通过外部重定向

^/somepath(.*) /otherpath$1 [P]                 毫无意义,不被支持
----------------------------------------------  ----------------------------------
^/somepath(.*) http://thishost/otherpath$1      /otherpath/pathinfo

^/somepath(.*) http://thishost/otherpath$1 [R]  http://thishost/otherpath/pathinfo
                                                通过外部重定向

^/somepath(.*) http://thishost/otherpath$1 [P]  毫无意义,不被支持
----------------------------------------------  ----------------------------------
^/somepath(.*) http://otherhost/otherpath$1     http://otherhost/otherpath/pathinfo
                                                通过外部重定向

^/somepath(.*) http://otherhost/otherpath$1 [R] http://otherhost/otherpath/pathinfo
                                                通过外部重定向
                                                ([R]标记是多余的)

^/somepath(.*) http://otherhost/otherpath$1 [P] http://otherhost/otherpath/pathinfo
                                                通过内部代理

/somepath的目录级配置中
(也就是/physical/path/to/somepath/.htacccess文件中含有:RewriteBase /somepath)
对给定的请求"GET /somepath/localpath/pathinfo":

给定的规则                                       得到的替换字符串
----------------------------------------------  ----------------------------------
^localpath(.*) otherpath$1                      /somepath/otherpath/pathinfo

^localpath(.*) otherpath$1  [R]                 http://thishost/somepath/otherpath/pathinfo
                                                通过外部重定向

^localpath(.*) otherpath$1  [P]                 毫无意义,不被支持
----------------------------------------------  ----------------------------------
^localpath(.*) /otherpath$1                     /otherpath/pathinfo

^localpath(.*) /otherpath$1 [R]                 http://thishost/otherpath/pathinfo
                                                通过外部重定向

^localpath(.*) /otherpath$1 [P]                 毫无意义,不被支持
----------------------------------------------  ----------------------------------
^localpath(.*) http://thishost/otherpath$1      /otherpath/pathinfo

^localpath(.*) http://thishost/otherpath$1 [R]  http://thishost/otherpath/pathinfo
                                                通过外部重定向

^localpath(.*) http://thishost/otherpath$1 [P]  毫无意义,不被支持
----------------------------------------------  ----------------------------------
^localpath(.*) http://otherhost/otherpath$1     http://otherhost/otherpath/pathinfo
                                                通过外部重定向

^localpath(.*) http://otherhost/otherpath$1 [R] http://otherhost/otherpath/pathinfo
                                                通过外部重定向
                                                ([R]标记是多余的)

^localpath(.*) http://otherhost/otherpath$1 [P] http://otherhost/otherpath/pathinfo
                                                通过内部代理