24.1. SQL转储

这种转储方法是创建一个文本文件, 里面都是SQL命令,当把这个文件回馈给服务器时, 将重建与转储时状态一样的数据库。PostgreSQL为这个用途提供了pg_dump工具。 这条命令的基本用法是:

pg_dump dbname > outfile

正如你所见,pg_dump把结果输出到标准输出。 我们下面就可以看到这样做有什么好处。

pg_dump是一个普通的PostgreSQL客户端应用(尽管是个相当聪明的东西)。 这就意味着你可以从任何可以访问该数据库的远端主机上面进行备份工作。 但是请记住pg_dump不会以任何特殊权限运行。 具体说来,就是它必须要有你想备份的表的读权限, 因此,实际上你几乎总是要成为数据库超级用户。

要声明pg_dump应该以哪个用户身份进行连接, 使用命令行选项 -h host-p port 。缺省主机是本地主机或环境变量PGHOST声明的值。类似的,缺省端口是环境变量PGPORT或(如果它不存在的话)编译好了的缺省值。服务器通常都有相同的缺省,所以还算方便。

和任何其它PostgreSQL客户端应用一样, pg_dump缺省时用与当前操作系统用户名同名的数据库用户名进行连接。 要覆盖这个名字,要么声明-U选项,要么设置环境变量PGUSER。请注意pg_dump的连接也和普通客户应用一样要通过客户认证机制(在章Chapter 19里描述)。

pg_dump跟别的备份方法相比较最重要的一个优点会在后面介绍, pg_dump的输出一般可以被重新加载到PostgreSQL的新版本, 而文件级备份和连续归档都是特定于服务器版本的。pg_dump是把数据库移到另一个机器架构上的唯一方法,就像从32位到64位的服务器。

pg_dump创建的备份在内部是一致的,也就是说, 在pg_dump运行的时候对数据库进行一次快照。 pg_dump工作的时候并不阻塞其它对数据库的操作 (但是会阻塞那些需要排它锁的操作,比如ALTER TABLE)。

Important: 如果你的数据库结构依赖于OID(比如说用做外键), 那么你必须告诉pg_dump把OID也导出来。要导出OID, 可以使用-o命令行选项。

24.1.1. 从转储中恢复

pg_dump生成的文本文件可以由psql程序读取。从转储中恢复的常用命令是:

psql dbname < infile

这里的infilepg_dump命令的输出文件。 这条命令不会创建dbname数据库, 你必须在执行psql前自己从template0创建(也就是用createdb -T template0dbname命令)。 psql支持类似pg_dump的选项用以控制数据库服务器位置和用户名。 参阅psql的手册获取更多信息。

在开始运行恢复之前,目标库和所有在转储出来的库中拥有对象的用户, 以及曾经在某些对象上被赋予权限的用户都必须已经存在。 如果这些不存在,那么恢复将失败,因为恢复过程无法把这些对象恢复成原有的所有权和/或权限。 (有时候你希望恢复权限,不过通常你不需要这么做。)

缺省时,psql脚本将在遇到错误的时候仍然继续执行。 你可能希望运行psql和变量集ON_ERROR_STOP来保证在遇见错误的时候退出psql并返回状态码3:

   \set ON_ERROR_STOP
   

不管上述哪种方法都只能得到部分恢复了的数据库。 另外,你可以将整个恢复过程当成一个单独的事务, 这样就能够保证要么全部恢复成功,要么全部回滚。 可以通过向psql传递-1--single-transaction命令行参数达到此目的。 使用这个模式的时候即使一个很微小的错误也将导致已经运行了好几个小时的恢复过程回滚。 尽管如此,这种模式也比手动清除哪些不完整的恢复数据强。

pg_dumppsql可以通过管道读写, 这样我们就可能从一台主机上将数据库目录转储到另一台主机上, 比如:

    pg_dump -h host1 dbname | psql -h host2 dbname
   

Important: pg_dump生成的转储输出是相对于template0的。 这就意味着任何加入到template1的语言、过程等都会经由pg_dump转储。 这样在恢复的时候,如果你使用的是自定义的template1, 那么你必须从template0中创建空的数据库,就像我们上面的例子那样。

一旦完成恢复,在每个数据库上运行ANALYZE是明智的举动, 这样优化器就有可用的统计数据了。更多信息请参考Section 23.1.3Section 23.1.5 。 关于如何有效对PostgreSQL加载海量数据的信息,参考Section 14.4.

24.1.2. 使用pg_dumpall

pg_dump上面的方法在备份整个数据库集群的时候比较麻烦而且不方便。 因此我们提供了pg_dumpall程序。 pg_dumpall备份一个给出的集群中的每个数据库, 同时还确保保留像角色和表空间这样的全局数据状态。 这个命令的基本用法是:

pg_dumpall > outfile

生成的转储可以用psql恢复:

psql -f infile postgres

实际上,你可以声明任意现有的数据库进行连接, 但是如果你是向一个空的数据库集群装载,那么postgres应该是比较好的选择。 恢复pg_dumpall的转储的时候通常需要数据库超级用户权限, 因为我们需要它来恢复角色和表空间信息。 如果使用了表空间,需要注意转储中的表空间路径必须适合新的安装。

pg_dumpall作品由发出的命令来重建角色,表空间,空数据库,然后调用pg_dump为每个数据库备份。这意味着当 每个数据库将在内部是一致的,不同数据库的快照 可能不会完全的同步。

24.1.3. 处理大数据库

一些操作系统的文件是有最大上限的,就会在创建大的pg_dump输出文件时 出现问题。幸运的是,因为pg_dump输出到标准输出,你可以用标准的Unix工具绕开这个问题:

使用压缩的转储. 使用你熟悉的压缩程序(比如 gzip):

pg_dump dbname | gzip > filename.gz

用下面命令恢复:

gunzip -c filename.gz | psql dbname

或者:

cat filename.gz | gunzip | psql dbname

使用 split 工具. split命令允许用下面的方法把输出分解成操作系统可以接受的大小。 比如,让每个块大小为 1MB :

pg_dump dbname | split -b 1m - filename

用下面命令恢复:

cat filename* | psql dbname

使用pg_dump自定义的转储格式. 如果PostgreSQL是在一个安装了zlib压缩库的系统上制作的, 那么自定义转储格式将在写入输出文件的时候压缩数据。 它会生成和使用gzip类似大小的转储文件, 但是还附加了一个优点:你可以有选择地恢复库中的表。 下面的命令用自定义转储格式转储一个数据库:

pg_dump -Fc dbname > filename

自定义格式的转储不是脚本,不能用于psql , 而是需要使用pg_restore转储。例如:

pg_restore -d dbname filename

请参考pg_dumppg_restore的手册获取细节。

对于每一个大型数据库来说,你可能需要把split和另外两个方法之一来结合使用。