link:
http://www.eygle.com/special/NLS_CHARACTER_SET_04.htm
4. 导入导出及转换
导入导出是我们常用的一个数据迁移及转化工具,因其导出文件具有平台无关性,所以在跨平台迁移中,最为常用。
在导出操作时,非常重要的是客户端的字符集设置,也就是客户端的NLS_LANG设置。
NLS_LANG参数由以下部分组成:
NLS_LANG=<Language>_<Territory>.<Clients Characterset>
NLS_LANG各部分含义如下:LANGUAGE指定:-Oracle音讯使用的言语-日期中月份和日显示TERRITORY指定-货币和数字格式-地区和计算星期及日期的习惯CHARACTERSET:-控制客户端使用程序使用的字符集通常设置或者等于客户端(如Windows)代码页或者对于unicode使用设置为UTF8在Windows上查看当前系统的代码页可以使用chcp命令:
E:\>chcp
活动的代码页: 936
代码页936也就是中文字符集 GBK,在Microsoft的官方站点上,我们可以遭到关于936代码页的具体编码规则,请参考以下链接:
http://www.microsoft.com/globaldev/reference/dbcs/936.htm
我们看一个简单的测试,来了解一下这几个参数的作用:
E:\>set NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBKE:\>sqlplus "/ as sysdba"SQL*Plus: Release 9.2.0.4.0 - Production on 星期六 11月 1 22:51:59 2003Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved.连接到:Oracle9i Enterprise Edition Release 9.2.0.4.0 - ProductionWith the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining optionsJServer Release 9.2.0.4.0 - ProductionSQL> select sysdate from dual;SYSDATE----------01-11月-03已选择 1 行。SQL> exit从Oracle9i Enterprise Edition Release 9.2.0.4.0 - ProductionWith the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining optionsJServer Release 9.2.0.4.0 - Production中缀开E:\>set NLS_LANG=AMERICAN_AMERICA.ZHS16GBKE:\>sqlplus "/ as sysdba"SQL*Plus: Release 9.2.0.4.0 - Production on Sat Nov 1 22:52:24 2003Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved.Connected to:Oracle9i Enterprise Edition Release 9.2.0.4.0 - ProductionWith the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining optionsJServer Release 9.2.0.4.0 - ProductionSQL> select sysdate from dual;SYSDATE---------01-NOV-031 row selected.SQL>
查看客户端NLS_LANG设置可以使用以下方法:
Windows使用:echo %NLS_LANG%如:E:\>echo %NLS_LANG%AMERICAN_AMERICA.ZHS16GBKUnix使用:env|grep NLS_LANG如:/opt/oracle>env|grep NLS_LANGNLS_LANG=AMERICAN_CHINA.ZHS16GBKWindows客户端设置,可以在注册表中更改NLS_LANG,具体键值位于:HKEY_LOCAL_MACHINE OFTWARE\ORACLE\HOMExx\xx指存在多个ORACLE_HOME时系统编号。
导入和导出是客户端产品,同SQL*PLUS和Oralce Forms一样,因此,使用EXP/IMP工具将按照NLS_LANG定义的方式转换字符集。
导出使用的字符集将会记录在导出文件中,当文件导入时,将会检查导出时使用的字符集设置,如果这个字符集不同于导入客户端的NLS_LANG
设置,字符集将依据导入客户端NLS_LANG设置进行转换,如果必要,在数据插入数据库之前会进行进一步转换。
通常在导出时最好把客户端字符集设置得和数据库端相反,这样可以避免在导出时发生不必要的数据转换,导出文件将和数据库具有相反的字符集。
即便将来会把导出文件导入到不同字符集的数据库中,这样做也可以把转换延缓至导入时辰。
当进行数据导入时,次要存在以下两种情况:
1.源数据库和目标数据库具有相反字符集设置
这时,只需求设置NLS_LANG等于数据库字符集即可导入(前提是,导出使用的是和源数据库相反字符集,即三者相反)
2.源数据库和目标数据库字符集不同
如果我们导出时候使用的NLS_LANG是和源数据库相反的字符集,那么导入时就可以设置客户端NLS_LANG等于导出时使用的字符集,这
样转换只发生在数据库端,而且只发生一次。
例如:
如果进行从WE8MSWIN1252到UTF8的转换
1)使用NLS_LANG=AMERICAN_AMERICA.WE8MSWIN1252导出数据库。
这时创建的导出文件包含WE8MSWIN1252的数据
2)导入时使用NLS_LANG=AMERICAN_AMERICA.WE8MSWIN1252
这时转换仅发生在insert数据到UTF8的数据库中。
以上假设的转换只在目标数据库字符集是源数据库字符集的超集时才能转换。如果不同,普通就需求进行一些特殊的处理。
我们简单看一下导入的转换过程(以Oracle8i为例):
1.确定导出数据库字符集环境
通过读取导出文件头,可以获得导出文件的字符集设置
2.确定导入session的字符集,即导入Session使用的NLS_LANG环境变量
3.IMP读取导出文件
读取导出文件字符集ID,和导入进程的NLS_LANG进行比较
4.如果导出文件字符集和导入Session字符集相反,那么在这一步骤内就不需求转换
如果不同,就需求把数据转换为导入Session使用的字符集。
然而这种转换只能在单byte字符集之间进行。
我们看一个测试:
E:\nls2>set NLS_LANG=AMERICAN_AMERICA.US7ASCII设置导入session NLS_LANG为US7ASCIIE:\nls2>e:\oracle\ora8i\bin\imp eygle/eygle file=Sus7ascii-Cus7ascii-exp817.dmp fromuser=eygle touser=eygle tables=test这个导出文件是从US7ASCII数据库导出,导出客户端NLS_LANG也是US7ASCIIImport: Release 8.1.7.1.1 - Production on Fri Nov 7 00:59:22 2003(c) Copyright 2000 Oracle Corporation. All rights reserved.Connected to: Oracle8i Enterprise Edition Release 8.1.7.1.1 - ProductionWith the Partitioning optionJServer Release 8.1.7.1.1 - Production这时导入,在DM