日期:2013-07-11  浏览次数:20458 次


Fenng(Fenng@itpub.net)

版权声明:转载请注明作者及出处

前言

每一个DBA在进行数据库管理的过程中不可避免的要遇到五花八门的错误(ORA-xxxx).有些错误由于频繁出现、缘由复杂而被DBA们戏称之为"经典的错误".其中ORA-3113 "end of fileon communication channel" 就是这样的一个.

我们可以简单的把这个错误理解为Oracle客户端进程和数据库后台进程连接中缀.不过,导致这个错误的缘由实际上有很多种,对数据库设置不当、任何能导致数据库后台进程崩溃的行为都可能产生这个错误.这个错误的出现还经常伴随着其它错误,比如说:ORA-1034 ORACLE not available.

此外,该错误出现的场景复杂,可能出如今:
启动的Oracle的时侯; 试图创建数据库的时侯; 试图对数据库进行连接的时侯; 在客户端正在运转SQL/PL/SQL的时侯; 备份/恢复数据库的时侯; 其它一些情况下......

在论坛上也时常可以看到初级DBA对这个问题的求救. 在这里简单的对该问题进行一下整理.不当之处,请多指教!


错误缘由种种

依据网络上大家反映的情况来看,错误缘由大约有这些:
Unix核心参数设置不当 Oracle执行文件权限不正确/环境变量问题 客户端通信不能正确处理 数据库服务器崩溃/操作系统崩溃/进程被kill Oracle 内部错误 特定SQL、PL/SQL惹起的错误 空间不够 防火墙的问题 其它缘由
在开始处理问题之前,作如下几件事情:

1、 回忆一下在出现错误之前你都做了什么操作,越详细越好;
2、 查看background_dump_dest目录中的alertSID.log文件也是你要做的事情;
3、 Google一下,在互联网上有很多信息等着你去发现,不要什么都问别人.当然,如果你找到了一些对你非常有协助的东西――这篇文档就不用看了,别耽搁你的时间,呵呵.


Unix核心参数设置不当/ init参数设置不当

如果数据库在安装过程中没有设定正确的操作系统核心变量,可能在安装数据库文件的时侯
没甚么问题,在创建数据库的时侯常常会出现03113错误.和此有关的另一个缘由是init.ora
参数文件中的processes参数指定了不合理的值,启动数据库导致错误出现(当然这个归根到
底也是核心参数的问题).

这个错误信息普通如下:

 ORA-03113: end-of-file on communication channel
 ORA-01034: ORACLE not available
 ORA-27101: shared memory realm does not exist

 处理办法有两个:
 1修正核心参数,加大相应核心参数的值(推荐);
 2减小init.ora参数的Processes的值.

需求留意的是:
SEMMSL必须设定为至少要10 + 进程数的最大值.
SEMMNS 也依赖于每个数据库上的进程参数值.

-------------------------------------------------------------------------------
注: 
这个错误类型只在Unix平台上出现.在Windows上如果processes的值过大,则会出现:
ORA-00068: invalid value 24200001 for parameter max_rollback_segments, must be
between 2 and 65535  /* 此时指定的参数值超过了65535 */
或者
ORA-27102: out of memory /* 小于65535的一个大参数值 */
我的软件环境:
Windows 2000 Version 5.0 Service Pack 3, CPU type 586
ORACLE RDBMS Version: 8.1.7.0.0.
-------------------------------------------------------------------------------


在特定平台上更改核心参数可能会有差别,请参考Oracle Technet(http://otn.oracle.com)上的安装文档.对特定Unix平台的安装文档也有对核心参数意义的解释.

Init.ora中的参数如果设置不当,会产生该错误.有经验表明:shared_pool_size设置过小会出现错误,此外timed_statistics=true的设置也会带来问题.


Oracle执行文件权限不正确/环境变量问题

这个问题只出如今Unix平台上.常见情况是有的时侯管理员为了方便而使用Unix
的tar命令处理过的紧缩包进行的安装,或者是系统管理员指定了额外的OS用户也可以管理数
据库却没有指定正确的环境变量.

Oracle执行文件在$ORACLE_HOME/bin目录下,如果出现问题,应该用如下Unix类似命令来纠正:

chmod 7755 $ORACLE_HOME/bin/oracle

有的时侯要对Oracle进行relink操作.
在Unix上通过cp拷贝安装的时候,常常会出现环境变量的问题,和一般执行程序连接问题.LD_
LIBRARY_PATH如果设置的不正确会导致问题,在这种情况下,需求对Oracle进行relink.如果
可执行文件oralcle被破坏,也要对其relink.

如果安装了并行服务器选项而Distributed Lock Manager没有安装或正确运转也会导致错误.


客户端通信不能正确处理

SQL*Net驱动器的问题:
如果使用的版本比较低的驱动器,请改换到新版本的驱动.SQL*Net
的驱动没有连接到Oracle可执行文件会导致错误.

检查网络能否通畅

Windows平台的常见问题:
在Windows平台创建数据库的时侯,如果出现该问题可以考虑用如下的方法:
首先检查本地网络设置.查看网络上能否有同名的结点或有冲突的IP.如果问题照旧,可以保
守的用下面的方法:
1. 禁用网卡:将本地连接形状改为禁用;
2. 将sqlnet.ora文件打开(以记事本方式)将nts验证注释掉:
    #SQLNET.AUTHENTICATION_SERVICES= (NTS).
3. 创建数据库;
4. 创建成功后,恢复本地连接.

数据库服务器崩溃/操作系统崩溃/进程被Kill

在连接过程中,如果Oracle数据库的服务器崩溃或者数据库所在的操作系统崩溃,就会出现这
个错误.Oracle Server崩溃的缘由可能由于次要后台进程死掉.被错误的进行了Kill操作.如果是这个缘由还是比较容易处理的.此外,和OS有关的使用程序存在内存走漏(或者有病毒)的时侯也会导致Oracle后台程序问题.

推荐排错办法:
1、 查看使用软件相关进程能否正常运转;
2、 查看有无内存走漏;
3、 查杀病毒;
4、 确定系统管理员没有进行误操作;
5、 确定无黑客入侵行为.
6、 其它不确定要素......


Oracle 内部错误/ Bug

如果查看background_dump_dest目录中的alert.log发现有无ora-600等错误,可以到Metalin
k站点上查看具体信息及其处理方案.普通情况下要打软件补丁.


特定SQL、PL/SQL惹起的错误

尝试把SQL进行分开执行,也可以用SQL_TRACE来进行跟踪,找到导致问题的SQL语句:
在SQLPlus下:
ALTER SESSION SET SQL_TRACE TRUE;

SQL语句中的非法字符和不合理的处理结果偶尔会带来问题.


系统空间不够

任何时侯都要确保数据库系统有足够的空间.如果 USER_DUMP_DEST
和BACKGROUND