日期:2013-04-04 浏览次数:20450 次
一 文本数据库类目标
文本数据库设计的目标,是实现文本等数据的组织和存取,屏蔽数据存放的具体细节,向用户提供一个简单方便的文本数据的插入,修改,删除,查询的接口。
二 文本数据库思路
我们打算将相关的文本数据存放在同一个文件中,并以记录为单位实现对文本数据的组织与管理。记录可分为两中:定长记录和不定找记录。对于定长记录,我们可以用顺序存放的方式组织记录,这样对于第N个记录,我们可以直接以N*RceLength定位它在文件中的存放位置,对于读取,插入,更新操作来说,顺序存入的组织方式会使它们的实现变得非常简单且快捷;然而在删除记录的时候,麻烦就来了,要继续保持记录在数据库中的顺序存放,在实施删除操作后,我们还必须将后面的所有记录向前移动一个记录单位,在记录个数相对少并且记录长度相对小的情况下,这种前移数据所付出的代价还是可以接受的,当记录个数变的很多,或者记录长度大的情况下,一个记录的删除往往会伴随着大量数据的移动,这种代价却变的非常高。
以定长记录的方式存入数据使得很多操作变的非常便捷,然而除了上面所讲的数据删除不利的因素外,定长记录还有一个非常明显的不足,那就是在记录的长短不一的情况下,以定长的方式存放记录可能会浪费很多的空间,因为我们必须以所有记录中最大的那个记录长度为所有记录的长度,用这样的记录空间存放短的数据难免有点大才小用。解决这个问题,我们很快就会想到不定找记录的方式,就是允许文件中不同的记录占据必要的空间而不必使用统一的长度。不定长记录的方式完美的解决了空间浪费的问题,然而却失去了定长记录能快速定位的特性,使得对数据的各种操作变的格外的麻烦甚至不可能。
我们必须设计一种巧妙方式要组织数据,使得它不仅能像定长方式那样快速地定位数据库的记录,又能像不定长方式那样节省数据空间,尽量减少数据删除所付出的代价。而要拥有这样的特性,必然是这两种方式的结合。我们用一个文件以不定长的方式存放实际数据,解决了空间浪费问题;另外我们还设立一个辅助的文件,用于记录这些数据的定位信息,定位信息以定长的方式组织与存放,可以解决记录的快速定位问题。为了后面讨论的方便,我们不妨给这两个文件命个名,存放实际数据的文件我们称它为数据文件(dbf),存入定位信息的文件我们称之为索引文件(indx)。
我们来分析一下这种组织方式的具体实现。插入数据时,我们根据存入数据的大小从数据文件(dbf)中分配一个合适的可用空间,并将数据存入此处,然后在索引文件(indx)添加一个新记录用于存放实际数据在数据文件(dbf)中的定位信息,如是一个新的记录就这样子被插入到数据库中了。读取记录时,我们先从索引文件(indx)中取得实际数据的定位信息,然后根据这些定位信息到dbf中定位并读取记录的实际内容,因为定位信息是定长方式存放,它可以非常直接地从indx中获取。删除数据的时候,我们只需简单地从索引文件中删除对应的定位记录就可以达到目的,而无需对数据文件进行任何操作,定位记录从索引中删除后,此记录虽然在数据文件中依然存在却永远都不会再被访问到而被闲置。为了更有效的利用空间,我们在进行删除操作的时候并不只作如此简单的处理,我们还设立一个额外文件,用于记录数据文件中这些因删除而被闲置的空间,以便在合适的时候,使得这些闲置空间被再度存放实际数据。此文件也以的方式记录闲置空间信息,我们称这个文件为闲置空间文件(left)。更新数据也相对复杂,如果新的数据长度小于原数据的长度,我们可以简单地将新数据存原来的位置,这种情况下我们只需对数据文件(dbf)进行更新操作。而当新数据所需空间大于原始空间的时候,我们只能放弃原空间而另寻地方存放数据,这里除了对dbf进行写操作外,还得更新记录在indx中的定位信息,并在left文件中添加被放弃的空间信息.
三 文本数据库的精细设计与算法
上面简单地分析了文本数据库的实现方法。下面根据我的实例来介绍文本数据库的精细设计与具体算法。
首先,我们简地介绍上面提到的三个文件的数据结构。
对于数据文件dbf,记录是不定长而且是无序存放(为什么是无序,下面会有介绍)的,不需要太多的说明。
索引文件indx以定长并且是顺序的方式存放记录,也就说每个记录的长度一致为RcdLength,而且第N个记录存放在文件中的N*RcdLength处.每个记录的格式如下:
记录编号(ID)|偏移位置(LOC)|数据长度(Length)
其中,ID是数据库每个出现过的记录的唯一编号,不同的记录以此来唯一标识自己,相当于数据库的健值。ID编号由系统递增分配;LOC记录实际数据在数据文件dbf中存入的首位置,length则表示此数据在dbf中所占用的空间。值得提出的是,ID编号N的记录并不一定是数据库中的第N个记录,ID用以标识记录的身分,而第N个记录的N则是指记录在数据库中的物理(对应于indx)与逻辑位置(对应于dbf);还有,length记录的是该数据所占用的空间大小而并一定等同于数据的实际长度(为什么?).
ID,LOC,Length均为无符号整数,所以indx中每个记录的占用4*3=12个字节的空间,这很利于记录的顺序存放和删除。
我们还约定,indx文件中第一个记录并不是用于记录数据的定位信息,而用于记录整个数据库的相关信息,其中ID用于存入已被分
配的最大ID编号,LOC用于记录数据库中的实际记录个数,length用于记录数据文件dbf的末端位置。可以看出,ID值是递增的,在没有
进行任何删除操作之前,ID值与LOC永远相等,如删除操作,LOC必然小于ID值。另外,length值在很多情况下并不与数据文件bdf的大
小相等,如我们在dbf的末端为一个新记录分配了100个字节的空间而写入的实际数据只有90,那个length值要比dbf的大小大10.
left文件的记录结构与组织方式和indx类似却更为简单,它只有两个字段:
偏移位置(LOC)|空间长度(Length)
其中,LOC表示闲置空间在dbf中的起始位置,Length表示此闲置空间的长度。同样,left文件中的第一个记录不用来记录闲置空间
信息,而是记录自己的相关信息,第一个记录的LOC值或Length用于记录left文件中的闲置空间条数也就是本文件和实际记录个数。
数据结构已经陈述完备,下面我们根据代码来谈谈实际算法:
<?
class TxtDB //文本数据库类
{
var $name=''; //文本数据库名
var $path=''; //数据库路径
var $isError; //出错代码
var $dbh; //数据文件dbf指针
var $indxh; //索引文件indx指针
var $lfth; //闲置空间文件left指针
var $lckh;
var $rcdCnt=0;//数据库的记录个数
var $maxID=0; //数据库已分配的最大ID编号
var $leftCnt=0;//闲置空间个数
var $DBend=0; //DBF文件末端指针
/*初始化函数*/
function TxtDB($name,$path='dbm')
{
$this->name=$name;
$this->path=$path.'/'.$name;
$this->isError=0;
$path=$this->path;