日期:2009-09-24 浏览次数:21010 次
6.11.2.    通过SQL Server查询Index Server
    如果要通过SQL Server查询Index Server,须使用OPENQUERY函数。其语法结构如下。
    OPENQUERY(linked_server, 'query')
    其中linked_server参数为连接的名称。而query参数为要进行的查询,它将以一个字符串的形式传送给OPENQUERY函数。此函数返回的将是一个虚拟表,从而可以让我们对其做进一步的查询。
    下面的语句查找内容包含中SQL这个单词的所有文件:
    SELECT *
FROM OpenQuery(FileSystem,
'SELECT Directory, FileName, DocAuthor, Size, Create
FROM SCOPE()
WHERE CONTAINS( Contents, ''SQL'' ) ' )
    对于Index Server的查询,其FROM语句的语法格式于普通的SQL语句是有所区别的。其语法结构如下:
FROM [ Catalog_Name.. ] { SCOPE( [ 'Scope_Arguments' ] ) }
其中的Catalog_Name参数用于指明要进行查询的索引目录。由于我们在定义连接时只能选择一个索引目录,所以此参数在此将被省略。而SCOPE函数用于指明要进行查询的文件所在的目录。SCOPE函数的语法结构如下图所示。
图6.11.2-1SCOPE函数语法结构图
其中DEEP TRAVERSAL OF关键字指明将查询目录中所有的文件,包括其子目录中的所有文件。而SHALLOW TRAVERSAL OF关键字则指明只查询顶级目录中的文件,而不包括子目录中的那些文件。如果不指明查询的目录深度,则默认为DEEP TRAVERSAL OF。
physical_path和virtual_directory分别为物理目录和虚拟目录。其中各自的含义在图中已经标示的非常明白了,在此就不再进一步说明了。
Index Server共支持50种文件属性,而可以用来作为查询条件或返回结果的常用文件属性见下表:
属性名称    数据类型    注释    可否用于ORDER BY子句    可否用于SELECT语句中
Access    datetime    文件的最后访问时间。    可    可
Characterization    nvarchar或ntext    文档的描述或摘要,由Index Server使用。    否    可
Create    datetime    文件的创建时间。    可    可
Directory    Nvarchar    文件的物理路径,不包含文件名。    可    可
DocAppName    nvarchar    创建文件的应用程序的名称。如Microsoft word 9.0。    可    可
DocAuthor    nvarchar    文档的作者。    可    可
DocComments    nvarchar    关于文档的注释。    可    可
DocCompany    nvarchar    写作文档的公司的名称。    可    可
DocLastAuthor    nvarchar    最近编辑文档的用户。    可    可
DocLastPrinted    datetime    文档的最近一次打印时间。    可    否
DocPageCount    integer    文档的页数。    可    否
DocParaCount    integer    文档的图形数量。    可    否
DocRevNumber    integer    文档的当前版本。    可    可
DocSubject    nvarchar    文档的主题。    可    可
DocTemplate    nvarchar    文档的模板。    可    可
DocTitle    nvarchar    文档的标题。    可    可
DocwordCount    integer    文档的字数。    可    否
FileIndex    Decimal(19,0)    文件的唯一标识。    可    可
FileName    nvarchar    文件名。    可    可
HitCount    integer    文件中的命中次数(单词匹配查询)。即文件中有多少个查询条件中的单词。    可    可
Path    nvarchar    文件的物理路径,包含文件名。    可    可
Rank    integer    行的等级,范围从 0 到 1000,数字越大表示越匹配。    可    可
ShortFileName    nvarchar    短文件名(8.3格式)。    可    可
Size    Decimal(19,0)    文件大小,单位是字节。    可    可
VPath    nvarchar    指向文件的完整虚拟路径,包括文件名。如果有多个可能的路径,将选择最符合查询的一个。    可    可
Write    datetime    最近一次写文件的时间。    可    可
    可以在Where子句中使用以上各种属性作为查询的条件。当条件中包含全文检索条件时,需要使用CONTAINS和FREETEXT语句,其用法同SQL Server的全文检索相同。要注意的是,在对Index Server的查询中,不能使用GROUP BY和HAVING子句。因为这不被Index Server所支持。
此外,在查询的SELECT子句中,不能使用*来选择所有的属性。*只有在对视图进行查询时才可以使用。视图实际上可以理解为从一个查询导出的虚拟表。通过对视图的查询,可以实现对查询结果的再次查询。视图一般应用于需要经常被其他查询作为FROM子句中的数据源时使用。建立视图使用CREATE VIEW语句,其语法结构如下:
CREATE VIEW view_name [(column ][,...n])]
AS 
    select_statement 
其中view_name为要建立的视图的名称,而AS子句后面的就是建立视图的查询语句。而此语句有以下限制:不能包含ORDER BY、COMPUTE和COMPUTE BY等子句;不能包含INTO关键字;不能涉及临时表。
而column则用于为视图中的各个字段命名。一般只有在这些字段是表达式或函数及常数时才需要为其命名。
在SQL Server中,也同样可以使用CREATE VIEW语句来建立视图。
下面我们通过一个例子来了解对Index Server查询的全部过程。
我们将在虚拟目录\Corpus和C:\temp目录中查找那些作者在writer表中存在记录且文档字数超过5000字的文件。并返回作者的名字、文档题目以及作者的身份。其查询语句和具体操作过程如下图所示。
图6.11.2-2Index Server查询过程
其中各个步骤的解释如下:
1:查询被提交到SQL Server,将分布式查询部分(包含在OPENQUERY函数之内的部分)传递给SQL Server分布式查询处理器。
2:分布式查询处理器将查询进一步传递给O