关于全文搜索,文件检索的问题
我想做一个文件检索的程序,就是对一堆文档检索,想CHM那样可以导航,建立连接,自由查询,本想用chm作,但我向集成在一个软件系统中,大家有没有经验介绍下嘛,用XML有什么思路。最好利用现成的WORD文档,不用转换成XML。谢谢
------解决方案--------------------用Directory.GetFiles循环去所有的文件。
然后把文件的信息保存到xml或者数据库中就行,然后检索的时候检索数据库或xml就可以,
------解决方案--------------------使用倒排索引,b+树等建立一个文本的全文索引系统,但前提是要有一个比较全面的词库(中文,英文是按照空格来的,比较好对付,当然也要处理一下,比如单数复数)
当然索引文件是要占用磁盘空间的,但可以自己想办法进行一些压缩
如果用数据库就用提供的全文索引,不过那样数据要存到数据库中才合适
------解决方案--------------------使用搜索引擎技术,现在开源的也不少,如lucene,建索引、用索引就可以了
------解决方案--------------------如果光搜索文件名那比较简单,就用深度搜索,给文件建立一个树形目录,然后导入数据库。但是如果内容也要搜索,由于word文档格式是封闭的,可能比较麻烦。