日期:2010-06-04  浏览次数:20415 次

1 引言

21世纪,中国互联网搜索引擎领域可谓群雄逐鹿,百度、Yahoo、中搜、搜狗等等都使出浑身解数吸引着网民的眼球。这些大网站可谓是各有所长,总的来说虽然他们搜索功能都很强,但是搜索得到的结果基本上是千篇一律,信息的冗余量很大,网民不得不在一次又一次的翻页中浪费时间,或者为了想出一个好的关键词而绞尽脑汁。要是有一个有针对性的搜索引擎就好了,并且这个针对性应该是可以控制的。

2 SOSO的由来

笔者在上网搜索的过程中曾有这样痛苦的经历。由于笔者爱好编程,经常需要上网查找技术资料。但是搜到的结果往往是来自一些不起眼的小网站,它们主要是转载CSDN,赛网等一些技术大站上的文档,可恶的是,这些小网站常常转载不全,广告成堆,乱弹窗口,更有甚者还有病毒、木马等防不胜防。笔者当时想,如果有一个“IT技术文档搜索引擎”就好了,可惜没有,于是就自己动手做吧。我把CSDNIT168、赛网等IT技术网站存储在“被搜网站库”中,按一定的周期启动Spider(蜘蛛)程序(Spider的原理后面讲),Spider搜到的结果按一定格式暂时存在硬盘上,然后由Carrier(搬运工)程序异步转存到数据库中,再利用SQL Server强大的全文检索(不是用Like语句J)结合Asp.net做出查询界面,这便有了SOSO的原型。由于SOSO只搜特定