日期:2014-05-20  浏览次数:21049 次

开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引
开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引

整个视频搜索引擎包括:网站(C#+C语言)、中文分词服务器3.2(C语言)、索引内核2.0(C语言)、索引服务器1.0(C#+C语言)、采集器3.1(delphi)

网站 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
数据存储:可采用mysql、sql server、sqlite、oracle中的任何一种,无须更改代码,只需更改配置文件
性能指标:每分钟有效并发10万
在线范例:http://bida.cc
下载地址:
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是

索引服务器1.0 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
性能指标:每天有效索引>=50万(实时:新增数据即时索引)
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是

索引内核2.0(C语言) 相关指标:
名称:百万商业圈全文索引器
开发语言:C语言
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8、ubuntu、SUSE、CenterOS
性能指标:采用创新的倒排全文索引,单机(普通PC 2G内存)支持3000万网页的全文索引,任意检索不超过0.2秒。
功能支持:新增索引、更新索引、删除索引、检索归并
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
索引内核1.0(C语言)说明,包括动态摘要、高亮显示、相关设置等


中文分词服务器3.2(C语言) 相关指标:
名称:百万商业圈中文分词服务器
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:用例共 3000分10K+的随机文章
平均性能:5万字以内的文章单线程切分1秒内可以切分完毕
在线范例:http://bida.cc:888
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
内部版本:单线程稳定版
相关说明:http://www.cnblogs.com/bwsyq/archive/2011/12/02/2271611.html
注:网站开发框架中提供了三种中文分词方式 默认采用 百万商业圈中文分词

采集器3.1(delphi) 相关指标:
名称:百万商业圈龙蛛采集器 - 视频采集器
编译器:delphi 7.0
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:非特殊情况可连续运行>=一年
平均性能:2MB以内带宽每分钟采集上千视频
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是

附加:百万商业圈龙蛛采集器3.1 - 网页采集器:可自行设置保存目录和采集深度,
理论上根据一个入口地址可采集整个互联网,没有特殊情况程序可持续运行一年,
不会有任何错误,每5000个文档自动生成一个子目录,文件名都是整数,便于索引。

完整说明请参见:百万商业圈视频搜索引擎说明.doc (2.66MB) 
完整源代码下载:所有源代码及全部模块完整下载地址 (37.42MB)

注意:单机(普通PC、一般硬盘、2G内存)最大支持3000万条数据或网页的全文索引,任意检索不超过0.2秒。
  超过3000万的数据,请使用:百万商业圈开源可编程的集群分布式云平台

交流群:74965947、72133568 本人QQ 99923309 MSN:bwsyq@bwsyq.com

另:视频搜索只是一个参考,大家可以基于这个代码,开发其它类型的各种搜索引擎。


申明:以上代码及程序完全由本人独立创作完成,无任何版权纠纷。

版权所有:[url=http://bwsyq.com/]百万商业圈[/url] [url=http://bwsyq.com/]http://bwsyq.com[/url] 本人保留最终的所有版权解释权。

------解决方案--------------------
沙发,最近刚刚也在写一个符合自己需求的采集器,刚好可以借鉴及"抄袭"下
------解决方案--------------------
多谢分享呀,下来看下
------解决方案--------------------
下载下来看看。。。。。先谢谢
------解决方案--------------------
谢谢楼主
------解决方案--------------------
我这儿限制了网速。有哪位大哥发份给我学习学习。邮箱my_session@163.com
------解决方案--------------------
感谢楼主分享
------解决方案--------------------
恩!好东西啊!一定要支持一下!
------解决方案--------------------
NB啦~~~~