关于(伪)分布式数据检索请教与探讨
现在搞一套 省 市 县 多级独立部署运营的平台,但数据检索时,每个独立平台都能检索到其他节点平台上的数据,
现在想的方案有两种:
一种是各个独立平台的元数据信息,定时同步汇聚到一个总库中,每个独立平台检索数据时,检索这个总库就行了,
另一种方案是, 平台开放数据检索接口, 其一平台检索时,分别向其他平台发送检索请求,然后汇聚结果返回给前端。
总感觉这两种方案都不是特别完善,也或者是本人能力有限,没有更好的处理方法,特向各位兄弟请教。
下面是为了方便大家对问题的理解,我画的一个图, 里面采用了分布式索引搜索引擎的一些东西做参考,大家不一定非得参照这个的考虑,
容我再赘述一下,是这样子的, 搞的是一套资源管理平台产品。
这套产品可能在多个市 、多个县 都可能分别独立部署。
这个产品除了资源这块,还有其他功能,也就是说各个独立的平台中用户不一样,数据等都不一样,
而需求就是,我其中任意一个平台的用户在检索资源时,
比如A市平台的一个用户,在自己的平上,要能检索到所有其他平台上的数据,比如B省其他平台的资源。
不知道明白我的意思了么。
DFS:分布式存储文件系统。
Lucene\hadoop: apache下面的子项目,做全文检索等分布式搜索引擎相关的框架
elasticsearch:基于Lucene实现,跟apache的solr类似的功能。
------解决方案--------------------按你意思应该是跨数据库了,跨数据库技术很多例子的。
------解决方案--------------------不一定所有的数据都要检索,你要检索的那部分数据的规模大概是多少。
------解决方案--------------------一般建议检索库还是统一成单个库,开发和运维难度都会低些。
除非你待检索数据接近 PB 级别,那就没招了,老老实实云计算了。、
另一个非常重要的问题是,检索频度如何?毕竟统一库的话,所有检索压力也是集中的。
------解决方案--------------------
看时效性要求,如果时效性要求不高,可以自行开发同步程序,晚上增量抽;然后再触发全文索引生成。
如果时效性要求高,恐怕要用工具来完成同步。
其实可以考虑每个地方汇总上来的数据,仍然是分开目录存储,这样便于同步的运维管理。
------解决方案--------------------定点同步是不现实的,不可能要求客户要到某一时刻才能访问,存数据的时候,最好想办法把各地的数据弄到一个服务器的库里。
------解决方案--------------------
按你意思应该是跨数据库了,跨数据库技术很多例子的。
对头,各地平台独立部署,都有自己的数据库
定点同步是不现实的,不可能要求客户要到某一时刻才能访问,存数据的时候,最好想办法把各地的数据弄到一个服务器的库里。