日期:2014-05-16  浏览次数:21120 次

大数据量比对问题
问题提出:在两个数千万到数亿记录的表中找出指定字段相同的记录。

已有思路:将两个表切片,然后将数据分发到多台机器上去执行比对,问题是如果每个表切成10片,就会产生100个组合,同时分发到100台机器去执行显然不太可能。

求更好的解决方案。

------解决方案--------------------
可以用少量多次的方式来查数据,将其中一个表的数据分成一百万组,每次查询一组的就只会占用较少资源,分开成百万次只执行.这样时间会稍微长点,但是不会太耗资源
------解决方案--------------------
我的意思是,
每次用一个表中数据的百万分之一和另一个表(全部数据)关联查询,把结果保存到新表中.
执行一百万次之后,所有的数据就出来了. 
前提是其中一个表(全部数据的表)必须要有索引.