关于java成都处理大数据的问题
现在遇见一个问题,就是在程序中拿到一个10W以上的数据,现在需要判断这里面的重复数据,并且把重复数据拿出来,有没有什么好的解决方案。求解答。
------解决方案--------------------也可以把,记录拆分几个表。关联join 查询 就好了。
------解决方案--------------------如果在数据库里,直接select * from t minus (select distinct ... from t)就行了。
如果在Java里,可以对每行字符串求其hash,以该hash值为key,行字符串为value放到HashMap,然后每个新的字符串算出hash后hashMap.containsKey就行了。如果hash值相同,字符串很可能相同,再直接比较一下字符串防止哈希碰撞。