和大家谈论一个大数据列唯一性检查的方法!
比如URL地址的唯一性判断,搜索引擎中最常见的问题,上百亿的URL地址.
大家先说说自己的办法,30楼后给出我的方法,不过我估计不用到30楼肯定有人帮我贴答案了.:)
------解决方案--------------------mark
------解决方案--------------------这贴至少要顶到30楼。
------解决方案--------------------顶
------解决方案--------------------数星星
------解决方案--------------------还没到
------解决方案--------------------沉了
------解决方案--------------------8
------解决方案--------------------9
------解决方案--------------------10
------解决方案--------------------等答案。。。。
------解决方案--------------------消息-> 老版短消息
提示: Server is too busy
------解决方案--------------------等待ing
------解决方案--------------------50
------解决方案--------------------52
------解决方案--------------------53
------解决方案--------------------想想 url唯一。。
域名 + 端口, 不会了。。
------解决方案--------------------说一下应用场景啊
你的意思是 现在有个URL,需要在一个大大的库中判断她是不是存在
可以这样理解吗?
------解决方案--------------------上班了,还来得及。等待
------解决方案--------------------YAHOO是用MD5加密的方法来唯一的,楼主可以试试
------解决方案--------------------23
------解决方案--------------------123
------解决方案--------------------1
------解决方案--------------------321
------解决方案--------------------27
------解决方案--------------------28
------解决方案--------------------29
------解决方案--------------------30
------解决方案--------------------lz可以贴答案了
------解决方案--------------------31了....我是答案??
------解决方案--------------------学习了
------解决方案--------------------学习
------解决方案------------------------任何长度的字符串由MD5算法处理后,都能得到固定长度binary(16)的字符串,如:C4CA4238A0B923820DCC509A6F75849B
这时我们再做唯一性判断,效率当然要高很多~~~~
是不是这样理解 : 数字的比较 比字符串的比较效率高?
------解决方案--------------------