日期:2014-05-16  浏览次数:20824 次

数据查询效率的问题
是关于判断某url是否已采集的问题。
现在是有个表专门存放已经采集的url地址,总共大概10万条。
采集一个新内容的时候,会判断这个新的url地址是否已经存在在这个url表中,若已存在则不再操作。由于现在数据太多了,请问怎么判断效率会高些和准确些?
目前直接是url='"&nowurl&"'这种sql查询方式,但由于有的url可能比较长,所以查询起来是不是效率很低?
我现在想的是能不能将表中的url通过md5加密后单独放在一个字段,然后新的url也通过md5加密后再去对照查询,这样效率会不会高些?或者还有其他什么好的办法没有?
------解决方案--------------------
查询的内容越长,速度越慢,这是肯定的。
主要是看长度差别到底有多大。
转成md5后,长度会固定成16或者32位,或许会节约一点时间,但到底差异有多大,你还是应该作一下测试。