SQL Story摘录（一）————复杂查询初探-数据库教程-爱易网页

SQL Story摘录（一）————复杂查询初探

日期：2013-05-13　浏览次数：20697 次

在CSDN上回贴时，我总是苦口婆心肠劝告楼上楼下的朋友们多用联接。可呼应甚微。往往一个简单的功用，也一定要写成子查询或游标，弄得非常复杂冗长。的确，这样写对于初学者来说，费力不费脑，思路比较好理解。所以往往得分的也是这些回贴。可理想上，如果你真正熟悉了SQL的编程风格，你会明白，联接查询才是最直接、最清晰、最无力的方法，而更好的办法就是无招胜有招，一条简单查询结束战役。下面我举几个例子来证明一下这个观点。
例1-1、反复记录的查询和处理
总有一些朋友在网上问，一个表中，有反复的记录，怎样办？当然，一个设计风格良好的关系型数据库，每个表都应该有主键、有独一索引，所以压根就不该有反复记录。不过有时还是会出现不该出现的事，比如“七．七事变”，比如“9．11”……咳咳，其实我想说的是，有时会有人基本没无数据库的概念，他就不知道主键是什么，或者随意建了一个自动标识的ID列充数（其实这也没什么，没有人天生会设计数据库，关键是愿不愿承认本人的不足并且改进）。更常见的是我们的数据可能来自一些电子表格或文本文件，导入到数据库中时才发现问题。
这里，我们建立一个表，表示某商店的存货。我有意没有加入任何索引和约束，这样，它会很容易地出问题（就像实验室里的裸鼠）。
CREATE TABLE PRODUCT(
ID INT, PNAME CHAR(20),
PRICE MONEY, NUMBER INT,
PDESCRIPTION VARCHAR(50))
如今，我们可以向其中插入一些数据：
IDPNAMEPRICENUMBERPDESCRIPTION
1Apple 123000

1Apple 123000

2Banana 16.997600

3Olive 25.224500

4Orange 15.995500

4Coco Nut 40.992000

5Pineapple 302500

6Olive 25.223000

这里有一些明显的问题，前两行完全一样，这样的反复数据一点意义都没有，只会添乱。InterBase还好点，在它的IBConsole中可以直接修正它们。可在SQL Server中，系统基本无法区分这两行，当我们试图对其中任一行修正时会收到一个错误信息。理想上，这也是一个关系型数据库应有的反应。那我们应该怎样办呢？
理想上，处理它的方法比找出错误数据还简单，联接查询都用不到。用一条SQL语句
SELECT DISTINCT * FROM PRODUCT
就可以把反复数据紧缩掉，生成一个包括正常数据的数据集。结果如下：
IDPNAMEPRICENUMBERPDESCRIPTION
1Apple 123000

2Banana 16.997600

3Olive 25.224500

4Orange 15.995500

4Coco Nut 40.992000

5Pineapple 302500

6Olive 25.223000

对于支持SELECT …… INTO……FROM语句的数据库来说，这样一句
SELECT DISTINCT * INTO NewTable FROM PRODUCT
就可把数据导入到一个新表（NewTable ）中。或者可以用INERT INTO …… SELECT DISTINCT * FROM ……把它导入到一个现有的表中。总之有了正确的数据集，再如何处理就好办了。置信大家知道这个合并反复数据的关键字DISTINCT后，再不会用游标来处理反复数据了吧。
这是第一步，有时可能我们不想一下把它们紧缩掉，而是想先看看到底谁出了问题。好的，用下面的语句可以找出反复的记录，最左边一列“ROW_COUNT”表示这行数据在表中反复的次数：
SELECT ID, PNAME, PRICE, NUMBER, PDESCRIPTION, COUNT(*) ROW_COUNT
FROM PRODUCT
GROUP BY ID, PNAME, PRICE, NUMBER, PDESCRIPTION
HAVING COUNT(*) > 1
IDPNAMEPRICENUMBERPDESCRIPTIONROW_COUNT
1Apple123000NULL2

（所影响的行数为 1 行）
其实就是关键字GROUP BY …… HAVING和统计函数COUNT的一个简单运用，记得在GROUP BY 后面写上完整的字段列表。这表示我们要的是那些完全分歧的数据，每个字段都一样。
PRODUCT表中的数据很多时，用前面的方法直接生成正确的数据集效率很低。如今有了这个结果集，我们可以高效率任务了。如今，我们用
SELECT ID, PNAME, PRICE, NUMBER, PDESCRIPTION
FROM PRODUCT
GROUP BY ID, PNAME, PRICE, NUMBER, PDESCRIPTION
HAVING COUNT(*) > 1
把反复的数据生成为一个经过紧缩的正确数据集，用前述的方法导出到一个临时表中，然后用
DELETE FROM PRODUCT
WHERE ID IN (
SELECT ID
FROM PRODUCT
GROUP BY ID, PNAME, PRICE, NUMBER, PDESCRIPTION
HAVING COUNT(*) > 1
)
把反复数据从PRODUCT表中删除，再把紧缩好的数据插入PRODUCT。如今PRODUCT表中不再有完全反复，不可标识的数据了。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

SQL Story摘录（一）————复杂查询初探

相关资料更多>

推荐阅读更多>