海量大数据，重复数据怎么高效的删除-MSSQL教程-爱易网页

海量大数据，重复数据怎么高效的删除

日期：2014-05-16　浏览次数：20950 次

海量大数据，重复数据如何高效的删除

哥哥们，我有事请教
我有一个表超1.5亿条数据，中间有很多很多的重复数据，而且没有建索引和键，你说我有没有办法删除重复的数据。
还是说已经宣布没的救了。

------解决方案--------------------
能短时不给其他人访问的话：
步骤1：select distinct 列名 into #t from tb
步骤2：truncate table tb
步骤3：insert into tb(列名) select 列名 from #t

------解决方案--------------------

引用:

3楼能否给个链接。我刚找了没找见。

链接没有，我电脑上的脚本倒是有



--处理表重复记录(查询和删除)

/******************************************************************************************************************************************************

1、Num、Name相同的重复值记录,没有大小关系只保留一条

2、Name相同,ID有大小关系时,保留大或小其中一个记录

整理人：中国风(Roy)



日期:2008.06.06

******************************************************************************************************************************************************/



--1、用于查询重复处理记录(如果列没有大小关系时2000用生成自增列和临时表处理,SQL2005用row_number函数处理)



--> --> (Roy)生成測試數據

 

if not object_id('Tempdb..#T') is null

	drop table #T

Go

Create table #T([ID] int,[Name] nvarchar(1),[Memo] nvarchar(2))

Insert #T

select 1,N'A',N'A1' union all

select 2,N'A',N'A2' union all

select 3,N'A',N'A3' union all

select 4,N'B',N'B1' union all

select 5,N'B',N'B2'

Go





--I、Name相同ID最小的记录(推荐用1,2,3),方法3在SQl05时，效率高于1、2

方法1:

Select * from #T a where not exists(select 1 from #T where Name=a.Name and ID<a.ID)



方法2:

select a.* from #T a join (select min(ID)ID,Name from #T group by Name) b on a.Name=b.Name and a.ID=b.ID



方法3:

select * from #T a where ID=(select min(ID) from #T where Name=a.Name)



方法4:

select a.* from #T a join #T b on a.Name=b.Name and a.ID>=b.ID group by a.ID,a.Name,a.Memo having count(1)=1 



方法5:

select * from #T a group by ID,Name,Memo having ID=(select min(ID)from #T where Name=a.Name)



方法6:

select * from #T a where (select count(1) from #T where Name=a.Name and ID<a.ID)=0



方法7:

select * from #T a where ID=(select top 1 ID from #T where Name=a.name order by ID)



方法8:

select * from #T a where ID!>all(select ID from #T where Name=a.Name)



方法9(注:ID为唯一时可用):

select * from #T a where ID in(select min(ID) from #T group by Name)



--SQL2005:



方法10:

select ID,Name,Memo from (select *,min(ID)over(partition by Name) as MinID from #T a)T where ID=MinID



方法11:



select ID,Name,Memo from (select *,row_number()over(partition by Name order by ID) as MinID from #T a)T where MinID=1



生成结果:

/*

ID          Name Memo

----------- ---- ----

上一篇：MSSQL日志超大处理方法

下一篇：请教余额宝收益率为何一直在降呢

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

求一句判断的SQL话语

怎样在动态SQL中加入有效变量？解决思路

请教,俺的是32bit XP,想装ms sql 2005 ,应装啥版本. ms sql 2005 enterprise版,装上后不能用.

庆祝国庆加顺利拿了红花,该怎么解决

求SQL相加后增一行输出解决方法

貌似麻煩的Update,歡迎新老CSDN,该如何处理

2005数据库还原的有关问题

SQL Server 2008的完全备份和差异备份到底有啥暗藏的玄机啊解决思路

mssql安装中出现这如何解决

海量大数据，重复数据怎么高效的删除

相关资料更多>

推荐阅读更多>