两周没有解决的有关问题-共现次数的有关问题，1-MSSQL教程-爱易网页

两周没有解决的有关问题-共现次数的有关问题，1

日期：2014-05-18　浏览次数：20783 次

两周没有解决的问题---共现次数的问题，急啊！！1
我在一些新闻中将提取一些需要的名词，然后分离，存入数据表中结构如下：
CREATE TABLE [test] (
[id] [int] IDENTITY (1, 1) NOT NULL ,
[name] [varchar] (50) COLLATE Chinese_PRC_CI_AS NOT NULL ,
[newsid] [int] NOT NULL ,
[newsdate] [datetime] NULL ,
) ON [PRIMARY]
GO
id，自增id，name指提取的名词，newsid提起的名词所属的文章列表。newsdate指时间
在一篇文件中出现了一些名词，在另一篇文章中也可能同时出现，
譬如

1 张三， 1， 2007-06-01
2 李四 1， 2007-06-01

3 张三 2 2007-06-02
4 李四 2 2007-06-02

5 王武 3 2007-09-02
求任意两个名词在一定的时间范围内（譬如2007-06月）共同出现的次数。
数据量很大，新闻数有50多万条，提取到test表中有500万条数据，目前的算法效率很低，请大家帮忙，想一个好点的算法。该怎么算呢？

------解决方案--------------------
[name] , [newsdate] ,建立聚集索引。
select count(*) 新闻数 from test where name = '张三 ' or name= '李四 ' and newsdate between '2007-6-1 ' and '2007-6-31 '
------解决方案--------------------
对时间字段建立聚簇索引,name建立非聚簇索引
或者建立全文目录来解决.
建议在查询过程中避免使用 in,like,or等词,会影响速度
------解决方案--------------------
select sum(num1+num2) as num from
(select newsid, sum(1) as num1 from test where newsdate> =t1 and newsdate <=t2 and name=n1 group by newsid) fir,
(select newsid, sum(1) as num2 from test where newsdate> =t1 and newsdate <=t2 and name=n2 group by newsid) sec
where fir.newsid=sec.newsid
------解决方案--------------------
select count(*) from
(select name,convert(char(8),newsdate,112) dd from TableName where name= '张三 ' and convert(char(6),newsdate,112)= '200706 ') a
inner join
(select name,convert(char(8),newsdate,112) dd from TableName where name= '李四 ' and convert(char(6),newsdate,112)= '200706 ') b
on a.dd=b.dd
------解决方案--------------------
我是先统计出每个月所有的名词，然后两两统计，如果一个月有200个名词的话，我需要循环数据库200*(200+1)/2次，各位大侠有什么更好的方法没？

--存储过程加临时表处理：
select name, nCount = count(*) into #test from test where newsdate between '2007-7-1 ' and '2007-7-31 ' group by name
...

--不要每次都调用存储过程，最好通过存储过程生成静态数据。
------解决方案--------------------
如果[newsdate]只精确到日，也就是datetime的整数部分，就没有必要用datetime类型，可以用int类型。

int应该比datetime索引快。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

两周没有解决的有关问题-共现次数的有关问题，1

相关资料更多>

推荐阅读更多>