大数据量解决方案测试,该怎么解决-Java教程-爱易网页

大数据量解决方案测试,该怎么解决

日期：2014-05-20　浏览次数：21327 次

大数据量解决方案测试
按理论来讲：如果一个表数据量太大的时候，查询速度会较慢；但如果把数据水平分割为多个表，采用多线程查询；最后将结果返回，速度应该提高很多。
带着这个问题，我今天专门做了个测试，但实际情况与我预料相差甚远，多线程竟然慢了一倍！

我的表里有720万数据，我查询语句如下：select * from usertable where username = 'mayanyun1000000'；如果在一张表中只需4秒；如果分成多表查询，速度慢了一倍；

我使用一张表的时候代码如下：

public class TestSelectOneThread {

public static void main(String[] args) throws Exception{
long start = System.currentTimeMillis();
Connection con = ConnectionFactory.getConnection();
PreparedStatement ps = con.prepareStatement("select * from usertable where username = 'mayanyun1000000'");
ResultSet rs = ps.executeQuery();
while(rs.next()){
System.out.println(rs.getInt(1));
System.out.println(rs.getString(2));
System.out.println(rs.getString(3));
}
long end = System.currentTimeMillis();
System.out.println("共用时间：" + (end - start) + "微秒");
}
}

我把数据分为 7 个表；

代码如下：

public class TestSelectMoreThread {

public static void main(String[] args) throws Exception{

long start = System.currentTimeMillis();

Connection con = ConnectionFactory.getConnection();

List list = new ArrayList();

SelectThread[] threads = new SelectThread[7];

for(int i = 0 ; i < threads.length ;i++){
String sql = "select * from usertable"+(i+1)+" where username = 'mayanyun1000000'";
System.out.println(sql);
threads[i] = new SelectThread();
threads[i].setSql(sql);
threads[i].start();
}

while(true){
boolean b = false;
for(int i = 0 ; i < threads.length ;i++){
if(threads[i].status == 1){
b = true;
}else{
b = false;
break;
}
}

if(b){
break;
}
}

for(int i = 0 ; i < threads.length ; i ++){
list.addAll(threads[i].getResult());
}

System.out.println(list);
long end = System.currentTimeMillis();
System.out.println("共用时间：" + (end - start) + "微秒");
}

用到的线程类如下：public class SelectThread extends Thread{

public int status = 0 ; //1 为执行完毕，0为未执行完毕

private String sql;

private List<User> result = new ArrayList<User>();

public void run(){
try{
Connection con = ConnectionFactory.getConnection();

PreparedStatement ps = con.prepareStatement(sql);
ResultSet rs = ps.executeQuery();
while(rs.next()){
User user = new User();
user.setId(rs.getInt(1));
user.setUsername(rs.getString(2));
user.setPassword(rs.getString(3));

result.add(user);
}

status = 1;

}catch (Exception e) {
}
}

public List<User> getResult() {
return result;
}

public void setSql(String sql) {
this.sql = sql;
}
}

怪了，难道是我的代码有问题？还是这样分表查询性能就不如不分表？还请高人指教！

------解决方案--------------------
我没研究过大数据解决方案，但是看过几篇论文。我看别人处理这种问题多采用的是数据库集群。
我分析了一下，单线程的时候他就直接去挨着找就行了（当然里面有hash值，不可能直接找）。
多线程的时候，他还得按你的要求找到特定的位置再来找，这就麻烦了。
------解决方案--------------------
你要理解几个感念
1你这表的username 建了索引，如果username 重复的概率很小的话，只需要扫描很小部分的数据块，所以数据量再大速度也不慢，所以并不是数据量是10倍，查询时间就是10倍，数据量是1/10，查询时间就是1/10
2你没有采用绑定变量，所以数据库每次对你这个sql语句进行硬分析，也是要花时间的，你改成绑定变量试试，第二次以后如果条件一样，时间会少很多
3多线程要cpu是多核的才行，否则还是单线程，只是每个线程轮流执行
------解决方案--------------------
哎，你完全没有必要自己去写这些程序
oracle中提供了分区以及并行执行的功能
分区对于查询带来的性能提升主要是基于分区消除，即查询的时候不考虑一些分区，因为oracle是区间分区或者hash分区或者队列分区，索引每个区的数据都是可以预知的，因此在使用where从句时可以根据分区键进行分区消除（即查询时候不扫描一些分区）。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

大数据量解决方案测试,该怎么解决

相关资料更多>

推荐阅读更多>