日期:2014-05-16 浏览次数:20571 次
为了导入大量的测试数据进入数据库,但是必须保证导入的数据有效,包含公司名字和邮箱,导入后可以批量的发送邮件(不是垃圾邮件),是邀请邮件。同事给我的文件是excel的,正好,学学如何操作excel以及如何有效的导入数据库并让效率让人满意。
?
首先操作excel:
用到类:
import jxl.Cell;
import jxl.Sheet;
import jxl.Workbook;
这3个足够用了。
InputStream input = new FileInputStream(url);
Workbook book = Workbook.getWorkbook(input);
Sheet[] st = book.getSheets();//得到excel第一页的内容,我们知道excel可以分成很多个工作单元哈
int index = st[0].getRows();//得到记录行
List list = new ArrayList();
for(int i=0;i<index; i++){
Cell company = st[0].getCell(0, i);//获取第一列的对象
Cell emails = st[0].getCell(1,i);//获取第二列的对象
String cps = company.getContents(); //得到第一列的某行的文本值
if(cps.length() >= 30){
cps = "";
}
if(cps!=""){
String els = emails.getContents(); //同样的得到第
String[] temp = getEmails(els);
int j = temp.length;
String[] temps = new String[1];
while(j >= 1){
temps = new String[]{cps, temp[j-1]};
//map.put(cps, temp[j-1]);
list.add(temps);
j--;
}
}
}
?啊 上面的就这样了,由于他里面的数据不规范,可能有空的或者多个换行符之类的,导致插入数据报长度不够的错误,所以要截取一下有效数据,用java的正则表达式。
/** * 根据mail返回递归后的邮件列表 * @param str * @return */ public String[] getEmails(String str){ Pattern p = Pattern.compile("\n|\r|\t"); //可修改 String[] a = p.split(str); return a; }
?大概就是这个样子啊,返回的是某一个单元格的数据行的数组。比如说某一个单元格写了10条数据,那么就返回一个长度为10的数组。
下面是去除重复:
int ccc = 0; for(int m = 0; m < list.size()-1; m++){ String entname = ((String[])list.get(m))[0]; //得到公司名字 String entemail = ((String[])list.get(m))[1];//得到公司邮箱 //String name = list1.get(m).toString(); //System.out.println("公司邮箱:"+s+"-------公司名字:"+name); for (int w = list.size()-1; w > m ; w--) { String tempname = ((String[])list.get(w))[0]; String tempemail = ((String[])list.get(w))[1]; if(tempemail.equals(entemail)){ //System.out.println("重复"+tempemail+" 公司:"+tempname); list.remove(w); } System.out.println("执行了"+(ccc++)+"次"); } }
?看不懂没关系,嵌套循环而已,效率不算高,时间仓促。将来改进。。。呵呵
这里得到了第二列的所有的有效的邮件,保证不重复。(为了达到邮件的验证,可以在上面的哦正则表达式中加邮箱验证,这里我就没弄了,因为数据不是很重要,验证邮箱的正则网上一大把)。
好了,上面的读取excel基本操作已经搞完了,下面是插入数据
代码如下:
Connection conn = dao.getQueryDao().getCurrentHibernateSession().connection(); String sql = "?,?";//假设insert后面的value就2个值哈 try { java.sql.PreparedStatement pars = conn.prepareStatement(sql); for (Object object : list) { String[] str = (String[])object; String a = str[0];//公司 String b = str[1];//邮箱 pars.setString(1, a); pars.setString(2, b); pars.addBatch(); } pars.executeBatch(); } catch (SQLException e) { // TODO Auto-generated catch block e.printStackTrace(); }
?上面这个应该不难理解,可能获取connection的方式有点诡异,呵呵对了,dao是spring注入的,表示一个通用dao(commonDAO)所以里面能拿到这个connection的了,这里就不多做解释。要是有疑问欢迎站内。
这里要说明的是batch这个玩意儿,如果采用一般的JDBC对数据库操作的话效率没有这个快,为什么呢,看一下addbatch然后跳出循环后executebatch就知道了,嗯,肯定是一次性操作啦,至于有什么坏处,有待我以后慢慢研究。
?
弄完这个,执行插入成功,那些个约束啊长度限制啊神码的需要自己在写的过程中调整。写完后我就决定要写一个通用的文件操作类了,下次操作文件的时候能直接拖过用,下一篇文章可能是会讲解图表技术的一些相关内容。