日期:2014-05-16  浏览次数:20561 次

操作excel,批量插入数据库

为了导入大量的测试数据进入数据库,但是必须保证导入的数据有效,包含公司名字和邮箱,导入后可以批量的发送邮件(不是垃圾邮件),是邀请邮件。同事给我的文件是excel的,正好,学学如何操作excel以及如何有效的导入数据库并让效率让人满意。

?

首先操作excel:

用到类:

import jxl.Cell;

import jxl.Sheet;

import jxl.Workbook;

这3个足够用了。

InputStream input = new FileInputStream(url);
Workbook book = Workbook.getWorkbook(input);
Sheet[] st = book.getSheets();//得到excel第一页的内容,我们知道excel可以分成很多个工作单元哈
int index = st[0].getRows();//得到记录行

List list = new ArrayList();
			for(int i=0;i<index; i++){
				Cell company = st[0].getCell(0, i);//获取第一列的对象
				Cell emails = st[0].getCell(1,i);//获取第二列的对象
				String cps = company.getContents(); //得到第一列的某行的文本值
				if(cps.length() >= 30){
					cps = "";
				}
				if(cps!=""){
					String els = emails.getContents(); //同样的得到第
					String[] temp = getEmails(els);
					int j = temp.length;
					String[] temps = new String[1];
					while(j >= 1){
						temps = new String[]{cps, temp[j-1]};
						//map.put(cps, temp[j-1]);
						list.add(temps);
						j--;
					}
				}
			}

?啊 上面的就这样了,由于他里面的数据不规范,可能有空的或者多个换行符之类的,导致插入数据报长度不够的错误,所以要截取一下有效数据,用java的正则表达式。

/**
	 * 根据mail返回递归后的邮件列表
	 * @param str
	 * @return
	 */
	public String[] getEmails(String str){
		Pattern p = Pattern.compile("\n|\r|\t"); //可修改
		String[] a = p.split(str);
		return a;
	}

?大概就是这个样子啊,返回的是某一个单元格的数据行的数组。比如说某一个单元格写了10条数据,那么就返回一个长度为10的数组。

下面是去除重复:

int ccc = 0;
				for(int m = 0; m < list.size()-1; m++){
					String entname = ((String[])list.get(m))[0]; //得到公司名字
					String entemail = ((String[])list.get(m))[1];//得到公司邮箱
					//String name = list1.get(m).toString();
					//System.out.println("公司邮箱:"+s+"-------公司名字:"+name);
					for (int w = list.size()-1; w > m ; w--) {
						String tempname = ((String[])list.get(w))[0];
						String tempemail = ((String[])list.get(w))[1];
						if(tempemail.equals(entemail)){
							//System.out.println("重复"+tempemail+" 公司:"+tempname);
							list.remove(w);
						}
						System.out.println("执行了"+(ccc++)+"次");
					}
				}

?看不懂没关系,嵌套循环而已,效率不算高,时间仓促。将来改进。。。呵呵

这里得到了第二列的所有的有效的邮件,保证不重复。(为了达到邮件的验证,可以在上面的哦正则表达式中加邮箱验证,这里我就没弄了,因为数据不是很重要,验证邮箱的正则网上一大把)。

好了,上面的读取excel基本操作已经搞完了,下面是插入数据

代码如下:

Connection conn = dao.getQueryDao().getCurrentHibernateSession().connection();
String sql = "?,?";//假设insert后面的value就2个值哈
try {
			java.sql.PreparedStatement pars = conn.prepareStatement(sql);
			for (Object object : list) {
				String[] str = (String[])object;
				String a = str[0];//公司
				String b = str[1];//邮箱
				pars.setString(1, a);
				pars.setString(2, b);
				pars.addBatch();
			}
			pars.executeBatch();
		} catch (SQLException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

?上面这个应该不难理解,可能获取connection的方式有点诡异,呵呵对了,dao是spring注入的,表示一个通用dao(commonDAO)所以里面能拿到这个connection的了,这里就不多做解释。要是有疑问欢迎站内。

这里要说明的是batch这个玩意儿,如果采用一般的JDBC对数据库操作的话效率没有这个快,为什么呢,看一下addbatch然后跳出循环后executebatch就知道了,嗯,肯定是一次性操作啦,至于有什么坏处,有待我以后慢慢研究。

?

弄完这个,执行插入成功,那些个约束啊长度限制啊神码的需要自己在写的过程中调整。写完后我就决定要写一个通用的文件操作类了,下次操作文件的时候能直接拖过用,下一篇文章可能是会讲解图表技术的一些相关内容。