大量数据插入探讨(一)
大量数据插入探讨
当将文件中大量的数据插入到数据库时,我们就要考虑用什么样的插入策略才能够提高时间和空间的效率了。以下有各种插入策略,其中各有优缺点,供大家探讨。
当插入的数据不需要考虑数据的重复性时,这比较好办。可以用批量插入或用一些数据库自身提供的大量数据导入工具(如:BCP)或者java 调用sqlloader来完成。
当插入的数据需要考虑数据的重复性时,就需要考虑时间和空间的效率了。如果在插入每条数据之前先判断数据库是否有重复数据,这样会频繁访问数据库,极大的提高了时间的复杂度,随着数据库数据量的不断增加,效率会越来越低。假设将要大量数据读入内存,再插入数据库,这样虽然提高了时间效率,却大大提高了空间成本,有可能造成内出溢出,并且只能过滤掉文件中的重复数据。时间复杂度 2n.
有一种更好的策略就是在插入数据库时不考虑重复性,批量插入完以后删除重复记录这样就可以大大降低时间、空间复杂度。当然也可以借助中间表来完成这一策略。
导入是应注意一下几点:
1.最好分批导入,导入一批后最好提交(commit) ,在用jdbc的(executeBatch)批量处理时一定注意最大上限,否则只会执行一部分sql语句,超过上限的sql会自动丢弃。
2.注意内存使用(不要出现内存益出)。
3.效率问题,ID最好使用序列。
4.尽量使用大量导入工具(bcp,sqlLoader)来完成。
5.如果数据量很大的话在导入时最好不要做太多的判断,这样会影响导入速度,可以在导入完成后做一些操作(删除重复记录),注意建立组合索引。