大量数据安插探讨（一）-数据库教程-爱易网页

大量数据安插探讨（一）

日期：2014-05-16　浏览次数：20550 次

大量数据插入探讨（一）

大量数据插入探讨

        当将文件中大量的数据插入到数据库时，我们就要考虑用什么样的插入策略才能够提高时间和空间的效率了。以下有各种插入策略，其中各有优缺点，供大家探讨。

        当插入的数据不需要考虑数据的重复性时，这比较好办。可以用批量插入或用一些数据库自身提供的大量数据导入工具（如：BCP）或者java 调用sqlloader来完成。

         当插入的数据需要考虑数据的重复性时，就需要考虑时间和空间的效率了。如果在插入每条数据之前先判断数据库是否有重复数据，这样会频繁访问数据库，极大的提高了时间的复杂度，随着数据库数据量的不断增加，效率会越来越低。假设将要大量数据读入内存，再插入数据库，这样虽然提高了时间效率，却大大提高了空间成本，有可能造成内出溢出，并且只能过滤掉文件中的重复数据。时间复杂度 2n.

        有一种更好的策略就是在插入数据库时不考虑重复性，批量插入完以后删除重复记录这样就可以大大降低时间、空间复杂度。当然也可以借助中间表来完成这一策略。

导入是应注意一下几点：

1.最好分批导入，导入一批后最好提交(commit) ，在用jdbc的（executeBatch）批量处理时一定注意最大上限，否则只会执行一部分sql语句，超过上限的sql会自动丢弃。
2.注意内存使用(不要出现内存益出)。
3.效率问题，ID最好使用序列。
4.尽量使用大量导入工具(bcp,sqlLoader)来完成。
5.如果数据量很大的话在导入时最好不要做太多的判断，这样会影响导入速度，可以在导入完成后做一些操作(删除重复记录)，注意建立组合索引。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

大量数据安插探讨（一）

相关资料更多>

推荐阅读更多>