业务很大略:须要批量插入一些数据,数据来源可能是其他数据库的表,也可能是一个外部excel的导入。
那么问题来了,是不是每次插入之前都要查一遍,重视视不重复,在代码里筛选一下数据,重复的就过滤掉呢?
向大数据数据库中插入值时,还要判断插入是否重复,然后插入。如何提高效率?

看来这个问题不止我一个人苦恼过。
办理的办法有很多种,不同的场景办理方案也不一样,数据量很小的情形下,怎么搞都行,但是数据量很大的时候,这就不是一个大略的问题了。
几百万的数据,不可能查出来去重处理!
说一下我Google到的办理方案。
1、insert ignore into当插入数据时,如涌现缺点时,如重复数据,将不返回缺点,只以警告形式返回。以是利用ignore请确保语句本身没有问题,否则也会被忽略掉。例如:
INSERTIGNOREINTOuser(name)VALUES('telami')
这种方法很简便,但是有一种可能,便是插入不是由于重复数据报错,而是由于其他缘故原由报错的,也同样被忽略了~
2、on duplicate key update当primary或者unique重复时,则实行update语句,如update后为无用语句,如id=id,则同1功能相同,但缺点不会被忽略掉。
例如,为了实现name重复的数据插入不报错,可利用一下语句:
INSERTINTOuser(name)VALUES('telami')ONduplicateKEYUPDATEid=id
这种方法有个条件条件,便是,须要插入的约束,须要是主键或者唯一约束(在你的业务中那个要作为唯一的判断就将那个字段设置为唯一约束也便是unique key)。
3、insert … select … where not exist根据select的条件判断是否插入,可以不只通过primary 和unique来判断,也可通过其它条件。例如:
INSERTINTOuser(name)SELECT'telami'FROMdualWHERENOTEXISTS(SELECTidFROMuserWHEREid=1)
这种方法实在便是利用了mysql的一个临时表的办法,但是里面利用到了子查询,效率也会有一点点影响,如果能利用上面的就不该用这个。
4、replace into如果存在primary or unique相同的记录,则先删除掉。再插入新记录。
REPLACEINTOuserSELECT1,'telami'FROMbooks
这种方法便是不管原来有没有相同的记录,都会先删除掉然后再插入。
实践选择的是第二种办法
<insertid="batchSaveUser"parameterType="list">insertintouser(id,username,mobile_number)values<foreachcollection="list"item="item"index="index"separator=",">(#{item.id},#{item.username},#{item.mobileNumber})</foreach>ONduplicateKEYUPDATEid=id</insert>
这里用的是Mybatis,批量插入的一个操作,mobile_number已经加了唯一约束。这样在批量插入时,如果存在手机号相同的话,是不会再插入了的。