二、拆分超大XML文件所需工具
用Windows自带记事本软件打开超大XML文件非常吃力,须要本教程供应的专门拆分工具,百度网盘下载地址:https://pan.baidu.com/s/1GsMuvDJbD8gNZLUvMTD44A,提取码:5efn
下载后,可见这个压缩文件:

将其解压缩到某文件夹下:
打开该工具主程序,通过主菜单:文件-》打开,或者在左侧树形构造上,点击要处理的国标文件:
特殊情形,某些省市预算单位财务利用的中科江南版平台,导出的国标2010文件没有分行。在不超大情形下,新纪元软件读取没有问题。如果文件超大须要拆分,须要专门工具先分行再用前述工具拆分。未分行XML文件的样子如下。如果已分行或者并非中科江南产生的国标文件,直接转到下一个主题。
分行工具百度网盘下载地址:https://pan.baidu.com/s/1O5hn7rIhMMruu3tit4v7WA
提取码:1ptn
下载后,可见这个压缩文件:
解压缩到某文件夹下:
双击该工具主程序,通过主菜单:文件 -》打开,打开要处理的XML文件,如下图:
主菜单:搜索 -》更换,或者:Ctrl + R,调出更换对话窗口,实行两次更换操作,见下图: 第一次更换,查找内容:><,更换为:>^p<,然后点【全部更换】按钮。
第二次更换,查找内容改为 :> <,也便是将上次查找内容旁边尖括号之间加一个半角空格,更换为还是:>^p<,然后点【全部更换】按钮。
更换所需韶光与数据量有关,请耐心等待。更换完毕后,更换窗口左下角会关照多少个被更换。两次更换完毕后,请关闭更换窗口,可见已经分行:
三、开始拆分前,先理解XML文件的构造
一个XML文件,由描述行、根元素、许许多多一级元素、每个一级元素下N多个二级元素共同组成。见下图:
见上图所示前三个一级元素,每个一级元素可以理解为二维表的一行,由开始标记和结束标记以及所包括的N多个二级元素组成。每个二级元素,可以理解为二维表的某行某列单元格,二级元素的开始标记和结束标记之间的内容(图示玄色字体),是这个单元格的取值。 见上图,根元素、一级元素、有值的二级元素,开始标记和结束标记成对涌现,结束标记比开始标记多一个反斜杠。没有值的二级元素,开始标记和结束标记可以简化合并为一个标记。
见上图第二行,是根元素的开始标记:<总账 >,右尖括号之前,还有一些解释笔墨,不须要理解这些解释笔墨的意义。这个根元素的结束标记位于XML的末了一行,见下图:
见上图,这个XML文件有6916489行,如果按照每个XML文件二百万行拆分,可拆分出四个XML文件。拆分后,还须要三个手动操作,1、将第一个XML的描述行和根元素开始标记,也便是这个XML的前两行复制粘贴到后面三个XML文件的头部,2、将第一个到末了第二个XML的尾部被拆断的一级元素的前一部分剪切到下一个XML的被截断的一级元素的后一部分的前面,担保这个一级元素在同一个XML里,3、将末了一个XML尾部的原XML文件的根元素结束标记复制,分别粘贴到末了第二个到第一个XML文件的尾部,作为各自XML文件的根元素结束标记。
四、现在开始拆分
用本教程供应的拆分工具EmEditor打开要拆分的XML文件,主菜单:工具–》分割/合并-》将本文档分割为多个文件:
按每个XML文件二百万行拆分:
拆分出来的文件放在哪个文件夹以及如何命名:
连续点【下一步】按钮:
再连续点【下一步】按钮:
等待拆分进度结束,点【完成】按钮:
左侧树形构造上鼠标右键,菜单项:查看-》刷新:
刷新左侧树形构造后,可以看到拆分出来的四个文件,位于自动天生的子文件夹下:
接下来手动整理新拆分出来的XML文件1、将拆分出来的第一个XML文件的描述行和根元素开始标记,复制到其它几个XML文件的头部,作为它们各自的描述行和根元素开始标记:
左侧树形构造,选中第二个文件,右侧粘贴前图所示复制的内容:
依此类推地,将相同内容粘贴到剩余的其它几个XML文件的头部。
2、将前一个XML文件尾部因拆分而截断的一级元素残留部分,剪切到下一个文件的前部:
左侧选中第二个文件,右侧在根元素的开始标记下一行,Ctrl+V,粘贴前图所示剪切的内容:
3、将末了一个XML文件尾部的根元素结束标记,复制到前面所有文件的尾部,分别作为它们各自的根元素结束标记。
右侧打开末了第二个文件,滚动条拉到末了,Ctrl + V,粘贴前图所示复制的根元素结束标记。
依此类推地,将根元素结束标记粘贴到前面各文件的尾部。
4、保存所有的拆分文件,退出拆分工具。5、将国标2010文件组中不须要拆分的其它几个XML文件,复制到拆分天生的子文件夹下,担保不需拆分的XML文件与大文件拆分出来的多个XML文件,位于同一个文件夹下。6、拆分作业已经完毕,打开新纪元软件,主菜单:数据源-》即时连接-》国标备份文件系列-》国标2010(行政奇迹或企业)|XML文件,手动指定文件路径为拆分天生的那个文件夹。确定后,开始依次读取XML文件。读取完毕后,点【开始采集】按钮,开始采集。