首页 » SEO优化 » phpxml朋分技巧_国标2010超大年夜XML文件拆分教程

phpxml朋分技巧_国标2010超大年夜XML文件拆分教程

访客 2024-12-07 0

扫一扫用手机浏览

文章目录 [+]

二、拆分超大XML文件所需工具

  用Windows自带记事本软件打开超大XML文件非常吃力,须要本教程供应的专门拆分工具,百度网盘下载地址:https://pan.baidu.com/s/1GsMuvDJbD8gNZLUvMTD44A,提取码:5efn

phpxml朋分技巧_国标2010超大年夜XML文件拆分教程

  下载后,可见这个压缩文件:

phpxml朋分技巧_国标2010超大年夜XML文件拆分教程
(图片来自网络侵删)

  将其解压缩到某文件夹下:

  打开该工具主程序,通过主菜单:文件-》打开,或者在左侧树形构造上,点击要处理的国标文件:

  特殊情形,某些省市预算单位财务利用的中科江南版平台,导出的国标2010文件没有分行。
在不超大情形下,新纪元软件读取没有问题。
如果文件超大须要拆分,须要专门工具先分行再用前述工具拆分。
未分行XML文件的样子如下。
如果已分行或者并非中科江南产生的国标文件,直接转到下一个主题。

  分行工具百度网盘下载地址:https://pan.baidu.com/s/1O5hn7rIhMMruu3tit4v7WA

提取码:1ptn

  下载后,可见这个压缩文件:

  解压缩到某文件夹下:

  双击该工具主程序,通过主菜单:文件 -》打开,打开要处理的XML文件,如下图:

  主菜单:搜索 -》更换,或者:Ctrl + R,调出更换对话窗口,实行两次更换操作,见下图:  第一次更换,查找内容:><,更换为:>^p<,然后点【全部更换】按钮。

  第二次更换,查找内容改为 :> <,也便是将上次查找内容旁边尖括号之间加一个半角空格,更换为还是:>^p<,然后点【全部更换】按钮。

  更换所需韶光与数据量有关,请耐心等待。
更换完毕后,更换窗口左下角会关照多少个被更换。
两次更换完毕后,请关闭更换窗口,可见已经分行:

三、开始拆分前,先理解XML文件的构造

  一个XML文件,由描述行、根元素、许许多多一级元素、每个一级元素下N多个二级元素共同组成。
见下图:

  见上图所示前三个一级元素,每个一级元素可以理解为二维表的一行,由开始标记和结束标记以及所包括的N多个二级元素组成。
每个二级元素,可以理解为二维表的某行某列单元格,二级元素的开始标记和结束标记之间的内容(图示玄色字体),是这个单元格的取值。
  见上图,根元素、一级元素、有值的二级元素,开始标记和结束标记成对涌现,结束标记比开始标记多一个反斜杠。
没有值的二级元素,开始标记和结束标记可以简化合并为一个标记。

  见上图第二行,是根元素的开始标记:<总账 >,右尖括号之前,还有一些解释笔墨,不须要理解这些解释笔墨的意义。
这个根元素的结束标记位于XML的末了一行,见下图:

  见上图,这个XML文件有6916489行,如果按照每个XML文件二百万行拆分,可拆分出四个XML文件。
拆分后,还须要三个手动操作,1、将第一个XML的描述行和根元素开始标记,也便是这个XML的前两行复制粘贴到后面三个XML文件的头部,2、将第一个到末了第二个XML的尾部被拆断的一级元素的前一部分剪切到下一个XML的被截断的一级元素的后一部分的前面,担保这个一级元素在同一个XML里,3、将末了一个XML尾部的原XML文件的根元素结束标记复制,分别粘贴到末了第二个到第一个XML文件的尾部,作为各自XML文件的根元素结束标记。

四、现在开始拆分

  用本教程供应的拆分工具EmEditor打开要拆分的XML文件,主菜单:工具–》分割/合并-》将本文档分割为多个文件:

  按每个XML文件二百万行拆分:

  拆分出来的文件放在哪个文件夹以及如何命名:

  连续点【下一步】按钮:

  再连续点【下一步】按钮:

  等待拆分进度结束,点【完成】按钮:

  左侧树形构造上鼠标右键,菜单项:查看-》刷新:

  刷新左侧树形构造后,可以看到拆分出来的四个文件,位于自动天生的子文件夹下:

  接下来手动整理新拆分出来的XML文件1、将拆分出来的第一个XML文件的描述行和根元素开始标记,复制到其它几个XML文件的头部,作为它们各自的描述行和根元素开始标记:

左侧树形构造,选中第二个文件,右侧粘贴前图所示复制的内容:

依此类推地,将相同内容粘贴到剩余的其它几个XML文件的头部。

2、将前一个XML文件尾部因拆分而截断的一级元素残留部分,剪切到下一个文件的前部:

左侧选中第二个文件,右侧在根元素的开始标记下一行,Ctrl+V,粘贴前图所示剪切的内容:

3、将末了一个XML文件尾部的根元素结束标记,复制到前面所有文件的尾部,分别作为它们各自的根元素结束标记。

右侧打开末了第二个文件,滚动条拉到末了,Ctrl + V,粘贴前图所示复制的根元素结束标记。

依此类推地,将根元素结束标记粘贴到前面各文件的尾部。

4、保存所有的拆分文件,退出拆分工具。
5、将国标2010文件组中不须要拆分的其它几个XML文件,复制到拆分天生的子文件夹下,担保不需拆分的XML文件与大文件拆分出来的多个XML文件,位于同一个文件夹下。
6、拆分作业已经完毕,打开新纪元软件,主菜单:数据源-》即时连接-》国标备份文件系列-》国标2010(行政奇迹或企业)|XML文件,手动指定文件路径为拆分天生的那个文件夹。
确定后,开始依次读取XML文件。
读取完毕后,点【开始采集】按钮,开始采集。

标签:

相关文章

php视频缓冲读取技巧_PHP输出缓冲及其应用

如上图,是一个大略单纯的缓冲区仿照图,左端入口的数据具有单个输入体积小,速率快,数量多,但右端输出数据具有体历年夜,速率慢的特点。...

SEO优化 2024-12-09 阅读0 评论0

php付出app技巧_PHP的支付宝APP支付

文|何掌柜第一步:创建运用并获取APPID要在您的运用中利用支付宝开放产品的接谈锋能,您须要先去蚂蚁金服开放平台(open.ali...

SEO优化 2024-12-09 阅读0 评论0

php蛋糕店技巧_为啥 php 还有这么多人在用

小公司机器套用大批量的产出模式,便是灾害!切实其实就和当代商业南辕北辙...类似PHP这种被低估的小快灵技能,能帮助你快速把业务迭...

SEO优化 2024-12-09 阅读0 评论0