php截取htmlbody技巧_从零之054 网页代码中提取文字掏出body的内容

文章目录 [+]

回顾上一章的内容我们知道，网页代码的实质便是html措辞。

这种措辞的特点是，代码和内容夹杂在一起，通过代码对内容的特点进行标记，当代网页还领悟进了css以及javascript脚本。

在我们就从这一堆代码中，仅仅取出内容部分，我们该当怎么做呢？这个问题很难一步到位，因此，可以把它分为很多小问题，一个一个办理，先办理第一个问题便是取出body这里边的内容，先不管格式。

（图片来自网络侵删）

html一样平常情形下大体分为两段：

一段是head部分，这部分没有文章内容。

另一段是body部分，这部分包含了文章的实际内容，但它仍旧是html把内容互杂的。

基本思路是这样的，用关键特色标记“<body”把内容分成两段，前面的那部分便是head的内容，我们丧失落。
后面的这部分内容第一行“>”标记前的内容，是代码部分，我们也丧失落。
剩下的内容便是我们本日要取出的部分。

开始吧！

从现在开始，我们直接用函数的办法来办理，因此，主程序就变成这个样子

通过一个函数直接办理，下面我们来编写这个函数

第15行，定义这个函数

第16行，用标记符<body将网页代码切开，并存入列表中，个中列表[1]便是我们须要的有内容的部分

第17行，用同样的办法，我们对列表[1]进行加工，不过这次的分隔符变成</body了，加工好的内容我们存入到列表2中，这次有内容的部分是列表2[0]了

第18行，我们把取出的内容存入body中

第19行，我们把内容的第一行纯代码部分去掉。

第20行，把末了的结果返回。

从上面的代码我们看到，第19行中，我们又自己定义了一个函数去除第一行，下面我们再研究一下这个函数的代码

这个代码是对字符串进行加工的代码，这个代码的基本算法是，用分割符把所有的内容进行分割，当行号为零的时候不要，其他的行原封不动的还原，末了输出。
内容非常大略，留待大家自行阅读吧！

下面给大家一个完全的程序

将来，我们把这两个自定义的函数也放到通用函数库中，使得主程序变得更加精髓精辟。

标签：内容我们

大数据时代下的付雯,创新引领未来