回顾上一章的内容我们知道,网页代码的实质便是html措辞。
这种措辞的特点是,代码和内容夹杂在一起,通过代码对内容的特点进行标记,当代网页还领悟进了css以及javascript脚本。
在我们就从这一堆代码中,仅仅取出内容部分,我们该当怎么做呢?这个问题很难一步到位,因此,可以把它分为很多小问题,一个一个办理,先办理第一个问题便是取出body这里边的内容,先不管格式。

html一样平常情形下大体分为两段:
一段是head部分,这部分没有文章内容。
另一段是body部分,这部分包含了文章的实际内容,但它仍旧是html把内容互杂的。
基本思路是这样的,用关键特色标记“<body”把内容分成两段,前面的那部分便是head的内容,我们丧失落。后面的这部分内容第一行“>”标记前的内容,是代码部分,我们也丧失落。剩下的内容便是我们本日要取出的部分。
开始吧!
从现在开始,我们直接用函数的办法来办理,因此,主程序就变成这个样子
通过一个函数直接办理,下面我们来编写这个函数
第15行,定义这个函数
第16行,用标记符<body将网页代码切开,并存入列表中,个中列表[1]便是我们须要的有内容的部分
第17行,用同样的办法,我们对列表[1]进行加工,不过这次的分隔符变成</body了,加工好的内容我们存入到列表2中,这次有内容的部分是列表2[0]了
第18行,我们把取出的内容存入body中
第19行,我们把内容的第一行纯代码部分去掉。
第20行,把末了的结果返回。
从上面的代码我们看到,第19行中,我们又自己定义了一个函数去除第一行,下面我们再研究一下这个函数的代码
这个代码是对字符串进行加工的代码,这个代码的基本算法是,用分割符把所有的内容进行分割,当行号为零的时候不要,其他的行原封不动的还原,末了输出。内容非常大略,留待大家自行阅读吧!
下面给大家一个完全的程序
将来,我们把这两个自定义的函数也放到通用函数库中,使得主程序变得更加精髓精辟。