php读入表单技巧_若何运用Pandas read_html从HTML表格中获取数据

文章目录 [+]

在Python中导入数据

在开始学习Python和Pandas时，为了进行数据剖析和可视化，我们常日从实践导入数据开始。
在之前的文章中，我们已经理解到我们可以直接在Python中输入值(例如，从Python字典创建Pandas dataframe)。
然而,通过从可用的源导入数据来获取数据当然更为常见。
这常日是通过从CSV文件或Excel文件中读取数据来完成的。
例如，要从一个.csv文件导入数据，我们可以利用Pandas read_csv方法。
这里有一个如何利用该方法的快速的例子，但一定要查看有关该主题的博客文章以得到更多信息。

现在，上面的方法只有在我们已经有了得当格式的数据(如csv或JSON)时才有用(请参阅关于如何利用Python和Pandas解析JSON文件的文章)。

php读入表单技巧_若何运用Pandas read_html从HTML表格中获取数据

我们大多数人会利用Wikipedia来理解我们感兴趣的主题信息。
此外，这些Wikipedia文章常日包含HTML表格。

（图片来自网络侵删）

要利用pandas在Python中得到这些表格，我们可以将其剪切并粘贴到一个电子表单中，然后，例如利用read_excel将它们读入Python。
现在，这个任务当然可以用更少的步骤来完成:我们可以通过web抓取来对它进行自动化。
一定要查看一下什么是web抓取。

先决条件

当然，这个Pandas读取HTML教程将哀求我们安装Pandas及其依赖项。
例如，我们可以利用pip来安装Python包，比如Pandas，或者安装一个Python发行版(例如，Anaconda、ActivePython)。
下面是如何利用pip安装Pandas: pip install pandas。

把稳，如果涌现说有一个更新版本的pip可用，请查看这篇有关如何升级pip的文章。
把稳，我们还须要安装lxml或BeautifulSoup4，当然，这些包也可以利用pip来安装: pip install lxml。

Pandas read_html 语法

下面是如何利用Pandas read_html从HTML表格中抓取数据的最大略的语法:

现在我们已经知道了利用Pandas读取HTML表格的大略语法，接下来我们可以查看一些read_html示例。

Pandas read_html 示例1:

第一个示例是关于如何利用Pandas read_html方法的，我们将从一个字符串读取HTML表格。

现在，我们得到的结果不是一个Pandas DataFrame，而是一个Python列表。
也便是说，如果我们利用type函数，我们可以看到:

如果我们想得到该表格，我们可以利用列表的第一个索引(0)

Pandas read_html 示例 2:

在第二个Pandas read_html示例中，我们将从Wikipedia抓取数据。
实际上，我们将得到蟒科蛇(也称为蟒蛇)的HTML表格。

现在，我们得到了一个包含7个表(len(df))的列表。
如果我们去Wikipedia页面，我们可以看到第一个表是右边的那个。
然而，在本例中，我们可能对第二个表更感兴趣。

Pandas read_html 示例 3: