Python使用Pandas读取数据库很慢，应该如何提速？_Python语言

谢邀！

Pandas编程库对数据科学界来说是一份天赐的礼物。无论你问哪一个数据科学家，他们是怎样使用Python处理他们的数据集，他们无疑都会谈到Pandas。

Pandas是一个伟大的编程库的缩影:简单、直观、功能广泛。

然而，对数据科学家的Pandas数据框进行数千甚至数百万次的计算，却仍然是一项挑战。你不能只是将数据放入编写Python for循环语句中，并期望在合理的时间内处理你的数据。

pandas是为一次性处理整个行或列的矢量化操作而设计的，循环在每个单元格、行或列中，但并不是设计使用库的方式。因此，在使用Pandas时，你应该考虑高度可并行化的矩阵运算法。

本指南将教你如何使用Pandas，它是被设计来使用和思考的矩阵运算。在此过程中，我将向你展示一些实用的且节省时间的技巧和窍门，这些技巧和窍门将使你的Pandas代码比那些可怕的Python for循环更快地运行！

我们的设置

在本教程中，我们将使用经典的Iris Flowers数据集。让我们通过用seaborn加载的数据集并输入前5行来开始滚动。

现在让我们构建一个基线，用Python for循环来测量我们的速度。我们将通过循环每一行来设置要在数据集上执行的计算，然后测量整个操作的速度。这将为我们提供一个基线，看看我们的新优化能在多大程度上帮助我们摆脱困境。

在上面的代码中，我们创建了一个基本函数，它使用的是If-Else语句。我们编写了一个for循环，通过循环dataframe对每一行应用函数，然后测量循环的总运行时间。

在我的i7-8700k计算机上，循环运行5次平均需要0.01345秒。

循环语句.iterrows（）

这是最简单但非常有价值的，可以加速使用Pandas内置的.iterrows（）函数。

当我们在上一节中编写for循环时，我们使用了range（）函数。然而，当我们在Python中循环大量值时，生成器往往要快得多。在本文中，你可以阅读更多关于生成器是如何工作的信息，并还会使其运行得更快。

Pandas的.iterrows（）函数在内部实现了一个生成器函数，它将在每次迭代时产生一行Dataframe。更确切地说，.iterrows（）为DataFrame中的每一行产生（index, Series）元组。这实际上与在原始Python中使用enumerate（）之类的东西相同，但运行速度要快得多。

下面我们修改了代码，使用.iterrows（）而不是常规的for循环。在我上一节用于测试的完全相同的机器上，平均运行时间为0.005892秒 - 加速2.28倍！