Python 是一种令人惊叹的言语。理想上,它是环球上增长最快的编程言语之一。它一次性又一次性地证实了它在各个行业的开发者和数据迷信者中的作用。Python 及其库的整个生态系统使其成为全环球用户的失入选用,无论是初学者还是初级用户。它成功和受欢迎的要素之一是它的一组弱小的库,使它如此灵活和极速。
在本文中,咱们将看到 Python 库中的一些数据迷信工具,而不是那些罕用的工具,如 pandas、scikit-learn 和 matplotlib。只管像 pandas、scikit-learn 这样的库是机器学习中最常想到的,但是了解这个畛域的其余 Python 库也是十分有协助的。
提取数据,尤其是从网络中提取数据,是数据迷信家的关键义务之一。是一个收费的工具,用于从网络上非交互式下载文件。它支持 HTTP、HTTPS 和 FTP 协定,以及经过 HTTP 代理启动访问。由于它是非交互式的,所以即使用户没有登录,它也可以在后盾上班。所以下次你想下载一个网站或许网页上的一切图片,wget 会提供协助。
装置:
例子:
钟摆
关于在 Python 中处置日期期间感到丧气的人来说,库是很有协助的。这是一个 Python 包,可以简化日期期间操作。它是 Python 原生类的一个代替品。有关具体消息,请参阅其 文档 。
装置:
例子:
不平衡学习
当每个类别中的样本数简直相反(即平衡)时,大少数分类算法会上班得***。但是理想生存中的案例中充溢了不平衡的数据集,这或许会影响到机器学习算法的学习和后续预测。幸运的是, imbalanced-learn 库就是为了处置这个疑问而创立的。它与 scikit-learn 兼容,并且是 scikit-learn-contrib 名目标一局部。下次遇到不平衡的数据集时,可以尝试一下。
装置:
例子:
有关用法和示例,请参阅其 文档 。
在人造言语处置(NLP)义务中清算文本数据通常须要交流句子中的关键词或从句子中提取关键词。通常,这种操作可以用正则表白式来成功,但是假设要搜查的术语数到达数千个,它们或许会变得很费事。
Python 的模块,基于 FlashText 算法 ,为这种状况提供了一个适宜的代替打算。FlashText 的***局部是运转期间与搜查项的数量有关。你可以在其 文档 中读到更多关于它的消息。
装置:
例子:
提取关键词:
代替关键词:
有关更多示例,请参阅文档中的 用法 一节。
含糊处置
这个名字听起来很奇异,但是 FuzzyWuzzy 在字符串婚配方面是一个十分有用的库。它可以很容易地成功字符串婚配率、令牌婚配率等操作。关于婚配保留在不同数据库中的记载也很繁难。
装置:
例子:
更多的例子可以在 FuzzyWuzy 的 GitHub 仓库 获取。
期间序列剖析是机器学习中最常遇到的疑问之一。是 Python 中的开源库,专门为处置期间序列疑问而构建的。该库领有一系列低劣的现代期间序列模型,包括但不限于 ARIMA、GARCH 以及 VAR 模型。简而言之,PyFlux 为期间序列建模提供了一种概率方法。这值得一试。
装置:
例子:
有关用法和示例,请参阅其 文档 。
交流结果是数据迷信的一个关键方面,可视化结果提供了清楚长处。是一个 Python 库,用于在 Jupyter 笔记本中可视化 3D 体积和状态(例如 3D 散点图),性能和上班量极小。但是,它目前处于 1.0 之前的阶段。一个很好的类比是这样的: IPyVolumee volshow 是 3D 阵列,Matplotlib 的 imshow 是 2D 阵列。你可以在其 文档 中读到更多关于它的消息。
装置:
例子:
动画:
体绘制:
是一个用于构建 Web 运行程序的高效 Python 框架。它构建于 Flask、Plotty.js 和 Response.js 之上,将下拉菜单、滑块和图形等盛行 UI 元素与你的 Python 剖析代码咨询起来,而不须要JavaScript。Dash 十分适宜构建可在 Web 阅读器中出现的数据可视化运行程序。有关具体消息,请参阅其 用户指南 。
装置:
例子:
上方的示例显示了一个具备下拉性能的高度交互的图表。当用户在下拉列表中选用一个值时,运行程序代码将数据从 Google Finance 灵活导出到 Pandas 数据框架中。
从而来的是开发和比拟强化学习算法的工具包。它与任何数值计算库兼容,如 TensorFlow 或 Theano。Gym 是一个测试疑问的汇合,也称为“环境”,你可以用它来制订你的强化学习算法。这些环境有一个共享的接口,准许您编写通用算法。
装置:
例子:
以下示例将在 CartPole-v0 环境中,运转 1000 次,在每一步渲染环境。
你可以在 Gym 网站上读到 其它的环境 。