加入收藏 | 设为首页 | 会员中心 | 我要投稿 牡丹江站长网 (https://www.0453zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

收藏!盘点实用的数据科学Python库

发布时间:2019-11-06 05:35:01 所属栏目:优化 来源:读芯术
导读:数据科学是一门研究数据并从中挖掘信息的学科。它不要求自创或学习新的算法,只需要知道怎么样研究数据并解决问题。这一过程的关键点之一就在于使用合适的库。本文概述了数据科学中常用的、并且有一定重要性的库。在进入正题之前,本文先介绍了解决数据科

构建模型是数据科学中的关键一步。由于这一步要求根据要解决的问题和所获取的数据来构建机器学习模型,所以和其他步骤相比难度更大。在这一步中,问题陈述是至关重要的一点,因为它会影响对问题的定义和提出的解决方法。网络上大部分公开的数据集都是基于某一个问题收集的,因此解决问题的能力就尤为重要。而且,由于没有某个特定的算法最适合自己,你需要在多种算法中进行选择,考虑数据适合用回归、分类、聚类还是降维算法。

选择算法经常是一件让人头疼的事。读者可以使用SciKit learn算法选择路径图来记录追踪哪个算法的性能最优。下图展示了一张SciKit learn的路径图:

收藏!盘点实用的数据科学Python库

来源:scikit learn

不难猜出,建模时最常用的库是:

(1) SciKit learn

SciKit learn是Python中一个便于使用的构建机器学习模型的库。它是基于NumPy、SciPy和Matplotlib开发的。SciKit learn库官方文档如下:

https://scikit-learn.org/stable/?source=post_page-----a58e90f1b4ba----------------------

导入scikit learn:

  1. import sklearn 

安装scikit learn:

  1. pip install -U scikit-learn 

5. 呈现数据

这是数据科学的最后一步,也是很多人不想做的一步——毕竟没有人想要公开发表他们的数据发现。呈现数据也是有法可循的,并且这个方法极为重要,因为无论如何,成果最终还是要向人们展示的。而且由于人们并不关心所使用的的算法,他们只关心结果,所以展示还要做到简洁明了。为了展现数据成果,推荐读者安装Jupyter notebook:

https://jupyter.org/install.html?source=post_page-----a58e90f1b4ba----------------------

同时,安装如下指令给notebook配备展示选项:

  1. pip install RISE 

阅读文章:

http://www.blog.pythonlibrary.org/2018/09/25/creating-presentations-with-jupyter-notebook/,了解更多如何使用notebook做出精彩展示的教程。务必遵循教程的步骤。读者还可以观看Youtube的视频进行学习:

https://mp.weixin.qq.com/s?__biz=MzI2NjkyNDQ3Mw==&mid=2247491724&idx=2&sn=84ec47e8fa0cb390f8031225317fa1c5&chksm=ea84185addf3914c71e5c3bcc83e7bcf7655c57a1a125c87961cf0f9eba9f1f4c68f2a72e5d4&mpshare=1&scene=23&srcid=&sharer_sharetime=1572619264987&sharer_shareid=9603544ecd5d7f3dc66603ae089636f4#rd

来源:LiveLessons

以上就是本文全部内容。本文从最基础的内容开始介绍,读完全文,读者已经知道了在数据科学中如何、在何时、以及在哪一步使用Python库。

(编辑:牡丹江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!