加入收藏 | 设为首页 | 会员中心 | 我要投稿 牡丹江站长网 (https://www.0453zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

手把手教你构建数据集

发布时间:2021-04-20 16:22:46 所属栏目:动态 来源:互联网
导读:科学数据供公众使用。如果你需要敏感的人类数据(如果可以确信已经适当匿名),这将特别有用。在澳大利亚,我们拥有诸如澳大利亚统计局、联邦科学与工业研究组织(CSIRO)之类的机构,甚至还有一个用于访问所有政府数据的在线门户,名为data.gov.au。 在世界其他

科学数据供公众使用。如果你需要敏感的人类数据(如果可以确信已经适当匿名),这将特别有用。在澳大利亚,我们拥有诸如澳大利亚统计局、联邦科学与工业研究组织(CSIRO)之类的机构,甚至还有一个用于访问所有政府数据的在线门户,名为data.gov.au。

在世界其他地方,著名的机构包括NASA、NOAA NIST、CDC、WHO、UNICEF、CERN、Max Planck Institute、CNR、EPA等。

同样,许多国家或地区都有中央政府数据存储库,例如data.gov(美国)、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。

一些具有非科学目的的公司,如果达到了自己能够进行内部研究或被要求进行内部研究的规模,甚至会发布数据存储库。世界银行和国际货币基金组织(IMF)就是一个很好的例子,它们已经成为开放的金融和大众数据的主要来源。

在允许的情况下,从信誉良好的组织采购数据是确保准确性、覆盖范围以及适用的价值类型和格式的绝佳方法。

FiveThirtyEight和BuzzFeed这样的新闻网站,提供了从公众调查中获得的数据以及关键文章收集的数据,从可能涉及公众福祉的重要社会和政治数据(网络审查、政府监控、枪支、医疗保健等),到体育等一切内容的分数或民意测验。

Reddit的/r/datasets是一个信息共享的好地方。你可以浏览人们发布的有趣的东西,或者在特定的问题上寻求帮助。甚至还有一些很好的元信息,比如有人发布了一个详尽的每个开放数据门户的列表。当你浏览Reddit的时候,/r/MachineLearning也是一个好选择。

有时,随机发烧友也会真正为你服务。作者个人最喜欢的网站是Jonathan’s Space Home Page,其中一位来自哈佛大学史密森天体物理学中心的天体物理学家,在网站上保存着发射到太空的所有物体的广泛列表。只是作为附带项目,太奇妙了。

稍微不寻常的数据的另一个重要来源是整数数列在线大全(OEIS),它是各种数字数列及其附加信息(例如图或用于生成数列的公式)的庞大集合。因此,如果你对卡塔兰数感到好奇或想了解忙碌的海狸问题,OEIS帮你排序了。

还有无数的网站致力于成为诸如开放政府、重要研究出版物中使用的学术数据等领域数据集的中央注册中心。

这或许说明了这一点:数据无处不在。我们每时每刻都在创造更多的东西,而且很多人和组织都致力于让这对我们所有人都有用。个人对数据源的喜好是靠时间和经验建立起来的,因此要广泛地进行探索和实验。

(编辑:牡丹江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!