15个免费数据集-数据科学项目

15个免费数据集-数据科学项目

如果你曾经参与过个人数据科学项目,你可能花了很多时间在互联网上搜索有趣的数据集进行分析。

[En]

If you have ever been involved in a personal data science project, you may have spent a lot of time searching the Internet for interesting data sets for analysis.

筛选数十个数据集以找到最适合的数据集可能很有趣,但下载和导入多个 CSV 文件也可能令人沮丧,结果发现数据只是丢失,没有那么有趣。 幸运的是,有一些在线存储库可以保存数据集并(大部分)删除无趣的数据集。在本文中,我们将研究不同类型的数据科学项目,包括数据可视化项目、数据清理项目和机器学习项目,并确定为每个项目查找数据集的正确位置。无论您是想通过展示您可以很好地可视化数据来加强您的数据科学投资组合,还是如果您有几个小时的空闲时间并想练习您的机器学习技能,我们都能满足您的需求。

数据可视化项目的数据集

一个典型的数据可视化项目可能类似于“我想创建美国不同州收入变化的信息地图”。

[En]

A typical data visualization project might be similar to “I want to create an information map of income changes in different states of the United States.”

在为数据可视化项目寻找好的数据集时,您需要记住以下几点:

[En]

When looking for a good dataset for a data visualization project, you need to keep the following points in mind:

这不应该很复杂,因为您不想花费大量时间清理数据。
它必须是足够详细和有趣的图形。

[En]

It must be detailed and interesting enough to make graphics.

理想情况下,每一列都应该得到很好的解释,以便显示准确。

[En]

Ideally, each column should be well explained so that the display is accurate.

数据集不应该有太多的行或列,因此它很容易使用。

[En]

The dataset should not have too many rows or columns, so it is easy to use.

为数据可视化项目找到好的数据集的一个好地方是发布您自己的数据的新闻网站。

[En]

A good place to find a good dataset for a data visualization project is a news website that publishes your own data.

他们通常为您清理数据,并创建了一些图表,您可以复制或改进这些图表。

[En]

They usually clean up the data for you and have created some charts that you can copy or improve.

  1. Newsdata.io(新闻数据集)
    如果您对历史新闻数据集感兴趣,Newsdata.io 是一个很好的平台,因为它们还提供用于突发新闻和历史新闻的新闻 API。因此,他们每天都在收集新闻数据。在您请求实际历史新闻数据集之前,他们还提供免费数据样本。

  2. FiveThirtyEight
    FiveThirtyEight 是一个非常受欢迎的互动新闻和体育网站,由 Nate Silver 推出。

他们撰写了有趣的数据驱动文章,例如”不要将缺乏生产员工的技能归咎于缺乏技能”和”2016 年 NFL 预测”。

FiveThirtyEight 使他们文章中使用的数据集可以在 Github 上在线获得。

  1. BuzzFeed
    BuzzFeed 最初是提供低质量文章,但后来不断发展,现在撰写调查文章,例如”统治世界的法庭”和”Deonte Hoard 的短暂一生”。

BuzzFeed 将其文章中使用的数据集提供在 Github 上。

  1. Socrata 开放数据
    Socrata OpenData 是一个包含多个自己的数据集的门户,这些数据集可以在浏览器中查看或下载查看。很大一部分数据来自美国政府来源,其中许多已经过时。

您无需注册即可从 OpenData 浏览和下载数据。您还可以使用视图和导航工具在浏览器中浏览数据。

数据处理项目的数据集
有时,您只想处理大量数据。最终结果不如读取和分析数据的过程重要。

[En]

Sometimes you just want to deal with a lot of data. The end result is not as important as the process of reading and analyzing the data.

您可以使用 Spark 或 Hadoop 等工具在多个节点之间分配处理。在寻找用于数据处理的良好数据集时,请记住:

数据越干净越好-清理大型数据集可能需要很长时间。

[En]

The cleaner the data, the better-it can take a long time to clean up large datasets.

数据集应该很有趣。
这些数据应该能回答一个有趣的问题。

[En]

The data should answer an interesting question.

亚马逊和谷歌等云托管提供商是寻找大型公共数据集的好去处。他们被鼓励托管数据集,因为他们使用自己的基础设施进行分析(并为此付费)。

[En]

Cloud hosting providers like Amazon and Google are good places to look for large public data sets. They are encouraged to host datasets because they use their infrastructure for analysis (and they pay for it).

  1. AWS 公共数据集AWS Public Data Sets
    亚马逊在其亚马逊网络服务平台上提供大型数据集。您可以下载数据并在您的计算机上使用它,或者通过 EMR 使用 EC2 和 Hadoop 分析云中的数据。您可以在此处阅读有关该程序如何工作的更多信息。

亚马逊有一个页面列出了所有要浏览的数据集。您将需要一个 AWS 账户,尽管 Amazon 确实为您提供了新账户的免费访问权限,让您可以免费探索数据。

  1. 谷歌公共数据集Google Public Data Sets
    就像亚马逊一样,谷歌也提供云托管服务,称为谷歌云平台。借助 GCP,您可以使用名为 BigQuery 的工具来探索大量数据。

Google 列出了页面上的所有数据集。您需要创建一个 GCP 帐户,但您提出的第一个 1TB 请求是免费的。

作为维基百科致力于知识进步的一部分,他们免费提供所有内容,并定期在网站上生成所有文章的转储。此外,维基百科还提供了更改和活动的历史记录,因此您可以跟踪主题页面在一段时间内的进度,并查看是谁对其做出了贡献。

[En]

As part of Wikipedia’s commitment to knowledge progress, they provide all content for free and regularly generate dumps of all articles on the site. In addition, Wikipedia provides a history of changes and activities, so you can track the progress of a topic page over time and see who contributed to it.

您可以在 Wikipedia 站点上找到下载数据的不同方法。您还将找到以各种方式重新格式化数据的脚本。

机器学习项目的数据集

在使用机器学习项目时,您希望能够从数据集中的其他列预测列。要做到这一点,我们需要确保:

[En]

When working with machine learning projects, you want to be able to predict a column from other columns in the dataset. To do this, we need to ensure that:

数据集并不太复杂-如果是这样,我们将把所有时间都花在清理数据上。

[En]

The dataset is not too complex-if so, we will spend all our time cleaning up the data.

有一个有趣的目标专栏可以用来预测。

[En]

There is an interesting target column that can be used to predict.

其他变量对目标栏有一定的解释力。

[En]

Other variables have a certain explanatory power to the target column.

有一个用于机器学习的特定数据集的在线存储库。这些数据集通常会被提前清理,并允许非常快速地测试算法。

[En]

There is an online repository of specific data sets for machine learning. These datasets are usually cleaned up ahead of time and allow algorithms to be tested very quickly.

  1. Kaggle
    Kaggle 是一个举办机器学习竞赛的数据科学社区。外部提供的站点上有各种有趣的数据集。 Kaggle 提供现场和历史比赛。

您可以下载两者的数据,但您必须在 Kaggle 注册并同意比赛的使用条款。

您可以通过参加比赛来下载 Kaggle 数据。每个比赛都有自己的关联数据集。在新的 Kaggle 数据集产品中还有用户提供的数据集。

  1. UCI 机器学习库
    UCI 机器学习存储库是网络上最古老的数据集来源之一。虽然数据集是用户提供的,因此具有不同级别的文档和清理,但绝大多数都是干净的并且可以应用。

在寻找有趣的数据集时,UCI 是一个很好的第一站。

您可以直接从 UCI 机器学习存储库下载数据,无需注册。这些数据集往往很小,没有太多细微差别,但它们对机器学习很有用。

10.Quandl
Quandl 是经济和金融数据的存储库。其中一些信息是免费的,但有许多数据集需要购买。 Quandl 可用于创建模型来预测经济指标或股票价格。由于有大量可用的数据集,因此可以构建一个复杂的模型,该模型使用许多数据集来预测另一个数据集的值。

数据清理项目的数据集

有时,清理分布在多个文件中的数据集,将其压缩为一个文件,然后对其进行分析,这是非常令人满意的。在数据清理项目中,有时需要数小时才能确定每列包含数据集的内容。

[En]

Sometimes it is very satisfying to clean up a dataset distributed across multiple files, compress it into one, and then analyze it. In a data cleanup project, it sometimes takes hours to figure out what each column contains a dataset.

有时,您可能会发现您正在分析的数据集不适合您正在尝试做的事情,您将不得不重新开始。

[En]

Sometimes you may find that the dataset you are analyzing is not suitable for what you are trying to do, and you will have to start over.

在为数据清理项目寻找好的数据集时,您需要:

[En]

When looking for a good dataset for a data cleansing project, you need to:

分布在多个文件中。
它们有许多细微差别和许多可能的角度。

[En]

They have many nuances and many possible angles.

这需要大量的研究才能理解。

[En]

It takes a lot of research to understand.

尽可能”真实”。
这些类型的数据集通常可以在数据集聚合器上找到。这些聚合器往往拥有来自多个来源的数据集,而不会注意到这一点。太多的关注可能会导致数据集过于准确,难以彻底清理。

[En]

These types of datasets can usually be found on the dataset aggregator. These aggregators tend to have datasets from multiple sources without paying attention. Too much attention can lead to overly accurate data sets that are difficult to clean up thoroughly.

此外,您可以将数据上传到 data.world 并使用它与他人协作。在相对较短的时间内,它已经成为数据获取的基准之一,由于data.world与包括大量美国联邦政府数据的各种组织的合作,它拥有许多用户提供的数据集和出色的数据集。

data.world 的一个关键区别是他们创建的工具使处理数据更容易:您可以在他们的界面中编写 SQL 查询来探索数据和合并多个数据集。他们还有适用于 R 和 Python 的 SDK,可以更轻松地在您喜欢的工具中捕获和处理数据。

  1. Data.gov
    Data.gov 是一个相对较新的网站,是美国政府开放努力的一部分。 Data.gov 允许您从多个美国政府机构下载数据。

数据范围从政府预算到学校成绩。大多数数据还需要进一步研究,有时很难理解哪个数据集是“正确”的版本。

[En]

Data range from government budgets to school performance scores. Most of the data requires further study, and it is sometimes difficult to understand which dataset is the “correct” version.

任何人都可以下载数据,但某些数据集需要额外的步骤,如接受许可协议。

[En]

Anyone can download data, but some datasets require additional steps, such as accepting a license agreement.

您可以直接在 Data.gov 上浏览数据集,无需注册。您可以按域浏览或搜索特定数据集。

13.世界银行The World Bank
世界银行是一个向发展中国家提供贷款和咨询服务的全球性发展组织。世界银行定期为发展中国家的项目提供资金,然后收集数据以跟踪这些项目的成功情况。

[En]

The World Bank is a global development organization that provides loans and advisory services to developing countries. The World Bank regularly funds projects in developing countries and then collects data to track the success of those projects.

您无需注册即可直接浏览世界银行数据集。数据集有许多缺失的值,有时需要多次单击才能实际访问数据。

[En]

You can browse the World Bank dataset directly without registration. The dataset has many missing values, and sometimes multiple clicks are required to actually access the data.

  1. 数据集
    Reddit 是一个流行的社区聊天网站,有一个部分专门用于分享有趣的数据集。这称为 subreddit 或 /r/dataset。这些数据集的范围千差万别,因为它们都是用户提交的,但它们往往非常有趣和细微。

  2. 学术种子Academic Torrents
    Academic Torrents 是一个新站点,专注于共享科学论文中的数据集。这是一个较新的站点,因此很难说更常见的数据集类型会是什么样子。目前,它拥有大量缺乏上下文的有趣数据集。

今天就到此为止吧。希望对云原生、技术领导、企业管理、系统架构设计与评估、团队管理、项目管理、产品管理、团队建设有一定的借鉴作用。您可能感兴趣的文章:

[En]

Let’s stop here today. I hope to have reference for cloud native, technical leadership, enterprise management, system architecture design and evaluation, team management, project management, product management, and team building. Articles that you may be interested in:

如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:

Original: https://www.cnblogs.com/wintersun/p/15615719.html
Author: PetterLiu
Title: 15个免费数据集-数据科学项目

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/522659/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球