10个初学者热门数据科学项目数据集

10个初学者热门数据科学项目数据集

1、Iris Species鸢尾花数据集

Iris数据集在R.A. Fisher的1936年经典论文”在分类学问题中使用多重测量”中使用,也可以在UCI机器学习存储库中找到。

它包括三种鸢尾花,每种鸢尾花有50个样本,以及每朵花的一些特性。一种花种与其他两种花是线性分离的,但另外两种花种彼此之间不能线性分离。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?type=dataset&id=1394 ;

2、Loan Prediction 简单的贷款预测

包含贷款ID、性别、婚否、教育、贷款价格等。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?type=mydataset&id=1591 ;

3、物品价格(时间序列)

随着价格与天气,观察产品销售情况。

前两种产品(P1和P2)的销售数据是每周一次,数据收集到2019年11月10日。产品 P3 和 P4 是日常产品,可能相关。对于产品P4,该公司提供了潜在的解释变量X1(价格)和X2(以°C为单位的温度天气预报),这些变量可能是有助于预测这两个产品。 产品 P3 和 P4 的销售数据收集到 2019 年 11 月 24 日之前。产品 P5 的数据每周发布一次,收集数据截至 2019 年 8 月 30 日。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?id=1415&type=dataset ;

4、白葡萄酒质量

初学者最爱的数据集之一,数据来自葡萄牙Vinho Verde产地的白葡萄酒。包含葡萄酒的氯化物、柠檬酸、硫酸盐、酒精度、残留糖份等其他属性数据。用于回归任务、分类训练。

https://www.datacastle.cn/dataset_description.html?type=mydataset&id=1033 10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?type=mydataset&id=1033 ;

5、身高和体重数据集

简单的身高体重数据集,用于构建预测人类身高或体重的模型。包含25,000个18岁的不同人的身高(英寸)和体重(磅)。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?type=dataset&id=1375 ;

6、超市网购 电子交易详细数据

随着市场需求的增长和激烈的竞争,超市巨头正在寻求您的知识,以了解什么对他们最有效。他们想了解他们应该瞄准或避免哪些产品、地区、类别和客户群。

包含订购日期、订单ID、发货日期、客户居住地的详细数据等。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?type=mydataset&id=1511 ;

7、文本情感分析

数据分为训练数据和测试数据,分别保存在train.csv和test_noLabel.csv两个文件中。submit_example.csv是提交样例数据。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?id=1137&type=dataset ;

8、Divvy Bike 芝加哥共享单车行程数据

Motivate International Inc.(”Motivate”)经营芝加哥市(”City”)的 Divvy 自行车共享服务。 Motivate 和纽约市致力于支持将自行车作为替代交通方式。

包含每个月详细数据:单车类型、开始时间、结束时间、开始地点、结束地点等。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?type=dataset&id=1620 ;

9、预测音乐类别/流派

包含音乐ID、演唱者、专辑名称、音律的详细数据。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?id=1182&type=dataset ;

10、人口收入数据集

人口普查结果。文件 income_census_train.csv中包含16个字段,具体信息如下: 每一行记录了一个人的人口普查结果。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,14个属性变量中有7个类别型变量。

DataCastle-数据科学创新与实践平台10个初学者热门数据科学项目数据集https://www.datacastle.cn/dataset_description.html?type=dataset&id=1377 ;

Original: https://blog.csdn.net/weixin_56831217/article/details/124151433
Author: 陶707
Title: 10个初学者热门数据科学项目数据集

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/599748/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球