1、帕尔默企鹅数据集
背景描述
由Kristen Gorman博士和南极洲LTER的帕尔默科考站共同创建,包含344只企鹅的数据。
数据说明
species: 三个企鹅种类:阿德利 巴布亚 帽带
culmen_length_mm: 鸟的嘴峰长度
culmen_depth_mm: 鸟的嘴峰深度
flipper_length_mm: 脚掌长度
body_mass_g: 体重
island: 岛屿的名字
sex: 企鹅的性别
下载链接:帕尔默企鹅数据集
2、MNIST数据集
经典的手写数字数据集,用于图像分类和识别练习。
2.1 中文数字MNIST
背景描述
由100名中国人亲自用黑笔手写的15个数字
数据说明
15000张 300×300分辨率 64×64大小的图片
下载链接:中文数字MNIST
2.2 Fashion MNIST
背景描述
用于代替原始的MNIST数据
数据说明
包含 60,000 个样本的训练集和一个 10,000 个服装图像的测试集,所有图像都经过尺寸归一化和居中,图像的大小也固定为 28×28
下载链接:Fashion MNIST
3、共享单车
2.1 国内共享单车数据集
背景描述
共享单车数据集
数据说明
训练集(train.csv)和测试集 共近500万条出行记录:
orderid 订单号 userid 用户ID bikeid 车辆ID biketype 车辆类型 starttime 骑行起始日期时间 geohashed_start_loc 骑行起始区块位置 geohashed_end_loc 骑行目的地区块位置
注意:地理位置通过Geohash加密,可以通过开源的方法获得经纬度数据(test.csv)
下载链接:国内共享单车数据集
2.2 共享单车需求
背景描述
华盛顿特区”首都自行车共享计划”,根据自行车共享和租赁系统获取的数据
数据说明
骑行信息:时间、出发地点、到达地点、经过时间、租借总长;
天气信息:当天温度(摄氏度)、风速、湿度;
时间信息:季节、工作日、周末、假期;
下载链接:共享单车需求
4、猫狗图片
包含2千张(猫与狗各1千张)图片,用于机器学习
下载链接:猫狗训练集共2000张
5、威斯康星州乳腺癌(诊断)数据集
背景描述
数据通过处理乳房肿块的细针穿刺(FNA)的数字化图像提取出来
数据说明
由 569 个样本组成,包括 357 个良性样本和 212 个恶性样本。这个数据集中有三类特征,其中实值特征最有趣。它们是从数字化图像中计算出来的,包含有关区域、细胞半径、纹理等信息
下载链接:威斯康星州乳腺癌(诊断)数据集
6、葡萄酒数据集
6.1 红葡萄酒
背景描述
数据取自葡萄牙一种红酒品类:Vinho Verde
数据说明
包含11种特征与最终质量评分
下载链接:红酒质量数据
6.2 白葡萄酒
背景描述
来自葡萄牙Vinho Verde产地的白葡萄酒
数据说明
包含葡萄酒的氯化物、柠檬酸、硫酸盐、酒精度、残留糖份等其他属性数据
下载链接:白葡萄酒质量
7、Twitter推文的情绪分析
背景描述
情绪分析用于监控和了解客户反馈
数据说明
包含了使用 Twitter API 提取的 1,600,000 条推文
下载链接:Twitter推文的情绪分析数据集
8、小麦种子数据
背景描述
有趣简单的数据,可代替Iris数据集用来训练分类
数据说明
包含属于三种不同小麦品种的种子信息:Kama、Rosa 和 Canadian。它是一个均衡的数据集,每个类别有 70 个实例。种子内部内核结构的测量值是使用软 X 射线技术检测的
下载链接:小麦种子数据
9、BBC新闻数据
背景描述
BBC新闻进行分类
数据说明
由 2225 篇文章组成,每篇文章都有标签,文章分成 5 个类别:科技、商业、政治、娱乐、体育
下载链接:BBC新闻数据
10、皮马印第安人糖尿病数据集
背景描述
来自美国国家糖尿病、消化和肾脏疾病研究所,其目的是根据某些诊断指标来预测患者是否患有糖尿病
数据说明
包含 768 个观测值,具有 8 个输入特征和 1 个输出特征。它不是一个均衡的数据集,并且假设缺失值被替换为 0
下载链接:皮马印第安人糖尿病数据集
Original: https://blog.csdn.net/weixin_56831217/article/details/126908260
Author: 陶707
Title: 10个经典的公开数据集+免费下载链接
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/718774/
转载文章受原作者版权保护。转载请注明原作者出处!