(三)Omniglot Dataset介绍

2023年5月28日下午6:51 • 人工智能 • 阅读 56

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

Omniglot Dataset介绍

*
– 0.用来做什么
– 1.什么时候从哪来
– 2.包含什么内容
– 3.如何下载使用
– 参考资料

0.用来做什么

Omniglot Dataset数据集由于类别多（1623个类），每个类别包含的数据少（每类只有20个数据），所以区别于Lecun发布的MNIST数据集, Omniglot Dataset通常用于 one-shot leanring(小样本学习)。

1.什么时候从哪来

Omniglot Dataset第一次使用在2015年纽约大学的一篇论文Human-level concept learning
through probabilistic
program induction中，该数据集是在亚马逊人工智能兼职众包平台
Amazon's Mechanical Turk上由20个人完成的，得到了语言学网站omniglot.com的支持。

2.包含什么内容

Omniglot Dataset翻译过来就是全语言文字数据集，包含各种语言的不同字母表，如 日语的平假名Japanese_(hiragana)52个， 日语的片假名(Japanese_(katakana)47个， 韩语的元音21个和辅音19个共40个，最常见的 拉丁字母abcd26个等。 Omniglot Dataset共包含50个不同语言的字母表，每个字母表中包含不同的字符，共 1623种字符，每个字符有 20个不同的人书写。也就是说 Omniglot Dataset数据集包含 1623个类，每个类有 20个训练数据。每个图像的大小是 105x105像素。
日语平假名(omniglot-master/python/images_background/Japanese_(hiragana))

; 3.如何下载使用

可以从Omniglot Datasetgithub仓库下载。下载仓库后分别提供了 python和 matlab的 api，这里以 python为例说, python下的文件目录为:

.
├── demo.py # 举例展示数据集的部分数据
├── images_background_small1.zip # images_background的一部分，用于minimal学习
├── images_background_small2.zip # mages_background的一部分，用于minimal学习
├── images_background.zip # 训练数据
├── images_evaluation.zip # 测试数据
├── strokes_background_small1.zip # 对应的笔画(x,y,t)
├── strokes_background_small2.zip # 对应的笔画(x,y,t)
├── strokes_background.zip # 对应的笔画(x,y,t)
└── strokes_evaluation.zip # 对应的笔画(x,y,t)

对上面的文件夹介绍，详见仓库 README， Omniglot Dataset被划分成了训练数据和测试数据两部分， images_background.zip训练数据包含30种不同语言字母表， images_evaluation.zip测试数据包含20种不同语言字母表。 images_background_small1.zip和 images_background_small2.zip是训练数据 images_background.zip中选出来的5种语言字母表，一个成年人差不多也是熟悉5种字母表，通过这种 small的划分，当作训练数据更好的模拟人类的学习过程，即学会学习。

解压 images_background.zip或 images_evaluation.zip，其目录结构为
images_background\${哪种语言的字母表}\${哪个字母}\图片.png

strokes_background.zip文件包含的是对应字符书写的笔画顺序， strokes是笔画的意思。每个 images_background.zip中的图片对应 strokes_background.zip中的一个 txt文本文件，每个文件中除 START和 BREAK外，其他行是笔尖的坐标和时间，格式为 (X, Y, t),如

START
18.298419,-36.268473,0
19.13834,-36.268473,120
...

74.573123,-37.948315,2313
BREAK
68.693676,-36.268473,3240
...

BREAK

START即开始书写， BREAK即提起笔。

分享一段可视化指定字母表字母的代码：

import glob
from PIL import Image

def plot_image(alphabet):
    image_path = f'../omniglot/*/{alphabet}/*/'
    characters = glob.glob(image_path)
    image_files = []
    for character in characters:
        img = glob.glob(f"{character}*.png")[0]
        image_files.append(Image.open(img))

    W, H = 40, 40
    ROW, COL = 4, 13
    target = Image.new("RGB", (W * COL, H *ROW))
    for row in range(ROW):
        for col in range(COL):
            target.paste(image_files[COL*row+col], (0 + W*col, 0 + H*row))
    target.save(f"{alphabet}_patchs.png", quality=80)

if __name__ == '__main__':
    plot_image("Japanese_(hiragana)")

参考资料

1.https://github.com/brendenlake/omniglot

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

Original: https://blog.csdn.net/lx_ros/article/details/124361569
Author: 恒友成
Title: (三)Omniglot Dataset介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/533126/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

目标检测数据集标注文件统计并可视化–yolov5

坚持写博客💪，分享自己的在学习、工作中的所得给自己做备忘对知识点记录、总结，加深理解给有需要的人一些帮助，少踩一个坑，多走几步路尽量以合适的方式排版，图文兼有如果写的有误，…

人工智能 2023年5月26日
0073
睿智的目标检测61——Tensorflow2 Focal loss详解与在YoloV4当中的实现

睿智的目标检测60——Tensorflow2 Focal loss详解与在YoloV4当中的实现学习前言什么是Focal Loss * 一、控制正负样本的权重二、控制容易分类…

人工智能 2023年5月23日
0088
基于流的(Flow-based)生成模型简介

基于流的(Flow-based)生成模型简介生成任务我们先回顾一下所谓的生成任务，究竟是做什么事情。我们认为，世界上所有的图片，是符合某种分布 p d a t a ( x ) …

人工智能 2023年6月16日
0069
Python二手房价格预测（三）——二手房价格预测模型baseline

系列文章目录一、Python二手房价格预测（一）——数据获取二、Python二手房价格预测（二）——数据处理及数据可视化文章目录系列文章目录前言一、数据处理二、模型训…

人工智能 2023年6月16日
00123
【opencv】Opencv中数据类型CV_8U, CV_16U, CV_16S, CV_32F、CV_64F

1.宏定义首先来说CV_8U, CV_16U, CV_16S, CV_32F 以及 CV_64F，都是opencv定义的数据类型。具体定义如下 2.具体含义 S = 有符号整型 U…

人工智能 2023年7月27日
0064
【第001篇-开篇：参考书目录】

1.参考书籍（看过的和即将要看的，总计17本）这里回顾一些我从2016年认识到环境统计学在环境科学中的重要性后，着手学习过程中所用到的书。按照时间顺序依次为： 2016年04月…

人工智能 2023年6月11日
0055
周末了，不得找个陪玩打游戏？看我用Python怎么找个最好的

人生苦短，我用Python 序言工欲善其事，必先利其器 * 1、数据来源分析 2、实现步骤 3、环境与模块代码展示序言好兄弟们，陪玩大家多少都知道亿点吧！漂亮妹妹超级多，…

人工智能 2023年7月19日
0059
三维重建（3）之双目立体相机之任意一组坐标点的极线校正

1.立体相机三位重建一般步骤：基于图像的三维点云重建：相机标定->立体（极线)校正->特征匹配->获取匹配点对->生成点云->点云拟合基于深度相…

人工智能 2023年7月12日
0046
Autoware小问题之一——雷达目标检测不能显示/bounding_boxes矩形框

写在开头：第一次写博客，瞎几把写写 Autoware雷达目标检测——添加/bounding_boxes矩形框 autoware问题比较多，其中一个问题就是lidar_euclide…

人工智能 2023年7月9日
0059
TensorFlow

1、创建常量 tf.constant( value, dtype=None, shape=None, name=’Const’, verify_shape=False ) valu…

人工智能 2023年5月25日
0067
python中 .reshape 的用法：reshape(1,-1)

reshape(1,-1)转化成1行： reshape(2,-1)转换成两行： reshape(-1,1)转换成1列： reshape(-1,2)转化成两列 reshape(2,8…

人工智能 2023年6月15日
00244
【GNN框架系列】DGL第一讲：使用Deep Graph Library实现GNN进行节点分类

作者：CHEONG公众号：AI机器学习与知识图谱研究方向：自然语言处理与知识图谱本文先简单概述GNN节点分类任务，然后详细介绍如何使用Deep Graph Library + P…

人工智能 2023年7月3日
00105
FL(Focal Loss) & RetinaNet 学习笔记

FL & RetinaNet 学习笔记 Abstract & Introduction Focal loss * · Balanced Cross Entropy …

人工智能 2023年7月9日
0043
三星s20怎么取消虚拟按键_这才是我心目中安卓机皇该有的样子，三星S20系列上手评测…

作为一名S10用户，S20系列发布以来也是没少被种草，虽然S10并没有感觉到卡顿，但是作为旗舰机皇的S20系列到底有哪些升级亮点也是吊足了香蕉哥的胃口。本次香蕉哥通过S20、S20…

人工智能 2023年5月27日
00124
【项目实战课】快速上手目标检测任务，MMdetection框架详细解读与案例实战

欢迎大家来到我们的项目实战课，本期内容是《MMdetection框架解读与案例实战》。所谓项目实战课，就是以简单的原理回顾+详细的项目实战的模式，针对具体的某一个主题，进行代码级…

人工智能 2023年7月10日
0048
论文阅读 CVPR2022《Rethinking Semantic Segmentation：A Prototype View》

文中作者一直强调关于一张图片里的像素投射的embedding space的结构是缺乏关注的，这个思想在他去年的一项工作里就有涉及，他提出了一个insight的问题，如下图红字。 O…

人工智能 2023年6月16日
0090

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30