one-hot编码

2023年8月1日上午9:35 • Python • 阅读 71

one-hot编码

什么是one-hot编码

one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。举个例子，假设我们有四个样本（行），每个样本有三个特征（列），如下图：

我们拿feature2来说明：这里feature2有4种取值（状态），我们就用4个状态位来表示这个特征，one-hot编码就是保证每个样本中的单个特征只有1位处于状态1,其他的都是0。

Sample_1--->[0,1,1,0,0,0,1,0,0]
Sample_2--->[1,0,0,1,0,0,0,1,0]

one-hot在提取文本特征上的应用

one hot在特征提取上属于词袋模型(bag of words)。关于如何使用one-hot抽取文本特征向量我们通过以下例子来说明。假设我们的语料库中有三段话：
我爱中国
爸爸妈妈爱我
爸爸妈妈爱中国我们首先对预料库分词，并获取其中所有的词，然后对每个此进行编号：
1我；2爱；3爸爸；4妈妈；5中国

我爱中国->(1,1,0,0,1)
爸爸妈妈爱我->(1,1,1,1,0)
爸爸妈妈爱中国->(0,1,1,1,1) 优缺点分析优点：
一是解决了分类器不好处理离散数据的问题
二是在一定程度上也起到了扩充特征的作用(上面样本特征数从3扩展到了9) 缺点：
它是一个词袋模型，不考虑词与词之间的顺序
它假设词与词相互独立(在大多数情况下，词与词是相互影响的)
它得到的特征是离散稀疏的；

; 手动实现one-hot编码

import numpy as np

samples = ['&#x4ED6; &#x6BD5;&#x4E1A; &#x4E8E; &#x54C8;&#x4F5B;&#x5927;&#x5B66;', '&#x4ED6; &#x5C31;&#x804C; &#x4E8E; &#x5DE5;&#x79D1;&#x9662;&#x8BA1;&#x7B97;&#x673A;&#x7814;&#x7A76;&#x6240;']
&#x5206;&#x5B8C;&#x8BCD;&#x4E4B;&#x540E;&#x4E00;&#x822C;&#x8981;&#x5C06;&#x8BCD;&#x5178;&#x7D22;&#x5F15;&#x505A;&#x597D;&#xFF0C;&#x4E00;&#x822C;&#x53EB;token_index
token_index = {}
for sample in samples:
    for word in sample.split():
        if word not in token_index:
            token_index[word] = len(token_index)+1

print(len(token_index))
print(token_index)

&#x6784;&#x9020;one&#x2014;hot&#x7F16;&#x7801;
results = np.zeros(shape=(len(samples), len(token_index)+1, max(token_index.values())+1))

for i, sample in enumerate(samples):  # &#x7D22;&#x5F15;
    for j, word in list(enumerate(sample.split())):   # &#x5BF9;list&#x7EC4;&#x8FDB;&#x884C;&#x94FE;&#x63A5;
        index = token_index.get(word)   # &#x7D22;&#x5F15;&#x548C;word&#x5BF9;&#x5E94;
        print(i, j, index, word)
        results[i, j, index] = 1

print(results)

&#x6539;&#x8FDB;&#x7684;&#x7B97;&#x6CD5;
results2 = np.zeros(shape=(len(samples),max(token_index.values())+1) )
for i, sample in enumerate(samples):
    for _, word in list(enumerate(sample.split())):
        index = token_index.get(word)
        results2[i, index] = 1

print(results2)

运行结果

Keras中one-hot编码的实现

Keras分词器 Tokenizer的办法介绍

Tokenizer是一个用于向量化文本，或将文本转换为序列(即单词在字典中的下标形成的列表，从1算起)的类。 Tokenizer实际上只是生成了一个字典，并且统计了词频等信息，并没有把文本转成须要的向量示意。
from keras.preprocessing.text import Tokenizer引入模块
tokenizer = Tokenizer()

生成词典 tokenizer.fit_on_texts()

string = ['&#x4ED6; &#x6BD5;&#x4E1A; &#x4E8E; &#x54C8;&#x4F5B;&#x5927;&#x5B66;', '&#x4ED6; &#x5C31;&#x804C; &#x4E8E; &#x5DE5;&#x79D1;&#x9662;&#x8BA1;&#x7B97;&#x673A;&#x7814;&#x7A76;&#x6240;']

&#x6784;&#x5EFA;&#x5355;&#x8BCD;&#x7D22;&#x5F15;
tokenizer = Tokenizer()
tokenizer.fit_on_texts(samples)
print(tokenizer.word_index)

将句子序列转换成token矩阵 tokenizer.texts_to_matrix()

tokenizer.texts_to_matrix(samples)  #&#x5982;&#x679C;string&#x4E2D;&#x7684;word&#x51FA;&#x73B0;&#x5728;&#x4E86;&#x5B57;&#x5178;&#x4E2D;,&#x90A3;&#x4E48;&#x5728;&#x77E9;&#x9635;&#x4E2D;&#x51FA;&#x73B0;&#x7684;&#x4F4D;&#x7F6E;&#x5904;&#x6807;1

tokenizer.texts_to_matrix(string,mode='count') #&#x5982;&#x679C;string&#x4E2D;&#x7684;word&#x51FA;&#x73B0;&#x5728;&#x4E86;&#x5B57;&#x5178;&#x4E2D;,&#x90A3;&#x4E48;&#x5728;&#x77E9;&#x9635;&#x4E2D;&#x51FA;&#x73B0;&#x7684;&#x4F4D;&#x7F6E;&#x5904;&#x6807;&#x8BB0;&#x8FD9;&#x4E2A;word&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;

句子转换成单词索引序列 tokenizer.texts_to_sequences

sequences = tokenizer.texts_to_sequences(samples)
print(sequences)

分词器被训练的文档（文本或者序列）数量 tok.document_count

依照数量由大到小Order排列的token及其数量 tok.word_counts

完整代码:

from keras.preprocessing.text import Tokenizer

samples = ['&#x4ED6; &#x6BD5;&#x4E1A; &#x4E8E; &#x54C8;&#x4F5B;&#x5927;&#x5B66;', '&#x4ED6; &#x5C31;&#x804C; &#x4E8E; &#x5DE5;&#x79D1;&#x9662;&#x8BA1;&#x7B97;&#x673A;&#x7814;&#x7A76;&#x6240;']

&#x6784;&#x5EFA;&#x5355;&#x8BCD;&#x7D22;&#x5F15;
tokenizer = Tokenizer()
tokenizer.fit_on_texts(samples)

word_index = tokenizer.word_index
print(word_index)
print(len(word_index))

sequences = tokenizer.texts_to_sequences(samples)
print(sequences)

one_hot_results = tokenizer.texts_to_matrix(samples)
print(one_hot_results)

运行结果

Original: https://blog.csdn.net/qq_44795788/article/details/126451564
Author: 躺平yyds
Title: one-hot编码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/727857/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【自考】数据结构中的线性表，期末不挂科指南，第2篇

线性表这篇博客写的是线性表相关的内容，包括如下部分，先看下有木有期待啥是线性表线性表的顺序存储线性表的基本运算在顺序表上的实现线性表的链式存储线性表的基本运算在单链表上…

Python 2023年6月3日
0069
Python 你不知道的全自动解密解码神器

Original: https://www.cnblogs.com/123456feng/p/16169835.htmlAuthor: 蚂蚁ailingTitle: Python …

Python 2023年5月24日
0077
Java EE 期末复习提纲【太原理工大学】

一、题型二、考点 1. MyBatis 2. Spring 3. Spring MVC 选择题 20 个，每个 1 分，共 20 分。填空题 20 个，每个 1 分，共 20 …

Python 2023年11月8日
0053
【数学建模之Python】9.AttributeError: module ‘pandas‘ has no attribute ‘Panel‘

你们的每个赞都能让我开心好几天✿✿ヽ(°▽°)ノ✿ 其实这类报错仔细看看就能够明白为什么，如果自己写的程序是没问题的话，那报错就是库的问题简而言之，库的版本太旧了，有的函数、名词已…

Python 2023年8月7日
0060
django电商项目—Day01

一、项目目标及意义：在已巩固django基础之上进一步了解web开发流程，学习传统电商项目开发流程及思想二、项目开发模式：本项目采用前后端不分离的开发模式三、技术选型以及开…

Python 2023年8月4日
0056
基于scrapy的电商平台数据爬取与展示

摘要：随着大数据的发展和国家推进大数据落地的迫切需要，各行各业都必须加强两化的紧密结合，加快进入数字经济时代。如今，网购已经成为人们生活中不可分割的一部分，但面对琳琅满目的商品，人…

Python 2023年10月1日
0041
CTFSHOW 常用姿势篇（801-810）

CTFSHOW 常用姿势篇群主在视频里面已经讲解的很清楚了，下面内容有些简略，就当补充下payload了。文章目录 CTFSHOW 常用姿势篇 * web801 web802 …

Python 2023年8月12日
0063
自动下载视频、弹幕、评论软件【python制作】

Original: https://www.cnblogs.com/Qqun261823976/p/16636501.htmlAuthor: python倩Title: 自动下载视…

Python 2023年5月23日
0081
某机构Python之 Numpy-Pandas-Matplotlib 视频笔记

第一章–基本操作 import numpy as np arr = np.array([1,2,3,4,5]) np.ones(10) np.zeros(10) np.full(s…

Python 2023年9月1日
0059
matplotlib库基本使用方法（一）

matplotlib功能初探为了更好地理解所有基础绘图功能，我们通过天气温度变化的绘图来融合所有的基础API使用需求：画出某城市11点到12点1小时内每分钟的温度变化折线图，温…

Python 2023年9月6日
0033
第5课python植物大战僵尸-添加豌豆射手类

提示：第5课python植物大战僵尸-添加豌豆射手类 `今天将继续植物大战僵尸游戏，首先回顾上一次课，在屏幕窗口贴上了一张游戏背景，也就是植物大战僵尸的草地。然后再贴了一张太阳花银…

Python 2023年9月20日
0053
实战模拟│揭秘为啥年会你抽不到特等奖

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月12日
0067
【python】python基础与unittest基础

Python编程文章目录 Python编程 * 前言 – 1. 目标一、python基础 – 1. Python 介绍 2. 语言的分类 3. prin…

Python 2023年9月12日
0052
C++ “链链”不忘@必有回响之单链表

1. 前言数组和链表是 数据结构的基石，是逻辑上可描述、物理结构真实存在的具体数据结构。其…

Python 2023年10月21日
0047
Pandas库——DataFrame入门

文章目录 * – 一.简介 – 二.创建 – + 1.python字典型 + 2.嵌套list/numpy的多维数组 + 3.文件读取 &#82…

Python 2023年8月18日
0035
python测试框架之pytest （一）

概述 pytest官方文档介绍： pytest: helps you write better programs pytest is a framework that makes …

Python 2023年9月11日
0033

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

one-hot编码

one-hot编码

什么是one-hot编码

one-hot在提取文本特征上的应用

; 手动实现one-hot编码

Keras中one-hot编码的实现

大家都在看