hw-2 李宏毅2022年作业2 phoneme识别单strong-hmm详细解释。

2023年8月27日上午5:49 • Python • 阅读 49

系列文章

2022李宏毅作业hw1—新冠阳性人员数量预测。_亮子李的博客-CSDN博客

系列文章

前言：

hw-2 李宏毅2022年作业2 phoneme识别单strong-hmm详细解释。

但还是试着写写思路吧。git地址和kaggle网址

https://github.com/xiaolilaoli/lihongyi2022homework/tree/main/2_phoneme

ML2021Spring-hw2 | Kaggle

项目：

我的习惯一般会把一个小项目做成下面的几个模块这样非常的清晰

第一个就是数据模块，这部分的作用是读入数据。接口输入是数据地址返回的是各种loader

第二个是模型模块。没啥好说的，就是创造模型。接口输入是特征数和分类数（分类任务），出口是模型。

第三个是训练模块。这一部分要传入训练集验证集和超参数。步骤就是梯度归0 模型前向过程得到预测结果预测和标签比得到loss loss回传。模型更新。还有一些记录。训练过后有一个验证过程，让模型在验证集上跑，最后得到验证集准确率。

第四个是验证模块。一般负责从模型和测试数据出发，得到想要验证的数据。

第五个是main函数。整合各个模块进行数据模型的传递。

我觉得模块化是非常有必要的，我一直想做一个万能模块。特别是数据部分，后来发现，想多了，面对每一个项目总是免不了微调。大家可以逐渐形成自己的模块。

一：数据：

看到数据一段编码好了的声音片段。每一段是39长度的向量。然后会给出前后五段的数据也就是我们有11*39 = 429 维度的一个特征根据这个特征去做分类。有多少类呢？有39类。数据被放在一个.npy的numpy文件中。跟上次一样，先创建一个读数据的dataset

        x = np.load(traindataPath)
        y = np.load(trainlabelPath)
        y = y.astype(np.int)

把x，y读进来把y转为int型

class phonemeDataset(Dataset):
    def __init__(self, x, y=None):
        self.x = torch.tensor(x)
        self.y = y
        if y is not None:
            self.y = torch.LongTensor(y)

    def __getitem__(self, index):
        if self.y is not None:
            return self.x[index].float(), self.y[index]
        else:
            return self.x[index].float()

    def __len__(self):
        return len(self.x)

dataset 是非常基础的 init负责把数据读进来 getitem 负责在访问数据集时返回数据我们返回的是float类型的特征数据和longtensor的标签 len负责返回长度。。用这个文件做数据很简单。直接放完整代码。这部分被我放在model.utils 中的data里

import numpy as np
from torch.utils.data import Dataset,DataLoader
import torch
from sklearn.model_selection import train_test_split

class phonemeDataset(Dataset):
    def __init__(self, x, y=None):
        self.x = torch.tensor(x)
        self.y = y
        if y is not None:
            self.y = torch.LongTensor(y)

    def __getitem__(self, index):
        if self.y is not None:
            return self.x[index].float(), self.y[index]
        else:
            return self.x[index].float()

    def __len__(self):
        return len(self.x)

def getDataset(path,mode):
    if mode == 'train' or mode == 'trainAndVal':
        traindataPath = path + '/' + 'train_11.npy'
        trainlabelPath = path + '/' + 'train_label_11.npy'
        x = np.load(traindataPath)
        y = np.load(trainlabelPath)
        # x = x[:, 3*39:8*39]
        y = y.astype(np.int)
        if mode == 'trainAndVal':
            trainAndValset = phonemeDataset(x, y)
            return trainAndValset
        else:
            train_x,val_x, train_y, val_y = train_test_split(x, y, test_size=0.05,shuffle=True,random_state=0)
            trainset = phonemeDataset(train_x, train_y)
            valset = phonemeDataset(val_x, val_y)
            return trainset, valset

    elif mode == 'test':
        testdataPath = path + '/' + 'test_11.npy'
        x = np.load(testdataPath)
        # x = x[:, 3*39:8*39]
        testset = phonemeDataset(x)
        return testset

def getDataLoader(path, mode, batchSize):
    assert mode in ['train', 'test', 'trainAndVal']
    if mode == 'train':
        trainset, valset = getDataset(path, mode)
        trainloader = DataLoader(trainset,batch_size=batchSize, shuffle=True)
        valloader = DataLoader(valset,batch_size=batchSize, shuffle=True)
        return trainloader,valloader
    elif mode == 'trainAndVal':
        trainAndValset = getDataset(path, mode)
        trainAndValloader = DataLoader(trainAndValset,batch_size=batchSize, shuffle=True)
        return trainAndValloader

    elif mode == 'test':
        testset = getDataset(path, mode)
        testLoader = DataLoader(testset, batch_size=batchSize, shuffle=False)
        return testLoader

二：模型

很基础的一个模型就是fc+relu+dropout 我不知道怎么样去改出来一个好模型只是感觉都差不多。

这部分被我放在model.utils 中的model里

class myNet(nn.Module):
    def __init__(self, inDim, outDim):
        super(myNet,self).__init__()
        self.fc1 = nn.Linear(inDim, 1024)
        self.relu1 = nn.ReLU()
        self.drop1 = nn.Dropout(0.5)
        self.fc2 = nn.Linear(1024, 1024)
        self.relu2 = nn.ReLU()
        self.drop2 = nn.Dropout(0.5)
        self.fc3 = nn.Linear(1024, 512)
        self.relu3 = nn.ReLU()
        self.fc4 = nn.Linear(512, outDim)

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu1(x)
        x = self.drop1(x)
        x = self.fc2(x)
        x = self.relu2(x)
        x = self.drop2(x)
        x = self.fc3(x)
        x = self.relu3(x)
        x = self.fc4(x)
        if len(x.size()) > 1:
            return x.squeeze(1)
        else:
            return x

三：训练和评估

这部分和之前几乎一样。我就不放代码了可以去git下

undefined

四：main函数和训练过程

超参和模型设置以及创造loader

def seed_everything(seed=1):
    '''
    &#x8BBE;&#x7F6E;&#x6574;&#x4E2A;&#x5F00;&#x53D1;&#x73AF;&#x5883;&#x7684;seed
    :param seed:
    :param device:
    :return:
    '''
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    # some cudnn methods can be random even after fixing the seed
    # unless you tell it to be deterministic
    torch.backends.cudnn.deterministic = True

#################################################################

batch_size = 512
learning_rate = 1e-4
seed_everything(1)

epoch = 1000
w = 0.00001
device = 'cuda:1' if torch.cuda.is_available() else 'cpu'
##################################################################

dataPath = 'timit_11'
savePath = 'model_save/My'
trainloader, valloader = getDataLoader(dataPath, 'train', batchSize=batch_size)
test_loader = getDataLoader(dataPath, 'test', batchSize=batch_size)

optimizer = optim.SGD(model.parameters() , lr=learning_rate, weight_decay=0.0001,momentum=0.9)
scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(optimizer, eta_min=1e-9, T_0=20)
criterion = nn.CrossEntropyLoss()

创造优化器和loss 然后训练

train_val(model,trainloader,valloader, optimizer=optimizer ,scheduler=scheduler, loss= criterion, epoch=epoch, device=device, save_=savePath)

1 训练过程中会发现训练集的准确率比测试集还高。这是因为我们有drop过程。

2 验证准确度会与drop率有关大家不要迷信准确率。最后我上面这个模型验证准确在百分之88.5左右就上不去了。我是训练了 1000个epoch。

3 换了好几个优化器换了好几个lr 最后结果总是上不去，然后上传到kaggle 上得到的分数是 0.741

五后处理。

很早就得到了这个结果却差别人一大截。然后在网上找到了一个大佬做的视频。【ML2021李宏毅机器学习】作业2 TIMIT phoneme classification 思路讲解_哔哩哔哩_bilibili

然后跟着大佬的思路（抄他的代码），把结果提了两个点。然后我来尽量讲一下这个思路。实在是太难了。这个思路就是HMM， hmm是什么大家可以参考这里。记得跟着这个链接里的算一次。就算没看懂，也要把他是怎么算出结果的。用手把步骤写出来、下面我尽量带大家理解我的想法。好吧我也不确定我的想法对。

HMM与分词、词性标注、命名实体识别-码农场。

其实hmm感觉上是什么呢 ? 就感觉是天下大势和小家之势的相互关系。天下有大势，当你实力强时，你就可以不完全被大势挟裹，但是如果你实力微弱，就会被卷入其中。

后处理的代码如下。这串代码非常的难看懂。一定要仔细调试并与上面的例子结合起来看。

1 加载训练标签。

alllength = 451552
#transition matrix
data_root = 'timit_11/train_label_11.npy'
train_label = np.load(data_root)
print('size of train data:{}'.format(train_label.shape))
trans_table = np.zeros((39,39))
train_label = train_label.astype('int')

2 统计转移矩阵。 trains_table[i,j]位置的元素表示在所有标签里，从i到j的个数。统计后，在每行进行归一化，就得到从当现在的标签是i 他下一个是其他标签各个的概率。

for i in range(len(train_label)-1):
    trans_table[train_label[i], train_label[i+1]] += 1
trans_table_norm = trans_table/ np.sum(trans_table,axis=1,keepdims=True)

3：得到发射矩阵。这就是小家小势了。也就是模型预测的置信度多高。如果你模型预测一个结果的置信度是0.99 那么相信天下大势也很难影响你。test_ln_softmax有451552行每行都是每一类的预测概率。

m = nn.Softmax(dim=1)
test_ln_softmax = m(torch.tensor(raw_output))
test_ln_softmax = np.array((test_ln_softmax))

4：将他们log化这里应该是为了乘起来快一点。大家都知道 log的加就相等于数字相乘。反正我们只是比较相对大小。所以这里log后可以用加法代替乘法。

trans_table_norm += 1e-17
trans_table_norm = np.log(trans_table_norm)
test_ln_softmax = test_ln_softmax + 1e-17
test_ln_softmax = np.log(test_ln_softmax)

5：定义路径和初始状态。

tracking = np.zeros((alllength, 39))
last_state = test_ln_softmax[0]

6：计算过程开始计算了。

prob = last_state.reshape(39,1) + trans_table_norm + test_ln_softmax[i]

这一句相当于上面例子里的这一段。前一个是y0的概率然后乘以从y0转到yi的概率再乘以现在这个表现为yi的概率。我们就得到了在前一个表现为y0的情况下，这个表现为yi的概率。我们会得到39个。我们来细看这一句到底是怎么算的。

laststate 就是前面一天表现为yi的概率。长度是39 代表了每一类。但是这里有 reshape(39,1) 就表示变成了39行。 transtabnle是一个39乘以39的矩阵。这两个矩阵相加，就要对latestate进行行扩充。下面的0 就表示预测值为0的概率。

再看下面两个的相加我们知道其实就是相乘 tran的每个位置i，j都是i到j的概率。那么相加之后的矩阵意思就是如果上一天是yi 今天表现为yj的概率。

test_ln_softmax[i] 是一个139长的向量他每个位置意思是不管天下大势我表现为 y？的概率。由于他要和3939的矩阵相加所以他也要扩充。

所以这三个矩阵相加 i，j位置的值就表示综合了天下大势和小家局势。后前一天是i今天是j的概率。

current_state = np.max(prob, axis=0)

取列的最大值。那么固定的是j的值如果j=0 就是意思找昨天预测值是多少时今天能得到0的概率最高。此时那个概率的值时多少。但找齐每一列后 current_state（1，39）中每一个值的意思就变成了这天得到预测值j的概率是多大。（我们把最大的那个，选择相信他。）

tracking[i] = np.argmax(prob, axis=0)

列最大值所在行是哪一行。这个就是位置了。第j个位置的数字表明昨天取预测值track【j】时，今天得到预测值j的概率最大。也就是统计一个路径。

    last_state = current_state

更新状态。也就是把今天概率看成上一天的概率，看下一天。

pred_ls = [np.argmax(raw_output[-1])]

for i in range(0,alllength-1):
    back = tracking[alllength-i-1][int(pred_ls[-1])]
    pred_ls.append(int(back))

track 是一个长451551 宽39的矩阵。有45万行表示45万天然后有39 列第j表示昨天取预测值track【j】时，今天得到预测值j的概率最大。

我们选择最后一天的那个数字带入。这个数字就是最后一天的发射值。比如这个值是38（正常大家得到的值应该是25）我们就要去找 38位的值发现这一位上还是38 那么意思就是昨天取38时今天取38的概率最大。所以预测值里就要加入38 但这里我们是倒序加入，最后要反过来。

到这里发现38位上写的 7 说明上天是7 今天取38概率最大。然后找到上天的7 继续这个步骤。

也就是说按照track这条路去走是最有可能的。所以就取这条路提交。得到最后的结果。hmm后会比正常提交提高两个百分点左右。

而hmm那个晴天阴天的例子用第一天的转移用上面的代码大概就是下面这样

import numpy as np
a = np.array([0.06,0.24])
b = np.array([[0.7,0.3],[0.4,0.6]])
c = np.array([0.4,0.3])
print(a.reshape(2,1)*b*c)

Original: https://blog.csdn.net/YI_SHU_JIA/article/details/123576414
Author: 亮子李
Title: hw-2 李宏毅2022年作业2 phoneme识别单strong-hmm详细解释。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/760845/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【django入门】 01 创建项目

django入门 01 创建项目安装django库 pip install django 创建——by 终端 django-admin startproject myprojec…

Python 2023年6月15日
0071
开源web框架django知识总结（十八）

开源web框架django知识总结（十八）商品详情页商品详情页分析和准备 1. 商品详情页组成结构分析 1.商品频道分类封装在 goods.utils.py文件中，直接调用方…

Python 2023年8月5日
0038
Python实战项目 –＞飞机大战（学习过程·下）

实战项目–>飞机大战·下 ; 游戏框架搭建：一、明确主程序职责 ; 二、实现飞机大战主游戏类 import pygame from plane_sprites import…

Python 2023年9月23日
0025
pytest与coverage联合使用

目录安装运行方式命令行方式 .py文件方式测试结果各参数含义 pytest与coverage联合使用示例运行方式方式一：coverage的终端使用方式二：运行run….

Python 2023年9月12日
0039
双系统配置ubuntu22.04以及深度学习环境配置

为了学习计算机视觉，特意安装了ubuntu22.04（原来是win11），简单记录自己的一个过程，毕竟也是重装好几次系统的人了… 在完成ubuntu22.04的安装后，…

Python 2023年9月9日
0037
大一C语言期末程序设计——钢琴快

本人目前大二，C语言程序设计是大一下学期学的，暂时还没有学数据结构，C语言中比较深入一点的知识也是浅尝辄止，路过的大佬请多多指教！ C语言是一种接近底层的语言，个人认为如果想要用C…

Python 2023年9月19日
0034
Hugging Face发布diffuser模型AI绘画库初尝鲜！

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow 实战系列：https:…

Python 2023年10月28日
0053
[educoder]2、NumPy数组的高级操作

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。是在学习机器学习、深度…

Python 2023年8月24日
0049
【PyTorch】torch.manual_seed() 详解

使用原因：在需要生成随机数据的实验中，每次实验都需要生成数据。设置随机种子是为了确保每次生成固定的随机数，这就使得每次实验结果显示一致了，有利于实验的比较和改进。使得每次运行该…

Python 2023年8月1日
0051
7.13 LeetCode刷题记录（简单x1，中等x1）

7.13 LeetCode刷题记录（简单x1，中等x1） 1、两数之和（简单）题目给定一个整数数组 nums 和一个整数目标值 target，请你在该数组中找出和为目标值 t…

Python 2023年6月11日
0052
boat启动器 minecraft_我的世界boat

我的世界boat是一款专门为我的世界游戏里推出的启动器app，玩家在这款工具中可以任意更改mod和版本，游戏为玩家提供了两种游戏模式单人和联机两种模式让玩家们选择，玩家可以尽情选择…

Python 2023年9月22日
0030
【Nginx】三、Nginx实现四层负载均衡&Nginx实现限流&防盗链&流量镜像

Nginx实现四层负载均衡一、Nginx实现四层负载均衡 * 1、四层负载均衡与七层负载均衡区别 2、Nginx四层负载均衡配置 3、SocketTool工具 4、TCP&amp…

Python 2023年11月7日
0053
Django+Nginx+Uwsgi配置环境时，Uwsgi若干问题（踩过的坑）的解决方法

uwsgi –http :8000 –module mlwshop.wsgi 7 配置uWSGI（服务器）7.1 打通uWSGI和Python在项目根目录创…

Python 2023年8月5日
0045
❤️pandas df.loc[] 与 df.iloc[] 详解及其区别，建议收藏❤️

文章目录思维导图一、df.loc[]与df.iloc[]区别二、df.loc[]详解 * df.loc[] 允许输入三、df.iloc[]详解 * df.iloc[] 允许…

Python 2023年8月9日
0084
【图像融合】基于DCT算法实现图像融合附matlab代码

【图像融合】基于DCT算法实现图像融合附matlab代码原创 matlab科研助手2022-06-23 22:12:17博主文章分类：图像处理 ©著作权文章标签 2d sed …

Python 2023年5月25日
0068
Python分类模型实战（KNN、逻辑回归、决策树、SVM）调优调参，评估模型——综合项目

目录一、技术原理逻辑回归 k近邻法（k-nearest neighbor，k-NN）决策树 SVM(Support Vector Machine) 模型评估二、数据探索与处…

Python 2023年8月3日
0093

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

hw-2 李宏毅2022年作业2 phoneme识别 单strong-hmm详细解释。

前言 ：

一： 数据 ：

二： 模型

三 ： 训练和评估

四：main函数和训练过程

五 后处理 。

大家都在看

hw-2 李宏毅2022年作业2 phoneme识别单strong-hmm详细解释。

前言：

一：数据：

二：模型

三：训练和评估

五后处理。