李宏毅ML作业笔记2: 二分类薪资水平

2023年6月18日下午5:07 • 人工智能 • 阅读 92

本文代码只讨论核心部分,完整代码上传CSDN 资源并在kaggle 公开:

https://www.kaggle.com/laugoon/homework2

https://download.csdn.net/download/lagoon_lala/19032029

任务介绍

二元分类, 通过个人资料, 预测其年收入是否超过5万美元.

需要用到的 数据集有: train.csv, test_no_label.csv, X_train, Y_train, X_test

其中train.csv, test_no_label.csv为原始数据, X_train, Y_train, X_test为助教处理过.

X_train, X_test : 每行一个样本有510维度, 不必全部使用.

Y_train: label = 0含义为”

提交格式:

测试集27622有个样例

第一行: “id, label”

第二行以后: “id, prediction”

CSV(comma seperated values) format

评分依据为正确率

需要手刻 gradient descent 實作 logistic regression, probabilistic generative model. 也就是不能用套件.

需要达成的分数:

Public simple baseline(1%): 0.88617

Public strong baseline(1%): 0.89052

如果给助教临时跑, 建议固定random seeds, 不然结果可能有差距.

预测思路

“這個資料集是由 UCI Machine Learning Repository 的 Census-Income (KDD) Data Set 經過一些處理而得來。

在訓練過程中，只有X_train 、Y_train 和X_test 這三個經過處理的檔案會被使用到，train.csv 和test.csv 這兩個原始資料檔則可以提供你一些額外的資訊。”

对率回归

数据准备

下載資料，並且對每個屬性做正規化，處理過後再將其切分為訓練集與發展集(development set)。

新建notebook按照自动生成的代码可以获得文件的路径:

import os

for dirname, _, filenames in os.walk(‘/kaggle/input’):

for filename in filenames:

print(os.path.join(dirname, filename))

/kaggle/input/ml2020spring-hw2/data/X_train

写预测结果输出的时候遇到一点报错:

Read-only file system: ‘/kaggle/input/ml2020spring-hw2/output_logistic.csv’

查看最开始自动生成代码中的注释

ou can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using “Save & Run All”

更改目录.

根据获得的文件路径, 读取csv保存在 numpy数组

with open(X_train_fpath) as f:

next(f)

X_train = np.array([line.strip(‘\n’).split(‘,’)[1:] for line in f], dtype = float)#strip()表示删除掉数据中的换行符，split（’,’）则是数据中遇到’,’ 就隔开

X_train, Y_train:

(array([[33., 1., 0., …, 52., 0., 1.],

…,

[48., 0., 0., …, 0., 0., 1.]]),

array([1., 0., 0., …, 0., 0., 0.]))

对训练集测试集的X做 标准化.

if train:

X_mean = np.mean(X[:, specified_column] ,0).reshape(1, -1)#reshape(1,-1)转换为行数1, 列数根据行数计算

X_std = np.std(X[:, specified_column], 0).reshape(1, -1)

X[:,specified_column] = (X[:, specified_column] – X_mean) / (X_std + 1e-8)#(x-μ)/σ

X_train, X_mean, X_std = _normalize(X_train, train = True)

X_test, , = normalize(X_test, train = False, specified_column = None, X_mean = X_mean, X_std = X_std)#’‘做变量名合法, 作为无用的临时变量

相关知识

shape[0]：表示矩阵的行数; shape[1]：表示矩阵的列数

https://blog.csdn.net/xiasli123/article/details/102932607

reshape:

https://www.jianshu.com/p/d9df005636a6

python下划线作用:

https://blog.csdn.net/tcx1992/article/details/80105645

将数据分割为 训练集, 发展集

train_size = int(len(X) * (1 – dev_ratio))

return X[:train_size], Y[:train_size], X[train_size:], Y[train_size:]

train_size = X_train.shape[0]#训练集行数

print(‘Size of training set: {}’.format(train_size))

Size of training set: 48830

Size of development set: 5426

Size of testing set: 27622

Dimension of data: 510

工具函数

训练过程中可能重复使用

洗牌

randomize = np.arange(len(X))#arange(len(X))返回0,1…len(X)

np.random.shuffle(randomize)#shuffle()方法将序列的所有元素随机排序

return (X[randomize], Y[randomize])

梯度和损失

參考李宏毅逻辑回归PPT, P12梯度及損失函數計算公式。(在notebook写公式和CSDN一样可用Tex, 很方便)

计算交叉熵作为 损失函数

y hat=1, 属于类别1, y hat=0, 属于类别2,

对以下两个分布(假设均为Bernouli两点分布)做交叉熵. Distribution p:

$$ p\left( {x = 1} \right) = {\hat{y}}^{n}\ p\left( {x = 0} \right) = {1 – \hat{y}}^{n} $$

交叉熵可衡量两个分布接近程度:

$$ H\left( {p,q} \right) = – {\sum_{x}{p\left( x \right)ln\left( {q\left( x \right)} \right)}} $$

代入似然函数可表示为:

$$ – lnL\left( {w,b} \right) = {\sum_{n}{- \left\lbrack {{\hat{y}}^{n}lnf_{w,b}\left( x^{n} \right) + \left( {1 – {\hat{y}}^{n}} \right) ln\left( {1 – f_{w,b}\left( x^{n} \right)} \right)} \right\rbrack}} $$

cross_entropy = -np.dot(Y_label, np.log(y_pred)) – np.dot((1 – Y_label), np.log(1 – y_pred))#log默认以e为底

相关知识:log(), 交叉熵(详细查阅上篇文章)

https://blog.csdn.net/weixin_44383134/article/details/87866307

计算梯度

梯度下降的更新公式

$$ w_{i}\leftarrow w_{i} – \eta{\sum_{n}{- \left( {{\hat{y}}^{n} – f_{w,b}\left( x^{n} \right)} \right)x_{i}^{n}}} $$

该公式中间的因子, 为似然函数lnL对wi的偏微分:

$$ \frac{\partial lnL\left( {w,b} \right)}{\partial w_{i}} =-\sum_{n}{ \left( {{\hat{y}}^{n} – f_{w,b}\left( x^{n} \right)} \right)x_{i}^{n}} $$

y_pred = _f(X, w, b)#对率回归

pred_error = Y_label – y_pred#误差

w_grad = -np.sum(pred_error * X.T, 1)#sum参数axis=1是压缩列,即将每一行的元素相加,将矩阵压缩为一列

b_grad = -np.sum(pred_error)

相关知识: sum(), 损失函数最小化(详见上篇)

https://zhuanlan.zhihu.com/p/85790648

训练

我們使用小批次(batch)梯度下降法來訓練。訓練資料被分為許多小批次，針對每一個小批次，我們分別計算其梯度以及損失，並根據該批次來更新模型的參數。當一次迴圈(循环, 迭代)完成，也就是整個訓練集的所有小批次都被使用過一次以後，我們將所有訓練資料打散並且重新分成新的小批次，進行下一個迴圈，直到事先設定的迴圈數量達成為止。

初始化wb

w = np.zeros((data_dim,)) #zeros第一个参数为形状

b = np.zeros((1,))

相关知识: zeros()的第一个参数shape为整数或tuple, 表示矩阵形状

https://blog.csdn.net/weixin_44805104/article/details/102746080

https://blog.csdn.net/u010852680/article/details/77745468

np.zeros((5,))与np.zeros(5)的效果相同, 都是:

array([0., 0., 0., 0., 0.])

当shape为二元组时, 则第一个数为行数, 第二个为列数, 如np.zeros((5,2))得到:

array([[0., 0.],

[0., 0.],

[0., 0.]])

计算梯度

w_grad, b_grad = _gradient(X, Y, w, b)

利用梯度下降更新参数w b,学习率随时间(step)减少

w = w – learning_rate/np.sqrt(step) * w_grad

计算Y预测值:

y_train_pred = _f(X_train, w, b)

Y_train_pred = np.round(y_train_pred)

计算精确度:

train_acc.append(_accuracy(Y_train_pred, Y_train))

计算损失值:

train_loss.append(_cross_entropy_loss(y_train_pred, Y_train) / train_size)#/ train_size消除训练集与发展集大小不同带来的影响

print(‘Training loss: {}’.format(train_loss[-1]))#[-1]表示数组中最后一位

Training loss: 0.2713554352464059

Development loss: 0.2896359675026287

Training accuracy: 0.8836166291214418

Development accuracy: 0.8733873940287504

作损失, 精度曲线

plt.plot(train_loss)# x可省略,默认[0,1..,N-1]递增

plt.plot(dev_loss)

plt.title(‘Loss’)

plt.legend([‘train’, ‘dev’])#默认参数: 图例的名称

plt.savefig(‘/kaggle/working/loss.png’)

plt.show()

预测测试集

預測測試集的資料標籤並且存在 output_logistic.csv 中。

predictions = _predict(X_test, w, b)

with open(output_fpath.format(‘logistic’), ‘w’) as f:

f.write(‘id,label\n’)

for i, label in enumerate(predictions):#enumerate列出数据和生成数据下标

f.write(‘{},{}\n’.format(i, label))

筛选最大(显著)的几个weight, 即得到 最有用的特征

ind = np.argsort(np.abs(w))[::-1]#argsort从小到大排序, ::-1从后向前读取

with open(X_test_fpath) as f:

content = f.readline().strip(‘\n’).split(‘,’)

features = np.array(content)

for i in ind[0:10]:

print(features[i], w[i])

相关知识:

argsort

https://blog.csdn.net/qq_38486203/article/details/80967696

分片

https://blog.csdn.net/ITOMG/article/details/88683256

输出的结果:

Not in universe -4.031960278019251

Spouse of householder -1.625403958705141

Other Rel

Original: https://blog.csdn.net/lagoon_lala/article/details/117136745
Author: lagoon_lala
Title: 李宏毅ML作业笔记2: 二分类薪资水平

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635849/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

从技术角度探索安卓群控实现的基本思路

群控实现的方式我了解的大体有两种（你的系统也可以兼备）方案一：基于ADB+集线器+AutoJS+QtScrcpy，依赖ADB和AutoJs的能力，实现基本ADB指令的下发，可指定…

人工智能 2023年5月30日
0081
Bert句嵌入模块sentence-transformers实战入门

环境：python 3.6>=，pytorch 1.6.0>=，transformers v4.6.0>=。不支持 python 2.7 transformers…

人工智能 2023年5月27日
0072
回归预测 | MATLAB实现Attention-LSTM(注意力机制长短期记忆神经网络)多输入单输出

多维时序 | MATLAB实现Attention-LSTM(注意力机制长短期记忆神经网络)多输入单输出目录 * – 多维时序 | MATLAB实现Attention-…

人工智能 2023年6月17日
00127
2022最新PyCharm安装教程（简单详细）

2022最新PyCharm安装教程（简单详细）一、PyCharm简介 PyCharm是一种Python IDE（Integrated Development Environmen…

人工智能 2023年7月30日
0058
Mysql整体介绍（适用于5.X版本）(下）（标贝科技）

Mysql整体介绍（适用于5.X版本）(下）（标贝科技）二、InnoDB介绍[9-11] InnoDB是Mysql取得成功的最关键的引擎，其重要性不言而喻，下面将单独对该引擎的核…

人工智能 2023年6月6日
00105
联邦学习(FL，Federated Learning) 之FedAvg算法

Communication-Efficient Learning of Deep Networks from Decentralized Data 论文地址：[1602.05629…

人工智能 2023年7月28日
00124
WAV文件格式详解

WAV文件是在PC机平台上很常见的、最经典的多媒体音频文件，最早于1991年8月出现在Windows3.1操作系统上，文件扩展名为WAV，是WaveForm的简写，也称为波形文件，…

人工智能 2023年5月23日
00202
多目标跟踪(MOT)–DeepSort原理及代码详解

代码来源论文链接 DeepSort * – 1. MOT(Multi-Object Tracking)简介 – 2. DeepSort前身：Sort(Sim…

人工智能 2023年6月22日
0084
python: 开始使用tensorflow 出现的一些问题即解决办法

python 用了快一年了，想试用一下tensorflow, 了解一下深度学习(deep learning), 但是与其他的模块不同， tensorflow用起来并不容易，或许…

人工智能 2023年5月23日
0065
使用pandas遍历csv表格数据的效率问题（df.loc/iloc与df.at/iat的异同）

在处理数据量较大的表格（25万行）时，需要遍历表格中的每个值，前期使用df.loc进行遍历，不仅非常耗时，而且运行十几个小时程序经常崩溃。。。解决方法在网上搜索解决方案，使用d…

人工智能 2023年7月8日
0099
3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)

使用MediaPipe工具包进行开发什么是MediaPipe? MediaPipe是一款由Google Research 开发并开源的多媒体机器学习模型应用框架，用于处理视频、音…

人工智能 2023年5月26日
00110
语义分割模型–LinkNet

这篇文章的全名为LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation感兴趣…

人工智能 2023年6月20日
0059
convE模型

文章目录 * – 《convolutional 2D knowledge graph embedding》论文解读 – + 研究问题 + 写作动机(moti…

人工智能 2023年6月1日
0081
python dataframe去除重复项_详解pandas使用drop_duplicates去除DataFrame重复项参数

Pandas之drop_duplicates：去除重复项 DataFrame.drop_duplicates(subset=None, keep=’first&#821…

人工智能 2023年7月7日
0082
如何评价自己的研究工作是否有价值

本文是看了沐神分享的一个视频的笔记，地址：https://www.zhihu.com/zvideo/1475716940051869696 视频中分享了沐神自己如何判断工作的研究价…

人工智能 2023年6月28日
00105
东财《组织学习与知识管理》综合作业

试卷总分:100 得分:100一、单选题 (共 20 道试题,共 40 分)1.下列关于任务分析需要确定的因素错误的是（）。A.工作的简答程度B.工作的饱和程度C.公司业务的发展引…

人工智能 2023年6月1日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

李宏毅ML作业笔记2: 二分类薪资水平

对率回归

数据准备

工具函数

梯度和损失

训练

作损失, 精度曲线

预测测试集

大家都在看