【课程作业】西瓜书 机器学习课后习题 : 第七章

目录

【课程作业】西瓜书 机器学习课后习题 : 第七章

; 简介

Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~

ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!

唯有努力💪

本文仅记录自己感兴趣的内容

说明

作业要求:每章从课后习题中选取3道题做就可以了

答案来源:题目的解答过程来自于网络,依据个人所学进行了一些修改、总结

仅供参考

7.1

试使用极大似然法估算西瓜数据集3.0中前3个属性的类条件概率。

【课程作业】西瓜书 机器学习课后习题 : 第七章

; 7.3

试编程实现拉普拉斯修正的朴素贝叶斯分类器,并以西瓜数据集3,0为训练集,对p151″测1″ 样本进行判别。

答:

import numpy as np
import pandas as pd
from sklearn.utils.multiclass import type_of_target
from collections import namedtuple

def train_nb(X, y):
    m, n = X.shape
    p1 = (len(y[y == '是']) + 1) / (m + 2)
    p1_list = []
    p0_list = []
    X1 = X[y == '是']
    X0 = X[y == '否']
    m1, _ = X1.shape
    m0, _ = X0.shape
    for i in range(n):
        xi = X.iloc[:, i]
        p_xi = namedtuple(X.columns[i], ['is_continuous', 'conditional_pro'])
        is_continuous = type_of_target(xi) == 'continuous'
        xi1 = X1.iloc[:, i]
        xi0 = X0.iloc[:, i]
        if is_continuous:
            xi1_mean = np.mean(xi1)
            xi1_var = np.var(xi1)
            xi0_mean = np.mean(xi0)
            xi0_var = np.var(xi0)

            p1_list.append(p_xi(is_continuous, [xi1_mean, xi1_var]))
            p0_list.append(p_xi(is_continuous, [xi0_mean, xi0_var]))
        else:
            unique_value = xi.unique()  # 取值情况
            nvalue = len(unique_value)  # 取值个数
            xi1_value_count = pd.value_counts(xi1)[unique_value].fillna(0) + 1
            xi0_value_count = pd.value_counts(xi0)[unique_value].fillna(0) + 1
            p1_list.append(p_xi(is_continuous, np.log(xi1_value_count / (m1 + nvalue))))
            p0_list.append(p_xi(is_continuous, np.log(xi0_value_count / (m0 + nvalue))))
    return p1, p1_list, p0_list

def predict_nb(x, p1, p1_list, p0_list):
    n = len(x)
    x_p1 = np.log(p1)
    x_p0 = np.log(1 - p1)
    for i in range(n):
        p1_xi = p1_list[i]
        p0_xi = p0_list[i]
        if p1_xi.is_continuous:
            mean1, var1 = p1_xi.conditional_pro
            mean0, var0 = p0_xi.conditional_pro
            x_p1 += np.log(1 / (np.sqrt(2 * np.pi) * var1) * np.exp(- (x[i] - mean1) ** 2 / (2 * var1 ** 2)))
            x_p0 += np.log(1 / (np.sqrt(2 * np.pi) * var0) * np.exp(- (x[i] - mean0) ** 2 / (2 * var0 ** 2)))
        else:
            x_p1 += p1_xi.conditional_pro[x[i]]
            x_p0 += p0_xi.conditional_pro[x[i]]
    if x_p1 > x_p0:
        return '是好瓜'
    else:
        return '不是好瓜'

if __name__ == '__main__':
    data_path = r'xigua3.csv'
    data = pd.read_csv(data_path, index_col=0)
    X = data.iloc[:, :-1]
    y = data.iloc[:, -1]
    p1, p1_list, p0_list = train_nb(X, y)
    x_test = X.iloc[0, :]
print(predict_nb(x_test, p1, p1_list, p0_list))

实验结果如下图:

【课程作业】西瓜书 机器学习课后习题 : 第七章

7.4

实践中使用式(7.15)决定分类类别时,若数据的维数非常高,则概率连乘的结果通常会非常接近于0从而导致下溢。试述防止下溢的可能方案

答:通过对式子取对数将连乘转化为”连加”防止下溢。对式(7.15)取对数后,得到下式:

【课程作业】西瓜书 机器学习课后习题 : 第七章

; 结语

文章仅作为个人学习笔记记录,记录从0到1的一个过程

希望对您有一点点帮助,如有错误欢迎小伙伴指正

【课程作业】西瓜书 机器学习课后习题 : 第七章

Original: https://blog.csdn.net/weixin_44225182/article/details/126655583
Author: 海轰Pro
Title: 【课程作业】西瓜书 机器学习课后习题 : 第七章

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/785908/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球