[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-04-处理数值型数据

2023年10月29日下午9:17 • Python • 阅读 41

这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解，在应用中也能更为熟练。

以下是根据书上的代码进行实操，注释基本写明了每句代码的作用(写在本句代码之前)和print的输出结果（写在print之后）。不一定严格按照书上内容进行，根据代码运行时具体情况稍作顺序调整，也加入了一些自己的理解。

如果复制到自己的环境下跑一遍输出，相信理解会更深刻更清楚。

博客中每个代码块代表一次完整的运行结果，可以直接以此为单位复制并运行。

包括：

主要是 sklearn模块，对数值特征处理的一些应用。

04-1 特征缩放

from sklearn import preprocessing
import numpy as np

&#x521B;&#x5EFA;&#x7279;&#x5F81;
feature = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])
print(feature)
[[-500.5]
 [-100.1]
 [   0. ]
 [ 100.1]
 [ 900.9]]

--&#x521B;&#x5EFA;&#x7F29;&#x653E;&#x5668;&#xFF0C;&#x5F52;&#x4E00;&#x5316;&#xFF0C;&#x7279;&#x5F81;&#x7684;&#x6700;&#x5C0F;&#x503C;&#x548C;&#x6700;&#x5927;&#x503C;&#x5206;&#x522B;&#x8D4B;&#x4E88;0&#x548C;1
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0, 1))
&#x7F29;&#x653E;&#x7279;&#x5F81;
scaled_feature = minmax_scale.fit_transform(feature)
print(scaled_feature)
[[0.        ]
 [0.28571429]
 [0.35714286]
 [0.42857143]
 [1.        ]]
&#x8F93;&#x51FA;&#x5E73;&#x5747;&#x503C;&#xFF0C;&#x6807;&#x51C6;&#x5DEE;
print(scaled_feature.mean())
print(scaled_feature.std())
0.41428571428571426
0.32701494692170274

--&#x521B;&#x5EFA;&#x7F29;&#x653E;&#x5668;&#xFF0C;&#x6807;&#x51C6;&#x5316;&#xFF0C;&#x5E73;&#x5747;&#x503C;&#x4E3A;0&#xFF0C;&#x6807;&#x51C6;&#x5DEE;&#x4E3A;1
scaler = preprocessing.StandardScaler()
&#x6807;&#x51C6;&#x5316;&#x7279;&#x5F81;
scaled_feature = scaler.fit_transform(feature)
print(scaled_feature)
[[-1.26687088]
 [-0.39316683]
 [-0.17474081]
 [ 0.0436852 ]
 [ 1.79109332]]
&#x8F93;&#x51FA;&#x5E73;&#x5747;&#x503C;&#xFF0C;&#x6807;&#x51C6;&#x5DEE;
print(scaled_feature.mean())
print(scaled_feature.std())
0.0
1.0

--&#x521B;&#x5EFA;&#x7F29;&#x653E;&#x5668;&#xFF0C;&#x7F29;&#x653E;&#x6709;&#x79BB;&#x7FA4;&#x503C;&#x7684;&#x6570;&#x636E;
scaler = preprocessing.RobustScaler()
&#x6807;&#x51C6;&#x5316;&#x7279;&#x5F81;
scaled_feature = scaler.fit_transform(feature)
print(scaled_feature)
[[-2.5]
 [-0.5]
 [ 0. ]
 [ 0.5]
 [ 4.5]]
&#x8F93;&#x51FA;&#x5E73;&#x5747;&#x503C;&#xFF0C;&#x6807;&#x51C6;&#x5DEE;
print(scaled_feature.mean())
print(scaled_feature.std())
0.4
2.2891046284519194

04-2 归一化观察值

与 特征缩放的区别在于：特征缩放以整体所有特征为单位进行计算，观察值以样本(行)为单位进行计算。

from sklearn.preprocessing import Normalizer
import numpy as np

&#x521B;&#x5EFA;&#x7279;&#x5F81;&#x77E9;&#x9635;
feature = np.array([[0.5, 0.5], [1.1, 3.4], [1.5, 20.2], [1.63, 34.4], [10.9, 3.3]])
print(feature)
[[ 0.5   0.5 ]
 [ 1.1   3.4 ]
 [ 1.5  20.2 ]
 [ 1.63 34.4 ]
 [10.9   3.3 ]]

&#x521B;&#x5EFA;&#x5F52;&#x4E00;&#x5316;&#x5668;&#xFF0C;L2&#x8303;&#x6570;
normalizer = Normalizer(norm = 'l2')
&#x8F6C;&#x6362;&#x7279;&#x5F81;&#x77E9;&#x9635;
print(normalizer.transform(feature))
[[0.70710678 0.70710678]
 [0.30782029 0.95144452]
 [0.07405353 0.99725427]
 [0.04733062 0.99887928]
 [0.95709822 0.28976368]]

&#x521B;&#x5EFA;&#x5F52;&#x4E00;&#x5316;&#x5668;&#xFF0C;L1&#x8303;&#x6570;
normalizer = Normalizer(norm = 'l1')
&#x8F6C;&#x6362;&#x7279;&#x5F81;&#x77E9;&#x9635;
print(normalizer.transform(feature))
[[0.5        0.5       ]
 [0.24444444 0.75555556]
 [0.06912442 0.93087558]
 [0.04524008 0.95475992]
 [0.76760563 0.23239437]]

&#x521B;&#x5EFA;&#x5F52;&#x4E00;&#x5316;&#x5668;&#xFF0C;&#x6700;&#x5927;&#x503C;&#x5F52;&#x4E00;&#x5316;
normalizer = Normalizer(norm = 'max')
&#x8F6C;&#x6362;&#x7279;&#x5F81;&#x77E9;&#x9635;
print(normalizer.transform(feature))
[[1.         1.        ]
 [0.32352941 1.        ]
 [0.07425743 1.        ]
 [0.04738372 1.        ]
 [1.         0.30275229]]

04-3 多项式特征和交互特征

创建 多项式特征，解决特征与目标是非线性关系的问题
创建 交互特征，解决目标由多个特征决定的问题

from sklearn.preprocessing import PolynomialFeatures
import numpy as np

&#x521B;&#x5EFA;&#x7279;&#x5F81;&#x77E9;&#x9635;
features = np.array([[2, 3], [2, 3], [2, 3]])
print(features)
[[2 3]
 [2 3]
 [2 3]]

&#x521B;&#x5EFA;PolynomialFeatures&#x5BF9;&#x8C61;
polynomial_interaction = PolynomialFeatures(degree = 2, include_bias = False)
--&#x521B;&#x5EFA;&#x591A;&#x9879;&#x5F0F;&#x7279;&#x5F81;&#xFF0C;&#x89E3;&#x51B3;&#x7279;&#x5F81;&#x4E0E;&#x76EE;&#x6807;&#x662F;&#x975E;&#x7EBF;&#x6027;&#x5173;&#x7CFB;&#x7684;&#x95EE;&#x9898;&#xFF0C;degree&#x662F;&#x6700;&#x9AD8;&#x9636;&#x6570;
x1, x2, x1^2, x1*x2, x2^2
print(polynomial_interaction.fit_transform(features))
[[2. 3. 4. 6. 9.]
 [2. 3. 4. 6. 9.]
 [2. 3. 4. 6. 9.]]
polynomial_interaction = PolynomialFeatures(degree = 3, include_bias = False)
degree = 3&#xFF0C;&#x6700;&#x5927;&#x503C;&#x4E3A;&#x539F;&#x7279;&#x5F81;&#x6700;&#x5927;&#x503C;&#x7684;&#x4E09;&#x6B21;&#x65B9;
print(polynomial_interaction.fit_transform(features))
[[ 2.  3.  4.  6.  9.  8. 12. 18. 27.]
 [ 2.  3.  4.  6.  9.  8. 12. 18. 27.]
 [ 2.  3.  4.  6.  9.  8. 12. 18. 27.]]

interaction = PolynomialFeatures(degree = 2, interaction_only = True, include_bias = False)
--&#x521B;&#x5EFA;&#x4EA4;&#x4E92;&#x7279;&#x5F81;&#xFF0C;&#x89E3;&#x51B3;&#x76EE;&#x6807;&#x7531;&#x591A;&#x4E2A;&#x7279;&#x5F81;&#x51B3;&#x5B9A;&#x7684;&#x95EE;&#x9898;&#xFF0C;degree&#x662F;&#x6700;&#x9AD8;&#x9636;&#x6570;
# x1, x2, x1*x2
print(interaction.fit_transform(features))
[[2. 3. 6.]
 [2. 3. 6.]
 [2. 3. 6.]]

04-4 自定义特征转换

有时需要按照自己的需求转换特征，比如求特征的对数。可以通过函数转换器 FunctionTransformer()或者pandas中的 apply()方法两种方式达到自定义特征转换的目的。

from sklearn.preprocessing import FunctionTransformer
import numpy as np

&#x521B;&#x5EFA;&#x7279;&#x5F81;&#x77E9;&#x9635;
features = np.array([[2, 3], [2, 3], [2, 3]])
print(features)
[[2 3]
 [2 3]
 [2 3]]

&#x81EA;&#x5B9A;&#x4E49;&#x51FD;&#x6570;
def add_ten(x):
    return x + 10

&#x521B;&#x5EFA;&#x8F6C;&#x6362;&#x5668;
ten_transformer = FunctionTransformer(add_ten)
print(ten_transformer.transform(features))
[[12 13]
 [12 13]
 [12 13]]

&#x540C;&#x6837;&#x53EF;&#x4EE5;&#x91C7;&#x7528;pandas&#x6765;&#x8F6C;&#x6362;
import pandas as pd

df = pd.DataFrame(features, columns = ['feature_1', 'feature_2'])
print(df.apply(add_ten))
   feature_1  feature_2
0         12         13
1         12         13
2         12         13

04-5 异常值

from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs
import numpy as np

&#x521B;&#x5EFA;&#x805A;&#x7C7B;&#x7684;&#x6A21;&#x62DF;&#x6570;&#x636E;&#x96C6;
features,_ = make_blobs(n_samples = 10, n_features = 2, centers = 1, random_state = 1)
print(features)
[[-1.83198811  3.52863145]
 [-2.76017908  5.55121358]
 [-1.61734616  4.98930508]
 [-0.52579046  3.3065986 ]
 [ 0.08525186  3.64528297]
 [-0.79415228  2.10495117]
 [-1.34052081  4.15711949]
 [-1.98197711  4.02243551]
 [-2.18773166  3.33352125]
 [-0.19745197  2.34634916]]

&#x66FF;&#x6362;&#x6781;&#x7AEF;&#x503C;
features[0,1] = 10000
features[1,1] = 10000
print(features)
[[-1.83198811e+00  1.00000000e+04]
 [-2.76017908e+00  1.00000000e+04]
 [-1.61734616e+00  4.98930508e+00]
 [-5.25790464e-01  3.30659860e+00]
 [ 8.52518583e-02  3.64528297e+00]
 [-7.94152277e-01  2.10495117e+00]
 [-1.34052081e+00  4.15711949e+00]
 [-1.98197711e+00  4.02243551e+00]
 [-2.18773166e+00  3.33352125e+00]
 [-1.97451969e-01  2.34634916e+00]]

----&#x65B9;&#x6CD5;&#x4E00;&#xFF1A;EllipticEnvelope()
&#x521B;&#x5EFA;&#x5F02;&#x5E38;&#x503C;&#x8BC6;&#x522B;&#x5668;&#xFF0C;&#x6C61;&#x67D3;&#x6307;&#x6570;contamination&#x662F;&#x5F02;&#x5E38;&#x503C;&#x7684;&#x6BD4;&#x4F8B;
outlier_detector = EllipticEnvelope(contamination = .1)
&#x62DF;&#x5408;&#x8BC6;&#x522B;&#x5668;
outlier_detector.fit(features)
&#x9884;&#x6D4B;&#x5F02;&#x5E38;&#x503C;
print(outlier_detector.predict(features))
[-1  1  1  1  1  1  1  1  1  1]
&#x4FEE;&#x6539;&#x6C61;&#x67D3;&#x6307;&#x6570;
outlier_detector = EllipticEnvelope(contamination = .3)
&#x62DF;&#x5408;&#x8BC6;&#x522B;&#x5668;
outlier_detector.fit(features)
&#x9884;&#x6D4B;&#x5F02;&#x5E38;&#x503C;
print(outlier_detector.predict(features))
[-1 -1  1  1 -1  1  1  1  1  1]

----&#x65B9;&#x6CD5;&#x4E8C;&#xFF1A;&#x56DB;&#x5206;&#x4F4D;&#x5DEE;IQR&#x8BC6;&#x522B;
&#x4E5F;&#x53EF;&#x4EE5;&#x53EA;&#x67E5;&#x770B;&#x67D0;&#x4E2A;&#x7279;&#x5F81;&#x7684;&#x5F02;&#x5E38;&#x503C;&#xFF0C;&#x91C7;&#x7528;&#x56DB;&#x5206;&#x4F4D;&#x5DEE;IQR&#x8BC6;&#x522B;
IQR = &#x7B2C;&#x4E00;&#x4E2A;&#x56DB;&#x5206;&#x4F4D;&#x6570;&#x548C;&#x7B2C;&#x4E09;&#x4E2A;&#x56DB;&#x5206;&#x4F4D;&#x6570;&#x7684;&#x5DEE;&#x503C;
&#x5F02;&#x5E38;&#x503C;&#x5E38;&#x5E38;&#x88AB;&#x5B9A;&#x4E49;&#x4E3A;&#x6BD4;&#x7B2C;&#x4E00;&#x4E2A;&#x56DB;&#x5206;&#x4F4D;&#x6570;&#x5C0F;1.5&#x4E2A;IQR&#xFF0C;&#x6216;&#x6BD4;&#x7B2C;&#x4E09;&#x4E2A;&#x56DB;&#x5206;&#x4F4D;&#x6570;&#x5927;1.5&#x4E2A;IQR&#x7684;&#x503C;
feature = features[:,1]
print(feature)
[1.00000000e+04 1.00000000e+04 4.98930508e+00 3.30659860e+00
 3.64528297e+00 2.10495117e+00 4.15711949e+00 4.02243551e+00
 3.33352125e+00 2.34634916e+00]

&#x521B;&#x5EFA;&#x901A;&#x8FC7;&#x56DB;&#x5206;&#x4F4D;&#x5DEE;IQR&#x8BC6;&#x522B;&#x6CD5;&#xFF0C;&#x8FD4;&#x56DE;&#x5F02;&#x5E38;&#x503C;&#x4E0B;&#x6807;&#x7684;&#x51FD;&#x6570;
def indicies_of_outliers(x):
    q1, q3 = np.percentile(x, [25, 75])
    iqr = q3 - q1
    lower_bound = q1 - (iqr * 1.5)
    upper_bound = q3 + (iqr * 1.5)
    return np.where((x > upper_bound) | (x < lower_bound))

&#x8BC6;&#x522B;&#x5F02;&#x5E38;&#x503C;&#x4E0B;&#x6807;
print(indicies_of_outliers(feature))
(array([0, 1]),)

----&#x5904;&#x7406;&#x5F02;&#x5E38;&#x503C;
-----&#x65B9;&#x6CD5;&#x4E00;&#xFF1A;&#x91C7;&#x7528;RobustScaler()&#x7F29;&#x653E;&#x542B;&#x6709;&#x79BB;&#x7FA4;&#x503C;&#x7684;&#x7279;&#x5F81;
from sklearn import preprocessing
scaler = preprocessing.RobustScaler()
scaled_feature = scaler.fit_transform(features)
print(scaled_feature)
[[-2.61212566e-01  6.80970487e+03]
 [-9.47948061e-01  6.80970487e+03]
 [-1.02406616e-01  7.87126291e-01]
 [ 7.05196630e-01 -3.59186642e-01]
 [ 1.15728512e+00 -1.28464128e-01]
 [ 5.06645267e-01 -1.17778692e+00]
 [ 1.02406616e-01  2.20215119e-01]
 [-3.72184092e-01  1.28464128e-01]
 [-5.24414566e-01 -3.40846083e-01]
 [ 9.48122608e-01 -1.01333897e+00]]

-----&#x65B9;&#x6CD5;&#x4E8C;&#xFF1A;&#x5206;&#x6790;&#x7279;&#x5F81;&#x503C;&#x7684;&#x6210;&#x56E0;&#xFF0C;&#x9488;&#x5BF9;&#x6027;&#x5904;&#x7406;
import pandas as pd

&#x521B;&#x5EFA;&#x6570;&#x636E;&#x5E27;
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116] # &#x5367;&#x5BA4;&#x6570;&#x91CF;&#xFF1F;
houses['Square_Feet'] = [1500, 2500, 1500, 48000]
print(houses)
     Price  Bathrooms  Square_Feet
0   534433        2.0         1500
1   392333        3.5         2500
2   293222        2.0         1500
3  4322032      116.0        48000

&#x53EF;&#x4EE5;&#x901A;&#x8FC7;&#x5DF2;&#x77E5;&#x6761;&#x4EF6;&#x76F4;&#x63A5;&#x7B5B;&#x9009;&#x7684;&#x65B9;&#x5F0F;&#x6765;&#x7B5B;&#x9009;&#x89C2;&#x5BDF;&#x503C;
print(houses[houses['Bathrooms'] < 20])
    Price  Bathrooms  Square_Feet
0  534433        2.0         1500
1  392333        3.5         2500
2  293222        2.0         1500

&#x6216;&#x8005;&#x628A;&#x4ED6;&#x4EEC;&#x6807;&#x8BB0;&#x4E3A;&#x5F02;&#x5E38;&#x503C;&#xFF0C;&#x5E76;&#x4F5C;&#x4E3A;&#x6570;&#x636E;&#x96C6;&#x7684;&#x4E00;&#x4E2A;&#x7279;&#x5F81;
houses['Outlier'] = np.where(houses['Bathrooms'] < 20, 0, 1)
print(houses)
     Price  Bathrooms  Square_Feet  Outlier
0   534433        2.0         1500        0
1   392333        3.5         2500        0
2   293222        2.0         1500        0
3  4322032      116.0        48000        1

&#x5BF9;&#x5F02;&#x5E38;&#x503C;&#x8FDB;&#x884C;&#x8F6C;&#x6362;&#xFF0C;&#x964D;&#x4F4E;&#x5F02;&#x5E38;&#x503C;&#x7684;&#x5F71;&#x54CD;
&#x5BF9;&#x7279;&#x5F81;&#x53D6;&#x5BF9;&#x6570;&#x503C;
houses['log_of_square_feet'] = [np.log(x) for x in houses['Square_Feet']]
print(houses)
     Price  Bathrooms  Square_Feet  Outlier  log_of_square_feet
0   534433        2.0         1500        0            7.313220
1   392333        3.5         2500        0            7.824046
2   293222        2.0         1500        0            7.313220
3  4322032      116.0        48000        1           10.778956

04-6 离散化与分组

from sklearn.preprocessing import Binarizer
import numpy as np

age = np.array([[6], [12], [20], [36], [65]])

-- &#x65B9;&#x6CD5;&#x4E00;&#xFF1A;&#x4E24;&#x4E2A;&#x533A;&#x95F4;&#xFF0C;&#x4E8C;&#x503C;&#x5316;
&#x521B;&#x5EFA;&#x4E8C;&#x503C;&#x5316;&#x5668;
binarizer = Binarizer(18)
&#x4E8C;&#x503C;&#x5316;&#x7279;&#x5F81;
print(binarizer.fit_transform(age))
[[0]
 [0]
 [1]
 [1]
 [1]]

-- &#x65B9;&#x6CD5;&#x4E8C;&#xFF1A;&#x591A;&#x4E2A;&#x533A;&#x95F4;&#xFF0C;&#x79BB;&#x6563;&#x5316;
&#x5C06;&#x7279;&#x5F81;&#x79BB;&#x6563;&#x5316;&#xFF0C;bins&#x662F;&#x533A;&#x95F4;&#x5217;&#x8868;&#xFF0C;&#x843D;&#x5728;&#x7B2C;i(0-n)&#x4E2A;&#x533A;&#x95F4;&#xFF0C;&#x8FD4;&#x56DE;&#x7684;&#x503C;&#x5C31;&#x662F;i
print(np.digitize(age, bins = [18]))
[[0]
 [0]
 [1]
 [1]
 [1]]
print(np.digitize(age, bins = [20, 30, 64]))
[[0]
 [0]
 [1]
 [2]
 [3]]

-- &#x65B9;&#x6CD5;&#x4E09;&#xFF1A;&#x65E0;&#x663E;&#x5F0F;&#x5173;&#x7CFB;&#x8054;&#xFF0C;&#x805A;&#x7C7B;&#x5206;&#x7EC4;
import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

&#x521B;&#x5EFA;&#x6A21;&#x62DF;&#x7684;&#x77E9;&#x9635;&#x7279;&#x5F81;
features, _ = make_blobs(n_samples = 50, n_features = 2, centers = 3, random_state = 1)
print(features[:5])
[[-9.87755355 -3.33614544]
 [-7.28721033 -8.35398617]
 [-6.94306091 -7.0237442 ]
 [-7.44016713 -8.79195851]
 [-6.64138783 -8.07588804]]
&#x521B;&#x5EFA;&#x6570;&#x636E;&#x5E27;
dataframe = pd.DataFrame(features, columns = ['feature_1', 'feature_2'])
print(dataframe.head(5))
   feature_1  feature_2
0  -9.877554  -3.336145
1  -7.287210  -8.353986
2  -6.943061  -7.023744
3  -7.440167  -8.791959
4  -6.641388  -8.075888

&#x521B;&#x5EFA;K-Means&#x805A;&#x7C7B;&#x5668;
clusterer = KMeans(3, random_state = 0)
&#x5C06;&#x805A;&#x7C7B;&#x5E94;&#x7528;&#x5728;&#x7279;&#x5F81;&#x4E0A;
clusterer.fit(features)
&#x9884;&#x6D4B;&#x805A;&#x7C7B;&#x7684;&#x503C;
dataframe['group'] = clusterer.predict(features)
print(dataframe.head(5))
   feature_1  feature_2  group
0  -9.877554  -3.336145      0
1  -7.287210  -8.353986      2
2  -6.943061  -7.023744      2
3  -7.440167  -8.791959      2
4  -6.641388  -8.075888      2

04-7 缺失值处理

import numpy as np

&#x521B;&#x5EFA;&#x7279;&#x5F81;&#x77E9;&#x9635;
features = np.array([[1.1, 11.1], [2.2, 22.2], [3.3, 33.3], [4.4, 44.4], [np.nan, 55]])
print(features)
[[ 1.1 11.1]
 [ 2.2 22.2]
 [ 3.3 33.3]
 [ 4.4 44.4]
 [ nan 55. ]]

-- &#x65B9;&#x6CD5;&#x4E00;&#xFF1A;&#x53EA;&#x4FDD;&#x7559;&#x6CA1;&#x6709;&#xFF08;~&#x8868;&#x793A;&#x53D6;&#x53CD;&#x8865;&#x96C6;&#xFF09;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x89C2;&#x5BDF;&#x503C;
print(features[~np.isnan(features).any(axis = 1)])
[[ 1.1 11.1]
 [ 2.2 22.2]
 [ 3.3 33.3]
 [ 4.4 44.4]]

-- &#x65B9;&#x6CD5;&#x4E8C;&#xFF1A;pd.dropna()
import pandas as pd
dataframe = pd.DataFrame(features, columns = ['feature_1', 'feature_2'])
&#x5220;&#x9664;&#x5E26;&#x6709;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x89C2;&#x5BDF;&#x503C;
print(dataframe.dropna())
   feature_1  feature_2
0        1.1       11.1
1        2.2       22.2
2        3.3       33.3
3        4.4       44.4

-- &#x586B;&#x5145;&#x7F3A;&#x5931;&#x503C;
--- &#x65B9;&#x6CD5;&#x4E00;&#xFF1A;fancyimpute&#x6A21;&#x5757;
from fancyimpute import KNN
&#x586B;&#x5145;&#x7B97;&#x6CD5;&#xFF1A;&#x6700;&#x8FD1;&#x90BB;&#x4F30;&#x7B97;&#xFF0C;&#x4F7F;&#x7528;&#x4E24;&#x884C;&#x90FD;&#x5177;&#x6709;&#x89C2;&#x6D4B;&#x6570;&#x636E;&#x7684;&#x7279;&#x5F81;&#x7684;&#x5747;&#x65B9;&#x5DEE;&#x6765;&#x5BF9;&#x6837;&#x672C;&#x8FDB;&#x884C;&#x52A0;&#x6743;&#x3002;&#x7136;&#x540E;&#x7528;&#x52A0;&#x6743;&#x7684;&#x7ED3;&#x679C;&#x8FDB;&#x884C;&#x7279;&#x5F81;&#x503C;&#x586B;&#x5145;
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

&#x521B;&#x5EFA;&#x6A21;&#x62DF;&#x7279;&#x5F81;&#x77E9;&#x9635;
features, _ = make_blobs(n_samples = 1000, n_features = 2, random_state = 1)
print(features[:5])
[[-3.05837272  4.48825769]
 [-8.60973869 -3.72714879]
 [ 1.37129721  5.23107449]
 [-9.33917563 -2.9544469 ]
 [-8.63895561 -8.05263469]]

&#x6807;&#x51C6;&#x5316;&#x7279;&#x5F81;
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)
print(standardized_features[:5])
[[ 0.87301861  1.31426523]
 [-0.67073178 -0.22369263]
 [ 2.1048424   1.45332359]
 [-0.87357709 -0.07903966]
 [-0.67885655 -1.03344137]]

&#x66FF;&#x6362;&#x4E3A;&#x7F3A;&#x5931;&#x503C;
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan
print(standardized_features[:5])
[[        nan  1.31426523]
 [-0.67073178 -0.22369263]
 [ 2.1048424   1.45332359]
 [-0.87357709 -0.07903966]
 [-0.67885655 -1.03344137]]

&#x9884;&#x6D4B;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x4E2D;&#x7684;&#x7F3A;&#x5931;&#x503C;
features_knn_imputed = KNN(k = 5, verbose = 0).fit_transform(standardized_features)
&#x5BF9;&#x6BD4;&#x771F;&#x5B9E;&#x503C;&#x548C;&#x586B;&#x5145;&#x503C;
print('True:', true_value)
print('Imputed:', features_knn_imputed[0,0])
True: 0.8730186113995938
Imputed: 1.0955332713113226

--- &#x65B9;&#x6CD5;&#x4E8C;&#xFF1A;sklearn&#x7684;Imputer&#x6A21;&#x5757;
&#x7528;&#x7279;&#x5F81;&#x7684;&#x5E73;&#x5747;&#x6570;&#x3001;&#x4E2D;&#x4F4D;&#x6570;&#x6216;&#x4F17;&#x6570;&#x586B;&#x5145;&#x5747;&#x503C;&#xFF0C;&#x6548;&#x679C;&#x4E00;&#x822C;&#x6BD4;KNN&#x7684;&#x5DEE;
from sklearn.impute import SimpleImputer

&#x521B;&#x5EFA;&#x586B;&#x5145;&#x5668;
mean_imputer = SimpleImputer(strategy = 'mean')
&#x586B;&#x5145;&#x7F3A;&#x5931;&#x503C;
features_mean_imputed = mean_imputer.fit_transform(standardized_features)
&#x5BF9;&#x6BD4;&#x771F;&#x5B9E;&#x503C;&#x548C;&#x586B;&#x5145;&#x503C;
print('True:', true_value)
print('Imputed:', features_knn_imputed[0,0])
True: 0.8730186113995938
Imputed: 1.0955332713113226

&#x5982;&#x679C;&#x91C7;&#x7528;&#x586B;&#x5145;&#x7B56;&#x7565;&#xFF0C;&#x6700;&#x597D;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x65B0;&#x7684;&#x4E8C;&#x5143;&#x7279;&#x5F81;&#x6765;&#x8868;&#x793A;&#x8BE5;&#x89C2;&#x5BDF;&#x503C;&#x662F;&#x5426;&#x5177;&#x6709;&#x586B;&#x5145;&#x503C;&#xFF0C;&#x6709;&#x65F6;&#x7F3A;&#x5931;&#x503C;&#x4E5F;&#x662F;&#x4E00;&#x4E2A;&#x4FE1;&#x606F;

Original: https://www.cnblogs.com/camilia/p/16700449.html
Author: CAMILIA
Title: [Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-04-处理数值型数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/807820/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Node.js实战】一文带你开发博客项目之联调（导入HTML、Nginx反向代理、CORS解决跨域、与前端联调）

个人简介 👀 个人主页：前端杂货铺🙋‍♂️ 学习方向：主攻前端方向，也会涉及到服务端📃 个人状态：在校大学生一枚，已拿多个前端 offer（秋招）🚀 未来打算：为中国的工业软…

Python 2023年11月5日
0042
Python numpy广播机制

numpy广播机制 numpy 在算术运算期间采用”广播”来处理具有不同形状的 array ，即将较小的阵列在较大的阵列上”广播”，…

Python 2023年8月23日
0044
CSS宝典⑥-CSS动画 transition/animation

HTML系列：人人都懂的HTML基础知识-HTML教程 HTML元素大全(1) HTML元素大全(2)-表单 CSS系列： CSS基础知识筑基常用CSS样式属性 CSS选择器大…

Python 2023年10月15日
0033
机器学习-Day02

1.绘制散点图 from matplotlib import pyplot as plt from matplotlib import font_manager my_font =…

Python 2023年9月5日
0054
使用scrapy爬取新片场的数据

爬取新片场的数据一：https://www.xinpianchang.com/channel/index/sort-like?from=navigator视频id。、视频标题。、…

Python 2023年10月3日
0051
FastAPI 学习之路（四十七）WebSockets（三）登录后才可以聊天

之前我们是通过前端自动生成的，这次我们通过注册登录，保存到本地去实现。我们可以应该如何实现呢，首先我们实现一个登录界面。放在templates文件下。 DOCTYPE html&g…

Python 2023年5月25日
0096
maven中的pom

maven中的pom pom的最低要求配置 pom的默认行为 packaging有哪些关于dependency * type scope 关于 Dependency Manage…

Python 2023年10月7日
0039
Go语言学习——复习函数、panic、recover

内容回顾函数的定义 func 函数名(参数1,&#x53C2…

Python 2023年6月10日
0081
【机器学习】之第五章——神经网络

第五章——神经网络 5.1、神经元模型神经网络中最基本的成分为神经元模型，用M-P神经元模型来表示，如下图所示：每个神经元接收到来自(n)个其他神经元传递过来的输入信号，这些…

Python 2023年10月24日
0032
分享大二时用python写的银行管理系统（超简单版）内附源码

过两天有时间更新我大三改进的银行管理系统 1.开户 def kaihu(): xingming=input("请输入姓名：") shenfenzheng=inp…

Python 2023年8月2日
0044
Python处理Excel数据的方法

当Excel中有大量需要进行处理的数据时，使用Python不失为一种便捷易学的方法。接下来，本文将详细介绍多种Python方法来处理Excel数据。我们在日常工作中常常见到各种后…

Python 2023年8月1日
0049
（Cisco）思科网院所有模块测试题答案整理汇总_计算机网络

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月15日
0030
体验了一下火爆全球的 ChatGPT，我惊呆了

这几天，要说编程圈最热的话题，莫过于 OpenAI的 ChatGPT，写小说，写代码，找BUG，写论文，画漫画，谱曲……简直没有它干不了的事。趁着下班时间…

Python 2023年10月24日
0034
《Python编程：从入门到实践》练习14-4

练习14-4：难度等级 —— 在游戏《外星人入侵》中创建一组按钮，让玩家选择起始难度等级。每个按钮都给Settings中的属性指定合适的值，以实现相应的难度等级。要实现一组按钮的…

Python 2023年9月18日
0043
Scrapy_redis框架的概念作用和流程

当爬取的网站的数据量非常庞大的时候，再使用之前的Scrapy框架速度就会有点偏慢，这时可以使用分布式来快速的爬取大量的数据。 1. 分布式是什么分布式就是不同的节点（服务器，ip…

Python 2023年10月5日
0033
Nikon Camera Control Pro 2 for Mac/win(相机远程控制软件)

Original: https://www.cnblogs.com/aurora-123/p/16840704.htmlAuthor: 佛系女孩Title: Nikon Camer…

Python 2023年10月25日
0036

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30