数据科学入门~读书笔记~第四、五章线性代数&&统计学

一、向量

zip(),reduce()

二、矩阵

创建、访问

def make_matrix(num_rows, num_cols, entry_fn):
    return [
            [entry_fn(i, j)           # 根据i创建一个列表
            for j in range(num_cols)] # [entry_fn(i, 0), ... ]
            for i in range(num_rows)
           ]                          # 为每一个i创建一个列表

可用Numpy库进行向量和矩阵的操作。Numpy库基于C语言构建,效率很高

一、描述单个数据集

Counter()可对数据及进行统计,配合plt.bar()可根据不同数据的出现次数绘制直方图。

max(),min()内置函数,可以得到数据集的最大最小值。

均值(mean 或 average)、中位数(median)、分位数(quantile)、众数(mode)

极差(range)、方差(variance)、标准差(standard deviation)

二、相关

协方差(covariance)、相关(correlation)

三、辛普森悖论

在进行相关性分析时,因很难满足”其他条件都相同”这一假设,因此分析结果常常有误。

四、相关系数其他注意事项

相关系数为零不代表没有关系,只是没有相关关系。

相关系数的大小并不总能完全证明两对变量相关关系的强弱。

五、相关与因果

“相关不是因果”,相关关系并不总是能说明,两者是因果关系

Original: https://blog.csdn.net/hao606/article/details/115898721
Author: hao606
Title: 数据科学入门~读书笔记~第四、五章线性代数&&统计学

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/600203/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球