记录一次数据分析的过程。儿童视力数据（1）

2023年7月8日下午2:10 • 人工智能 • 阅读 90

最近分析了一个儿童视力数据，记录一下。有需要数据的小伙伴可以去下载。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
import os
import seaborn as sns
import scipy.stats as ss
plt.rcParams['font.family'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

res_dir = "E:\同事\眼科\\use\整理\\res_dir_yanke"

df = pd.read_excel(os.path.join(res_dir, "noNullSex_8783.xlsx"))
df.shape
df.keys()

一共8783个数据。其中变量分别为：

年级、班级、姓名、性别、出生日期、右眼视力，左眼视力、右眼球镜s、右眼球镜c、右眼球镜a、左眼球镜s、左眼球镜c、左眼球镜a、是否视力不良、学段（分为幼儿园、小学、初中）

&#x9996;&#x5148;&#x66FF;&#x6362;&#x6389;&#x59D3;&#x540D;&#x90E8;&#x5206;&#x3002;&#x4E3A;&#x4E86;&#x4FDD;&#x62A4;&#x9690;&#x79C1;&#x8D77;&#x89C1;&#xFF0C;&#x66FF;&#x6362;&#x6389;&#x4E2D;&#x95F4;&#x7684;&#x90E8;&#x5206;&#x3002;

name2 = [  re.sub(r'(\w)(\w)', r'\1*', x) for x in df['name'] ]
name2
df['name'] = name2
df['name']

df.info()

基本信息都是全的，左右眼数据中，有一些视力是缺失的，右眼有8777个有效数据，左眼有8779个有效的，因为两眼是主要的数据，所以基本视力这个必须有。删掉缺失的。

df = df.dropna(subset = ['left', 'right'])
df.shape

df[['right', 'left']].describe()

这是全部的基本信息。

首先可以分组看一看。均值。

df['type'].value_counts()

小学人数是6780，幼儿园是1249，初中是748.

各组的均值是多少。

df.groupby('type')['right', 'left'].mean()

可以看出来，幼儿园小朋友视力是最棒的，到了初中，基本上，视力都下降到了4.5左右了。都是近视了。

当然，也可以看看，初中的数据的分布。

df[df['type'] == "middle"]['right'].describe()

单纯以右眼来看，初中生，中位数是4.4。有四分之一的同学，视力已经在4.0以下了。

就视力来说，有判断标准如下：

1.视力不良，就是左右眼有任一个眼睛视力在5.0以下，就算视力不良。

2.近视，左右眼视力在5.0以下，并且单眼的球镜a数据小于 -0.5。就算近视，如果是大于正的某个数，就是远视了。这里仅以近视为例。

首先生成一个视力不良的变量，判断任一眼睛视力在5.0以下的。

df['sight_impaired'] = ( df['right'] < 5.0  ) | (df['left'] < 5.0 )
df['sight_impaired'].value_counts()

可以看出，接近一半的是视力不良。

但是这里面，幼儿园小朋友也有很多视力不良的。不信可以分组看看。

df.groupby('type')['sight_impaired'].value_counts(normalize=True).unstack()

df['nianji'].value_counts()
df.groupby('nianji')['sight_impaired'].value_counts(normalize=True).unstack()
df['nianji'].unique()
nianji_order = ['&#x6258;&#x73ED;','&#x5C0F;&#x73ED;', '&#x4E2D;&#x73ED;', '&#x5927;&#x73ED;',   '&#x4E00;&#x5E74;&#x7EA7;', '&#x4E8C;&#x5E74;&#x7EA7;', '&#x4E09;&#x5E74;&#x7EA7;', '&#x56DB;&#x5E74;&#x7EA7;', '&#x4E94;&#x5E74;&#x7EA7;', '&#x521D;&#x4E00;', '&#x521D;&#x4E09;', '&#x521D;&#x4E8C;', '&#x521D;&#x56DB;']

x = df.groupby('nianji')['sight_impaired'].value_counts(normalize=True).unstack()
x
x.reindex(nianji_order)[True]
x.reindex(nianji_order)[True].plot()

发现，幼儿园小朋友视力不良的比例高，其实这是因为幼儿园小朋友大部分都是远视，等到长大了，视力就回复正常了。比如一年级小朋友，基本上都是视力5.0，没有问题，但是随着年级越高，视力不良的比例也就越高，初四，就接近100%了。差不多都近视了。幼儿园和初中虽然都搞，但是是两种完全不同的高。

通过近视比例可以看出来。

这就用到前面近视的判定标准了。

左右眼任一眼睛视力在5.0以下，球镜s 数值小于-0.5。需要生成一个变量，满足这些条件，则判定为True，否则为False

Original: https://blog.csdn.net/weixin_40340586/article/details/122955502
Author: JECK_ケーキ
Title: 记录一次数据分析的过程。儿童视力数据（1）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678647/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

计算机视觉会议（CVPR，ECCV，ICCV，NIPS，AAAI，ICLR等）

文章目录前言 CVPR ICCV ECCV NIPS AAAI ICLR ICJAI 链接汇总表格直达前言大家都知道，计算机视觉和人工智能领域发展非常迅速，大部分最新的工作都…

人工智能 2023年7月25日
0074
【pandas一篇就够了】

python系列之pandas 案例知识点 DataFrame的属性 pandas赋值操作 pandas排序操作 pandas运算高级处理 pandas画图案例知识点 impo…

人工智能 2023年7月7日
0074
Keras深度学习使用VGG16预训练神经网络实现猫狗分类

Keras深度学习使用VGG16预训练神经网络实现猫狗分类最近刚刚接触深度学习不久，而Keras呢，是在众多的深度学习框架中，最适合上手的，而猫狗的图像分类呢，也算是计算机视觉中…

人工智能 2023年7月13日
0043
python yolov5 脚本制作（第一部分：环境搭建、yolov5源码、权重文件获取、pycharm配置、pytorch下载、初次运行yolov5代码）

开发前准备在这里先梳理一下整个脚本开发用到的东西： python解释器 / 3.7.4版本 pycharm / 版本随意 pytorch / 最好10.2版本 / 11.3版本 …

人工智能 2023年7月23日
0060
catkin_make

但ROS中还有catkin_make，不清楚他们之间的关系，写这篇了解一下，主要区别如下： $ cd ~/catkin_ws $ cd src $ catkin_init_work…

人工智能 2023年6月2日
0073
OpenCV-Python快速入门（九）：直方图

OpenCV-Python快速入门（九）：直方图 * – 前言 – 前提条件 – 实验环境 – 直方图 – + 绘制直方…

人工智能 2023年7月19日
0045
opencv学习记录——（5）图像像素的操作

1.1 通过Scalar来设置颜色 Scalar(b1, b2, b3, b4)，前面的三个参数是依次设置BGR的，和RGB相反，第四个参数设置图片的透明度。如果不需要设置透明…

人工智能 2023年7月20日
0040
基于时间序列的残差自回归模型

实验数据来源于课本课后习题： 1 、首先加载所需的数据包，并画出时序图：时序图可以看出数据呈现上升趋势。 2 、所以我们先对趋势进行拟合，首先通过时间 t 作为解释变量对趋势进行…

人工智能 2023年6月17日
0089
Pytorch深度学习

一、单选题（共20题；共100.0分） 1.pytorch的前身是（）（5.0分）A.Python B.lua C. torch D.numpy 5.0 分 2.在选择神经网络…

人工智能 2023年7月14日
0073
机器学习之分类任务

常见的四种分类任务：二分类、多类别分类、多标签分类、不平衡分类分类的定义：在机器学习中，分类是指针对输入数据中的给定示例预测其类别标签的预测性建模问题。二分类：二分类任务包含…

人工智能 2023年7月2日
0044
设计模式-建造者模式

在我们生活中的对象比如汽车，它是由车轮、车架、发动机等组合起来的对象，但是往往使用的人只想要一辆汽车并不想知道创建汽车的过程此时就可以使用建造者模式。在软件开发中，也存在大量类似…

人工智能 2023年6月27日
0073
高中物理：正弦波sin纯音puretone原理

review一个Android语音代码，对纯音正弦波的算法产生了兴趣。翻开高中物理，内牛满面。目标生成一个纯音正弦波。函数：f(x) = sin(x)找到每个x对应的f(x)。…

人工智能 2023年5月27日
0096
神经网络做什么比较合适,神经网络和计算机网络

的卷积神经网络，使用什么配置的电脑比较好卷积神经网络有以下几种应用可供研究：1、基于卷积网络的形状识别物体的形状是人的视觉系统分析和识别物体的基础，几何形状是物体的本质特征的表现…

人工智能 2023年7月13日
0056
语音信号处理、语音特征提取

语音信号是一种短时平稳信号，变化迅速，非常复杂，携带了很多有用的信息，包括语义、个人特征等。其特征参数的准确性和唯一性将直接影响语音识别率，这也是语音识别的基础。 [En] Spe…

人工智能 2023年5月25日
00107
Course数字图像处理 Week1习题(Image and Video Processing: From Mars to Hollywood with a Stop at the Hospital)

Week1习题——Image and Video Processing: From Mars to Hollywood with a Stop at the Hospital 图像…

人工智能 2023年6月22日
0064
swin-transformer详解及代码复现

1. swin-transformer网络结构实际上，我们在进行代码复现时应该是下图,接下来我们根据下面的图片进行分段实现 ; 2. Patch Partition & …

人工智能 2023年7月20日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

记录一次数据分析的过程。儿童视力数据（1）

大家都在看