光谱预处理算法(python版本)

2023年6月13日上午2:12 • 人工智能 • 阅读 96

系列文章目录

近红外光谱分析技术属于交叉领域，需要化学、计算机科学、生物科学等多领域的合作。为此，在（北京邮电大学杨辉华老师团队）指导下，近期准备开源传统的PLS，SVM，ANN，RF等经典算和SG，MSC，一阶导，二阶导等预处理以及GA等波长选择算法以及CNN、AE等最新深度学习算法，以帮助其他专业的更容易建立具有良好预测能力和鲁棒性的近红外光谱模型。

文章目录

系列文章目录
前言
一、预处理算法
二.使用教程
*
1.搭建python环境
2.引入库
3.读入数据、预处理以及展示
4.结果(以msc为例)
总结

前言

NIRS是介于可见光和中红外光之间的电磁波，其波长范围为（1100∼2526 nm。由于近红外光谱区与有机分子中含氢基团（OH、NH、CH、SH）振动的合频和各级倍频的吸收区一致，通过扫描样品的近红外光谱，可以得到样品中有机分子含氢基团的特征信息，常被作为获取样本信息的一种有效的载体。基于NIRS的检测方法具有方便、高效、准确、成本低、可现场检测、不破坏样品等优势，被广泛应用于各类检测领域。但近红外光谱存在谱带宽、重叠较严重、吸收信号弱、信息解析复杂等问题，与常用的化学分析方法不同，仅能作为一种间接测量方法，无法直接分析出被测样本的含量或类别，它依赖于化学计量学方法，在样品待测属性值与近红外光谱数据之间建立一个关联模型(或称校正模型，Calibration Model) ，再通过模型对未知样品的近红外光谱进行预测来得到各性质成分的预测值。现有近红外建模方法主要为经典建模（预处理+波长筛选进行特征降维和突出，再通过pls、svm算法进行建模）以及深度学习方法（端到端的建模，对预处理、波长选择等依赖性很低）

本篇主要讲述基于python语言的光谱预处理方法，稍后更新matlab语言版本的光谱预处理方法,

一、预处理算法


def MMS(data):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after MinMaxScaler :(n_samples, n_features)
"""
    return MinMaxScaler().fit_transform(data)

def SS(data):
"""
        :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after StandScaler :(n_samples, n_features)
"""
    return StandardScaler().fit_transform(data)

def CT(data):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after MeanScaler :(n_samples, n_features)
"""
    for i in range(data.shape[0]):
        MEAN = np.mean(data[i])
        data[i] = data[i] - MEAN
    return data

def SNV(data):
"""
        :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after SNV :(n_samples, n_features)
"""
    m = data.shape[0]
    n = data.shape[1]
    print(m, n)

    data_std = np.std(data, axis=1)

    data_average = np.mean(data, axis=1)

    data_snv = [[((data[i][j] - data_average[i]) / data_std[i]) for j in range(n)] for i in range(m)]
    return  data_snv

def MA(data, WSZ=11):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :param WSZ: int
       :return: data after MA :(n_samples, n_features)
"""

    for i in range(data.shape[0]):
        out0 = np.convolve(data[i], np.ones(WSZ, dtype=int), 'valid') / WSZ
        r = np.arange(1, WSZ - 1, 2)
        start = np.cumsum(data[i, :WSZ - 1])[::2] / r
        stop = (np.cumsum(data[i, :-WSZ:-1])[::2] / r)[::-1]
        data[i] = np.concatenate((start, out0, stop))
    return data

def SG(data, w=11, p=2):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :param w: int
       :param p: int
       :return: data after SG :(n_samples, n_features)
"""
    return signal.savgol_filter(data, w, p)

def D1(data):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after First derivative :(n_samples, n_features)
"""
    n, p = data.shape
    Di = np.ones((n, p - 1))
    for i in range(n):
        Di[i] = np.diff(data[i])
    return Di

def D2(data):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after second derivative :(n_samples, n_features)
"""
    data = deepcopy(data)
    if isinstance(data, pd.DataFrame):
        data = data.values
    temp2 = (pd.DataFrame(data)).diff(axis=1)
    temp3 = np.delete(temp2.values, 0, axis=1)
    temp4 = (pd.DataFrame(temp3)).diff(axis=1)
    spec_D2 = np.delete(temp4.values, 0, axis=1)
    return spec_D2

def DT(data):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after DT :(n_samples, n_features)
"""
    x = np.asarray(range(350, 2501), dtype=np.float32)
    out = np.array(data)
    l = LinearRegression()
    for i in range(out.shape[0]):
        l.fit(x.reshape(-1, 1), out[i].reshape(-1, 1))
        k = l.coef_
        b = l.intercept_
        for j in range(out.shape[1]):
            out[i][j] = out[i][j] - (j * k + b)
    return out

def MSC(data):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after MSC :(n_samples, n_features)
"""
    n, p = data.shape
    msc = np.ones((n, p))

    for j in range(n):
        mean = np.mean(data, axis=0)

    for i in range(n):
        y = data[i, :]
        l = LinearRegression()
        l.fit(mean.reshape(-1, 1), y.reshape(-1, 1))
        k = l.coef_
        b = l.intercept_
        msc[i, :] = (y - b) / k
    return msc

def wave(data):
"""
       :param data: raw spectrum data, shape (n_samples, n_features)
       :return: data after wave :(n_samples, n_features)
"""
    data = deepcopy(data)
    if isinstance(data, pd.DataFrame):
        data = data.values
    def wave_(data):
        w = pywt.Wavelet('db8')
        maxlev = pywt.dwt_max_level(len(data), w.dec_len)
        coeffs = pywt.wavedec(data, 'db8', level=maxlev)
        threshold = 0.04
        for i in range(1, len(coeffs)):
            coeffs[i] = pywt.threshold(coeffs[i], threshold * max(coeffs[i]))
        datarec = pywt.waverec(coeffs, 'db8')
        return datarec

    tmp = None
    for i in range(data.shape[0]):
        if (i == 0):
            tmp = wave_(data[i])
        else:
            tmp = np.vstack((tmp, wave_(data[i])))

    return tmp

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

二.使用教程

1.搭建python环境

推荐基于anaconda安装python，参考安装如下：
基于anaconda安装python

2.引入库

import numpy as np
import matplotlib.pyplot as plt
from scipy import signal
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import MinMaxScaler, StandardScaler

3.读入数据、预处理以及展示


data_path = './/data//data.csv'
xcol_path = './/data//xcol.csv'
data = np.loadtxt(open(data_path, 'rb'), dtype=np.float64, delimiter=',', skiprows=0)
xcol = np.loadtxt(open(xcol_path, 'rb'), dtype=np.float64, delimiter=',', skiprows=0)

plt.figure(500)
x_col = xcol
y_col = np.transpose(data)
plt.plot(x_col, y_col)
plt.xlabel("Wavenumber(nm)")
plt.ylabel("Absorbance")
plt.title("The spectrum of the raw for dataset",fontweight= "semibold",fontsize='large')
plt.show()

datareprocessing_path = './/data//dataMSC.csv'
Data_Msc = MSC(data)

plt.figure(500)
x_col = xcol
y_col = np.transpose(Data_Msc)
plt.plot(x_col, y_col)
plt.xlabel("Wavenumber(nm)")
plt.ylabel("Absorbance")
plt.title("The spectrum of the MSC for dataset",fontweight= "semibold",fontsize='large')
plt.show()

np.savetxt(datareprocessing_path, Data_Msc, delimiter=',')

4.结果(以msc为例)

原始光谱

msc预处理后

; 总结

python代码参考湖南师范大学同学，完整代码可从获得GitHub仓库
代码仅供学术使用，如有问题，联系方式：QQ：1427950662，微信：Fu_siry

Original: https://blog.csdn.net/Echo_Code/article/details/121202636
Author: Echo_Code
Title: 光谱预处理算法(python版本)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/606074/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用自己的数据训练Yolov4-tiny模型，并用tensorrt运行（配置github host、编译安装opencv4.1.1+contrib和darknet、制作数据集、训练全流程）

目录 * – + * 0. 修改host文件（选做） * 1. 编译安装opencv 4.1.1+contrib * 2. 准备训练环境 * 3. 制作自己的数据集 …

人工智能 2023年7月10日
0070
ParamE: Regarding Neural Network Parameters as Relation Embeddings for Knowledge Graph Completion

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0077
无线网络中的联邦学习：优化模型设计与分析

关注公众号，发现CV技术之美本篇分享论文『Federated Learning over Wireless Networks: Optimization Model Desig…

人工智能 2023年6月25日
0058
tensorflow2的GPU版本安装

一、安装Anaconda与Python 详情直接参考我的这篇文章Anaconda安装与配置二、安装CUDA 1.首先查看本机GPU对应的cuda版本，如下图所示，本机cuda版本…

人工智能 2023年5月26日
0078
图像中目标的绝对位置信息(1)–How much Position Information Do Convolutional Neural Networks Encode

读完这篇论文，有两个比较意外的感受。第一，惊讶于如此基础性的内容，之前竟然没有相关研究。第二，作者的思路（包括网络构造、训练及评价指标）也比较简单。这篇论文获得了ICLR满分，并被…

人工智能 2023年6月22日
0071
数字图像处理 matlab 基本操作实验一的部分内容

数字图像处理的相关基本操作操作 1. 导入图像 I = imread(‘football.jpg’); % 用imread读取磁盘文件/该文件软件自带 2. 显示图像并设置标题 …

人工智能 2023年6月20日
00129
2021年声纹识别研究与应用学术研讨会笔记

2021年声纹识别研究与应用学术研讨会笔记声纹识别是国务院认定的远程身份认证方法，在研究过程中要注意信息安全和法律法规的要求，声纹识别是一个比较热的研究方向，ICCASP有36篇…

人工智能 2023年5月25日
0079
论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

作者：景单位：燕山大学论文来源代码地址 ; 前言先说说通常意义上的预训练模型，以BERT为例，它采用大规模预料对Transformer编码器进行预训练，保存编码器参数后接下游任…

人工智能 2023年5月30日
0096
Pandas数据分析教程(2)-数据读取之普通索引、loc/iloc索引

在上一期中，我们简单介绍了 Series和 DataFrame两种Pandas中常用的数据结构，那么问题来了，假设我已经有了这两种数据，如何从中提取我想要的部分？ DataFram…

人工智能 2023年6月11日
0090
神经网络——线性层中Linear函数及torch.flatten()的使用

线性层中Linear函数可以将输入的样本大小，输出成我们需要的大小，在构建神经网络是经常会使用到，torch.flatten()，可以将数据展成一维的，相比较reshape函数，使…

人工智能 2023年6月23日
0091
Ubuntu18.04+ZED SDK安装+ZED Python API+zed ros wrapper安装手把手详细教程

1.安装前准备 1.ubuntu显卡驱动要有，没有的可以搜索如何安装ubuntu显卡驱动，教程很多，这里不再详细说明 2.ROS需要提前安装好，可以搜索ubuntu如何安装ROS。…

人工智能 2023年7月9日
0092
【AMD显卡在WIndow10/11部署带GPU支持的深度学习环境(Tensorflow-DirectML篇)】

还有个姊妹篇Pytorch版，请翻阅我的博文！我这先晒一个结果：首先这里推荐的系统比如Win10不要太老，尽量新一点，特别是针对WSL2 本人用的显卡是AMD Radeon R…

人工智能 2023年5月23日
0077
Opencv fitEllipse函数详解

文章目录前言一、函数详解二、返回矩形的参数详解二、实际操作检测 * 1.代码 2.运行情况总结前言 opencv 中的 fitEllipse 返回的矩形参数应该如何…

人工智能 2023年7月19日
0048
yolov1的学习笔记

ps:本文仅为个人学习yolov1（通过b站up同济子豪兄的学习视频）时记录的东西。关于损失函数的部分并未理解透彻，所以并未有笔记。因为未学习过神经网络，所以中间涉及的部分个人是当…

人工智能 2023年7月11日
0058
基于Transformer的NLP智能对话机器人实战课程（第十九章、第二十章、第二十一章）

“如果说 Transformer 是人工智能时代的芯片，那么StarSpace 就是AI 时代的操作系统。” 第 19 章： NLP 阅读理解 MRC(Ma…

人工智能 2023年5月31日
0085
stm32语音播报模块_语音助手控制小车

近年来随着人工智能的快速发展，国内语音行业也可谓是百花齐放，尤其是最近几年，人工智能AI技术以及智能家居得到了飞速的发展。本设计采用的是非特定语音识别芯片LD3320和SYN628…

人工智能 2023年5月27日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31