工业大数据调研

最近开始研究大数据都在做什么,看几篇综述,调研过程及名词下研究。

专有名词含义

网络物理系统(CPS):网络物理系统(CPS)是一种计算机系统,其中的机制由基于计算机的算法控制或监视。在网络物理系统中,物理和软件组件紧密地交织在一起,能够在不同的时空尺度上运行,展现出多种不同的行为方式,并以随环境变化的方式彼此交互。网络物理系统的示例包括智能电网、自动驾驶汽车系统、医疗监控、工业控制系统、机器人技术系统和自动驾驶航空电子设备。类似于物联网

数据分析方法

基础概念

同质数据结构:使用连续的内存来储存、数组中的所有元素必须是相同的类型或类型的衍生。
Analytics与Analysis:Analytics关注数据分析 注重企业的商业需求、业务功能、流程等;
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。
偏度概念详细见此链接https://baike.baidu.com/item/%E5%81%8F%E5%BA%A6/8626571?fr=aladdin

数据分析方法分为 三个策略

  1. descriptive analytics
    The most widely-used descriptive analytic analytic are traditional statistical measures,such as mean,median(中位数),standard deviation(标准差),skewness(偏度),这些传统统计方法主要的问题是假设整个数据集是同质数据。因此 关联规则聚类的方法被开发出来用于寻找子种群中隐藏的有趣的 模式
    关联规则搜索对象之间有意义的连接,然后他们之间的关联模式可以选择正确的干预措施。
    传统方法有 皮尔逊相关系数、卡方统计、回归分析。然而,这些方法被设计成处理数千个样本记录,几十个变量。他们在解决万亿的纪录和数百万个变量的大数据中面临严峻的 挑战。为了解决大数据中的效率问题,关联规则挖掘和聚类方法被提出。
  2. predictive analytics
    预测分析方法利用历史的模式去预测未来要发生的事情,该方法 前提假设是基于历史的模式在未来会重复出现。典型的预测方法是利用一个历史数据集,其中的一个或多个属性被识别为目标属性,其余的属性为正常属性。然后预测性分析方法总结历史数据中正常属性与目标属性之间的关系,从而预测当前数据的目标属性值。
    存在 六种典型的预测分析方法( 1)回归1996(2)贝叶斯统计1997(3)决策树1986(4)神经网络(2014)(5)支持向量机(1999)。
    (1)回归分析用于寻找正常属性和目标属性之间的线性关系,当存在非线性关系时,利用逻辑回归、LOESS(局部加权回归)、LOWESS。局部加权回归具体可以看以下链接:
    https://blog.csdn.net/weixin_43569478/article/details/113409635
    (2)贝叶斯统计利用贝叶斯定理建立目标属性和正常属性之间的关系。朴素贝叶斯是最直接的方法
    朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
    具体链接可以参考以下链接:
    https://zhuanlan.zhihu.com/p/26262151
    (3)决策树使用效用函数将当前的数据迭代地划分为不同的分支,以提高划分的纯度。
    (4)神经网络构建具有输入节点、隐藏节点层和输出节点的网络,建立数据之间复杂的高维关系。
    (5)支持向量机搜索一个线性超平面来分离两类。
  3. prescriptive analytics(规范性分析)
    大数据可能不是预测确切的中奖彩票号码的可靠手段,但它绝对可以突出问题并帮助企业了解发生这些问题的原因。企业可以使用数据支持和数据发现的因素来创建业务问题的处方,从而促成实现和观察。
    规范性分析是预测性分析的下一步,它增加了操纵未来的乐趣。规范性分析为可能的结果提供建议,并导致可能使关键业务指标最大化的行动。它基本上使用模拟和优化来询问”企业应该做什么?”
    规范性分析具体参考如下链接
    https://cloud.tencent.com/developer/article/1133848
    类似于运筹学(operation research),在现实世界中,管理科学、决策科学和运筹学可以互换使用。它通常与在给定的限制范围内,如预算、人力、时间内,最大化(或最小化)一个有意义的目标,如利润、绩效、损失、成本。
    这一领域的技术可以分为两种类型:
    (1)凸规划(convex programming 2006)和启发式搜索(heuristic search 2001)。
    凸规划与具有凸结构问题的类型有关,其全局最优值在理论上可以接近。它包括线性规划、二阶锥规划、半定规划和几何规划。由于不是所有的优化问题都有凸结构,启发式搜索是在这种情况下寻找次优解的另一种方法。典型的启发式搜索方法有模拟退火、遗传算法和禁忌搜索
  4. Diagnostic analysis(诊断性分析)
    对内部数据进行分析以了解发生的原因的”原因”称为诊断性分析。如果企业有足够的数据可供使用,则企业可以使用这种分析来深入了解给定的问题。诊断性分析有助于识别异常并确定数据之间的偶然关系。例如,像亚马逊这样的电子商务巨头可以将销售和毛利润细分到像亚马逊回声这样的各种产品类别中,以找出为何错过整体利润率的原因。 诊断性分析还可以在医疗保健中找到应用程序,以通过其他过滤器(例如诊断和处方药)来确定药物对特定患者段的影响。
    以上主要参考文献:Data Analytics in Industry 4.0: A Survey

Original: https://blog.csdn.net/qq_39535112/article/details/122940429
Author: 邢昱
Title: 工业大数据调研

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/550364/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球