变压器多源融合的代码部分

本文最后更新于:2025年4月12日 下午

夏令营参营项目

一些概念

神经元

有了一个神经元,把多个这样的神经元堆叠在一起就构成了一层神经层,而多个神经层沿着纵向继续堆叠下去,就形成了深度神经网络。所谓的“深”其实就是表达神经网络的层数的规模和每层的复杂程度。

不同的神经网络结构就是如何设计这些神经元的运算、连接方式,不同神经层的安排,以及数据流向等等,以达到处理各种结构数据的目的。

深度神经网络DNN——MLP

一个最基本、最典型的DNN就是多层感知机(MLP)。

  • 基本结构: 多层感知机包含一个输入层和一个输出层,中间则是多个隐藏层,每一层由一系列神经元组成。
  • 用途: 尽管结构简单,多层感知机还是可以学习输入数据和输出数据之间的复杂关系,用于分类回归等机器学习任务。
  • 局限: 它在处理高维数据(如图像)或序列数据(如时间序列数据、文本等)时,相较于专门的设计的网络结构,在效率和效果上都有很大的局限。

CNN

卷积神经网络是专门被设计为用来处理“网格状”结构数据的,比如图像(2D像素网格)和时序数据(时间网格)。

基本结构

一个典型的CNN由卷积层、池化层和全连接层组成。

参考介绍

卷积层

卷积层是CNN最核心,也是让它区别于其他NNs的地方。

以图像为例,其数据是2维网格状结构,卷积计算通过卷积核(kernels或filters)在2维平面上遍历来完成。

卷积核中的数值就是神经网络的权重,也就是要学习的参数,将权重与对应输入位置的值(如果是输入层就是像素值,如果是中间层就是中间层神经元的激活值)相乘,再与偏置相加,经过激活函数,便得到了对应的输出。

  • 相比于传统的MLP,不同之处在于:

局部连接:卷积操作中相邻层的神经元是局部连接的,下一层神经元的值只取决于卷积核覆盖的窗口上的值;

权重共享:在一个卷积层中,使用同一个卷积核对不同区域的数据进行处理。

这两个主要差别使得卷积网络具有更少的参数数量。同时因为局部连接性,CNN能有效提取图像数据中的边缘、角点等局部特征,而随着层级的深入,学到的特征则进一步反应图像的全局模式,这种逐层建立从低级到高级的特征表示使得CNN在计算机视觉任务中表现非常好。

池化层

池化层是紧跟在卷积层之后的,它是一种降采样操作,可有效降低数据维度,进而降低模型参数量;同时保证特征的空间不变性。

  • 常见的池化操作有最大池化,平均池化。
    • 最大池化,即选取窗口中的最大值最为输出。
  • 池化操作是无参数化操作。

全连接层

全连接层是CNN最后的部分,经过多层的卷积+池化层,输入数据(图像)被处理为特征图(feature maps),特征图需要被flatten(展开)为一维向量,以输入给全连接层完成接下来的具体任务(如分类)。

Transformer

现在我们用到的GPT等最强的AI工具都是基于大语言模型的(LLM),比如GPT-4、Llama等,这些大语言模型内部的基本结构就是Transformer。

Transformer擅长自然语言处理,在它出现之前,RNNs,LTSM等网络模型是NLP领域的常用深度学习模型。

Transformer中的一个关键技术是自注意力机制,它能够有效捕捉序列信息中长距离依赖关系,相比于以往的RNNs,在处理长序列时的表现更好。

自注意力机制的另一个特点是并行计算,因此Transformer结构让模型的计算效率更高,加速训练和推理速度。

Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。

一些学习参考:

自编码器AE

  • 基本结构:
    自编码器是一种用于无监督学习的神经网络结构,包括编码器(Encoder)和解码器(Decoder)两个部分。目标是通过网络学习数据的压缩表示,然后再重建数据。
  • 应用场景:
    降维,数据去噪,特征提取等。
  • AE变体:
    自编码器有很多形式的变体,比如变分自编码器(VAE)是自编码器的一种生成式变体,它不仅学习数据表示的编码,还学习编码的分布,使其能生成新的、类似于训练数据的实例。
  • 学习网站

生成对抗网络GAN

生成对抗网络(Generative Adversarial Networks,GANs)也是引起一番浪潮的深度学习模型。GAN 是一种生成模型,通过一种“对抗”的结构学习数据模式,进而生成全新的合成数据。

  • 基本结构:
    GAN有两个主要部分组成:生成器(Generator)和判别器(Discriminator),这两个网络在学习过程中相互对抗,从而提高各自的性能。生成器的任务是创建数据;判别器的任务是区分生成器产生的数据和真实数据。一个类比,相当于一个人生产假币,而另一个人负责鉴别假币,他们二人在不断的“学习”过程中提高各自的能力,生成器学习如何产生越来越逼真的数据,而判别器学习如何更好地区分真伪。
  • 应用场景:
    生成对抗网络的应用非常广泛,比如图像领域用于生成风格化照片、人脸合成等;也可用于数据增强领域,对于数据有限的情况,通过生成新的数据来扩充数据集,比如医学影像;艺术创作领域,音乐合成,以及帮助艺术家创作绘画作品等。

递归神经网络RNN

递归神经网络(Recurrent Neural Network,RNN)是一种专门用来来处理序列数据的神经网络,它在nlp、时间序列分析等领域中非常有效。

  • 基本结构:
    RNN基本思想是利用序列的时间动态性,通过维护一个隐藏状态,也就是被称为“记忆”的机制,使得新型可以在不同时间步之间进行传递,从而捕获目前为止的所有数据的信息。RNN的基本结构包括输入层、隐藏层和输出层。核心是隐藏层,每个step的隐藏层都接收当前输入和前一时间步的隐藏层输出。
  • RNN变体:
    为了客服计算效率和长距离依赖关系等问题,RNN发展出来很多变体,如长短期记忆网络(LSTM)、门控循环单元(GRU)等。
  • 应用场景:
    RNN应用在NLP领域较多,用于机器翻译、文本生成等,其他领域还包括时序相关的数据分析(如股票价格预测、天气预测)、视频分析以及音乐生成等。

本项目为什么要选择CNN

为了对变压器进行实时的状态监测,需要采集不同类型的传感器数据。传感器数据包含了噪声场、温度场、磁场三种物理场,具有不同的量纲和时间序列的分布模式。

  • 时空特性:每个场的数据在空间(不同测量点)和时间(时间序列)上均有分布。不同时间点的数据可能反映设备状态的动态变化(如故障逐渐恶化)。
    例如:

    • 正常运行时,声压能量主要集中在低频区域,100 Hz 的幅值最大。随着过载程度增加,高频区域的幅值逐渐增大。在较高负载条件下,高频段幅值远高于正常运行状态。
    • 绕组松动程度越大,频率幅值的变化也越大,且松动对绕组附近测点的影响大于铁心附近测点的影响。
    • 温度上升速率随绕组松动程度的加剧而加快;且绕组温度升高速度快于铁心温度升高速度;同时,靠近绕组变形相区域对温度变化更敏感。
  • 磁场和噪声场测量数据属于短期波动数据,而温度变化相对波动时间较长。

  • 局部相关性:同一物理场的相邻测量点之间可能存在空间相关性(如温度扩散、磁场梯度)。

CNN的优势

空间特征提取

  • 局部感知:卷积核在滑动窗口内提取局部空间模式(如温度场的梯度、噪声场的传播方向)。

  • 参数共享:同一卷积核遍历所有位置,减少参数量,避免过拟合。

  • 平移不变性:无论异常出现在哪个位置,相同卷积核均可检测到。

多源数据融合

  • 通道维度融合:将不同物理场(噪声、温度、磁场)视为多通道输入(类似图像的RGB通道)。

  • 跨模态关联:深层卷积核可自动学习不同物理场之间的关联(如磁场异常伴随特定噪声模式)。

MLP的局限性

MLP(全连接神经网络)通过全连接层处理扁平化的数据。

存在问题:

  • 空间信息丢失:需将多维数据展平为向量,破坏空间结构(如传感器位置关系)。

  • 参数冗余:全连接层对每个输入特征独立加权,难以捕捉局部空间模式。

  • 过拟合风险:面对高维时空数据(如多个传感器×时间步),参数过多易导致过拟合。

  • 多源融合困难:需手动设计不同物理场的融合策略(如拼接、加权),难以自动学习跨模态关联。

例如:
若温度场的传感器A和相邻传感器B的值同时升高,可能指示局部过热。MLP需依赖大量数据学习这种空间模式,而CNN可通过卷积核自动提取。

一些流程处理的设计原因

统计特征与滑动窗口

  • 优点:通过均值、标准差、偏度、峰度等统计量,能够初步描述数据分布特性,结合最值位置可捕捉异常波动的时间和幅度信息。滑动窗口技术有效提取局部时序模式,适用于非平稳信号(如突变压器故障)。

  • 合理性:符合时序数据处理的常规方法,适合捕捉局部动态变化。

数据去重与特征筛选

  • 优点:利用余弦相似度清除冗余窗口数据,减少计算负担,避免模型被重复信息干扰。方向相似度和模大小的计算增强了特征区分度。

  • 合理性:适合处理长时间稳定运行状态下的重复数据,但需注意保留关键异常片段。

  • 未来的改进建议:
    动态调整去重策略

    • 结合时间戳信息,保留相邻窗口中的相似但连续数据(避免删除连续异常片段)。
    • 引入异常检测算法(如Isolation Forest)辅助判断是否删除窗口。

Bi-LSTM时序建模

  • 优点:双向LSTM同时考虑前向和后向时间依赖,弥补滑动窗口切割导致的跨窗口信息丢失,适合捕捉故障发展的渐进过程。

  • 合理性:Bi-LSTM在时序建模中表现优异,尤其在长程依赖场景下。

未来的改进建议:

  • 重叠滑动窗口:设置窗口重叠率(如50%),确保连续窗口间有部分数据重叠,减少切割损失。

  • 层级时序建模:

    • 第一层Bi-LSTM处理原始时序数据,输出高层时序特征。
    • 第二层滑动窗口提取局部特征,再输入CNN。

三通道CNN与注意力机制

CBAM通过通道注意力和空间注意力机制,能够自适应地增强重要特征、抑制冗余信息,其设计初衷即是为了优化卷积层输出的特征图。

  • 优点:独立处理不同物理场数据,保留各场特异性;注意力机制动态赋权关键特征,增强模型对故障敏感区域的关注。
    多通道联合应用CBAM(跨场融合)
  • 合理性:符合多源异构数据的处理需求,避免早期融合时的信息混淆。
  • 跨通道注意力融合:在卷积后拼接各通道特征图,应用CBAM。

变压器多源融合的代码部分
http://zoechen04616.github.io/2025/04/07/变压器多源融合的代码部分/
作者
Yunru Chen
发布于
2025年4月7日
许可协议