变压器多源融合的代码部分
本文最后更新于:2025年4月12日 下午
夏令营参营项目
一些概念
神经元
有了一个神经元,把多个这样的神经元堆叠在一起就构成了一层神经层,而多个神经层沿着纵向继续堆叠下去,就形成了深度神经网络。所谓的“深”其实就是表达神经网络的层数的规模和每层的复杂程度。
不同的神经网络结构就是如何设计这些神经元的运算、连接方式,不同神经层的安排,以及数据流向等等,以达到处理各种结构数据的目的。
深度神经网络DNN——MLP
一个最基本、最典型的DNN就是多层感知机(MLP)。
- 基本结构: 多层感知机包含一个
输入层
和一个输出层
,中间则是多个隐藏层
,每一层由一系列神经元组成。 - 用途: 尽管结构简单,多层感知机还是可以学习输入数据和输出数据之间的复杂关系,用于
分类
、回归
等机器学习任务。 - 局限: 它在处理高维数据(如图像)或序列数据(如时间序列数据、文本等)时,相较于专门的设计的网络结构,在效率和效果上都有很大的局限。
CNN
卷积神经网络是专门被设计为用来处理“网格状”结构数据的,比如图像(2D像素网格)和时序数据(时间网格)。
基本结构
一个典型的CNN由卷积层、池化层和全连接层组成。
卷积层
卷积层是CNN最核心,也是让它区别于其他NNs的地方。
以图像为例,其数据是2维网格状结构,卷积计算通过卷积核(kernels或filters)在2维平面上遍历来完成。
卷积核中的数值就是神经网络的权重,也就是要学习的参数,将权重与对应输入位置的值(如果是输入层就是像素值,如果是中间层就是中间层神经元的激活值)相乘,再与偏置相加,经过激活函数,便得到了对应的输出。
- 相比于传统的MLP,不同之处在于:
局部连接:卷积操作中相邻层的神经元是局部连接的,下一层神经元的值只取决于卷积核覆盖的窗口上的值;
权重共享:在一个卷积层中,使用同一个卷积核对不同区域的数据进行处理。
这两个主要差别使得卷积网络具有更少的参数数量。同时因为局部连接性,CNN能有效提取图像数据中的边缘、角点等局部特征,而随着层级的深入,学到的特征则进一步反应图像的全局模式,这种逐层建立从低级到高级的特征表示使得CNN在计算机视觉任务中表现非常好。
池化层
池化层是紧跟在卷积层之后的,它是一种降采样操作,可有效降低数据维度,进而降低模型参数量;同时保证特征的空间不变性。
- 常见的池化操作有最大池化,平均池化。
- 最大池化,即选取窗口中的最大值最为输出。
- 池化操作是无参数化操作。
全连接层
全连接层是CNN最后的部分,经过多层的卷积+池化层,输入数据(图像)被处理为特征图(feature maps),特征图需要被flatten(展开)为一维向量,以输入给全连接层完成接下来的具体任务(如分类)。
Transformer
现在我们用到的GPT等最强的AI工具都是基于大语言模型的(LLM),比如GPT-4、Llama等,这些大语言模型内部的基本结构就是Transformer。
Transformer擅长自然语言处理,在它出现之前,RNNs,LTSM等网络模型是NLP领域的常用深度学习模型。
Transformer中的一个关键技术是自注意力机制,它能够有效捕捉序列信息中长距离依赖关系,相比于以往的RNNs,在处理长序列时的表现更好。
自注意力机制的另一个特点是并行计算,因此Transformer结构让模型的计算效率更高,加速训练和推理速度。
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。
一些学习参考:
自编码器AE
- 基本结构:
自编码器是一种用于无监督学习的神经网络结构,包括编码器(Encoder)和解码器(Decoder)两个部分。目标是通过网络学习数据的压缩表示,然后再重建数据。 - 应用场景:
降维,数据去噪,特征提取等。 - AE变体:
自编码器有很多形式的变体,比如变分自编码器(VAE)是自编码器的一种生成式变体,它不仅学习数据表示的编码,还学习编码的分布,使其能生成新的、类似于训练数据的实例。 - 学习网站
生成对抗网络GAN
生成对抗网络(Generative Adversarial Networks,GANs)也是引起一番浪潮的深度学习模型。GAN 是一种生成模型,通过一种“对抗”的结构学习数据模式,进而生成全新的合成数据。
- 基本结构:
GAN有两个主要部分组成:生成器(Generator)和判别器(Discriminator),这两个网络在学习过程中相互对抗,从而提高各自的性能。生成器的任务是创建数据;判别器的任务是区分生成器产生的数据和真实数据。一个类比,相当于一个人生产假币,而另一个人负责鉴别假币,他们二人在不断的“学习”过程中提高各自的能力,生成器学习如何产生越来越逼真的数据,而判别器学习如何更好地区分真伪。 - 应用场景:
生成对抗网络的应用非常广泛,比如图像领域用于生成风格化照片、人脸合成等;也可用于数据增强领域,对于数据有限的情况,通过生成新的数据来扩充数据集,比如医学影像;艺术创作领域,音乐合成,以及帮助艺术家创作绘画作品等。
递归神经网络RNN
递归神经网络(Recurrent Neural Network,RNN)是一种专门用来来处理序列数据的神经网络,它在nlp、时间序列分析等领域中非常有效。
- 基本结构:
RNN基本思想是利用序列的时间动态性,通过维护一个隐藏状态,也就是被称为“记忆”的机制,使得新型可以在不同时间步之间进行传递,从而捕获目前为止的所有数据的信息。RNN的基本结构包括输入层、隐藏层和输出层。核心是隐藏层,每个step的隐藏层都接收当前输入和前一时间步的隐藏层输出。 - RNN变体:
为了客服计算效率和长距离依赖关系等问题,RNN发展出来很多变体,如长短期记忆网络(LSTM)、门控循环单元(GRU)等。 - 应用场景:
RNN应用在NLP领域较多,用于机器翻译、文本生成等,其他领域还包括时序相关的数据分析(如股票价格预测、天气预测)、视频分析以及音乐生成等。
本项目为什么要选择CNN
为了对变压器进行实时的状态监测,需要采集不同类型的传感器数据。传感器数据包含了噪声场、温度场、磁场三种物理场,具有不同的量纲和时间序列的分布模式。
时空特性:每个场的数据在空间(不同测量点)和时间(时间序列)上均有分布。不同时间点的数据可能反映设备状态的动态变化(如故障逐渐恶化)。
例如:- 正常运行时,声压能量主要集中在低频区域,100 Hz 的幅值最大。随着过载程度增加,高频区域的幅值逐渐增大。在较高负载条件下,高频段幅值远高于正常运行状态。
- 绕组松动程度越大,频率幅值的变化也越大,且松动对绕组附近测点的影响大于铁心附近测点的影响。
- 温度上升速率随绕组松动程度的加剧而加快;且绕组温度升高速度快于铁心温度升高速度;同时,靠近绕组变形相区域对温度变化更敏感。
磁场和噪声场测量数据属于短期波动数据,而温度变化相对波动时间较长。
局部相关性:同一物理场的相邻测量点之间可能存在空间相关性(如温度扩散、磁场梯度)。
CNN的优势
空间特征提取
局部感知:卷积核在滑动窗口内提取局部空间模式(如温度场的梯度、噪声场的传播方向)。
参数共享:同一卷积核遍历所有位置,减少参数量,避免过拟合。
平移不变性:无论异常出现在哪个位置,相同卷积核均可检测到。
多源数据融合
通道维度融合:将不同物理场(噪声、温度、磁场)视为多通道输入(类似图像的RGB通道)。
跨模态关联:深层卷积核可自动学习不同物理场之间的关联(如磁场异常伴随特定噪声模式)。
MLP的局限性
MLP(全连接神经网络)通过全连接层处理扁平化的数据。
存在问题:
空间信息丢失:需将多维数据展平为向量,破坏空间结构(如传感器位置关系)。
参数冗余:全连接层对每个输入特征独立加权,难以捕捉局部空间模式。
过拟合风险:面对高维时空数据(如多个传感器×时间步),参数过多易导致过拟合。
多源融合困难:需手动设计不同物理场的融合策略(如拼接、加权),难以自动学习跨模态关联。
例如:
若温度场的传感器A和相邻传感器B的值同时升高,可能指示局部过热。MLP需依赖大量数据学习这种空间模式,而CNN可通过卷积核自动提取。
一些流程处理的设计原因
统计特征与滑动窗口
优点:通过均值、标准差、偏度、峰度等统计量,能够初步描述数据分布特性,结合最值位置可捕捉异常波动的时间和幅度信息。滑动窗口技术有效提取局部时序模式,适用于非平稳信号(如突变压器故障)。
合理性:符合时序数据处理的常规方法,适合捕捉局部动态变化。
数据去重与特征筛选
优点:利用余弦相似度清除冗余窗口数据,减少计算负担,避免模型被重复信息干扰。方向相似度和模大小的计算增强了特征区分度。
合理性:适合处理长时间稳定运行状态下的重复数据,但需注意保留关键异常片段。
未来的改进建议:
动态调整去重策略:- 结合时间戳信息,保留相邻窗口中的相似但连续数据(避免删除连续异常片段)。
- 引入异常检测算法(如Isolation Forest)辅助判断是否删除窗口。
Bi-LSTM时序建模
优点:双向LSTM同时考虑前向和后向时间依赖,弥补滑动窗口切割导致的跨窗口信息丢失,适合捕捉故障发展的渐进过程。
合理性:Bi-LSTM在时序建模中表现优异,尤其在长程依赖场景下。
未来的改进建议:
重叠滑动窗口:设置窗口重叠率(如50%),确保连续窗口间有部分数据重叠,减少切割损失。
层级时序建模:
- 第一层Bi-LSTM处理原始时序数据,输出高层时序特征。
- 第二层滑动窗口提取局部特征,再输入CNN。
三通道CNN与注意力机制
CBAM通过通道注意力和空间注意力机制,能够自适应地增强重要特征、抑制冗余信息,其设计初衷即是为了优化卷积层输出的特征图。
- 优点:独立处理不同物理场数据,保留各场特异性;注意力机制动态赋权关键特征,增强模型对故障敏感区域的关注。
多通道联合应用CBAM(跨场融合) - 合理性:符合多源异构数据的处理需求,避免早期融合时的信息混淆。
- 跨通道注意力融合:在卷积后拼接各通道特征图,应用CBAM。