张卫强

个人信息Personal Information

教师英文名称:Wei-Qiang Zhang

教师拼音名称:Zhang Wei Qiang

电子邮箱:wqzhang@tsinghua.edu.cn

办公地点:电子工程馆5-111

联系方式:010-62781847

学位:博士学位

毕业院校:清华大学

学科:信号与信息处理

教师博客

当前位置: 中文主页 >> 教师博客

听见机器的心跳:FISHER多模态工业信号基座模型

点击次数:

近年来,越来越多的工业设备被安装上传感器以监控工作状态。然而安装传感器容易,如何高效分析工业信号却很难,因为不同传感器采集的工业信号具有极大的异质性。本文中,我们将其总结为M5问题:多模态、多采样率、多尺度、多任务和少故障。

受到M5问题影响,现有方法大多只分析小范围的工业信号,例如基于振动的轴承故障诊断,所采用的模型也均为在小数据集上训练的小模型。然而这些模型未能发掘大数据训练的优势,也未能利用不同模态之间的互补性。另一方面,对于工业运维的每个子问题,都需要单独开发和部署专门的模型,大大增加了实际应用的复杂度。

研究动机

尽管工业信号表面上差异大,其内在特征和语义信息却很相似:

  • 1)语义信息相同:信号都反映了相同的健康状态。

  • 2)产生机理相似:声音(鼓膜震动)和振动同根同源。

  • 3)分析手段相似:基本都采用谱分析方法。

  • 4)故障模式相似:设备由零件组成,不同设备之间有借鉴性。

  • 5)任务特征共享:一个特征向量可表征多个健康管理任务。

基于此,我们认为是可以使用单一模型对异质工业信号进行统一建模的。由于信号内部存在相似性,通过scaling,可以让模型逐渐学会这些相似性,进而迸发出更为强大的表征能力,实现里程碑式提升。由此我们开发了FISHER模型。

FISHER模型介绍

fig1.png

FISHER模型是首个面向多模态工业信号的基座模型。它以子带为建模单元,通过堆积木的方式表征整段信号,可处理任意采样率的工业信号。详细介绍如下:

子带建模

谱分析是语音和信号分析常用的手段。与语音模型常采用的Mel谱不同的是,FISHER采用短时傅里叶变换(STFT)作为信号输入特征,这是由于1)故障分量往往出现在高频 2)对于旋转类机械,倍频关系往往很重要。为保证不同采样率下时频分辨率相同,FISHER中的STFT采用固定时长的窗长和帧移。

当数据量增大时,多采样率是模型必须要应对的问题。之前方法将信号全部重采样至固定采样率(例如16 kHz),从而丢失了关键的高频信息,特别是对于44.1 kHz及以上的高带宽信号。在FISHER中,我们不再进行重采样,而是利用信号在不同采样率下的特点进行建模。如下图所示,对同一信号源使用不同采样率进行观测时,共有频带基本一致,而高采样率会有额外的高频子带,也就是说高采样率的增益来源于更多子带信息。而另一方面,工业信号常见的采样率有16 kHz,32 kHz,44.1 kHz和48 kHz,这些采样率近似存在公约数(如2 kHz和4 kHz),故STFT谱可视作多个固定宽度子带的拼接。

fig2.png

因此FISHER采用固定宽度的子带作为建模单元,将子带信息用搭积木的方式拼接成整段信号的表征。具体而言,STFT谱被切分为固定宽度的子带,每个子带被模型单独处理。最终的信号表征是每个子带表征的拼接。

模型结构

FISHER包括1个ViT Encoder和1个CNN Decoder,采用“老师-学生”自蒸馏预训练。具体而言,老师Encoder是学生Encoder的指数滑动平均(EMA),仅学生Encoder和学生Decoder具有梯度。切分后的子带的80%被mask,未被mask的20%送入学生Encoder,处理后再与被mask部分按原位置拼接,送入学生Decoder。老师Encoder则输入整个子带,输出则作为蒸馏的目标。自蒸馏过程分别在[CLS]层次和patch层次进行监督。预训练结束后,仅保留学生Encoder用于后续评估。

我们目前开源了FISHER的3个不同尺寸:tiny(5.5M),mini(10M)和small(22M)。所有模型均在1.7万小时的混合数据集上进行预训练。

RMIS基准介绍

tab1.png

为评估模型在各种健康管理任务上的性能,我们提出了RMIS基准。RMIS基准包含5个异常检测数据集和13个故障诊断数据集,涵盖4个模态。这里异常检测为正常/异常 2分类问题,但训练集不包含异常;故障诊断为多分类问题,训练集和测试集均包含所有类别。为检验模型固有的性能,模型在所有数据集上均使用相同的KNN配置进行推断,不进行微调。

实验结果

我们先在RMIS基准上对常见预训练模型进行筛选,然后采用5个最好的模型作为基线,涵盖了5M到1.2B的多个尺寸。由于语音模型的效果普遍偏差,故我们并未对比。

基准得分

tab3.png

在RMIS基准上,FISHER的3个版本分别较基线至少提升了3.91%,4.34%和5.03%,展现出强大的泛化能力。按任务分析,在异常检测任务上,FISHER仅略低于BEATs;而在故障诊断任务上,FISHER大幅超过BEATs在内的所有基线,这主要得益于FISHER能利用完整的频带,而基线模型只能利用到16 kHz。此外,目前开源的FISHER模型最大也只有22M,远小于基线常见的90M。

fig3.png

Scaling效果

fig4.png

上图对比了各个模型的RMIS得分随模型大小变化的曲线。可以看到FISHER的曲线远高于基线系统的曲线,即使是最小的FISHER-tiny也能超过所有基线系统。这说明FISHER的预训练模式更优越,scaling更有效。

另一方面,我们观察到100M 似乎是scaling 曲线的分界点。我们猜测这是由于工业信号重复度较高,现有大规模数据集中的工业信号去重后至多支持100M 模型的训练。因此训练信号基座模型时,数据的配比需要增大,数据清洗将是scaling up的关键。此外,考虑到FISHER的成功,Test-Time Scaling似乎也是可行的方向。

变切分比

tab4.png

对于12个不提供官方切分的数据集,我们首先绘制了模型在变切分比场景下的工作曲线,然后估计了曲线下面积。如上表所示,FISHER具有最大的曲线下面积,说明其在变切分比场景下依旧具有卓越的性能。