《武汉工程大学学报》  2022年01期 107-111   出版日期:2022-02-28   ISSN:1674-2869   CN:42-1779/TQ
桥梁结构监测数据异常值处理方法


桥梁结构健康监测领域的研究与应用已发展了近30年,近年来愈发受到国内外学者的广泛关注[1]。而桥梁健康监测系统每天都会采集海量监测数据,这些监测数据往往存在很多噪声信息和异常值,甚至会因为各种干扰导致数据失效[2-4]。若使用带干扰的监测数据直接进行后续研究,将会降低结论的可靠性和准确性,不利于桥梁健康状态的准确评估与安全预警[5]。因此,亟需对海量监测数据进行处理与分析。颜飞等[6]提出一种桥梁建筑质量运营监测数据处理方法,运用Hadoop平台执行清洗监测数据、剔除无关数据和补齐缺失数据;Fu等[7]提出一种非常有效的故障数据恢复“三步走”策略,使用估计值或采用校正函数处理值(如均值处理、平滑趋势项处理等)替换了故障数据;韩晓健等[8]采用改进的数据跳跃法剔除某叠合梁桥健康监测数据的粗差,解决了监测数据中多级异常跳跃的问题;吴运宏等[9]针对桥梁健康监测系统中的数据异常问题,提出基于微簇的数据流异常检测框架,该方法在湖北某大桥的数据检测上表现出了较好的异常识别能力;Yi等[10]阐述了异常监测数据的数据特征及其表现形式,并给出异常数据产生的部分原因;涂成枫等[11]利用应变阈值和小波细节系数进行异常信号识别,并通过多尺度关联性分析对各频率组分下的桥梁应变进行分类,确定了温度对应变的影响;Moyo等[12]基于小波变换对大跨度桥梁应变数据进行分析,利用小波系数时间序列的变化识别了监测数据中的异常信号。综合相关研究发现:一方面,国内外已有研究对海量桥梁监测数据的有效性关注较少,处理异常数据时缺少对数据分布形式的考量;另一方面,大多主观割裂了监测过程和处理过程,分析数据时采用的方法依赖于复杂的领域知识,不利于实际的工程应用。针对以上问题,本文基于灰色关联度评估海量监测数据的有效性,采用改进箱型图剔除和补全异常数据,对温度和应变进行相关性分析,并基于Spearman相关系数验证了改进箱型图的可靠性和优越性。1 数据处理原理1.1 基于灰色关联度的有效性评估判断监测数据的有效性是桥梁健康监测的首要工作,一旦数据出现问题将会给后续的监测、预警和评估工作带来很大的困扰[13]。同截面同类型传感器的正常数据序列应具有一定的关联性,本文采用MATLAB分析同截面同类型传感器获得的数据序列,基于灰色关联度对海量监测数据进行有效性评估。采用灰色关联度方法定量描述桥梁监测数据各参数的相互关系或变化趋势,工作量小、易于掌握,且能够较简便地判断海量监测数据的有效性[14-15]。具体步骤如下:设原始序列为:[x(0)={x(0)(k)∣k=1,2…,n}]按照下列分类对序列进行正向化:1)极小型指标:[X=max-x]2)中间型指标:[X=max{∣xi-x best ∣}]3)区间型指标:[X=max{a-min{xi},max{xi}-b}]对正向化后的序列进行标准化:[x’k=xk∑[x(k)]2]参考序列与比较序列分别设为:[x0=x0k∣k=1,2,…,n][xi=x1k∣k=1,2,…,n]计算比较序列与参考序列之间的关联系数:[ξ0i(k)=Δ(min)+ρΔ(max)Δ0i(k)+ρΔ(max)]其中:[ρ]为分辨系数,通常取0.5;[Δ0i(k)]表示第i个比较数列各时的数值与参考数列对应时刻的差值的绝对值;[Δ(max)]和[Δ(min)]分别是n个比较数列在各期的绝对差值中的最大值和最小值。计算关联度:[r0i=1mk=1mξ0ik]1.2 基于改进箱型图的异常值剔除与补全箱型图是利用数据的最大值、最小值、中位数、上四分位数与下四分位数来描述数据的一种方法,对数据的分布形式无要求。应用拉格朗日插值法对箱型图改进后能够直接替换异常值,既简化了处理过程又能够得到客观准确的结果。箱型图各部分如图1所示。[异常值Max[QU+1.5(QU-QL)]上四分位(QU)中位数下四分位(QL)Min[QL-1.5(QU-QL)]异常值]图1 箱型图示意Fig. 1 Schematic of box plot拉格朗日插值法通过使用多项式函数近似输入与输出之间的关系。对于n+1个样本点(x0,y0),···,(xi,yi),···,(xn,yn),在[a,b]内给定任意x,可计算出x处对应的估计值,其公式如下:[Lnx=i=0nyilix][li(x)=j=0, j≠in(x-xj)/(xi-xj)]式中,Ln(x)为拉格朗日插值多项式,i是n+1个数,yi是xi处的函数值,xi、xj为互异节点,li(x)为基函数。改进的箱型图进行异常值处理的主要步骤为:步骤1,求解数据的上分位数QU、下分位数QL与中位数;步骤2,设定Max=QU+1.5(QU-QL)、Min=QL-1.5(QU-QL);步骤3,如果满足date>Max或者date[应变传感器(2)][温度传感器(15)][161][49][70][42]图2 梁桥立面图(单位:m)Fig. 2 Elevation of beam bridge(unit:m)[1 249][260][50][629][50][260][S1][S2][T13][T14][T15][T7][T8~T11][T1~T6][140][60][T12]图3 传感器布置图(单位:cm)Fig. 3 Diagram of sensor layout(unit:cm)3 数据处理分析3.1 有效性评估分别选取为期30 d(2020-12-27-2021-01-25)的应变数据与温度数据进行关联度分析。应变数据共有2组,以其中一组数据为参考序列,另一组数据为比较序列,算得r1-2=0.932 3,位于0.9~1的区间内。温度数据共有15组,以第一组数据为参考序列,其余14组数据均为比较序列,求得灰色关联度如表1所示。表1  温度灰色关联度Tab. 1 Temperature grey correlation[组别 灰色关联度 组别 灰色关联度 r1-2 0.999 9 r1-9 0.974 6 r1-3 0.999 9 r1-10 0.999 9 r1-4 0.999 9 r1-11 0.999 8 r1-5 0.999 9 r1-12 0.940 4 r1-6 0.989 9 r1-13 0.942 1 r1-7 0.985 8 r1-14 0.999 3 r1-8 0.999 6 r1-15 0.991 6 ]从表1可知,14组温度比较序列与参考序列所计算的灰色关联度位于0.9~1的区间内。分别从应变数据和温度数据中选择50组数据作为样本数据,根据文献[16]中的阈值公式[rij-2σij]计算有效性阈值。经检验,静应变数据和温度数据均满足有效性要求。3.2 异常值剔除和补全采用箱型图对通过有效性评估的温度数据与应变数据进行异常值检测,并采用改进后的箱型图进行异常值剔除和补全。如图4和图5所示,温度数据表现正常,而应变数据存在异常值。应变数据经过改进箱型图处理后得到图6,可以看出应变数据趋于平稳,处理效果较好,有利于后续桥梁状态评估与安全预警。3.3 相关性分析在桥梁实际运营中,温度是影响应变的主要因素之一,文献[17-18]通过分析温度和应变数据发现温度和应变呈较强的相关性。为了消除不同量纲和量纲单位给温度和应变分析过程带来的不利影响,按照公式[x?i=xi-xminxmax-xmin]和[Z=x?i-μσ]([xmax]为监测数据最大值,[xmin]为监测数据最小值,μ为监测数据均值,σ为监测数据标准差)对数据进行归一化和标准化处理[19]。处理后的温度与应变趋势图如图7所示。可以发现,经过归一化和标准化处理的温度数据和应变数据的数值都处于[0,1]之间,两者曲线的变化趋势一致,说明温度数据和应变数据的相关性较强。3.4 对比验证Spearman相关系数通常也称为斯皮尔曼秩相关系数,它根据原始数据的排序位置估计2个变量之间的关联程度与方向,对样本的分布形式与容量大小无严格要求,适用于桥梁健康监测数据分析[20]。假设2个随机变量分别为X、Y,它们的元素个数均为n,2个随机变量的第i(1≤i≤n)个值分别用Xi、Yi表示。对X、Y进行排序,得到2个元素集合x、y,其中元素xi、yi分别为Xi在X中的排行以及Yi在Y中的排行。Spearman相关系数根据公式[rs=1-6i=1nd2in(n2-1)]和[di=xi-yi]计算。分别求得基于原始数据、拉依达准则处理的数据和改进箱型图处理的数据中S1处和S2处的温度和应变之间的Spearman相关系数,如表2所示。其中,基于拉依达准则处理后的数据与原始数据的相关系数相差不大,而基于改进箱型图处理后的数据相关系数明显提高,表明使用该方法去除异常数据能取得较好效果。表2 温度和应变的Spearman相关系数Tab. 2 Spearman correlation coefficients of temperature and strain[数据种类 Spearman相关系数 S1处 S2处 原始数据 0.782 8 0.942 0 基于拉依达准则处理的数据 0.792 0 0.946 1 基于改进箱型图处理的数据 0.824 4 0.977 0 ]4 结 论本文以武汉市某混凝土连续梁桥健康监测系统为依托,对海量监测数据进行处理和分析,得到以下结论:(1)基于灰色关联度方法对海量监测数据进行有效性评估:同截面的2组应变数据的关联度为0.932 3,同截面的15组温度数据的关联度位于0.9~1的区间内,并且均通过有效性检验,说明应变数据和温度数据有效。(2)经过改进箱型图处理后,温度和应变数据都获得了较好的平稳性。采用改进的箱型图不仅可检测出异常数据,而且能将其直接剔除与补全,既简化了处理过程又能够得到相对准确的结果。(3)分析归一化和标准化处理后的温度与应变数据,发现温度和应变的相关性较高。进而,分别求出基于原始数据、拉依达准则处理后的数据和改进箱型图处理后的数据中两组温度和应变之间的Spearman相关系数,结果表明采用改进箱型图对异常数据进行剔除与补全具有较好效果。