Arc welding molten pool image recognition based on attention mechanism and transfer learning
-
摘要:
焊接过程中受复杂时变干扰和工艺条件变化的影响,熔池边界特征易模糊、尺度信息复杂多变,对熔池区域的准确识别与鲁棒分割造成极大困难. 文中提出一种结合注意力机制和迁移学习的熔池图像识别方法,首先,在UNet下采样过程中添加残差模块(residual block,RB)提取多尺度的低级特征,并在下采样和上采样过程中引入坐标注意力模块(coordinate attention block,CAB),提高有效区域的特征权重. 其次,在Pascal VOC2012预训练好的深度卷积神经网络迁移到UNet网络中,实现特征迁移和参数共享,以缓解训练效果过度依赖数据集. 文中提出的TL-RCUNet网络在未曾训练的MAG和TIG跨工艺数据集上进行测试,取得了良好的识别效果,平均交并比(mean intersection over union,MIoU)分别达到96.21%和79.55%,比经典语义分割网络分别高出约15%和25%. 为解决现有语义分割方法依赖于大量训练样本和需要专家经验进行像素级别标注的问题提供了可行方案.
Abstract:Due to the influence of complex time-varying interference and variations in process conditions during the welding process, the boundary characteristics of the molten pool are easy to be blurred, and the scale information is complex and changeable, which poses significant challenges to the accuracy recognition and the robust segmentation of the molten pool. In this paper, a molten pool image recognition method combining attention mechanism and transfer learning is proposed. Firstly, the residual block(RB) is added to the UNet down-sampling process to extract multi-scale low-level features, and the coordinate attention block(CAB) is introduced in the down-sampling and up-sampling processes to improve the feature weight of the effective region. Secondly, the pre-trained deep convolutional neural network in Pascal VOC2012 is transferred to the UNet network to realize feature transfer and parameter sharing, so as to alleviate the over-reliance of training effect on datasets. The TL-RCUNet network proposed in this paper has achieved good recognition results on the untrained MAG and TIG cross-process datasets. The mean intersection over union(MIoU) reaches 96.21% and 79.55%, respectively, which is about 15% and 25% higher than the classical semantic segmentation network. The model provides a feasible solution to the problem that existing semantic segmentation methods rely on a large number of training samples and pixel-level annotations based on expert experience.
-
0. 序言
在焊接过程中,准确识别熔池区域对于进行熔池的几何测量、形态分析和焊缝成形在线控制至关重要[1]. 不仅是实现智能化焊接的前提,对于深入理解焊接物理过程也具有重要意义[2]. 在过去的十几年里,许多研究者使用基于传统图像识别的方法来识别熔池. 包括基于阈值、区域、边缘、聚类和图论以及小波变换和大律法等特定理论的图像分割算法[3]. 徐远钊等人[4]提出了一种基于均值聚类的熔池图像分割方法,用于熔化极气体保护焊过程中的熔池图像分析与分割. HONG等人[5]基于大律法和视觉显著特征以获得准确的熔池轮廓. 然而,在面对复杂恶劣的焊接场景时,传统图像识别方法适应性较差.
基于深度学习的语义分割方法,凭借卓越的自学习能力和特定语义类别的准确定位等优势,近年来,在焊接质量监测中展现出巨大的潜力[6]. YANG等人[7]通过改进DeeplabV3 + 网络,分割出熔池轮廓和小孔轮廓并用于小孔钨极惰性气体保护焊过程中为焊接质量控制提供依据. 多模块结合的焊接图像语义分割方法,可增强对复杂语境的理解[8]. 马晓锋等人[9]融合GAN网络和全位置熔池变化规律,对PSPNet 网络进行改进,以提高对全位置焊接熔池图像的分割效果. LI等人[10]将长短时记忆机制融入Unet网络中用于提取熔池和电弧的关键信息. 然而,实际焊接中无法避免弧光、烟尘和工件表面反光等时变干扰,而且工艺条件变化下的熔池图像差异性大,使得熔池边界特征易模糊、尺度信息复杂多变,给熔池的鲁棒分割造成极大困难. 现有语义分割方法依赖庞大的训练样本和基于专家经验的像素级别标注,在变参数和跨工艺焊接作业任务的工业级应用中面临着挑战.
文中提出了一种结合注意力机制和迁移学习的模型TL-RCUNet,能在复杂焊接场景下准确获取弧焊熔池信息. 其中嵌入的RB可以利用层级联结构提取弧焊熔池的多尺度几何低级特征信息,并结合CAB强化熔池区域的特征聚焦能力. 为缓解模型对数据集规模过度依赖的问题,文中基于Pascal VOC 2012数据集预训练模型,获得共享特征表示,并针对文中窄间隙MAG熔池图像数据集对网络下采样层进行参数自适应微调,实现跨域特征空间对齐. 为了验证文中所提出的TL-RCUNet网络的有效性,采用文中数据集作为训练数据集,并使用TIG熔池图像数据集作为附加的泛化性测试集,在此基础上开展验证试验.
1. 试验系统及数据集构建
1.1 试验系统
焊接试验系统示意图,如图1所示. 系统主要包括焊接电源、工控机、氩气保护气体、焊枪、送丝装置、焊接相机和图像采集卡. 视觉传感器成像装置为512 × 512,50帧/秒 的CMOS高速工业相机,660 nm + 10 nm的滤光片前置于相机镜头前端.工件材料为厚度为50 mm的Q500 D低合金高强度钢板,工件尺寸为500 mm × 300 mm. 焊接方法为窄间隙MAG.
焊接工艺参数包括焊丝伸出长度为16 mm,焊接电流为230 ~ 260 A, 电弧电压为26.2V,焊接速度为20 cm/min,氩气流量为26 L/min. 文中的TL-RCUNet模型在一台配备有NVIDIA GeForce RTX2080 Ti GPU的计算机上进行试验. 试验环境为Python版本为3.6,torch版本为1.2.0,torchvision版本为0.4.0,使用Adam优化器,初始学习率为
0.0001 ,迭代次数为200,批量处理大小为4.1.2 数据集构建
熔池图像分析,如图2所示. 采集了216张窄间隙MAG的熔池图像数据,如图2(a)所示. 对这些数据进行了划分,其中171张作为训练集、22张作为验证集、23张作为测试集. 此外,为了验证所提出方法的鲁棒性和泛化性,文中还使用了由BACIOIU等人[11]发布的TIG熔池图像数据集作为附加的泛化性测试集,如图2(b)所示.
熔池灰度直方图分析,如图3(a)所示. 图3(a)中窄间隙MAG熔池图像的灰度级分布处于较低的灰度级别上,说明窄间隙MAG熔池图像整体偏暗,但窄间隙MAG的熔池区域呈现较高的亮度,符合预期的熔化金属特征. 图3(b)中TIG熔池图像的灰度级分布比较平均,整体图像比较明亮,与窄间隙MAG熔池图像在灰度值分布上差异较大,更能验证文中所提出方法的鲁棒性和泛化性.
2. 基于TL-RCUNet的熔池图像识别
2.1 总体结构设计
文中提出了TL-RCUNet语义分割网络. 首先,文中引入注意力机制,通过注意力机制,网络可以自动学习并集中注意力于重要的特征区域,从而更好地捕获熔池空间分布特征的一致性. 其次,文中运用了迁移学习思想,在已经训练好的源领域模型的基础上,通过迁移学习将模型的知识迁移到目标领域,以适应目标领域的数据特点,从而减少了如边缘、纹理等熔池低级特征在不同数据集中的分布差异.
TL-RCUNet网络的实现过程包括以下几个步骤. 首先,在UNet网络的下采样过程中添加RB提取多尺度的低级特征并且在网络下采样和上采样过程中引入CAB,在不增加网络参数的同时,提高有效区域的特征权重. 其次,在Pascal VOC2012预训练好的深度卷积神经网络迁移到UNet网络中,实现特征迁移和参数共享. 这一系列改进措施旨在提高网络对不同环境和数据变化的适应能力,从而使其在实际应用中表现更加稳健和可靠.
2.2 RCUNet网络
文中对UNet网络[12]进行改进,将其特征提取模块替换为RB并在上采样层中引入CAB[13],改进后的UNet整体结构,如图4所示. 所采用的RB[8]是一种深度卷积神经网络结构,通过引入RB来有效缓解深层网络训练中的梯度消失和梯度爆炸问题,RB结构,如图5所示. RB中的跳跃连接允许信息在不同层次之间直接流动,能够提取更富有判别性和表征力的特征,增强网络的可靠性.
CAB让网络在提取通道特征时保留重要的空间特征,并抑制不重要的冗余特征,以增强有用区域的特征权重,有效缓解了在弧光、烟尘和工件表面反光等时变干扰下熔池特征的难以有效提取的情况,从而提高网络识别准确度. CAB结构,如图6所示. C为通道数量,H为高度,W为宽度. CAB将图像中的目标位置信息更高效地嵌入通道注意力,使网络能够更好地定位和识别目标. CAB的具体操作可分为坐标信息嵌入和坐标注意力生成. 坐标信息嵌入为
$$ \left\{\begin{array}{l} z_c^h(h) = \dfrac{1}{W}\displaystyle\sum\limits_{0 \leqslant i \lt W} {{x_c}(h,i)} \\z_c^w(w) = \dfrac{1}{H}\displaystyle\sum\limits_{0 \leqslant j \lt H} {{x_c}(j,w)}\end{array}\right. $$ (1) 式中:$ z_c^h(h) $为高度为h的第c通道的输出;$ z_c^w(w) $为宽度为w的第c通道的输出;x为输入;W为宽度;H为高度.
坐标注意力生成公式为
$$ \left\{\begin{array}{l} Y_c(i, j) = x_c(i, j) * g_c^h(i) * g_c^w(j) \\ g^h = \sigma\left(F_h\left(f^h\right)\right)\\ g^w = \sigma\left(F_w\left(f^w\right)\right)\\ f = \delta\left(F_1\left(\left[z^h, z^w\right]\right)\right) \end{array}\right. $$ (2) 式中:Yc(i,j)为CAB的输出;c为通道;gh为高度h的注意力权重;gw为宽度w的注意力权重;Fh为对高度的1 × 1卷积变换;Fw为对宽度的1 × 1卷积变换; f为对水平方向和垂直方向上的空间信息进行编码的中间特征图.
2.3 迁移学习和微调
在焊接熔池识别任务中,文中运用迁移学习思想,将在具有大量高质量标记图像的Pascal VOC2012数据集上进行预训练的深度卷积神经网络作为源领域网络,并利用底层共享表征深入挖掘Pascal VOC2012数据集中的通用信息,迁移到焊接熔池识别领域,实现特征迁移和参数共享. 这种迁移学习的方法可以使得模型能够充分利用已有的预训练模型所学到的通用特征表示,从而提高模型在跨工艺数据集上的性能.
但焊接熔池数据集和Pascal VOC2012数据集的图像分布差异较大,因此,无法直接使用迁移学习来获得高精度的识别结果,需要在迁移学习的基础上进行微调[14]. TL-RCUNet网络的总体结构,如图7所示. 将网络的下采样层进行替换,实现对Pascal VOC2012数据集中通用信息的学习,有助于提升网络的泛化性能,减弱对数据集的依赖,进而降低训练成本. 而且由于文中更改网络的下采样层时能够保持参数数量、特征表示能力和梯度传播的稳定性,因此可以确保对整个网络层中的参数和后续结果没有兼容性影响.
3. 试验结果与分析
3.1 评价指标
文中主要关注的评价指标是MIoU、精确度(Precision,P)和召回率(Recall,R)[9],即
$$ \left\{\begin{array}{l} M = \dfrac{1}{N}\displaystyle \sum_{\mathrm{i} = 1}^N \dfrac{T P}{T P + F P + F N} \\ {Pr} = \dfrac{T P}{(T P + F P)} \\ {R} = \dfrac{T P}{(T P + F N)} \end{array}\right. $$ (3) 式中:TP为真正例;FP为假正例;FN为假负例.
3.2 消融试验设计与分析
在文中进行了一系列消融试验,以验证RB,CAB以及迁移学习的有效性. CAB和RB对UNet的影响,如表1所示. RB能够提高熔池图像低级特征的提取能力,在MIoU和召回率指标上分别提升了1.71%和1.31%. CAB确保网络在提取通道特征时不丢失关键的空间特征,这在MIoU和召回率指标上分别带来了3.02%和2.84%的提升. UNet网络在融合了RB和CAB后,在MIoU和召回率指标分别达到了92.85%和94.16%,MIoU提高了5.11%. 在RCUNet的基础上,融入迁移学习,将Pascal VOC2012数据集中的通用信息迁移至焊接熔池识别领域,提升网络识别性能. 迁移学习对RCUNet的影响,如表2所示. 通过引入迁移学习,在MIoU和召回率指标上分别提升了3.36%和3.96%.
表 1 坐标注意力模块和残差模块对UNet的影响Table 1. Effect of coordinate attention block and residual block for UNet语义分割网络 平均交并比
M(%)精确度
P(%)召回率
R(%)UNet 87.74 90.21 89.83 RB-UNet 89.45 92.73 91.14 CAB-UNet 90.76 93.51 92.67 RCUNet 92.85 95.47 94.16 表 2 迁移学习对RCUNet的影响Table 2. Effect of transfer learning for RCUNet语义分割网络 平均交并比
M(%)精确度
P(%)召回率
R(%)RCUNet 92.85 95.47 94.16 TL-RCUNet 96.21 99.07 98.12 3.3 不同语义分割网络的对比分析
文中将TL-RCUNet网络与SegNet[15],PSPNet[16]和Deeplabv3[17]等经典语义分割网络在MIoU性能指标上进行对比. 不同语义分割网络在窄间隙MAG上的性能表现,如表3所示. TL-RCUNet在MIoU指标上取得了显著的优势,达到96.21%. 比Segnet,PSPNet,DeepLabv3和UNet等网络分别高21.64%,14.26%,12.89%和8.47%. 比其他经典的语义分割网络高15%左右. TL-RCUNet训练曲线,如图8所示. 并且与其他熔池识别方法(FCN和Res-Segnet)进行对比,TL-RCUNet在MIoU指标上也取得了显著优势. 这证明了TL-RCUNet网络在焊接熔池准确识别任务中具有更好的分割性能.
表 3 不同语义分割网络在窄间隙MAG上的性能表现Table 3. Performance of different semantic segmentation networks on narrow gap MAG语义分割网络 平均交并比M(%) 精确度P(%) 召回率R(%) FCN 70.12 72.37 74.58 Segnet 74.57 77.53 78.24 Res-Segnet 79.86 81.66 82.35 PSPNet 81.95 85.26 83.71 DeepLabv3 83.32 87.68 85.13 UNet 87.74 90.21 89.83 TL-RCUNet 96.21 99.07 98.12 文中进一步分析了TL-RCUNet网络在准确率性能指标的表现. 在精确度指标方面,与Segnet,PSPNet,DeepLabv3和UNet相比,TL-RCUNet表现出更高的水平,分别高出了21.54%,13.81%,11.39%和8.86%. 并且与其他熔池识别方法(FCN和Res-Segnet)进行对比,TL-RCUNet在精确度指标上也取得了显著优势. 表示TL-RCUNet网络在正类别的预测中更准确,误差更小. 同时,就召回率指标而言,TL-RCUNet网络也表现出色,分别比上述经典语义分割网络高出了19.88%,14.41%,12.99%和8.29%. 表明TL-RCUNet网络在召回真实正例方面具有显著的优势,为在焊接熔池识别任务中的出色性能提供了更全面的支持. 不同语义分割网络的分割结果,如图9所示.
3.4 可行性分析
为了验证TL-RCUNet网络的可行性,文中采用热力图可视化. 连续监测图及分割图和热力图,如图10所示. 热力图中对识别决策的影响大的区域,颜色越深代表对识别决策的影响越大. 对识别决策的影响小的区域,颜色越深代表对识别决策的影响越小. 在图10的热力图中,在连续焊接过程中,尽管受到时变弧光的干扰,热力图中对识别决策的影响大的区域依然主要集中在熔池附近,表明网络的焦点主要集中在熔池区域. 尤其是在弧光、烟尘和工件表面反光等时变干扰下,熔池轮廓的稳定提取与实际焊接经验特征信息高度一致,因此证实了网络的可靠性.
为了进一步验证TL-RCUNet网络在少样本训练数据下所保持着的优异泛化性能,文中分别让TL-RCUNet网络和不同的经典语义分割网络对未经训练的、不同工艺条件下的TIG数据集进行额外的泛化性测试,不同语义分割网络在TIG测试集的分割结果,如图11所示. TL-RCUNet网络的分割结果远远优于其他经典语义分割网络,TL-RCUNet的MIoU达到79.55%,在75%以上,而其他语义分割网络的MIoU在55%以下,比TL-RCUNet的MIoU低25%左右. 通过TL-RCUNet在不同焊接场景下的测试,表明文中提出的方法具备良好鲁棒性和泛化性,尤其是在跨工艺焊接场景下相比经典方法性能更优.
4. 结论
(1)提出了一种结合注意力机制和迁移学习的熔池图像识别方法,经过少样本窄间隙MAG数据集训练后,MIoU达到96.21%,比其他经典的语义分割网络高15%左右;在对TIG数据集进行附加泛化性测试时,仍取得了良好的识别效果,MIoU达到79.55%,比其他经典的语义分割网络高25%左右.
(2)提出了基于特征增强和参数共享的TL-RCUNet网络. 通过在网络下采样过程中引入残差网络以及在网络上采样过程中嵌入坐标注意力机制,MIoU提高了5.11%;引入迁移学习至网络中,减少了训练结果对样本数据的过度依赖,MIoU提高了3.36%.
(3)文中提出的熔池图像识别方法具有良好的工业适用性,为变参数、跨工艺等实际复杂焊接作业任务的熔池在线监测提供了一种新思路.
-
表 1 坐标注意力模块和残差模块对UNet的影响
Table 1 Effect of coordinate attention block and residual block for UNet
语义分割网络 平均交并比
M(%)精确度
P(%)召回率
R(%)UNet 87.74 90.21 89.83 RB-UNet 89.45 92.73 91.14 CAB-UNet 90.76 93.51 92.67 RCUNet 92.85 95.47 94.16 表 2 迁移学习对RCUNet的影响
Table 2 Effect of transfer learning for RCUNet
语义分割网络 平均交并比
M(%)精确度
P(%)召回率
R(%)RCUNet 92.85 95.47 94.16 TL-RCUNet 96.21 99.07 98.12 表 3 不同语义分割网络在窄间隙MAG上的性能表现
Table 3 Performance of different semantic segmentation networks on narrow gap MAG
语义分割网络 平均交并比M(%) 精确度P(%) 召回率R(%) FCN 70.12 72.37 74.58 Segnet 74.57 77.53 78.24 Res-Segnet 79.86 81.66 82.35 PSPNet 81.95 85.26 83.71 DeepLabv3 83.32 87.68 85.13 UNet 87.74 90.21 89.83 TL-RCUNet 96.21 99.07 98.12 -
[1] HONG Y X, JIANG Y X, YANG M X, et al. Intelligent seam tracking in foils joining based on spatial-temporal deep learning from molten pool serial images[J]. Robotics and Computer-Integrated Manufacturing, 2025, 91: 102840. doi: 10.1016/j.rcim.2024.102840
[2] HONG Y X, YANG M X, JIANG Y X, et al. Real-time quality monitoring of ultrathin sheets edge welding based on microvision sensing and SOCIFS-SVM[J]. IEEE Transactions on Industrial Informatics, 2022, 19(4): 5506 − 5516.
[3] 张志芬, 陈善本, 张裕明, 等. 焊接智能化监测技术研究现状与展望[J]. 焊接学报, 2024, 45(11): 10 − 20,70. ZHANG Zhifen, CHEN Shanben, ZHANG Yuming, et al. Research progress and prospect of welding intelligent monitoring technology[J]. Transactions of the China Welding Institution, 2024, 45(11): 10 − 20,70.
[4] 徐远钊, 罗玖田, 方乃文, 等. 基于MS-FCM算法的船体板熔池图像处理技术[J]. 焊接学报, 2024, 45(3): 82 − 90. doi: 10.12073/j.hjxb.20231010001 XU Yuanzhao, LUO Jiutian, FANG Naiwen, et al. Image processing technology for ship plate melt pool based on MS-FCM algorithm[J]. Transactions of the China Welding Institution, 2024, 45(3): 82 − 90. doi: 10.12073/j.hjxb.20231010001
[5] HONG Y X, YANG M X, CHANG B H, et al. Filter-PCA-based process monitoring and defect identification during climbing helium arc welding process using DE-SVM[J]. IEEE Transactions on Industrial Electronics, 2022, 70(7): 7353 − 7362.
[6] 李巍, 李太江, 杨略, 等. 改进的U-Net算法在管道内焊缝缺陷图像分割中的应用[J]. 焊接, 2024(11): 73 − 80. LI Wei, LI Taijiang, YANG Lue, et al. Application of improved U-Net algorithm in image segmentation of pipeline inner weld defect[J]. Welding & Joining, 2024(11): 73 − 80.
[7] YANG D Y, DAI P H, CUI S W, et al. Real-time recognition of molten pools based on improved DeepLabV3 + in keyhole tungsten inert gas welding applications[J]. Electronics, 2024, 13(2): 283. doi: 10.3390/electronics13020283
[8] QI J Y , WU Y F. Strip steel surface defect detection algorithm based on improved Faster R-CNN[J]. China Welding, 2024, 33(2): 11 − 22.
[9] 马晓锋, 夏攀, 刘海生, 等. 全位置焊接熔池的深度学习检测方法[J]. 机械工程学报, 2023, 59(12): 272 − 283. doi: 10.3901/JME.2023.12.272 MA Xiaofeng, XIA Pan, LIU Haisheng, et al. Depth learning detection method for all-position weld pool[J]. Journal of Mechanical Engineering, 2023, 59(12): 272 − 283. doi: 10.3901/JME.2023.12.272
[10] LI T P, CAO Y, ZHANG Y M. Analysis of weld pool region constituents in GMAW for dynamic reconstruction through characteristic enhancement and LSTM U-Net networks[J]. Journal of Manufacturing Processes, 2024, 127: 573 − 588. doi: 10.1016/j.jmapro.2024.07.084
[11] BACIOIU D, MELTON G, PAPAELIAS M, et al. Automated defect classification of SS304 TIG welding process using visible spectrum camera and machine learning[J]. NDT & E International, 2019, 107: 102139.
[12] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015, October 5-9, 2015, Munich, Germany. Berlin: Springer International Publishing, 2015: 234 – 241.
[13] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 20-25, 2021. Nashville, Tennessee. New York, IEEE: 2021: 13708-13717.
[14] DHEERAJ D K, FANG C, ZHENG Y, et al. Semi-supervised transfer learning-based automatic weld defect detection and visual inspection[J]. Engineering Structures, 2023, 292: 116580. doi: 10.1016/j.engstruct.2023.116580
[15] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481 − 2495. doi: 10.1109/TPAMI.2016.2644615
[16] ZHAO H S, SHI J P, QI X J, et al. Pyramid Scene Parsing Network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, Hawaii. New York, IEEE: 2017: 6230 − 6239.
[17] GONG L X, ZHANG Y Q, ZHANG Y K, et al. Erroneous pixel prediction for semantic image segmentation[J]. Computational Visual Media, 2022, 8(1): 165 − 175.