赞
踩
Title: Swin-ransformer-YOLOv5 for Real-Time Wine Grape Bunch Detection
Abstract: Precise canopy management is critical in vineyards for premium wine production because maximum crop load does not guarantee the best economic return for wine producers. The grower keep track of the number of grape bunches during the entire growing season for optimizing crop load per vine. Manual counting of grape bunches can be highly labor-intensive and error prone. Thus, an integrated, novel detection model, Swin-transformer-YOLOv5, was proposed for real-time wine grape bunch detection. The research was conducted on two varieties of Chardonnay and Merlot from July to September 2019. The performance of Swin-T-YOLOv5 was compared against commonly used detectors. All models were comprehensively tested under different conditions, including two weather conditions, two berry maturity stages, and three sunlight intensities. The proposed Swin-T-YOLOv5 outperformed others for grape bunch detection, with mean average precision (mAP) of up to 97% and F1-score of 0.89 on cloudy days. This mAP was ~44%, 18%, 14%, and 4% greater than Faster R-CNN, YOLOv3, YOLOv4, and YOLOv5, respectively . Swin-T-YOLOv5 achieved an R2 of 0.91 and RMSE of 2.4 (number of grape bunches) compared with the ground truth on Chardonnay . Swin-T-YOLOv5 can serve as a reliable digital tool to help growers perform precision canopy management in vineyards.
Keywords: computer vision; crop load estimation; deep learning; full growth season; in-field imaging; object detection; precision viticulture; vineyard management; wine grape; yolo
摘要:精确的树冠管理对于葡萄园的优质葡萄酒生产至关重要,因为最大的作物负荷并不能保证葡萄酒生产商的最佳经济回报。种植者在整个生长季节跟踪葡萄串的数量,以优化每棵葡萄树的作物产量。人工计数葡萄串可能是高度劳动密集型的,而且容易出错。因此,提出了一个综合的、新颖的检测模型,Swin-transformer-YOLOv5,用于实时检测葡萄酒葡萄串。该研究于2019年7月至9月对霞多丽和梅洛两个品种进行了研究。将Swin-T-YOLOv5的性能与常用的检测器进行了比较。所有模型都在不同条件下进行了全面测试,包括两种天气条件、两个浆果成熟阶段和三种阳光强度。提出的Swin-T-YOLOv5在葡萄串检测方面的表现优于其他模型,平均精度(mAP)高达97%,阴天时F1得分为0.89。这个mAP比Faster R-CNN、YOLOv3、YOLOv4和YOLOv5分别高出44%、18%、14%和4%。与霞多丽的地面实况相比,Swin-T-YOLOv5的R2为0.91,RMSE为2.4(葡萄串的数量)。Swin-T-YOLOv5可以作为一个可靠的数字工具,帮助种植者在葡萄园里进行精确的树冠管理。
关键词:计算机视觉;作物负荷估计;深度学习;全生长季节;田间成像;物体检测;精准葡萄栽培;葡萄园管理;酿酒葡萄;Yolo
作者:Shenglian Lu 1,2 , Xiaoyu Liu 1, Zixuan He 2,3, Xin Zhang 4,* , Wenbo Liu 4,5 and Manoj Karkee 2,3
作者单位:
1 Guangxi Key Lab of Multisource Information Mining and Security , College of Computer Science and Engineering, Guangxi Normal University , Guilin 541004, China
2 Center for Precision and Automated Agricultural Systems, Washington State University ,Prosser, WA 99350, USA
3 Department of Biological Systems Engineering, Washington State University , Pullman, WA 99164, USA
4 Department of Agricultural and Biological Engineering, Mississippi State University ,
Mississippi State, MS 39762, USA
5 Coastal Research and Extension Center, Mississippi State University ,
文章出处:MDPI--REMOTE SENSING
出处杂志的影响因子:5.349(2021年)
与YOLO相关的技术点:
研究亮点:
在YOLOv5中添加Swin-Transformer模块
典型的视觉转换器架构基于自注意机制,该机制可以学习序列组件之间的关系。在所有类型中,Swin transformer是分层视觉转换器的一种新型骨干网络,使用多头自注意机制,可以专注于一系列图像补丁,以一定的灵活性对全局、局部和上下文线索进行编码。Swin transformer已经在各种计算机视觉任务中展示了其引人注目的记录,包括区域级对象检测、像素级语义分割和图像级分类。特别是,它对前景对象、随机补丁位置和非显著背景区域的严重遮挡表现出很强的鲁棒性。然而,在对象检测中单独使用Swin转换器需要大量的计算资源,因为Swin转换器的编码-解码结构与传统的CNN不同。
在这项研究中,为了在葡萄园茂密的树叶和闭塞条件下实现更好的葡萄串检测精度和效率,我们在架构上结合了YOLOv5和Swin transformer的最先进的单级检测器(即Swin-transformer-YOLOv5或Swin-T-YOLOOv5),使得所提出的新网络结构具有内在地保留两种模型的优点的潜力。这项研究的首要目标是使用开发的Swin-T-YOLOv5在复杂的葡萄园环境下准确高效地检测葡萄酒葡萄串。
2.1 数据采集与预处理
2.1.1 葡萄酒葡萄数据集
选用两个不同的酿酒葡萄品种被选为目标作物,因为它们成熟时具有明显的浆果皮颜色,包括霞多丽(白色浆果;图1a)和梅洛(红色浆果;图1d)。霞多丽的浆果皮在整个生a长季节都是白色的(图1b,c),而梅洛的颜色在生长季节从白色变为红色(图1e,f)。本研究中,霞多丽和梅洛的实验植物每株葡萄约有10-33和12-32个葡萄串。葡萄园由专业经理负责维护,以实现最佳生产力。两个品种的行间距和株间距分别约为2.5米和1.8米。
表1给出了采集条件的具体细节
表2展示出了本研究中的葡萄图像数据集和增强
2.1.2 数据集注释和扩充
使用LabelImg的注释工具对原始图像数据集进行手动注释。葡萄串的位置是使用边界框单独选择的。成簇的葡萄串也被小心地分开。一旦所有原始图像(图2a)都用手动标签进行了注释,就通过使用Imgaug的数据增强和增强库进一步丰富了数据集(图2b–e)。在数据扩充过程中,对注释的“关键点”和“边界框”进行了相应的转换。丰富的数据集可以更好地表示葡萄串的田间条件。增强后,开发了一个包含4418张图像的数据集,其中可以在表2中找到对增强数据集的详细描述。最终确定的数据集进一步分为训练(80%)、验证(10%)和测试集(10%)
2.2 葡萄串检测网络
2.2.1 Swin-Transformer
首先,图3a中介绍了Swin-transformer架构。它可以通过一个补丁分割模块将输入的RGB图像分割成不重叠的小补丁。每个补丁被视为一个 "标记",其特征被设定为RGB图像(即3个通道)中原始像素值的连接。在这项研究中,使用了4×4的补丁大小,因此,每个补丁的特征尺寸为4×4×3=48。然后将一个线性嵌入层应用于该原始值特征,将其投射到一个任意的维度(在图3a中表示为C)。Swin-Transformer是通过用基于 "窗口"(即W-MSA)和 "移位窗口"(即SW-MSA)的MSA模块取代常规Transformer块中的标准多头自注意(MSA)模块,而其他层保持不变(图3b)。这个模块之后是一个2层多层感知器(MLP),其间有整流线性单元(ReLU)的非线性。在每个MSA模块和MLP层之前和之后都有一个归一化层(LayerNorm)和一个剩余连接
2.2.2 YOLOv5
YOLOv5s是一个模型参数较少的轻量级模型,约为一般YOLOv4的10%,这表明该模型可能更适合部署在嵌入式设备上进行实时对象检测。结合所有这些优势,本研究试图使用改进的YOLOv5检测密集树冠中的葡萄串。
一般来说,YOLOv5框架包括三个部分:骨干网、颈部网和检测网。(或输出)网络(图4a)。骨干网络被用来从输入图像中提取特征图,并进行多次卷积和合并。然后在骨干网络中生成一个三层特征图,尺寸为80×80、40×40和20×20(图4a;左)。在骨干网络之后,颈部网络包含一系列的特征融合层,可以混合和组合图像特征。所有由骨干网络产生的不同尺寸的特征图都被融合,以获得更多的上下文信息,减少信息损失。在融合过程中,采用了特征金字塔网络(FPN)和路径聚合网络(PANet)的特征金字塔结构,利用FPN结构将强语义特征从顶部转移到底部特征图。同时,利用PANet将强的定位特征从低层的特征图转移到高层的特征图。总的来说,通过同时使用FPN和PANet,颈部网络的特征融合能力得到了加强(图4a;中间)。最后,检测网络被用来给出检测结果。它由三个检测层组成,相应的输出特征图为80×80、40×40和20×20,用于检测输入图像中的物体。每个检测层最终可以输出一个21个通道向量,然后生成并标记预测的边界框和原始输入图像中目标的类别。目标在原始输入图像中的类别进行最终检测(图4a;右)
此外,YOLOv5的Focus模块可以对图像进行切片和串联(图4b),这是为了减少模型的计算负荷,加快训练过程。它首先可以使用切片操作将输入的3通道图像分成4个片断。使用Concat操作将这四个片断连接起来,然后将一个
然后用卷积层(CONV)来生成输出特征图。图4c给出了骨干网络中一些层/模块的解释,包括CBL和C3,其中CBL是一个标准的卷积模块,由CONV ,批处理组成。其中CBL是一个标准的卷积模块,由CONV、批量归一化(BN)和激活功能的sigmoid线性单元(SiLU)组成;C3是跨阶段部分(CSP)瓶颈,有3个CONV。最初的输入被分成两个分支、 因此,特征图的通道数通过每个分支的CONV操作而减半。每个分支的通道数减半。两个分支的输出特征图再次通过CONV操作连接起来。操作连接起来。C3的最终输出特征图是由CONV生成的。C3被 通过减少模型的大小来提高推理(测试)速度,同时保持 在从图像中提取有用特征方面的理想性能。最后,空间金字塔 池化(SPP)模块被用来通过将任意大小的特征图转换为特征向量来改善感受野。将任意大小的特征图转换成固定大小的特征向量(图4d)。特征图首先被 特征图首先通过核大小为1×1的CONV层输出。输出的特征图通过三个平行的最大集合层进行子采样,然后通过一个CONV 层来输出最终的特征图。
2.2.3 Swin-Transformer和YOLOv5的集成
为了利用Swin-Transformer和YOLOv5,通过用Swin-Transformer编码器块替换原始YOLOv5骨干网络中的最后一个C3层(即,具有CSP瓶颈和三个CONV),集成了两个模型(即,Swin-transformer-YOLOv5或Swin-T-YOOLOv5)(图4a)。由于骨干网络末端的特征图分辨率为20×20,因此在低分辨率特征图上应用Swin transformer可以减少计算负载并节省内存空间
为了全面评估性能,提出的Swin-T-YOLOOv5与Faster R-CNN、YOLOv3、YOLOv4和YOLOv5进行了比较,其中每个模型的训练超参数如表3所示。选择特定的超参数通常是为了保持其通用设置,并满足运行平台的硬件要求。
3.1 Swin-T ransformer-YOLOv5 训练以及验证
使用相同的数据集对所有模型进行训练和验证,以进行全面比较。表4显示了使用先前定义的评估指标的详细比较结果。总的来说,我们提出的Swin-T-YOLOv5优于所有其他测试模型,mAP为97.4%,F1得分为0.96,每张图像的推理速度为13.2毫秒。Swin-T-YOOv5的mAP分别比Faster R-CNN、YOLOv3、YOLOv4和YOLOv5好34.8%、2.1%、3.2%和2.1%。尽管它的推理时间比最初的YOLOv5稍慢(约12%),但它仍然比其他模型快0.6–336.8毫秒/张。此外,P–R曲线(图5)显示,Swin-T-YOLOv5在所有模型中具有最好的性能,因为它在右上角达到了最远的位置(蓝色曲线)。更快的R-CNN(黄色)在测试的模型中表现最差。
3.2 Swin-T ransformer-YOLOv5 模型测试
3.2.1 两种天气条件下的测试
所有模型都在表1所列的不同条件下进行了测试,包括两种天气条件(即晴天和阴天),两个浆果成熟阶段(即未成熟和成熟),以及三种阳光方向/强度(即上午、中午和下午),以验证所提出的Swin-T-YOLOv5的优越性。表5给出了详细的模型比较结果,使用的是霞多丽和梅洛两个葡萄品种在两种天气条件下的测试集。与Faster R-CNN、YOLOv3、YOLOv4和YOLOv5相比,Swin-T-YOLOv5在两种条件下的mAP(95.4-97.2%)和F1分数(0.86-0.89)方面取得了最佳性能。Swin-T-YOLOv5在阴天条件下的表现稍好,与晴天条件下的相同指标相比,mAP(+1.8%)和F1得分(+0.03)更高。虽然Swin-T-YOLOv5的推理速度 (每幅图像13.2ms)不是最好的,它只比YOLOv5慢了1.4ms。
事实证明,Swin-T-YOLOv5在晴朗和多云的天空条件下都优于所有其他测试模型,我们进一步将其与霞多丽和梅洛的手动标记和现场手动计数的地面实况数据(图6)进行了比较。结果显示,当将预测结果与田间和标签计数进行比较时,Swin-T-YOLOv5在两种天气条件下与霞多丽品种表现良好,R2为0.70–0.82,均方根误差RMSE为2.9–5.1(图6a–c)。它在多云条件下也能很好地与Merlot配合使用(图6d),但在晴朗条件下,R2降至0.28–0.36,RMSE增至~7.0(图6b),这表明检测误差更大。附录A中的图A1和A2提供了两种天气条件下的检测结果演示。
3.2.2 两个成熟度阶段的测试
表6给出了详细的比较结果,正如预期的那样,Swin-T-YOLOv5在两个浆果成熟阶段都优于所有其他测试模型,其mAP为90.3–95.9%,F1得分为0.82–0.87。显然,所有检测器在成熟阶段都获得了更好的检测结果,包括Swin-T-YOLOv5(mAP高5.6%,F1得分高0.05),此时浆果更大(即较少的闭塞),并且颜色比背景(如叶子)更明显。与第二好的模型YOLOv5(mAPs为89.8–91.6%)相比,Swin-T-YOOv5在浆果成熟期(+4.3%)性能比未成熟期提高更多。
图7将使用Swin-T-YOLO5预测的葡萄串的具体数量与霞多丽和梅洛手动标记和现场手动计数的实际数据进行了比较。如表6所示,这些成熟浆果的R2较高(0.57–0.89),RMSE较小(2.5–3.9)(图7c,d)。当浆果未成熟时(即白色或白色-红色混合浆果),R2为0.08–0.16,均方根误差为8.6–9.0时,Swin-T-YOLOv5在梅洛上表现不佳(图7b)。附录A中的图A3和A4提供了两个浆果成熟阶段的检测结果证明。
3.2.3 在三个光照方向和光照强度下的测试
所有模型都在三种不同的阳光方向和强度下进行了测试,包括上午(上午8点至9点)、中午(上午11点至下午12点)和下午(下午4点至5点)(表1)。光照强度中午最高,早上最低。具体比较结果见表7。在本研究测试的所有模型中,Swin-T-YOLOv5在任何阳光条件下表现最好,最佳mAP为92.0–94.5%,F1得分为0.83–0.86。同样明显的是,中午的检测结果比早上或下午好,mAP高2.5-2.6%,F1得分高0.01-0.03。此外,YOLOv5仍然表现第二好,除了在中午,Swin-T-YOLOOv5和YOLOv4的mAP分别比它好6.1%和1.7%。
图8提供了通过手动标记和现场手动计数对Swin-T-YOLOv5检测到的葡萄串数量与地面实况数据进行比较的进一步观察结果。对于霞多丽品种,在任何阳光条件下,预测与基本事实之间的一致性(R2的0.55–0.91和均方根误差的2.4–4.7;图8a、c、e)相对优于梅洛品种(R2的0.13–0.70和均方根偏差的5.1–7.1;图8b、d、f)。Merlot在中午的结果最好,R2为0.47–0.70(图8d),而在下午的结果最差,当成像侧与阳光方向相反时,R2仅为0.13–0.29(图8f)。在附录A的图A5和A6中可以找到不同阳光条件下模型性能的视觉比较。
其他参数的对比上文已经提到,这里不做总结。
我们发现,当葡萄束轻微/中度闭塞或聚集时,我们提出的Swin-T-YOLOOv5可以提高葡萄束检测的准确性,这归因于添加到通用YOLOv5中的Swin-Transformer模块。例如,对YOLOv5和Swin-T-YOLOOv5的结果进行比较,葡萄簇的轻微/中度遮荫和重叠可能会导致检测到的边界盒数量方面的检测错误,即图9a、图9b中的低估、图9c中的高估和图9d中的边界盒错位。在这种条件下,Swin-Transformer模块有助于检测符合常识的物体。显然,在骨干网络中引入自我注意机制应该是一个正确的方向。
尽管Swin-T-YOLOv5在各种外部或内部变化下检测葡萄串的表现优于所有其他测试模型,但如图10所示,在几个场景中检测失败(即TNs和FPs)发生得更频繁。例如,严重的遮挡(主要是被树叶遮挡)导致检测失败,这是本研究中出现TNs和FPs的主要原因,如用红色边界框标出,特别是当葡萄串的可见部分很小(图10e,f)或与背景的颜色相似(图10a-c)。此外,成群结队的葡萄 此外,成串的葡萄会导致检测失败,其中两个葡萄串被检测为一个 (图10d)。
这项研究通过在架构上集成YOLOv5和Swin-Transformer,提出了一种在天然葡萄园中优化和实时的葡萄酒葡萄串检测模型,称为Swin-T-YOLOv5。这项研究是在2019年7月4日至2019年9月30日的整个生长季节,在各种测试条件下,包括两种不同的天气/天空条件(即晴天和阴天),对两个不同的葡萄品种霞多丽(成熟时浆果皮的白色)和梅洛(成熟时草莓皮的红色)进行的,两个不同的浆果成熟阶段(即未成熟和成熟),以及三个不同的阳光方向/强度(即上午、中午和下午)。通过将所提出的Swin-T-YOLOv5与其他常用的检测器进行比较,进行了进一步的评估,包括Faster R-CNN、YOLOv3、YOLOv4和YOLOv5。根据获得的结果,可以得出以下结论:
1.验证结果验证了所提出的Swin-T-YOLOv5的先进性,其最佳精确度为98%,召回率为95%,mAP为97%,F1得分为0.96;
2.Swin-T-YOLOv5在本研究的所有测试条件下都优于所有其他研究模型;
3.两种天气条件:在晴朗的日子里,Swin-T-YOLOv5获得了95%的mAP和0.86的F1成绩,分别高达11%和0.22。在阴天,它获得了97%的mAP和0.89的F1分数,分别高达18%和0.17;
4.两个浆果成熟阶段:对于未成熟的浆果,Swin-T-YOLOv5获得了90%的mAP和0.82的F1分数,这两个分数分别高达7%和0.22。成熟浆果的mAP和F1得分分别为96%和0.87,分别高达10%和0.11;
5.三个阳光方向/强度:早上,Swin-T-YOLOv5的mAP和F1得分分别达到92%和0.83,比其他模型高17%和0.18。中午,mAP和F1得分分别达到95%和0.86,比其他模型高8%和0.19;下午,mAP和F1得分分别达到92%和0.85,比其他模型高15%和0.15;
6.当将预测与实际数据(即手动标记和现场手动计数)进行比较时,Swin-T-YOLOv5在霞多丽和梅洛品种上的表现不同。对于霞多丽品种,Swin-T-YOLOv5在几乎所有测试条件下都提供了所需的预测,R2高达0.91,RMSE高达2.4。对于梅洛品种,Swin-T-YOLOv5在几种测试条件下表现更好(例如,成熟浆果的R2为0.70,均方根误差为3.3),而在检测未成熟浆果时表现不佳(R2为0.08,均方根偏差为9.0)。
本研究提出的一种新型葡萄串检测器Swin-T-YOLOv5在检测精度和推理速度方面具有优越性。预计这种集成检测模型可以在智能手机等便携式设备上部署和实施,以帮助酿酒葡萄种植者进行实时精确的葡萄园树冠管理。我们接下来的步骤包括(1)设计和开发前端用户界面(例如,移动应用程序)和后端程序,以运行经过训练的Swin-TYOLOv5模型;(2)在GitHub上建立数字数据集存储库,以进一步扩大专门针对葡萄冠层的图像数据集。
数据可用性声明:本研究分析了公开可用的数据集。期刊接受这份手稿后,可以在这里找到这些数据:https://github.com/LiuXiaoYu2030/The-Grape-Dataset
利益冲突:作者声明没有利益冲突。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。