什么是ICPP?
ACM International Conference on Parallel Processing (ICPP)并行处理国际会议是世界上历史最悠久的并行计算学术会议之一,今已经在全球连续举办了50届。它是学术界、工业界、政府的研究人员、科学家和从业人员展示他们在该领域各个方面的最新研究成果的首要论坛。今年,ICPP 2021在线会议在伊利诺伊州芝加哥举行。
ICPP是计算机并行计算领域最有学术影响力的顶级会议之一。今年大会共收到329篇投稿,共接收87篇论文,论文接收率为26.4%。易见纹语科技和美国伊利诺伊大学厄巴纳-香槟分校(UIUC)关于基于GPU分布式系统的的大规模物体纹理识别的论文“Exploring HW/SW Co-Optimizations for Accelerating Large-scale Texture Identification on Distributed GPUs”被大会接收。
2021年8月10日,易见纹语创新技术总监王均松在线上会议做了该论文的专题报告并回答了听众的问题。
此前,易见纹语科技创新性的提出了以物体本身细粒度纹理特征为标识的新一代产品溯源技术,以解决基于数字标签(如二维码、RFID等)的防伪技术容易被篡改的缺点。结合目前的数字化ID技术,可实现物理空间和数字空间的可信的挂钩,做到真正的“一物一纹一码”。但是,针对系统运行过程中的大规模纹理搜索问题,现有的技术无法达到实时性能。
为达到实时搜索性能,论文基于高性能GPU异构计算技术,从硬件加速和算法软件等多个方面进行了系统性的优化。在同样的硬件条件下,相比于OpenCV的开源实现,系统容量提升了20倍,搜索速度提升了31倍。
论文从4个方面进行了优化:
1. 专用于2-最近邻算法的高度优化的 cuBLAS 实现并使用半精度浮点格式 (PF16)进行了优化,成功地提高了速度并减少了内存占用。该技术使得搜索容量加倍,速度提升了3.7倍。
2. 参考特征矩阵的批处理,有助于增加矩阵乘法期间的数据重用机会,以便更好的发挥GPU的并行处理特征,打破内存强的限制。并将传统的SIFT算法改为RootSIFT算法以简化算法的执行过程。该技术使得搜索速度提升了8-10倍。
3. 一种混合缓存设计,利用 GPU的显存作为“一级缓存”和主机内存作为“二级缓存”来显着扩大内存容量,以存储参考特征矩阵。利用多个CUDA流来重叠计算和传输时间,使得混合缓存导致的搜索速度下降最小化。利用该技术使得容量上提升了近5倍,但是速度上的下降只有8.4%。
4. 采用非对称局部特征来减少内存占用。通过应用这种方法,我们从参考纹理图像中捕获了更少的特征,而从查询纹理图像捕获了更多的特征,而不是将这两部分保持相等。它为更大规模的设计节省了内存空间,提高了搜索速度,而不会牺牲明显的准确性。该技术使我们在只损失0.28%的精度下,容量实现了翻倍,同时速度又提升了34.6%。
最终,我们在生产系统中部署了一个分布式纹理识别系统,采用14个 Tesla P100 GPU的分布式计算集群。上述提出的硬件/软件协同优化策略,该系统的容量可以提升到千万级别,其搜索速度可以达到每秒百万张图像。我们还提供 RESTful API共业务系统集成调用。
目前,易见纹语科技已将纹理识别系统运用到多个农产品上,不断优化大规模纹理识别的算法和硬件加速性能,利用农企可以用数据进行AI图像分析,对农作物进行种植管理分析,通过数字科技赋能。帮助农产品企业提高生产管理效率、提升产品质量追溯能力、扩大品牌和市场营销能力,为农产品的发展提供了新的发展方向,向数字化转型。