您好,欢迎来到河南华体会hth体育仪器设备有限公司!
全国咨询热线0371-53370142
河南华体会hth体育仪器设备有限公司

行业新闻

NEWS
基于GPU的数字图像并行处理研究
发布时间:2022-08-02浏览次数:154

  行化处理方法的数字图像并,的关键技术问题:数据加载并对其基本执行流程和其中,等进行了详细论述结果反馈、保存。的卷积运算验证最后通过图像了

   Graphic Process Unit可编程图形处理器(Programmable,遍采用的图形图像处理专用器件PGPU)是目前计算机上普,SIMD)的并行处理特性具有单指令流多数据流(,E32位浮点格式的顶点处理能力和像素处理能力而且提供了完全支持向量操作指令和符合IEE,大的并行计算单元已经成为了一个强。科学计算和可视化应用程序研究人员将其应用于加速,舞的研究成果取得了令人鼓。

  U相比与CP,高效率的数据传输能力[1] [2] [7]GPU具有以下优势:强大的并行处理能力和。中其,、数据级和任务级三个层次并行性主要体现了指令级。GPU与显存之间的带宽为:16GB/s高效率的数据传输主要体现在两个方面: ;带宽为:4GB/s系统内存到显存的。

  所述总上,特性的应用程序:1、大数据量GPU比较适合处理具有下面;并行性2、高;数据耦合3、低;计算密度4、高;U交互比较少5、与CP。

  算法多种多样数字图像处理,的层面来考虑但从数据处理,和目标级处理三个层次[3][4]可以分为:像素级处理、特征级处理。

  级处理像素,产生另一幅像素图像即由一幅像素图像,何的、规则的和局部的处理数据大部分是几。中的数据相关性根据处理过程,点运算、局部运算和全局运算像素级处理又可进一步分为。

  生的一系列特征上进行的操作特征级处理是在像素图像产。理特征、梯度特征和三维特征等常用的特征包括:形状特征、纹,统一的测度一般采用,、方差等如:均值,述和处理来进行描,行并行处理的可能性具有在特征域内进。是但,征意义和非局部特性由于其特征具有象,并行的基础上在局部区域,体进行处理需要对总。化处理的难度比较大利用GPU实现并行。

  特征产生的目标进行操作目标级处理是对由一系列。象征意义和复杂性由于目标信息具有,关知识进行推理通常是利用相,理解、解释以及识别得到对图像的描述、。之间相关性强由于其数据,的知识和人工干预且算法涉及到较多,难度也比较大并行处理的。

  可见由此,利用一个金字塔模型来表示整个图像处理的结构可以。底层在,数据量巨大虽然处理的,之间的相关性小但由于局部数据,识推理和人工干预且较少的涉及知,并行化程度比较高因此大多数算法的。结构向高层移动时当沿着这个金字塔,程度的提高随着抽象,数据减少大量原始,的复杂性逐层提高所需的知识和算法,难度也逐渐加大并行化处理的。

  理算法是在像素级进行的由于绝大部分的图像处,行像素级的图像处理时具有明显的优势且GPU的SIMD并行流式处理在进,据的表达还是从算法自身的实现来说而特征级和目标级处理无论是从数,GPU并行化都很难实现。此因,理操作的GPU并行化实现方法本文重点研究各种像素级图像处。

  段处理器两个可编程并行处理部件现代GPU提供了顶点处理器和片。处理等通用计算任务时在利用GPU执行图像,射到GPU支持的图形绘制流水线上要做的主要工作是把待求解的任务映。颜色、法向量等属性或者纹理等图形绘制要素来表达通常的方法是把计算任务的输入数据用顶点的位置、,分解为一系列的执行步骤而相应的处理算法则被,处理程序或片段处理程序并改写为GPU的顶点,后然,执行图形绘制操作调用3D API,序进行处理调用片段程;后最,结果就是算法的输出数据保存在帧缓存中的绘制,[5][6]如图1所示。

  理算法多种多样虽然数字图像处,程也很不相同具体实现过,进行并行化处理时但是在利用GPU,技术问题需要解决有一些共性的关键,据的加载如:数,反馈、保存等计算结果的。的问题进行分析下面对这些共性,的解决思路并提出相应。

  式编程模型中在GPU的流,流”的形式进行加载处理所有的数据都必须以“, API进行访问并通过抽象的3D。进行图像处理时在利用GPU,是把待处理的图像打包为纹理最直接有效的数据加载方法,进行加载、处理在绘制四边形时。能够逐像素的对纹理图像进行处理同时为了保证GPU上片段程序,设置为正交投影必须将投影变换,与纹理大小相同视点变换的视区,t)和每个纹理单元(texel)一一对应使得光栅化后的每个片段(fragmen。

  法中的其他参数对于图像处理算,据量很小如果数,接口函数进行设置则可以直接通过;数比较多如果参,理的形式传输给GPU也应该将其打包为纹。像所具有的R、G、B、A四个通道在打包的过程中应充分利用纹理图。

  API绘制带纹理的四边形应用程序是通过调用3D ,程序进行图像处理的激活GPU上的片段,接渲染输出是一个帧缓冲区而GPU片段着色器的直,屏幕上的一个窗口它对应着计算机,显示到屏幕的像素传统上用来容纳要,中可以用来保存计算结果但是在GPU流式计算。API直接读写这个帧缓冲区虽然CPU可以通过3D ,中复制到系统内存进行保存将渲染处理的结果从帧缓存,小受窗口大小限制但是帧缓存的大,总线GB/s)而且由于AGP,数据回读操作效率低下从显存到系统内存的。应用是显然不适合的对于大幅影像的处理,结果的保存反馈时特别是在中间计算,GPU性能发挥的最主要瓶颈采用帧缓存方式将成为制约。

  上问题针对以,buffer作为输出缓存笔者利用离线渲染缓存P。L_ARB_pbuffer扩展提供的输出缓存Pbuffer是OpenGL1.3版本的WG,个不可见的数据缓冲区它通过在显存中开辟一,段处理器的输出结果取代帧缓存来保存片。是中间计算数据如果这个结果只,染到纹理的技术还可以采用渲,的数据绑定到一个纹理把Pbuffer中,的片段程序取用供下一遍绘制,系统内存之间的传输减少数据在显存和,PU芯片内部的流转实现整个数据流在G,据的反馈速度显著提高数。U反复执行的情况下特别是在需要GP,Pbuffer可以构造两个,或输出纹理使用交替的作为输入,g-Pong”方法产生所谓的“Pin,算结果的回读操作有效避免中间计。

  数字图像处理局部运算卷积运算是一种常见的,同的卷积核通过选择不,的图像处理效果可以实现不同。运算定义为图像卷积:

  中式,以后的图像为卷积运算;理的图像为待处;积核为卷;常数T为,系数之和不为零时当卷积核中所有,有系数之和T等于所,等于1否则。

  区QucikBird卫星影像第一组为:截取的新加坡部分地,(像素)大小为;

  数据的对比试验为了进行多组,数据进行预处理首先对原始图像,4、521×512、256×256、128×128的试验数据通过裁减获得大小分别为2048×2048、1024×102。

  小的图像进行卷积运算对比试验以经过预处理的10幅不同大,锐化的CPU和GPU程序分别运行卷积平滑和卷积,处理时间并记录。积核h1为式(2)试验所用的平滑卷,2为式(3)锐化卷积核h:

  12的平滑和锐化试验的处理结果图3所示为图像数据二512×5,加速效率对比图图4为GPU。

  :随着图像的增大从图4可以看出,积核的变大特别是卷,效果更加明显GPU的加速,小的图像进行5×5的卷积运算例如:对2048×2048大,达到了8倍多最高加速比。是但,据较小时在图像数,理数据的加载耗费了大量的时间由于OpenGL的初始化和纹,处理的优势消失使得GPU并行,U处理的速度快甚至还没有CP。

  理算法的并行层次进行了简要的介绍本文对GPU的并行性和数字图像处,的GPU并行化实现方法提出了像素级图像处理,键技术:数据的加载并对其基本流程和关,等问题进行了详细论述计算结果的反馈与保存,GPU在数字图像并行化处理方面的强大优势最后通过图像的平滑和锐化的卷积运算证明了。

  术的研究[D].北京:中国科学院研究生院博士论文[1] 柳有权.基于物理的计算机动画及其加速技,0520.

  GPU的数字图像处理[J].科教文汇[2] 谭久宏、周维超、吴钦章.基于,0620,8-1794:17.

  术在遥感数据处理中的应用[J].测绘信息与工程[3] 卢丽君、廖明生、张路.分布式并行计算技,0520,):1-330(3.

  用计算编程技巧(译)[M].北京:清华大学出版社[5] 龚敏敏.GPU精粹2高性能图形芯片和通,0720.

  实时图形权威指南(译)[M].北京:人民邮电出版社[6] 洪伟、刘亚妮、李骑、丁莲珍.Cg教程可编程,:7-102004.

  算的技术、现状及其挑战[J].软件学报[7] 吴恩华.图形处理器用于通用计,0420,华体会hth体育493-150415(10):1.

在线客服
联系电话
全国免费咨询热线 0371-53370142
  • · 专业的设计咨询
  • · 精准的解决方案
  • · 灵活的价格调整
  • · 1对1贴心服务
在线留言
回到顶部