视觉算法工程师的主要职责(共15篇)
1.视觉算法工程师的主要职责 篇一
职责:
1. 针对室内场景,设计并实现手势识别和控制算法;
2. 针对室内场景,设计并实现人体语义分割,姿态识别,动作相似度匹配算法;
3. 针对嵌入式设备, 优化算法和模型。
任职资格:
1. 硕士及以上学历,计算机、自动化、电子信息、通信工程等相关专业;
2. 熟悉常用的图像处理算法原理及应用,有人工智能、深度学习相关项目经验;
3. 有体感类相关产品开发经验优先;
4. 有深度学习模型开发经验,实现过DNN、LSTM、CNN等神经网络者优先;
5. 扎实的C/C++、Python 编程基础,熟悉OpenCV、OpenCL,熟悉Linux平台。
2.视觉算法工程师的主要职责 篇二
1 新算法整体流程
针对上述问题,本文提出了一种新的三维人脸识别算法,其算法流程图如图1 所示。与传统三维人脸识别算法相比,该算法以结构简单的双目立体视觉系统为基础,通过调整左、右摄像机与人脸的相对位置,完成人脸的二维图像采集,从而能经济、高效地完成图像采集; 识别过程中,利用主动形状模型( Active Shape Model,ASM) 技术对二维图像进行二维特征点自动定位,并结合摄像机的内外参数得出特征点的三维坐标,从而避免了复杂的人脸三维重建; 最后利用反向传播( Back Propagation,BP) 神经网络进行识别,获得了较高的正确识别率。
2 二维特征点标定
在提取特征点之前,先根据肤色等信息对双目视觉系统获得的左右人脸图像进行人脸区域提取,然后利用极线变换[7]对图像进行校正,并对校正后的左、右图像进行特征点定位,将确定好的人脸区域作为初始位置,最后还要利用ASM技术[8]进行特征提取,左右每幅图像上分别提取76 个特征点。双目立体视觉系统获得图像经过上述极线校正、特征定位及特征提取后的图像如图2 所示,其中,特征点用线段连接起来,图2a、图2b分别表示左、右图像提取的特征点。
特征点提取后,可以得到这76 个特征点的图像像素坐标,表1 描述了部分特征点的像素坐标。由表1 可知,经过图像校正后,左右图像中的特征点的纵坐标位置基本一致,也就是说经过极线校正后,特征点的视差信息可以直接由左右图像的横坐标之差求出。
3 三维特征提取
3. 1 特征点三维信息恢复
为了克服二维人脸识别易受环境、姿态、表情等因素影响的缺点,将提取的特征点进行三维信息恢复,由于特征点三维恢复的最终目的是实现三维人脸识别,因而只需对人脸面部关键特征点进行三维信息恢复。根据双目立体视觉原理计算相应的三维空间坐标信息[9],其原理如图3 所示,图中b是基线距离,即摄像机光心Cl与Cr之间的距离,f是摄像机的焦距,P( X,Y,Z) 为空间点,设该空间点在左右摄像机坐标系中的坐标分别为( x1,y1,z1) 和( x2,y2,z2) ,在左右平面上对应的像素坐标为( u1,v1) 和( u2,v2) ,则视差d = u1- u2,根据三角测量原理和2 个摄像机的关系,有
空间点的三维坐标,可表示为
由张正友标定法[10]确定摄像机焦距等参数,并测出基线距离,然后根据式(2),可以计算出空间点三维坐标信息,从而得到所求的人脸面部关键特征点的三维信息。
3.2构造三维特征
通过人脸关键部位的特征点的位置,如鼻尖、眼角等的位置,提取三维人脸上的直线距离特征、角度特征、人脸比例特征、周长特征、曲线特征、体积特征以及表面积特征等几何特征,从而形成一个20 维几何特征向量,用于对三维人脸的识别。下面分别描述这些特征及其构造。
1) 距离特征
距离特征主要包括距离矩阵和局部特征点的曲线距离,选两点的欧氏距离作为其三维特征点之间的直线距离,曲线距离则使用分段计算两点之间的距离,然后求得近似模拟曲线距离。所选取的曲线距离有“鼻根点—鼻尖点—鼻下点”和“左鼻翼点—鼻尖点—右鼻翼点”的曲线距离。具体计算过程为
式中: ( xi,yi,zi) 和( xj,yj,zj) 分别表示参与计算的两个特征点的三维坐标。
2)角度特征的表示与度量
人脸上的一些部位之间的角度特征受外界的影响较小,因此可以提取这些角度特征来进行识别。该计算主要是基于余弦定理,具体计算过程为
式中: p1( x1,y1,z1) ,p2( x2,y2,z2) 和p3( x3,y3,z3) 为所选3 个人脸特征点的三维坐标。这类几何特征可以为眼睛内外、眼角与鼻尖之间的角度,鼻根到鼻尖再到鼻下点的距离等。
3) 比例特征的表示与度量
根据人脸美学得知,面部长度大概是鼻子长度的3. 5倍,面部宽度大概是左右眼角直线距离的5 倍,将面部长度和宽度之比作为人脸的长宽比例。这个几何特征可以度量不同人脸的形状,并应用于人脸的识别。
4) 周长特征的表示与度量
这类特征主要是计算鼻子XY和YZ剖面周长,这里主要是基于两点欧氏距离来计算。
5) 面积特征的表示与度量
面积特征是计算特定人脸区域的表面积,可用海伦公式表示如下
式中: p1,p2,p3分别为p1( x1,y1,z1) ,p2( x2,y2,z2) 和p3( x3,y3,z3) 的简写,表示为3 个特征点的三维坐标; s为这3 个特征点所围成的区域面积。
6) 体积特征的表示与度量
体积特征主要用于计算鼻子的体积,计算式如下
式中: S为鼻子的XY剖面面积; h为鼻子高度。而鼻子的高度的计算则如下,设鼻尖的坐标为( x1,y1,z1) ,鼻根的坐标为( x2,y2,z2) ,鼻下点的坐标为( x3,y3,z3) ,可以建立鼻根点和鼻下点所组成的直线方程
式中: A = z2- z3,B = y3- y2,C = y2( z3- z2) - z2( y3-y2) 。则鼻子的高度可以认为是鼻尖点到式( 8) 所代表的直线距离,则鼻子的高度公式为
4 基于BP神经网络的三维人脸识别
采用“误差反向传播”学习的BP网络,它可以对任意形状的观察向量集合进行正确地分类,其应用十分广泛。BP神经网络结构如图4 所示。假设输入输出对是( xk,yk) ,其中,xk= ( xk1,xk2,…,xkn)T,为第k个输入人脸特征向量; yk= ( yk1,yk2,…,ykn)T为第k个样本的期望输出。
将3. 2 节构造的20 维几何特征向量作为BP神经网络的输入,中间层采样15 个节点,输出层为判决结果。利用梯度下降法,根据已知人脸样本对神经网络中权系数进行训练,训练结果即可对人脸进行识别测试。
5 实验结果及分析
为了检测提出算法的性能,采用本文算法建立的三维人脸数据库与Bosphorus大学提供的3D人脸数据库[11]对算法进行测评。其中,Bosphorus 3D人脸数据库是采用基于结构光的三维扫描仪对人脸进行采集,里面包括表情变化的数据。该库提供了对应的三维人脸的24 个特征点位置,这些位置都是由受过专业培训的人员进行手工标记得到的。在实验中使用了除左右耳垂点两个特征点之外的22 个特征点。Bosphorus 3D人脸数据库部分人脸模型如图5 所示。本文算法自建的三维人脸数据库中包含30 个人脸信息,每个人脸拍摄15 组人脸数据,数据包括部分表情的变化。取其中10 组共300 张人脸数据作为BP神经网络训练样本集,然后取其余5 组共150 张人脸数据作为测试集。图6 描述了本文自建数据库采用的部分二维图像对。
对上面2 个三维人脸数据库,利用相同的特征,采用最近距离分类法和本文的BP神经网络分类法进行识别比较,表2 描述了2 种识别方法对2 种数据库进行识别比较的结果。由表2 可知,对同一数据库利用相同的特征,用本文的BP神经网络识别法比用最近距离识别法正确识别率高。由于Bosphorus数据库是通过结构光三维扫描仪获得的,并用人工标注特征点,三维人脸坐标相对较精确,因此采用相同的识别法对2 个数据库进行识别,Bosphorus数据库正确识别率要高于本文自建的数据库的正确识别率,但该数据库的获取代价大,且工序繁琐; 尽管采用相同的识别法,本文自建人脸数据库正确识别率略低于采用Bosphorus数据库,但其正确识别率达到了90% 左右,能满足实际的需要,且本文算法简单、经济。
6 结论
本文提出了基于双目视觉三维人脸识别算法,该算法以结构简单的双目立体视觉系统对人脸进行采集,使采集过程友好、简单、快捷; 在识别过程中,利用ASM技术对二维图像进行二维特征点自动定位,并结合摄像机的内外参数得出特征点的三维坐标,从而避免了复杂的人脸三维重建; 并利用BP神经网络进行识别,使正确识别率得到了提高。利用相同的特征,用最近距离分类法和本文的BP神经网络分类法,对本文建立的数据库和Bosphorus数据库进行识别比较,发现本文算法简单快捷,是一种经济、实用的三维人脸图像识别算法。
摘要:针对传统三维人脸识别算法的复杂性,提出了一种新的三维人脸识别算法。该算法以双目立体视觉系统为基础,通过调整左、右摄像机与人脸的相对位置,完成人脸二维图像的采集,然后利用主动形状模型(Active Shape Model,ASM)技术对采集的二维图像进行特征点自动定位,并结合摄像机的内外参数得出特征点的三维坐标,从而避免了复杂的人脸三维重建;再利用人脸关键特征点的三维信息计算特征点距离矩阵,提取三维人脸几何特征;最后利用反向传播神经网络进行识别。实验结果表明,该算法简捷、快速,且具有较高的正确识别率,是一种经济、实用的三维人脸识别算法。
3.视觉算法工程师的岗位职责 篇三
1、 根据公司产品和业务需求,进行相关图像算法的研究和开发。
2、 根据图像处理项目具体要求,承担开发任务,制作开发计划,并按计划完成任务目标。
3、 完成图像算法相关的需求调研与需求分析及设计。
4、 负责视觉检测系统的维护、调试、升级等。
5、 图像算法优化、模块化。
6、 相关算法文档的编写。
任职要求:
1、 计算机、电子信息、自动化、模式识别及相关专业,本科及以上学历;
2、 具备扎实的图像处理理论和算法基础,掌握OpenCV,Halcon等图像处理库;掌握特征提取,SURF,滤波,增强,分割算法,具备优化算法的能力;
3、精通图像处理常用算法原理,熟悉实现方式,包括:图像预处理算法和高级处理算法。
4、 参与过机器视觉或图像处理方面项目经验,具有较强的C、C++、C#等编程语言编码经验,熟练掌握opencv或halcon算法库。
5、 有实际工程项目开发经验者优先(OCR,仪表识别,位置状态识别,人脸识别等)。
4.视觉算法工程师的工作职责 篇四
· 针对任务需求,完成相关图像处理算法、机器视觉算法的开发与实现;
· 图像智能分析算法的开发,主要为物体检测、识别和跟踪;
· 基于智能机器人应用的机器视觉处理算法开发;
任职条件:
· 计算机、自动化、数学等相关专业研究生以上学历;
· 掌握数学图像处理常用方法;
· 精通c/c++、python语言,熟悉OpenCV、caffe、pytorch等框架;
· 具有良好的数学基础及编程习惯,对机器视觉、图像处理、算法开发等有强烈兴趣,意向在此领域发展;
5.算法工程师的主要职责 篇五
1、环境建模
根据设计的机器人方案,构建机器人的运动学模型、观测模型等概率学模型;
2、slam算法研发
研究基于多线激光雷达的slam算法,包括特征提取、数据关联、闭环检测等相关算法的开发;
3、定位算法研发
研究基于多线激光雷达的定位算法,包括机器人的实时全局定位、局部位姿跟踪等算法的开发;
4、导航算法研发
包括单目标点、多目标点的全局路径规划算法,局部运动控制算法,全局代价地图构建算法,地面障碍物检测等相关算法的开发;
5、负责算法的移植和产品化。
算法工程师的主要职责2
职责:
1、负责面向大数据的数据分析、信控类、评价类算法研发与技术路线规划;
2、负责算法类软件产品的原型设计研发;
3、负责大数据、人工智能相关算法的预研及知识产权沉淀;
4、负责承担算法类相关项目的需求设计、落地、实施、交付。
任职资格:
1、___年以上交通相关算法或交通相关软件产品的设计研发经历;
2、具备良好的产品、算法需求分析能力,能够按照需求进行相关产品、算法设计;
3、熟悉算法设计的流程,掌握C++、Java或python其中一种编程语言,对特定算法能用计算机语言进行仿真实现;
4、具备较强的独立处理问题的能力,思维清晰、表达能力较强;
算法工程师的主要职责3
职责:
1、参与光电传感相关工程试验并进行数据分析;
2、分布式光纤传感批量数据处理;
3、数学物理算法的逻辑与功能设计,程序测试;
4、研发项目开展与相关资料编写;
任职要求:
1、熟练掌握数据分析基础数学及一门编程工具;
2、两年以上算法设计与数据分析工作经验;
3、硕士学位,物理、数学、光学等相关专业;
4、熟悉分布式光纤传感系统者优先;
5、有C++等编写应用软件经历优先;
6、具备工作责任感、技术沟通能力。
算法工程师的主要职责4
职责:
1.负责用户画像,商品画像,智能推荐等技术研发;
2.负责为特定业务场景设计并实现高质量的基础特征(实体,类别,画像标签等);
3.负责海量业务数据的处理、分析和挖掘工作,建立用户/商品标签系统,为产品运营决策提供有效支撑;
任职要求:
___本科以上学历,___年以上算法模型或数据挖掘经验,优秀者(高学历/竞赛获奖者)可放宽要求;
2.有出色的数学建模能力以及工程化能力,至少熟悉Java/Scala/Python/C++等一门编程语言;
3.熟悉基础的机器学习算法(LR/GBDT/SVM/FM/XGboost等),有实际落地项目经验;
4.有丰富的特征工程/画像体系建设经验,以及用户RFM模型等项目实施经验。
算法工程师的主要职责5
职责:
1、负责信号增强、信号识别、信号模型等信号处理方法的研究;
2、负责信号品质评价研究,进行算法性能验证,评估系统方案;
3、跟踪国内外算法的前沿技术,对公司产品提出改进建议;
4、协同研发团队完成产品和软件的具体开发工作。
任职要求:
1、数字信号处理,通信、应用数学、应用物理专业,本科或研究生学历,___年工作经验;
2、熟练掌握通信原理知识,精通信号处理的相关算法研究,对常用的信号算法有算法设计和仿真及调试经验
;
3、主动学习、善于钻研,勇于接受有挑战的工作,具有较强的算法实现、调试和优化能力;
4、良好的英文资料阅读能力,良好的团队合作精神;
6.基于双目视觉的障碍物检测算法 篇六
1 双目视觉模型
双目视觉系统模型如图1所示,左右摄像机处于同一高度h。其中,P(XW,YW,ZW)T为世界坐标系RW中的任意一点,Ol和OR分别为双目视觉系统左右镜头中心,b为双目摄像机的基线长度,Rcl和Rcr分别为左右摄像机坐标系。设世界坐标系中的P(XW,YW,ZW)T点通过左右摄像机分别投影到左图像平面的Pl(ul,vl)点和右图像平面的Pr(ur,vr)点。摄像机内参数焦距为f,像素尺寸为(Su,Sv),根据摄像机的规格,有Su=Sv=S。经过双目视觉系统极线校正后,有vr=vl=v,设双目视觉系统摄像机光轴与水平面的夹角为θ,投影图像平面的中心点为(uo,vo),并令q=f/s,则有
则视差为
在匹配准则的约束下,对双目图像所有像素点进行立体匹配,可获取浓密视差图。由式(4)可知,在视差图中的灰度值可表征景物与摄像机的距离,其值越大,表示距离越近,反之越远。
2 障碍物检测
本文的障碍物检测方法分为计算U-视差、障碍物提取和障碍物定位三大步骤,具体实现流程图如图2所示。
2.1 计算U-视差
以D作为最大视差搜索范围,采用基于区域的立体匹配方法获得视差图为I0(i,j,d),其中i和j分别为I0的行和列坐标,d为对应的视差值。针对视差图I0(i,j,d)生成的U-视差图U_I0,其行坐标表示视差级数,列坐标意义不变,U_I0的像素值U_I0(x,y)为统计视差图中第y列具有视差为x的个数,计算式为
式中:m为视差图I的高度,通过上式计算得到的U_I0的宽与I0的宽相同,高为D+1。U_I0图像的实质是将视差图I0中与摄像机距离相同的景物的二维平面信息投影成线段。
2.2 障碍物提取
在高精度立体匹配下,垂直于道路水平面的障碍物,如前方汽车、行人、树木等,由于其在图像的各像素点与摄像机距离相同,则在视差图中同列的视差值d也相同,因此其U_I0中对应部分具有较高的灰度值,而道路面像素点在同一列中的视差值分散,故投影到U_I0中对应部分的灰度值较低,因此在U_I0中设定阈值可以将障碍物和道路区域进行分割,之后在I0中提取障碍物区域。
为获得良好的分割效果,采用双阈值T1和T2(T1>T2)在U_I0中分割,具体算法为:扫描U_I0,若U_I0(x,y)>T1的像素点标记为障碍物类,若U_I0(x,y)
2.3 障碍物定位
由U-视差图(V-视差图)的计算原理可知,提取获得的障碍物在U-视差图(V-视差图)中的宽(高)边界即为相应横向(纵向)线段的长度。为准确定位视差图中的障碍物,对视差图I1分别计算U-视差图U_I2和V-视差图V_I。由于存在误匹配的影响,需设置灰度阈值提取U_I2和V_I中的有效线段,并设置距离阈值合并相应线段与舍弃干扰线段。最终定位方法是:以列为单位由左至右顺序扫描V_I,若第n列存在线段,则查找U_I2中第n行中相关线段确定障碍物的数量(U_I2第n行中线段数量)、位置及相应的宽、高边界。该方法的思想是按视差由小至大地逐步查找距离摄像机由远及近的各障碍物。
3 实验结果与分析
为验证算法的有效性,对180组障碍物双目图像在MATLAB7.0下进行了仿真测试。硬件环境为:内存2 Gbyte,主频2.2 GHz,CPU为Intel Pentium Dual-Core T4400。实验中获取的视差图大小为320×150,最大视差搜索范围D=30。由于在障碍物提取步骤中的效果较大程度地影响检测效果,对采用单阈值(12)与本文的双阈值(15,10)方法在U-视差图中提取障碍物进行了测试与统计。定义误判率为:道路像素误判为障碍物像素与障碍物像素误判为道路像素的个数和占图像总像素的比率。本文方法的误判率降低约50%,部分图像组的误判率如表1所示。
%
选取一组双目图像的算法实现过程进行说明,第36组右图及其获取的视差图I0、U-视差图U_I0如图3所示。两种方法的误判结果如图4所示。由白色矩形圈出道路像素误判为障碍物像素,白色空心圆圈出障碍物误判为道路像素。
文献[5,6,7]的方法主要是通过视差图分别计算V-视差图和U-视差图,采用Hough变换等直线检测方法提取V-视差图中的道路相关线,并将V-视差图上检测出的障碍物相关线投影到道路相关线上,再结合U-视差图提取出的障碍物相关线进行障碍物进行检测。针对汽车前方障碍物占图像宽度比例相对较大的双目图像,如图3a所示,前方除护栏、对向汽车外,树木作为障碍物,其所处位置的宽度几乎占满了整幅图像宽幅,采用文献[5,6,7]的方法与本文方法对80幅类似图像组进行了仿真实验。以图3a的原图为例的2种方法检测过程和效果对比如图5所示,文献[5,6,7]的方法在V-视差图的道路与障碍物相关线提取效果、在U-视差图的障碍物相关线提取效果如图5a、图5c所示,本文方法在移除道路视差后的V-视差图、U-视差图的障碍物相关线提取效果如图5b、图5d所示。图5a中白色竖线为提取的障碍物相关线,而白色斜线为道路相关线,显然,提取的道路相关线已经偏离了实际的道路范围,从而导致后续的障碍物检测失败。文献[5,6,7]的方法与本文方法的最终检测效果如图5e、图5f所示,图中纯黑色部分为检测出的道路,而其他部分为障碍物,误检测部分由白色圆圈出。实验结果表明,在该类图像的检测中,文献[5,6,7]的方法均出现大量的误检,而本文方法误检较少,检测效果良好。
4 结束语
本文提出一种基于立体视觉的U-视差和V-视差的汽车前方障碍物检测新方法。先计算U-视差提取障碍物后,再在原视差图移除道路部分,通过计算V-视差和U-视差并结合起来实现障碍物的检测。实验结果表明,该方法在各种情况特别是前方障碍物占图像宽度比例相对较大的情况下,误检测率低,检测效果良好。该方法可为ADAS的障碍物分类和跟踪任务提供参考。
摘要:针对在前方障碍物占图像宽度比例相对较大的情况下,利用V-视差提取道路再检测障碍物的各类方法误检测率较高的问题,提出一种障碍物检测新算法。首先计算U-视差并采用双阈值算法将道路和障碍物分类,然后结合原视差图移除道路部分后形成新视差图,再计算V-视差和U-视差并分别提取障碍物相关线,最终实现障碍物的检测。实验结果表明,该方法 检测效果良好,特别在前述情况下,较同类方法误检测率低。
关键词:障碍物,检测,V-视差,U-视差
参考文献
[1]ZHAO J,WHITTY M,KATUPITIYA J.Detection of non-flat ground surfaces using V-Disparity images[C]//Proc.the 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems.[S.l.]:IEEE Press,2009:4584-4589.
[2]IOANNIS K,LAZAROS N,ANTONIOS G.Supervised traversability learning for robot navigation[C]//Proc.the 12th Annual Conference on Towards Autonomous Robotic Systems.[S.l.]:IEEE Press,2011:289-298.
[3]何少佳,刘子扬,史剑清.基于单目视觉的室内机器人障碍物检测方案[J].计算机应用,2012,32(9):2556-2559.
[4]杨建荣,曲仕茹.基于单目视觉的障碍物检测方法研究[J].计算机仿真,2009,26(2):279-281.
[5]GAO Yuan,AI Xiao,RARITY J,et al.Obstacle detection with 3D camera using U-V-Disparity[C]//Proc.2011 7th International Workshop on Systems,Signal Processing and their Applications(WOSSPA).[S.l.]:IEEE Press,2011:239-242.
[6]SACH L T,ATSUTA K,HAMAMOTO K,et al.A robust road profile estimation method for low texture stereo images[C]//Proc.2009 16th IEEE International Conference on Image Processing(ICIP).[S.l.]:IEEE Press,2009:4273-4276.
[7]SOQUET N,AUBERT D,HAUTIERE N.Road segmentation supervised by an extended V-Disparity algorithm for autonomous navigation[C]//Proc.2007 IEEE Intelligent Vehicles Symposium.[S.l.]:IEEE Press,2007:160-165.
7.高级算法工程师的主要职责说明 篇七
1、分析,跟踪业务组的需求,对需求进行数学建模,并设计算法进行求解。
2、实现和优化现有数学模型和算法。
3、指定规范,编写相关文档。
4、指导和协助开发人员高效准确的实现算法。
职位要求:
1、硕士及其以上学历,计算机科学或应用数学专业,且研究方向为运筹学算法(优先考虑);
2、具有扎实的数学理论基础。对线性规划、整数规划等问题有自己的理解。
3、熟悉数据结构和算法。
4、熟悉路径规划、任务分配等问题的建模和求解。
5、较强的工程能力,熟悉Python,java, C/C++等主流语言,熟练使用cplex,lingo、google or tools等优化求解工具。
8.食品研发工程师的主要职责 篇八
1、负责半成品类产品(半成品、准成品)的研发工作;
2、负责产品研发后的试产及量产、产品生产过程的控制(安全管理),分析解决异常技术问题;
3、负责制定、整理相关的文件指标、工艺流程文件等;
4、给工厂提供必要的技术支持。
职位要求
1.三年以上半成品研发工作经验;有将成品菜品转化为半成品菜品的成功案例;
2.熟悉半成品研发的操作流程和工艺的设定,能够独立开展并完成研发任务;
3.对食品制作、品尝、研发感兴趣,有一定动手制作能力;
4.具备较强的沟通能力与分析能力,有一定解决问题能力,创新能力,试验设计能力;
9.视觉算法工程师的主要职责 篇九
经过阈值分割的二值图像,其目标被分割成彼此分离的连通区域,对连通区域的标记在机器视觉领域里是一种非常重要的处理方法。连通区域标记过程就是要寻找图像中所有的目标对象,并且将属于同一目标对象的所有像素用唯一的标记值进行标记[1]。因此,通过某种方法把各个连通区域区分开来,分别研究各个连通区域的性质,是提取图像特征及进行目标检测和识别的重要一步。
本文提出了一种顺序扫描二值图像进行标记的算法。首先,分析了在扫描标记过程中由于连通区域的形状不规则引起的标记冲突,并建立了标记冲突模型;然后,在标记算法中增加回溯扫描算法对选择的两种典型情况的标记冲突进行处理[2]。实验证明,该算法可以准确标记出各种形状的连通区域。
1 顺序扫描标记算法中的标记冲突
设经过阈值分割的二值图像背景点的像素值为BJ,目标点的像素值为MB,扫描图像的方向为从左到右、从下到上,即从图像的左下端开始。dq代表当前扫描点(坐标为(i,j))和它的像素值,lt,tt,rt,ll,rr,lb,bb,rb分别代表与dq相连通的8邻域的像素左上、上、右上、左、右、左下、下、右下点及其像素值,各点具体的位置与坐标如表1所示。
顺序扫描标记法的思路是:从图像左下端点开始扫描,如果dq点的像素值为BJ,继续扫描;如果点dq的像素值为MB,则检查已经扫描过的ll,lb,bb,rb等4点的像素值,设tag为像素点的标记初值(初始值设为2),先做以下两种处理:
1) 如果ll,lb,bb,rb的像素值皆为背景色BJ,即扫描过的周围点没有被标记过,认为当前点dq为连通区域的第1个被扫描的点,则将标记为tag,即dq=tag,然后tag自动加1;
2) 如果ll,lb,bb,rb的像素值不全是背景色BJ,即ll,lb,bb,rb部分(或全部)被标记,且标记值相同,设为tagi,认为当前点和周围点属于同一个连通区域,则将dq点标记为此标记值,即dq= tagi。
上述处理是为了保证相邻像素点的标记值相同,但在扫描的过程中,会出现ll,lb,bb,rb不同标记值的情况。如图1和图3所示,原图像A和B本来分别只有一个连通区,但经顺序扫描标记后出现如图2和图4所示的标记冲突,其中BJ=0(省略),MB=1,2,3为标记值,导致同一个连通区域内出现不同的标记值,即出现标记冲突。它破坏了连通区域的连通性,也为后续处理带来了困难,为实现区分连通区域的目的,标记冲突必须消除。
2 回溯扫描算法
图2和图4标记突的出现,都是由于当dq=MB,并且ll=lb=bb=rb=BJ时,在同一个连通区域产生新的标记值而形成的,要直接从根源上消除标记冲突,比较困难。间接解决相对较易,当dq=MB并且周围的标记值不同(即标记冲突出现)时,增加回溯扫描算法,把错误的标记值修正为同一个连通区域的最初标记值,可实现连通区域的准确标记[3]。即在上述顺序扫描处理的基础上,增加回溯扫描处理。
如果dq点的ll,lb,bb,rb各点的像素值不全是背景色BJ,即ll,lb,bb,rb都被标记或者部分标记,但标记值不同,设为tag1,tag2 ,tag3 ,tag4,且tag1≤tag2 ≤tag3 ≤tag4,增加回溯扫描算法修改各标记值为tag1,并将dq点标记为此标记值,即dq= tag1[4]。
2.1 当ll和rb出现标记冲突时的回溯扫描算法
图2的标记冲突属于ll和rb标记冲突的一种情况,即lb=BJ,bb=BJ,ll≠BJ,rb≠BJ,且ll>rb;图5所示为更一般的此种情况的标记冲突的模型,图5中BJ=0(省略),MB=1,a和b为标记值,显然b>a;图4的标记冲突属于ll和rb标记冲突的另一种情况,即lb=BJ,bb=BJ,ll≠BJ,rb≠BJ,且ll
3 实验与分析
随着图像采集和处理技术的发展,利用计算机视觉进行玉米种子的质量检测逐渐受到人们的重视[5]。如何快速、准确地提取玉米种子的外形轮廓是进行玉米种子等级评定的一个重要环节[6]。在VC环境下,利用上述标记算法,对采集到的玉米种子图像进行试验。结果表明,该算法可以很好地消除标记冲突,准确地标出图像中任何形状的各个连通区域,如图9和图10所示。
4 结论
1) 利用顺序扫描标记法进行区域标记时,标记冲突现象经常出现。本文提出了回溯扫描算法,该算法在标记冲突出现时立即进行回溯扫描,对引起误差的标记值进行及时修改,从而在一定程度上减少了算法重复扫描的次数,提高了算法的运行效率。
2) 利用该算法对玉米种子图像进行处理试验,结果表明:算法能够准确标记任意复杂形状的连通区域,扩展上述算法,还可以通过计算不同标记值的个数得到玉米种子的个数,通过扫描特定标记值得到特定的连通区域的特征,从而对玉米种子的特征做出更多的判断(如面积、尖端定位、长轴和短轴等),为玉米种子图像的进一步处理铺平了道路。因此,该算法具有良好的应用前景。
摘要:在分析已有区域标记算法的基础上,提出了一种新的二值图像连通区域准确标记算法。顺序扫描和标记二值图像的各个像素点,准确判断标记过程中出现的标记冲突,并建立标记冲突的模型,在算法中增加回溯扫描算法,消除标记冲突引起的标记误差。实验证明:该算法可以准确地标记出各种形状的连通区域,与已有算法相比,扫描重复率低,运行准确,速度快,具有很好的应用前景。
关键词:种子质量检测,机器视觉,算法,二值图像,模型
参考文献
[1]徐利华,陈早生.二值图像中的游程编码区域标记[J].光电工程,2004,31(6):63-65.
[2]苑玮琦,张田文.血细胞图像的计数方法研究[J].计算机应用与软件,2000(5):61-64.
[3]张树生.一种基于线的标号传播二值图像连通体快速检测方法[J].计算机研究与发展,1994,31(10):51-54.
[4]崔屹.数字图像处理技术与应用[M].北京:电子工业出版社,1997.
[5]刘中合,李邦明,刘贤喜.基于图像处理的玉米质量检测技术研究[J].饲料工业,2006,17(9):22-25.
10.系统架构工程师的主要职责概述 篇十
1. 负责基础架构服务平台、服务组件的整体设计、技术迭代选型;
2. 负责技术架构管理,参与制定开发规范、技术标准并编写相应的技术文档;
3. 负责技术问题的攻关,系统优化,协助解决业务系统开发过程中的技术难题;
4. 负责制定基础架构服务平台、服务组件的开发计划以及跟踪;
5. 负责对基础架构服务平台、服务组件使用情况跟踪、监控以及问题的解决;
6. 负责前沿技术发展研究,积极了解相关新技术及发展趋势,参与规划未来技术架构方向。
任职要求:
1、全日制本科及以上学历,计算机科学与技术,计算机软件等相关专业;
2、6年以上JAVA开发经验,2年以上平台架构设计经验,对于开源产品架构及源代码有所研究;
3、具备良好的架构设计和技术指导能力,深入了解JAVA开发工具及主流开发框架,熟悉主流技术架构;
4、深入了解服务化架构,以及基于服务化架构的服务治理、监控、测试,具有大型分布式系统的平台架构设计能力;
5、熟悉RPC通信、异步处理、多线程、分布式、缓存、负载均衡、消息队列等互联网场景中涉及到技术的设计和应用;
11.PHP开发工程师的主要职责 篇十一
1、负责快速迭代产品线开发、升级、维护;
2、参与或主导需求分析,并实现新需求(功能);
3、独立或分组进行项目分解开发及优化;
4、负责核心功能板块开发;
5、独立解决技术难题,及时定位并驱动落实。
任职要求:
1、计算机相关专业专科及以上学历,3年以上开发经验;
2、熟练掌握PHP语言知识,至少熟练使用一个流行框架TP5、Laraval、Phalcon;
3、熟练掌握MySQL数据库操作、熟练使用存储过程、事务;
4、熟练完成第三方接口接入,微信、支付宝、短信、云存储等;
5、熟练使用git、SVN等开发工具,掌握Linux环境操作;
12.视觉算法工程师的主要职责 篇十二
由于视频传感节点计算能力、内存容量、耗电量都受限,需要一种编码器功耗低、复杂度低且具有较高的压缩效率的编码方案。然而,目前传统的视频压缩标准采用的是运动估计预测编码,这使得编码器的复杂度是解码器的5至10倍以上,不再适用于无线多媒体传感器网络。分布式视频编码(Distributed Video Coding,简称DVC)与传统视频编码方式刚好相反,它采用独立编码、联合解码,将复杂的运动估计从编码端转移到解码端,很大程度上简化了编码器的复杂度。
DVC的思想基础是Slepian-Wolf理论和Wyner-Ziv理论。Slepian和Wolf证明了对于两个统计相关的信源在无损编码的情况下,进行独立编码联合解码时的性能与联合编解码的性能接近[1]。后来,Wyner和Ziv将此理论拓展到解码端带有边信息的有损编码的情形下[2]。在DVC中,边信息与原始帧之间的误差可以看作噪声,而且通过编码端传送的较验比特能够对这些信息误差纠正。基于这种思想近年提出了一系列的改善DVC的性能的方法,例如利用帧间的空间相关性减少较验比特[3,4]或者优化边信息质量[5]等。本文提出一种基于HVS的分布式视频编码算法,即将最小可觉差(JND)模型应用于分布式视频编码中。
1 HVS中的JND模型
人的视觉系统HVS是视频质量的最终评判者,而研究发现HVS由于其潜在的时间或空间感受性和视觉掩蔽性,很少能感知到低于JND阀值的像素[6]。因此,对于HVS感知不到变化的图像块没有必要使用较验比特对其估计值纠正。本文基于这种思想在不降低重建帧主观质量的条件下,将JND模型应用于分布式视频编码中。图像的空域JND阀值由背景亮度适应和纹理掩蔽两种因素共同决定,可以用一个非线性相加模型表示这两种因素对其的影响[7],即
其中JNDs表示时域JND阀值,Tl(x,y)和Tt(x,y)分别表示背景亮度适应和纹理掩蔽这两个因素决定的能见度阀值。(x,y)代表像素的相应坐标位置,C表示区间[0,1]上的一个常数,其物理意义是视野中观看目标与其贴邻背景的亮度差同背景亮度之比,Tl(x,y)反应了HVS对亮度对比的感受性强于对绝对亮度的,用公式表示为:
其中IY(x,y)表示点(x,y)处的背景亮度,纹理相关因素T t(x,y)反应HVS对平滑区域内的误差的感受性比对纹理区域的误差的感受性强,其公式为:
其中G(x,y)表示坐标点(x,y)邻域内像素的梯度的加权平均的最大值,它可以通过后面带有高斯低通滤波器的边缘检测计算;W(x,y)表示坐标点(x,y)处像素的边缘相关重量,它也可以通过后面带有高斯低通滤波器的边缘检测计算。在实际的视频场景中,还需要考虑时域对JND值的影响。此时,需要把时间和空间对JND值的影响综合考虑到一块,即时空JND,其数学表达式为
其中idl(x,y,t)表示t帧与(t-1)帧之间的亮度误差的平均值,且f()表示规模放大经验函数[8]。
2 基于人视觉系统的DVC改进算法
带有HVS的DVC框架如图1所示,图1中的虚线矩形框内为JND模型的框图。本文中视频帧分为关键帧和WZ帧,关键帧使用H.264帧内编解码,对于WZ帧,首先通过JND模型选择编码模式,即根据JND的阀值将WZ帧内的宏块分为两组:AC块(Actual Coding Block,简称AC宏块)和C宏块(Copy Block,简称C宏块)。AC宏块和其边信息中的参考块存在着误差,这些误差是能被HVS觉察到的。另一方面,C宏块和其边信息中相应的参考块之间的误差是HVS觉察不到,这些宏块不用进行编码且在解码端可以直接利用边信息中的相应宏块重建。为了在解码端确定AC宏块和C宏块的准确位置,我们需要对编码模式的信息进行熵编码后传送到解码端。
2.1 WZ帧中宏块的划分
视频序列中的相继帧之间具有很强的相关性,当前WZ帧内的某些部分可以通过相邻帧进行较好的运动估计。由于DVC场景中的边信息中获取与原始帧之间的误差是HVS感知不到的,所以在解码端不需要对其纠正。为了找到当前WZ帧内可以较好估计的区域,我们使用了JND模型,它是一种实际测量信号误差能见度的模型。首先,在编码端构建一种粗糙边信息,把这种粗糙的边信息定义为编码侧边信息(encoderside side information,简称ESI),对于每个宏块都将产生三种参考块,即前向关键帧中的相应位置块,后向关键帧中的相应位置块以及前后关键帧的平均帧的相应位置块,这里把参考块像素与原始WZ宏块像素差值的绝对值和SAD[8]最小的参考块作为该宏块的ESI。
其中,c(x,y)和r(x,y)分别是原始宏块和参考宏块在图像位置(x,y)处的像素值。SAD最小,即参考块像素与原始WZ宏块像素差值的绝对值和最小,相关性最大,这样对粗糙边信息的预测更为准确。根据对ESI的失真和原始WZ帧的时空JND阀值的比较把原始WZ帧中的宏块分成两组:AC块与C块。而ESI的失真为:
其中,D(x,y)、ESI(x,y)及I(x,y)分别表示失真、位于图像位置(x,y)处像素的ESI和原始像素。而时空JND阈值的计算公式,如(4)式所示。
在WZ帧与JND的比较中,把宏块中的像素值大于其相应的时空JND值的像素点的数目超过10%的宏块指定为AC块,并且采取际编码模式(actual encoding,AC mode)对其编码;而其余的宏块中,其像素值大于其相应的时空JND值的像素点的数目低于10%,被指定为C宏块。
2.2 AC宏块的编解码及重建
前面提到在解码端要对AC块中的信息误差进行纠正,这一部分的实现采用基于像素域的Turbo码的WZ编解码器。首先,将这些宏块中的像素值组织起来形成系数带X k,接着对系数带X k进行2Mk级均匀量化,对于不同的系数带,Mk的取值不同;接下来,对量化后的系数带qk内的所有量化值提取比特平面,并将比特面分别送入由两个相同的卷积编码器组成Turbo编码器;最后,将Turbo编码器产生的较验比特存储到缓冲区。这样就完成了对AC块的编码。
在解码端,首先利用H.264解码出前后两帧关键帧并送到Turbo解码器中,解码器对关键帧中相应宏块进行运动补偿内插产生对应宏块的边信息。该Turbo解码器采取最大后验概率译码算法和两个软输入软输出判决。解码端根据判断误码率的阈值是否得到满足产生所需较验比特的信息,并利用反馈信道将此信息发送到编码端。接下来Turbo解码器利用收到的校验位、对应边信息宏块以及相关信息对各个系数带从最高平面开始依次解码,并将Turbo解码器的输出结果合并位平面,形成量化后的系数带qk',最后利用qk'和边信息宏块Xk^重构系数带Xk',即编码宏块的重建块。
2.3 C宏块的编解码及重建
由于对C宏块不进行WZ编码,所以其编码就是估计ESI的过程。为C宏块生成ESI时有三种的方法,分别是使用前向关键帧中相应宏块、后向关键帧中相应宏块及前后关键帧做平均后所得帧中相应宏块。对于这三种预测模式,分别定义为前向预测模式(FP)、后向预测模式(BP)及平均预测模式(AP)。而预测模式的选定要根据C宏块和前后相邻关键帧对应宏块的相关性MSEC,
M、N分别表示在解码端H.264算法中搜索块的长和宽,cc(x,y)和ck(x,y)分别表示C宏块和关键帧中对应宏块在图像位置(x,y)的像素值。设当前WZ帧为Xi,则它与前一关键帧Xi-1中对应C宏块的相关性为MSECi-1,后一关键帧Xi+1中对应C宏块的相关性为MSECi+1,接下来对(7)式计算得到MSEC值。如果|MSECi-1-MSECi+1|的值大于预先设定的相关性差值的阈值,说明原始WZ帧当前的C宏块与前后关键帧的对应宏块相关性相当,此时使用AP模式;否则继续判断,若MSECi-1≥MSECi+1,说明原始WZ帧当前的C宏块与Xi+1帧的对应宏块相关性强,则以Xi-1帧中的对应宏块进行预测,即使用FP模式;反之,说明原始WZ帧当前的C宏块与Xi-1帧的对应宏块相关性强,则以Xi+1帧中的对应宏块进行预测,即使用BP模式。
为每个C宏块指定的预测模式类型要传送到解码端,因为解码端要采用与编码端相应的运动估计得到重建块。也就是说解码端要根据编码端发送过来的预测模式类型对其进行重建,即如果是FP模式,则利用前向关键帧中相应宏块重建;若是BP模式,则利用后向关键帧中相应宏块重建,否则若是AP模式,利用前向关键帧和后向关键帧的平均帧中的相应宏块重建。
3 仿真实验及分析
本文对CIF格式的Foreman序列进行了仿真实验。将基于Turbo码的WZ编码算法作为对照算法,两种算法中的相同点是都将奇数帧作为关键帧,偶数帧作为WZ帧,GOP为2,即一帧关键帧和一帧WZ帧。与本文所提出的新算法不同的是,WZ帧中所有的宏块都进行了WZ编码,并且利用运动补偿产生整个WZ帧的边信息。因此,在对照算法里无需对WZ帧分块,而在新算法中对WZ帧中宏块划分为16×16。
图2(a)和(b)分别是使用参照算法和新算法后的重建图像。与其相邻关键帧的QP都是28,WZ编码时量化步长为8,采用参照算法的图像的PSNR为36.32dB,新编码算法下,PSNR为34.56dB,但是尽管两幅图像的峰值信噪比相差很大,人眼很难辨别出两幅图像之间的差异。这表明本文提出的算法在不改变图像的主观质量的前提下有效地减少了压缩所用比特数,从而获取更好的压缩性能。
新的算法优化了WZ编码的性能,这些改善与JND模型中视觉感受阀值的性能相关。为了进一步的验证所提出算法的有效性,对2个CIF序列:Foreman和Walk进行了仿真实验。我们还对码率和视觉失真的这两个参数进行了分析。具体的,对WZ帧在相同的主观质量条件下所对应的不同的码率分析,这里选择WZ帧中亮度成分的视觉失真作为衡量主观质量的参数。在仿真中,两种算法中关键帧的QP仍然设定为28,为了使码率范围尽量接近,新算法中对WZ帧的量化2M∈{2,4,8,16},对于对照算法2M∈{2,4,8},设定一个参数作为重建帧的主观质量的测度,我们使用峰值信号感知比PSPNR[8]衡量亮度成分视觉失真的程度,PSPNR是仅考虑超出JND阀值的亮度成分失真,其计算公式为:
其中,分别表示t帧中位于(x,y)点原始像素强度和重建像素强度,图3为Foreman和Walk的实验结果,其中WZ帧选取为每个视频序列的前50个WZ帧。实验结果表明,在相同的主观质量的条件下,新算法的码率明显低于对照算法的码率,这就验证了所提出的算法改善了码率性能。
4 结论
本文提出一种基于HVS的分布式视频编码方案,此种算法通过利用JND模型将WZ帧中的宏块分为不需要进行编码的宏块和需要编码的宏块。实验结果表明,所提出来的编码算法在保证主观质量的前提下有效地降低了码率,从而提高了WZ编码的效率。
摘要:为了克服无线多媒体传感器网络中的视频传感节点的处理能力、存储空间和能量严重受限的问题,本文提出一种基于人的视觉系统的分布式视频编码的方案。由于人眼睛的潜在的感受性和视觉掩蔽性能,最小可觉差值以下的变化几乎不能被人的视觉系统感知到。因此,原始帧和边信息之间在感觉阀限之外的信号误差不需要得到纠正。本文基于这种思想,将JND模型应用到WZ编码器中,并对其仿真,实验结果表明,本文所提出的算法在不改变主观质量,甚至提高主观质量时可以较大程度对视频序列进行压缩,降低比特数,具有较好的率失真性能。
关键词:分布式视频编码,人眼视觉系统,最小可觉误差,码率
参考文献
[1]J.D.Slepian and J.K.Wolf.Noiseless coding of correlated information sources[J].IEEE Transaction on Information Theory,1973,19(4):471-480.
[2]A.Wyner,J.Ziv.The rate-distortion function for source coding with side information at the decoder[J].IEEE Transactions on Information Theory,1976,22(1):1-10.
[3]J.Ascenco,C.Brites,F.Pereira.Improving frame interpolation with spatial motion smoothing for pixel domain distributed video coding[A].The fifth EURASIP conference on speech and image processing,July 2005.
[4]A.B.B.Adikari,W.A.C.Fernando,W.A.R.J.Weerakkody.Independent key frame coding using corelated pixels in distributed video coding[J].IEEE Lectronics Letters,2007,43(7):387-388.
[5]A.Aron,B.Girod.Compression with side information using turbo codes[A].Processing Data Compression Conference[C].2002,252-261.
[6]S.Forchamber.improve side information generation for distributed video coding[J].Work on Multimedia Signal Processing,2008,25(4):223-228.
[7]Z.Wei,K.N.Ngan.Spatial-Temporal just noticeable distortion profile for grey scale image in DCT domain[J].IEEE Transfer Circuits System Technology,2009,19(3):337-346.
13.算法工程师的职责表述 篇十三
1、负责公司核心产品重要各场景算法的研发和优化;
2、负责基础数据处理和算法的研发和优化;
3、根据公司业务需要,应用提供具体算法方面的解决方案;
4、跟踪互联网领域相关推荐或者机器学习算法发展趋势。
岗位要求:
1、计算机,数学相关专业本科及以上全日制学历;
2、熟练掌握常用的机器学习算法,并可以将算法转化为实际应用;
3、精通Python、R、Java、Sacla等一种或多种编程语言;
14.高级算法工程师的主要职责说明 篇十四
1、负责产品图像算法的设计和研发,包括图像的三维重建算法、双能物质识别算法、物质标定和数据校正前处理的算法开发和测试验证;分解任务并指导相关人员进行代码开发;
2、负责选定部分代码的外包方,协调外包方并控制其工作周期和工作质量;
3、负责产品图像的伪影去除和图像质量优化,根据测试结果优化算法;
4、负责算法的并行加速优化;
5、负责设计开发过程的设计文件及记录文件的编制和归档。
任职要求:
1、具有辐射成像相关的物理知识和CT重建算法、校正算法方面的开发经验,有双能物质识别算法方面经验者优先;
2、精通C++或MATLAB语言,有基于CPU以及GPU编程的工作经验;
3、具有伪影去除经验和较强的图像阅读能力;
4、具备良好的编程风格和文档编写能力;
15.视觉算法工程师的主要职责 篇十五
1 视觉显著模型
通过对人类视觉系统( HVS) 的研究发现,在一个复杂的场景中,人类视觉系统能够迅速将注意力专注于少数显著的视觉对象上,该过程称为视觉注意。Itti和Koch等人在文献[7]中提出一种自底向上的视觉注意模型,本文将该模型进行改进,生成灰度图像显著图,并将该模型与小波分析方法结合进行图像融合。生成灰度图像显著图的过程如下: 以强度和方向作为输入图像的视觉特征,分别在不同的尺度上产生高斯金字塔,对高斯金字塔进行“中心—周围差分”( Center-surround Difference) 及归一化,分别获得强度、方向上的特征图 ( FeatureMap) ; 然后对特征图进行跨尺度融合 ( Across -scale Combinations) 及归一化; 最后生成对应于图像强度和方向的特征显著图( Conspicuity Map) 。该过程如图1所示。
1. 1 获取早期特征
用灰度图像的像素值表示图像强度I,将I创建高斯金字塔I( σ) ,σ∈{ 0,…,8} ,中心尺度c和周围尺度s间进行中心—周围差分“Θ”,由细尺度差值运算与逐点提取操作获得[7],从而得到特征图
式中: c∈ { 2,3,4} ; s = c + δ ; δ∈{ 3,4} 。
局部方向信息通过Gabor金字塔O( σ,θ)[6],其中σ∈{ 0,…,8} 代表尺度; θ∈{ 0°,45°,90°,135°} 代表方向。经过中心周围差分,获得方向特征图
式中: c∈{ 2,3,4} ; s = c + δ; δ∈{ 3,4} 。
总共获得30幅特征图: 6张强度特征图和24张方向特征图。
1. 2 合成视觉显著图
获得视觉显著图的目的是为了表示图像的空间显著性分布,将强度和方向特征图合成特征显著图,通过Itti模型中的归一化算子N( ·) ,将强度和方向特征图进行归一化,该归一化算子分成如下3步:
1) 将特征图值统一到固定范围[0,M]。
2) 计算除全局最大值[0,M]。外的各局部最大值的平均值m。
3) 将整张图乘以( M - m)2。
当不同区域较大,则突出显著性区域; 当不同区域较小,则该图的显著性被削弱。两组特征图被合称为特征显著图,其中表示强度特征显著图,表示方向特征显著图。将和分别进行跨尺度差分“⊕”,该操作将每幅特征图还原到4尺度,然后逐点相加得到特征显著图为
然后将两个特征显著图线性合成视觉显著图,用S表示
式中: α与β为加权系数,图像强度与方向分量权重不同,也会产生不同的融合效果,且满足α + β = 1,本文实验中α =0. 667,β = 0. 333。
视觉显著图在某处值越大,图像在该位置越显著,将该图用于小波分析的图像融合中,对图像的细节信息有很好的增强效果。图2a为两组源图像,图2b是由上述显著模型生成的视觉显著图。
2 结合视觉显著特性与小波变换的图像融合
设A、B两幅源图像,本文提出的融合算法如图3所示。
具体步骤如下:
1) 分别对图像A、B进行N层小波分解,得到低频分量和高频分量。
2) 对低频分量采用本文提出的“显著性融合”的融合规则,设SA( i,j) 与SB( i,j) 分别表示源图像在位置( i,j) 处的显著性值,融合图像低频系数选择源图像显著性值S较大对应位置的低频系数。
3) 高频系数融合: 因为源图像经过小波分解后的高频系数便是图像的边缘细节,因此高频系数采用绝对值取大的方法进行融合。
4) 将融合后的低频系数与高频系数进行小波反变换,从而得到最终的融合图像。
3 实验与讨论
为证明本文所提出算法的有效性,对两幅多聚焦图像、CT与MRI图像分别进行仿真实验,并且与传统方法及一些改进算法进行了比较。本文所用方法是对已有多尺度图像融合算法的低频融合规则的改进,所以将其与传统A’trous小波、NSCT[2]和改进算法MUDW[8]这3种多尺度变换进行比较,如图4所示。
通过客观评价指标评价,本文选取常用的性能指标: 互信息 ( MI )[3]、边缘保持 度 ( QAB / F)[4]、平均结构 相似度( ASIM)[9]、信息熵( entropy)[3],一般这些指标越大,融合图像的质量越高,表1是以上几种算法得到的客观评价指标值。
从图4看出,由图4e与图4f指针处有明显的伪迹,图4g与图4h虽然裸眼看不出有明显不清晰的地方,但是由表1可看出本文方法在客观评价指标QAB / F、ASIM、信息熵上优于MUDW方法。由此说明本文算法在视觉效果上与客观评价指标上优于传统算法及改进算法,融合图像更清晰; MRI与CT图的融合与多聚焦图像融合类似,不再赘述。
4 结论
本文将视觉显著图应用到小波变换中,提出一种对低频系数显著性的融合方法,高频分量采用系数绝对值取大的方法,取得了较理想的融合效果。该方法本文还应用于医学图像MRI与CT图的融合,也取得了比较好的效果,由此证明了本文算法的广泛实用性。
摘要:基于视觉显著特征提出一种新的图像融合算法。首先对源图像进行小波分解,得到低频系数和高频系数;然后针对低频系数提出一种基于视觉显著性的融合规则,对高频系数采用绝对值取大的融合规则;最后对融合后的低频系数和高频系数进行小波逆变换得到最终融合图像。该方法能完好地将源图像的细节融合在一起。仿真实验表明,该算法在视觉效果上比传统及改进方法更好,同时互信息、平均结构相似性、信息熵等传统客观评价指标有所提高。
【视觉算法工程师的主要职责】推荐阅读:
图像算法工程师岗位的基本职责范围07-19
哈工程算法实验报告11-08
描写月亮视觉童心的句子06-22
绩效考核的算法06-29
对于视觉忽视的研究论文09-10
大连品牌视觉形象设计的提升10-04
算法概念课的教案09-19
档案工龄和保险工龄的算法?10-13
视觉语言设计09-02
机器视觉软件介绍09-18