尊敬的审查员:
本意见陈述是针对国家知识产权局于2020年09月03日发出的关于《一种人脸声纹特征融合验证的方法》的第二次审查意见通知书,对于审查员在第二次审查意见通知书中的论述,申请人进行了认真的研读,并作出以下意见陈述。
一、关于权利要求1不符合专利法第22条第3款的规定
申请人认为,权利要求1所要求保护的技术方案与对比文件1所公开的技术方案相比,区别在于:
(1)权利要求1所述的技术方案中,图像没有经过任何的预处理,是原始的二维数据,没有对比文件1中将人脸图像进行处理得到人脸特征向量(一维)的步骤;语音信号是二维化的信号,即提取MFCC特征后转换为二维图像数据。最后将两个二维数据进行拼接,进而保留了更多的原始信息,数据之间的关联得到了保留,使特征的辨识度更高。
而对比文件1中的图像和语音最终提取的向量都是一维向量,直接采用梅尔频率倒谱系数作为特征辨识度并不高,并且该融合是在较高层特征(越高越抽象)的融合,原始数据之间的关联在各自特征提取的过程中已经丢失。
(2)没有任何文献(包括对比文件1)公开了以二维的拼接的图像和声音信号作为验证信息的技术方案。
本申请权利要求1中公开的二维的拼接的图像和声音信号作为验证信息的方案具体为:将倒频谱图顺时针旋转90度,如果拼接后的图像的横轴长度和旋转90度后的倒频谱图的横轴长度不一致,则缩放二维人脸图像,使二者横轴长度一致,再将二者进行拼接。即在由声音转化的图像与二维人脸图像的融合过程中,通过图像旋转和尺寸缩放调整由声音转化的图像,再将两个图像进行拼接,完成融合。而对比文件1所公开的融合是人脸特征向量(一维)与语音特征向量(一维)的融合,该融合是基于神经网络的特征层的融合算法,与权利要求1所述的融合是完全不同的。
(3)对声音的时域信号进行短时傅里叶变换和加窗分帧处理,转变为频域信号;通过对数频谱变换将所述频域信号中的频率转换成人耳能感知的线性关系;通过倒频分析,采用DCT变换将转换后的频域信号中的直流信号分量和正弦信号分量分离;提取声音频谱特征向量,将所述向量转换成图像;而对比文件1在对应步骤中的语音处理包括语音预处理(采样量化、预加重、取音框和加窗)和语音特征提取,得到语音特征向量。
虽然权利要求1和对比文件1均涉及人脸信息和声音信息的融合,但权利要求1融合的是二维数据,对比文件1同时提取图像和语音并在一维空间进行融合,两个融合的维度是不相同的,对比文件1公开的技术方案会有信息丢失的现象,而权利要求1公开的技术方案能够大大提高验证的准确度。
因此,本申请权利要求1具备突出的实质性特点和显著的进步,符合专利法第22条第3款的规定。
二、关于权利要求2-6不符合专利法第22条第3款的规定
在独立权利要求1符合专利法第22条第3款的基础上,其从属权利要求2-6也符合专利法第22条第3款的规定。
如果审查员在后续审查过程中认为本申请还存在其他缺陷,请给申请人提供修改和陈述意见的机会,联系电话17748496989,申请人将尽力配合审查员的工作,谢谢审查员。