尊敬的审查员老师,
您好!申请人收到您对本申请作出的第一次审查意见通知书,经认真研读,现陈述如下:
修改:申请人将权利要求7的内容补充到权利要求1中,
一、关于权利要求1不符合专利法第22条第3款的规定
申请人认为,修改后的权利要求1所要求保护的技术方案与对比文件1所公开的技术方案相比,区别在于:
(1)对比文件1中的图像和语音最终提取的向量都是一维向量,融合采用神经网络,但是没有说明人脸特征与语音特征具体是如何融合的,且直接采用梅尔频率倒谱系数作为特征辨识度并不高,并且该融合是在较高层特征(越高越抽象)的融合,原始数据之间的关联在各自特征提取的过程中已经丢失。
而权利要求1所述的技术方案中,图像没有经过任何的预处理,是原始数据。语音提取MFCC特征后转换为二维图像,与原始人脸图像拼接,最终通过卷积神经网络提取融合后的特征。神经网络的输入基本是底层的原始信号,数据之间的关联得到了保留,并通过卷积神经网络最大程度的提取出来,特征的辨识度更高。权利要求1所述的技术方案体现在说明书附图图6中:
其实质相当于:
由此可见,基于以上区别特征,本申请权利要求1所要求保护的技术方案由于没有对图像进行预处理,并且将图像与处理后的声音图像拼接作为特征对比的依据,极大的保留了原始信号和数据之间的关联,再通过卷积神经网络最大程度的提取出来,达到特征的辨识度更高的技术效果。
(2)将所述图像与二维人脸图像融合,具体为:将倒频谱图顺时针旋转90度,如果拼接后的图像的横轴长度和旋转90度后的倒频谱图的横轴长度不一致,则缩放二维人脸图像,使二者横轴长度一致,再将二者进行拼接。即在由声音转化的图像与二维人脸图像的融合过程中,通过图像旋转和尺寸缩放调整由声音转化的图像,再将两个图像进行拼接,完成融合。而对比文件1所公开的融合是人脸特征向量与语音特征向量的融合,该融合是基于神经网络的特征层的融合算法,与权利要求1所述的融合是完全不同的。
(3)对声音的时域信号进行短时傅里叶变换和加窗分帧处理,转变为频域信号;通过对数频谱变换将所述频域信号中的频率转换成人耳能感知的线性关系;通过倒频分析,采用DCT变换将转换后的频域信号中的直流信号分量和正弦信号分量分离;提取声音频谱特征向量,将所述向量转换成图像;而对比文件1在对应步骤中的语音处理包括语音预处理(采样量化、预加重、取音框和加窗)和语音特征提取,得到语音特征向量。
虽然权利要求1和对比文件1均涉及人脸信息和声音信息的融合,但融合的实现方式是不相同的。以两个拼接的图像作为验证标准,相对于特征向量的验证,大大提高了验证的准确度。
因此,修改后的本申请权利要求1具备突出的实质性特点和显著的进步,符合专利法第22条第3款的规定。
二、关于权利要求2-6不符合专利法第22条第3款的规定
在独立权利要求1符合专利法第22条第3款的基础上,其从属权利要求2-6也符合专利法第22条第3款的规定。