多模态特征的融合方法以及装置[发明专利]

2022-09-03 来源：画鸵萌宠网

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号(10)申请公布号 CN 104239360 A(43)申请公布日 2014.12.24

(21)申请号 201310252672.7(22)申请日 2013.06.24(71)申请人富士通株式会社

地址日本神奈川县川崎市(72)发明人刘曦刘汝杰

(74)专利代理机构北京三友知识产权代理有限

公司 11127

代理人陶海萍(51)Int.Cl.

G06F 17/30(2006.01)G06K 9/62(2006.01)

权利要求书2页说明书11页附图7页权利要求书2页说明书11页附图7页

(54)发明名称

多模态特征的融合方法以及装置(57)摘要

本发明实施例提供一种多模态特征的融合方法以及装置，所述融合方法包括：利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；融合所述多个两两关系矩阵以得到组合后的关系矩阵；根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。通过本发明实施例，不但可以有效且快速地进行多模态特征融合，而且可以很好地处理训练数据噪声或者数据缺失的情况。

CN 104239360 ACN 104239360 A

权利要求书

1/2页

1.一种多模态特征的融合方法，所述融合方法包括：利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；

融合所述多个两两关系矩阵以得到组合后的关系矩阵；

根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。

2.根据权利要求1所述的融合方法，其中，所述融合方法还包括：将所有的多模态特征直接拼接成一组合特征；利用训练图像以及所述组合特征，为所述查询图像生成一组关于所述多个类的第二分类分数，并获得所述第二分类分数对应的一个两两关系矩阵；

并且，将所述第一分类分数对应的多个两两关系矩阵以及所述第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵。

3.根据权利要求2所述的融合方法，其中，融合所述多个两两关系矩阵以得到组合后的关系矩阵具体包括：

对所述第一分类分数对应的多个两两关系矩阵进行线性组合；并且将所述第二分类分数对应的两两关系矩阵作为约束项以引导所述线性组合。

4.根据权利要求3所述的融合方法，其中，所述线性组合获得的关系矩阵为：Tc=∑i=1,...,MwiTi，其中Ti为所述第一分类分数对应的两两关系矩阵，i=1,...,M，M为所述多模态特征的个数；wi为线性权重，所述线性权重满足如下条件：

条件1：所有线性权重均大于或者等于零；条件2：线性权重的L2-范数最小；条件3：线性组合中的Tc和Ta尽可能接近，所述Ta为所述第二分类分数对应的两两关系矩阵。

5.根据权利要求1至4任一项所述的融合方法，其中，在融合所述多个两两关系矩阵以得到组合后的关系矩阵之后，所述融合方法还包括：

对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵；并且，根据所述最终的关系矩阵计算最终的关于所述多个类的分类分数。6.根据权利要求5所述的融合方法，其中，对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵具体包括：

找出并保留所述组合后的关系矩阵Tc中最可信的元素；以及根据最可信的元素获得最终的关系矩阵Tf；其中，对于Tc中任意第（j，k）个元素，如果满足以下其中任一个条件，则该元素被认为是可信的：

条件1：Tc（j，k）>0，并且在M个关系矩阵Ti中有Nt个关系矩阵的第（j，k）个元素大于0；

条件2：Tc（j，k）<0，并且在M个关系矩阵Ti中有Nt个矩阵的第（j，k）个元素小于0；其中，Nt大于一预设值；Ti为所述第一分类分数对应的两两关系矩阵，i=1,...,M。7.根据权利要求6所述的融合方法，其中，根据最可信的元素获得最终的关系矩阵Tf，具体满足如下条件：

CN 104239360 A

权利要求书

2/2页

条件1：所述关系矩阵Tf的秩尽可能小；条件2：所述关系矩阵Tf的大小与所述关系矩阵Tc相同、且所述关系矩阵Tf是反对称的；

条件3：所找到的最可信元素在Tc中的索引位置所对应的Tf中的元素，与所述最可信元素尽可能接近。

8.一种多模态特征的融合装置，所述融合装置包括：矩阵获取单元，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；

矩阵组合单元，融合所述多个两两关系矩阵以得到组合后的关系矩阵；类别选择单元，根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。

9.根据权利要求8所述的融合装置，其中，所述融合装置还包括：特征拼接单元，将所有的多模态特征直接拼接成一组合特征；并且，所述矩阵获得单元还用于利用训练图像以及所述组合特征，为所述查询图像生成一组关于所述多个类的第二分类分数，并获得所述第二分类分数对应的一个两两关系矩阵；所述矩阵组合单元还用于将所述第一分类分数对应的多个两两关系矩阵以及所述第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵。

10.根据权利要求8或9所述的融合装置，其中，所述融合装置还包括：矩阵变换单元，对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵；并且，所述类别选择单元还用于根据所述最终的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。

CN 104239360 A

说明书

多模态特征的融合方法以及装置

1/11页

技术领域

本发明涉及图像处理技术领域，尤其涉及一种多模态（Multi-modal）特征的融合

方法以及装置。

[0001]

背景技术

在数据分类任务例如图像分类中，数据常常由单一模态特征表示，但是单一模态

特征无法充分地表示数据、且越来越多的研究已经表明同时考虑多个模态特征对于分类是有益的。另外，随着各种传感设备越来越轻便及易用，例如手机、数码相机等，数据的多模态特征也越来越容易获得。因此，多模态特征融合技术在数据分类任务中将变得越来越重要。[0003] 目前，基于最小秩的融合方法是最近提出的一种鲁棒的多模态特征融合方法。在该方法中，可以先根据每种模态特征生成关于所有测试图像的两两之间的关系矩阵（Pairwise Relationship Matrix），然后从所有生成的关系矩阵中推断出一个低秩关系矩阵，最后基于所得到的低秩关系矩阵计算出一组关于所有测试图像的分数。[0004] 但是，发明人发现在现有技术中，这些方法需要复杂的求解过程且要求每个模态下生成的关系矩阵较为有效，因此存在多模态特征融合下各个特征不同尺度的问题，并且不能很好地处理训练数据噪声或者数据缺失的情况。[0005] 应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。[0006] 下面列出了对于理解本发明和常规技术有益的文献，通过引用将它们并入本文中，如同在本文中完全阐明了一样。[0007] [参考文献1]：P.Gehler and S.Nowozin.On feature combination for multiclass object classification,In Proceedings of International Conference on Computer Vision,2009.

[0008] [参考文献2]：G.N.Ye,D.Liu,I.H.Jhuo,S.F.Chang.Robust late fusion with rank minimization,In Proceedings of Computer Vision and Pattern Recognition,2012.

[0002]

发明内容

本发明实施例提供一种多模态特征的融合方法以及装置，目的在于避免多模态特

征融合下各个特征不同尺度的问题，并且提高图像数据具体的鲁棒性。[0010] 根据本发明实施例的一个方面，提供一种多模态特征的融合方法，所述融合方法包括：

[0011] 利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；[0012] 融合所述多个两两关系矩阵以得到组合后的关系矩阵；

[0009]

CN 104239360 A[0013]

说明书

2/11页

根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图

像选择具有较大分类分数的一个或多个类。[0014] 根据本发明实施例的另一个方面，提供一种多模态特征的融合装置，所述融合装置包括：

[0015] 矩阵获取单元，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；[0016] 矩阵组合单元，融合所述多个两两关系矩阵以得到组合后的关系矩阵；[0017] 类别选择单元，根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。[0018] 本发明的有益效果在于：根据每种模态特征生成一个关系矩阵，然后线性组合所有关系矩阵以得到组合后的关系矩阵，并根据线性组合矩阵推断出一个低秩关系矩阵以获得最终的分类分数。由此，不但可以有效且快速地进行多模态特征融合，而且避免了多模态特征融合下各个特征不同尺度的问题，并且可以很好地处理训练数据噪声或者数据缺失的情况，提高了对于数据噪声的鲁棒性。[0019] 参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

[0020] 针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

[0021] 应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。附图说明

[0022] 图1是本发明实施例1的多模态特征的融合方法的一流程图；[0023] 图2是本发明实施例1的关于分类分数的一示例图；

[0024] 图3是本发明实施例2的多模态特征的融合方法的一流程示意图；[0025] 图4是本发明实施例2的多模态特征的融合方法的又一流程示意图；[0026] 图5是本发明实施例2的获得最终的关系矩阵的一流程示意图；[0027] 图6是本发明实施例2的多模态特征融合过程的一示意图；

[0028] 图7是本发明实施例3的多模态特征的融合装置的一构成示意图；[0029] 图8是本发明实施例4的多模态特征的融合装置的一构成示意图；[0030] 图9是本发明实施例4的多模态特征的融合装置的又一构成示意图；[0031] 图10是本发明实施例4的矩阵变换单元的一构成示意图。

具体实施方式

[0032] 参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权

CN 104239360 A

说明书

3/11页

利要求的范围内的全部修改、变型以及等同物。[0033] 实施例1

[0034] 本发明实施例提供一种多模态特征的融合方法，图1是本发明实施例的多模态特征的融合方法的一流程图。如图1所示，该融合方法包括：[0035] 步骤101，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得第一分类分数对应的多个两两关系矩阵；[0036] 步骤102，融合多个两两关系矩阵以得到组合后的关系矩阵；[0037] 步骤103，根据组合后的关系矩阵计算最终的关于多个类的分类分数，并为该查询图像选择具有较大分类分数的一个或多个类。[0038] 在本实施例中，每个图像可以具有多个（例如M个）模态特征，可以为每个特征生成关于多个（例如C个）类的分数。关于模态以及特征的具体内容以及如何获取模态特征和分类分数，可以参考现有技术。

[0039] 图2是本发明实施例的关于分类分数的一示例图。如图2所示，对于一查询图像可以获得M个特征，该M个特征可以对应K个模态；例如，特征1对应模态A、特征2对应模态A、特征3对应模态B、……、特征M对应模态K。对于如图2所示的类1、类2、……、类C，可以分别为每个特征计算对应的一组分类分数；例如特征1对应一组分类分数{0.3，0.2，0.1，……，0.1}。

[0040] 在本实施例中，可以为每组分类分数构建类与类之间的两两关系矩阵。关于两两关系矩阵的具体内容和如何构建，可以参考现有技术。[0041] 在本实施例中，可以融合多个两两关系矩阵以得到组合后的关系矩阵，根据组合后的关系矩阵计算最终的关于多个类的分类分数。例如可以对多个两两关系矩阵进行线性组合，由此形成与现有技术不同的后融合（Late Fusion）处理；并且，根据线性组合矩阵推断出一个低秩关系矩阵以获得最终的分类分数。值得注意的是，本发明的后融合处理并不仅限于线性组合，还可以采用其他融合方式（例如非线性组合），可以根据实际情况确定具体的实施方式。[0042] 由此，不但可以有效且快速地进行多模态特征融合，而且避免了多模态特征融合下各个特征不同尺度的问题，并且可以很好地处理训练数据噪声或者数据缺失的情况，提高了对于数据噪声的鲁棒性。[0043] 实施例2

在实施例1的基础上，本发明实施例提供一种多模态特征的融合方法，以下对本

发明实施例进行进一步说明。

[0045] 图3是本发明实施例的多模态特征的融合方法的又一流程示意图。如图3所示，该融合方法包括：[0046] 步骤301，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得第一分类分数对应的多个两两关系矩阵；[0047] 步骤302，将所有的多模态特征直接拼接成一组合特征；并利用训练图像以及该组合特征，为该查询图像生成一组关于多个类的第二分类分数，并获得该第二分类分数对应的一个两两关系矩阵；[0048] 步骤303，将第一分类分数对应的多个两两关系矩阵以及第二分类分数对应的一

[0044]

CN 104239360 A

说明书

4/11页

个两两关系矩阵进行融合以得到组合后的关系矩阵；[0049] 步骤304，根据组合后的关系矩阵计算最终的关于多个类的分类分数，并为该查询图像选择具有较大分类分数的一个或多个类。[0050] 在本实施例中，通过多组（例如M组）第一分数对应的M个两两关系矩阵和一组第二分数对应的一个两两关系矩阵来进行后融合，可以使得融合结果更为准确和鲁棒。以下以线性组合为例对本发明进行详细说明；值得注意的是，本发明的后融合处理并不仅限于线性组合，还可以采用其他融合方式（例如非线性组合），可以根据实际情况确定具体的实施方式。

[0051] 在具体实施时，可以给定一组包含C个类的训练图像D={D1,D2,…,DN},Di=({D1i,D2i,…,DMi},Yi)，i=1,…,N，N表示训练图像的个数；{D1i,D2i,…,DMi}表示图像数据Di的M个模态特征，Yi是一个C维的0-1向量，它表示数据Di的类别信息，Yij=1表示数据Di属于第j类，Yij=0表示数据Di不属于第j类。本发明的目的为：对于任意一个具有M个模态特征的图像数据Dq，可以利用所有M个特征和训练数据自动推断出Dq所属的类别。

[0052] 在步骤301中，可以基于每个单一模态特征生成一组分类分数。[0053] 例如，对于某个模态特征t,可以按某种距离尺度（例如欧氏距离、余弦距离等）计算出查询图像Dq与训练图像集中所有图像的距离，找出前k个具有最小距离的训练图像：Dq1,Dq2,…,Dqk。然后按照如下的公式（1）来统计在这k个最近邻训练图像中每个类出现的频率，这些频率即可以作为在该模态特征t下生成的一组关于C个类的分数。

[0054]

或者，基于该单一模态特征t，可以为每类构建一个支持向量机（SVM，Support Vector Machine）分类器；查询数据Dq在该特征下生成的一组关于C个类的分数可以为每个SVM分类器关于Dq的输出。[0056] 然后，可以为每组分类分数构建类与类的两两关系矩阵。[0057] 例如，假定基于每个单一模态特征t下，生成的一组关于C个类的分数为St=(St1,St2,…,StC)，由St可构建出一个C*C的两两关系矩阵Tt；其中矩阵中任意第(j,k)元素可由公式（2）或公式（3）计算。[0058] Ti(j,k)=sign(Sij-Sik) （2）[0059] Ti(j,k)=Sij-Sik （3）[0060] 值得注意的是，以上仅通过实例对如何生成分类分数以及如何构建两两关系矩阵进行了示意性说明，但本发明不限于此，例如还可以采用其他的公式或者方法计算分类分数或两两关系矩阵。[0061] 在步骤302中，可以基于拼接特征生成一组分类分数。[0062] 例如，数据的每个模态特征都用一个特征向量表示，对这些特征向量进行0-1归一化然后直接拼接，可以得到一个新的单一模态特征。然后，对于该拼接的单一特征，可以按照上述步骤301中的方法生成一组关于C个类的分数。[0063] 在步骤303中，可以对第一分类分数对应的多个两两关系矩阵进行线性组合；并且将第二分类分数对应的两两关系矩阵作为约束项以引导线性组合。

[0055]

CN 104239360 A[0064]

说明书

5/11页

例如，假定基于每个单一模态特征所得到的M个类与类的两两关系矩阵为Ti，

i=1,...,M，即得到第一分类分数对应的两两关系矩阵T1,T2,…,TM。由所有单一模态特征直接拼接而成的特征所得到的关系矩阵，即第二分类分数对应的两两关系矩阵为Ta。可以对所有Ti进行线性组合，该线性组合获得的关系矩阵为：Tc=∑i=1,...,MwiTi，其中，wi为线性权重，所述线性权重满足如下条件：[0065] （1）所有线性权重均大于或者等于零；[0066] （2）线性权重的L2-范数最小；[0067] （3）线性组合中的Tc和Ta尽可能接近。[0068] 具体的，线性权重w的求解可以由对以下问题求解而得到：

[0069]

s.t.wi≥0,i=1,...,M[0071] 其中，μ是预先给定的一个常数。

[0072] 可以对所有矩阵T1,T2,…,TM,以及T进行向量化，使之转化成1*C2的行向量

式子（4）可变换得到如下目标函数（5）：TS1,TS2,TS3,…,TSM,以及TSa，

[0070] [0073] [0074] [0075]

s.t.wi≥0,i=1,...,M其中

T*=TSa,I是单位矩阵。公式（5）是一个标准的约束二

次规划问题，它可以很容易地求解。

在步骤304中，可以根据组合后的关系矩阵计算最终的关于多个类的分类分数。

[0077] 例如，可以在组合后的类与类的两两关系矩阵Tc上应用波达计数法（Borda Count Algorithm）得到最后的关于C个类的分数Sf，计算公式如下：

ffT

[0078] S=(1/C)(Te) （6）[0079] 其中，e是一个元素全为1的C*1列向量。值得注意的是，以上仅以波达计数法为例来计算最终的关于多个类的分类分数。但本发明不限于此，还可以采用其他的计算方法。例如，还可以采用多数票制法（Plurality Vote），或者可转移单票制法（Single Transferable Vote）等。

ffff

[0080] 假定得到最终的关于所有类的分类分数S=(S1,S2,…,SC)，则可以按从大到小的顺序排序，选择前kc个最大分数，相对应的kc个类别即可以作为查询图像数据Dq所属的类别。

[0081] 此外，为了使得融合结果更加鲁棒和准确，还可以对对组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵；并且，根据最终的关系矩阵计算最终的关于多个类的分类分数。

[0082] 图4是本发明实施例的多模态特征的融合方法的又一流程示意图。如图4所示，该融合方法包括：[0083] 步骤401，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得第一分类分数对应的多个两两关系矩阵；

[0076]

CN 104239360 A[0084]

说明书

6/11页

步骤402，将所有的多模态特征直接拼接成一组合特征；并利用训练图像以及该

组合特征，为该查询图像生成一组关于多个类的第二分类分数，并获得该第二分类分数对应的一个两两关系矩阵；[0085] 步骤403，将第一分类分数对应的多个两两关系矩阵以及第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵；[0086] 步骤404，对对组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵；[0087] 步骤405，根据最终的关系矩阵计算最终的关于多个类的分类分数，并为该查询图像选择具有较大分类分数的一个或多个类。[0088] 在具体实施时，步骤401至步骤403可以参考如上所述的图3所示的步骤。以下具体对对步骤404中的、对组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵进行说明。

[0089] 图5是本发明实施例的获得最终的关系矩阵的一流程示意图。如图5所示，获得最终的关系矩阵具体可以包括：[0090] 步骤501，找出并保留组合后的关系矩阵Tc中最可信的元素；以及[0091] 步骤502，根据最可信的元素获得最终的关系矩阵Tf；在具体实施时，在步骤501中，对于Tc中任意第（j，k）个元素，如果满足以下其中任一个条件，则该元素被认为是可信的：[0093] 条件1：Tc（j，k）>0且在M个关系矩阵Ti中有Nt个关系矩阵的第（j，k）个元素大于0；其中，Nt大于一预设值thr。[0094] 条件2：Tc（j，k）<0且在M个关系矩阵Ti中有Nt个矩阵的第（j，k）个元素小于0；其中，Nt大于一预设值thr。[0095] 其中，Ti为第一分类分数对应的两两关系矩阵，i=1,...,M。[0096] 在具体实施时，在步骤502中，根据最可信的元素获得最终的关系矩阵Tf，具体满足如下条件：[0097] （1）关系矩阵Tf的秩尽可能小；[0098] （2）关系矩阵Tf的大小与关系矩阵Tc相同、且关系矩阵Tf是反对称的；[0099] （3）所找到的最可信元素在Tc中的索引位置所对应的Tf中的元素，与最可信元素尽可能接近。[0100] 具体地，最终的关系矩阵Tf可以由对以下约束二次规划问题求解而得，

[0092] [0101]

s.t.Rank(Tf)≤MinR,Tf=-(Tf)T[0103] 其中，A（Tf）表示在相应的所有最可信元素的索引位置上对应Tf中的元素，b是所找到的Tc中的最可信元素，Rank（Tf）表示Tf的秩，MinR是预设的常数。[0104] 并且在步骤405中，可以根据该最终的关系矩阵来计算最终的关于多个类的分类分数，并为该查询图像选择具有较大分类分数的一个或多个类。

[0105] 图6是本发明实施例的多模态特征融合过程的一示意图。如图6所示，针对一查询图像，可以通过训练图像集生成M个模态特征对应的第一分类分数，以及由M个模态特征拼接成的组合特征对应的第二分类分数，并且为M组第一分类分数和一组第二分类分数分

[0102]

CN 104239360 A

说明书

7/11页

别构建类与类的两两关系矩阵；[0106] 然后，将多个第一分类分数对应的两两关系矩阵以及该第二分类分数对应的两两关系矩阵进行融合生成组合后的两两关系矩阵，其中可以对该组合后的两两关系矩阵进行过滤或变换而得到最终的两两关系矩阵；并且，根据最终的关系矩阵计算最终的关于多个类的分类分数；最后，从最终的分类分数中选择具有较大分数的一个或多个类作为该查询图像的类别。[0107] 由此，本发明组合多个特征生成的分类分数且将分类分数转换为关系矩阵，从而避免了在多特征融合中各个特征的不同尺度问题；并且，本发明构建了一个鲁棒的类与类的两两关系矩阵，因此能很好地处理训练数据噪声或者缺失的情形；此外，本发明尤其适于web图像标注任务，因为对于web图像来说，多个模态更容易获得。[0108] 由上述实施例可知，根据每种模态特征生成一个关系矩阵，然后线性组合所有关系矩阵以得到组合后的关系矩阵，并根据线性组合矩阵推断出一个低秩关系矩阵以获得最终的分类分数。由此，不但可以有效且快速地进行多模态特征融合，而且避免了多模态特征融合下各个特征不同尺度的问题，并且可以很好地处理训练数据噪声或者数据缺失的情况，提高了对于数据噪声的鲁棒性。[0109] 实施例3

[0110] 本发明实施例提供一种多模态特征的融合装置，对应于实施例1所述的多模态特征的融合方法，相同的内容不再赘述。

[0111] 图7是本发明实施例的多模态特征的融合装置的一构成示意图。如图7所示，该融合装置700包括：矩阵获取单元701、矩阵组合单元702和类别选择单元703。融合装置700的其他构成部分可以参考现有技术。[0112] 其中，矩阵获取单元701利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得第一分类分数对应的多个两两关系矩阵；矩阵组合单元702融合多个两两关系矩阵以得到组合后的关系矩阵；类别选择单元703根据组合后的关系矩阵计算最终的关于多个类的分类分数，并为该查询图像选择具有较大分类分数的一个或多个类。

[0113] 由上述实施例可知，根据每种模态特征生成一个关系矩阵，然后线性组合所有关系矩阵以得到组合后的关系矩阵，并根据线性组合矩阵推断出一个低秩关系矩阵以获得最终的分类分数。由此，不但可以有效且快速地进行多模态特征融合，而且避免了多模态特征融合下各个特征不同尺度的问题，并且可以很好地处理训练数据噪声或者数据缺失的情况，提高了对于数据噪声的鲁棒性。实施例4

[0115] 本发明实施例提供一种多模态特征的融合装置，对应于实施例2所述的多模态特征的融合方法，相同的内容不再赘述。

[0116] 图8是本发明实施例的多模态特征的融合装置的一构成示意图。如图8所示，该融合装置800包括：矩阵获取单元701、矩阵组合单元702和类别选择单元703，如实施例3所述。

[0117] 如图8所示，融合装置800还可以包括：特征拼接单元804；该特征拼接单元804将所有的多模态特征直接拼接成一组合特征。并且，矩阵获取单元701还用于利用训练图

[0114]

CN 104239360 A

说明书

8/11页

像以及该组合特征，为查询图像生成一组关于多个类的第二分类分数，并获得第二分类分数对应的一个两两关系矩阵；矩阵组合单元702还用于将第一分类分数对应的多个两两关系矩阵以及第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵。[0118] 图9是本发明实施例的多模态特征的融合装置的又一构成示意图。如图9所示，该融合装置900包括：矩阵获取单元701、矩阵组合单元702、类别选择单元703和特征拼接单元804，如上所述。[0119] 如图9所示，融合装置900还可以包括：矩阵变换单元905；该矩阵变换单元905对组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵。并且，类别选择单元703还用于根据最终的关系矩阵计算最终的关于多个类的分类分数，并为该查询图像选择具有较大分类分数的一个或多个类。

[0120] 图10是本发明实施例的矩阵变换单元905的一构成示意图。如图10所示，矩阵变换单元905具体可以包括可信元素获取单元1001和最终矩阵获取单元1002。其中，可信元素获取单元1001找出并保留组合后的关系矩阵Tc中最可信的元素；最终矩阵获取单元1002根据最可信的元素获得最终的关系矩阵Tf。[0121] 由上述实施例可知，根据每种模态特征生成一个关系矩阵，然后线性组合所有关系矩阵以得到组合后的关系矩阵，并根据线性组合矩阵推断出一个低秩关系矩阵以获得最终的分类分数。由此，不但可以有效且快速地进行多模态特征融合，而且避免了多模态特征融合下各个特征不同尺度的问题，并且可以很好地处理训练数据噪声或者数据缺失的情况，提高了对于数据噪声的鲁棒性。本发明以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。[0123] 以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。[0124] 关于包括以上实施例的实施方式，还公开下述的附记：[0125] （附记1）一种多模态特征的融合方法，所述融合方法包括：[0126] 利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；[0127] 融合所述多个两两关系矩阵以得到组合后的关系矩阵；

[0128] 根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。[0129] （附记2）根据附记1所述的融合方法，其中，所述融合方法还包括：[0130] 将所有的多模态特征直接拼接成一组合特征；[0131] 利用训练图像以及所述组合特征，为所述查询图像生成一组关于所述多个类的第二分类分数，并获得所述第二分类分数对应的一个两两关系矩阵；

[0122]

并且，将所述第一分类分数对应的多个两两关系矩阵以及所述第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵。

[0132]

CN 104239360 A

说明书

9/11页

[0133] （附记3）根据附记2所述的融合方法，其中，融合所述多个两两关系矩阵以得到组

合后的关系矩阵具体包括：

[0134] 对所述第一分类分数对应的多个两两关系矩阵进行线性组合；并且将所述第二分类分数对应的两两关系矩阵作为约束项以引导所述线性组合。[0135] （附记4）根据附记3所述的融合方法，其中，所述线性组合获得的关系矩阵为：Tc=∑i=1,...,MwiTi，其中Ti为所述第一分类分数对应的两两关系矩阵，i=1,...,M，M为所述多模态特征的个数；wi为线性权重，所述线性权重满足如下条件：[0136] 条件1：所有线性权重均大于或者等于零；[0137] 条件2：线性权重的L2-范数最小；[0138] 条件3：线性组合中的Tc和Ta尽可能接近，所述Ta为所述第二分类分数对应的两两关系矩阵。

[0139] （附记5）根据附记4所述的融合方法，其中，所述线性组合满足如下约束：

[0140]

s.t.wi≥0,i=1,...,M[0142] 其中，w=(w1,w2,…,wM)T，μ是一个给定的常数。[0143] （附记6）根据附记1至5任一项所述的融合方法，其中，在融合所述多组两两关系矩阵以得到组合后的关系矩阵之后，所述融合方法还包括：

[0144] 对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵；[0145] 并且，根据所述最终的关系矩阵计算最终的关于所述多个类的分类分数。[0146] （附记7）根据附记6所述的融合方法，其中，对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵具体包括：

[0147] 找出并保留所述组合后的关系矩阵T中最可信的元素；以及

[0148] 根据最可信的元素获得最终的关系矩阵T；[0149] 其中，对于Tc中任意第（j，k）个元素，如果满足以下其中任一个条件，则该元素被认为是可信的：[0150] 条件1：Tc（j，k）>0且在M个关系矩阵Ti中有Nt个关系矩阵的第（j，k）个元素大于0；

[0151] 条件2：Tc（j，k）<0且在M个关系矩阵Ti中有Nt个矩阵的第（j，k）个元素小于0；

[0152] 其中，Nt大于一预设值；Ti为所述第一分类分数对应的两两关系矩阵，i=1,...,M。[0153] （附记8）根据附记7所述的融合方法，其中，根据最可信的元素获得最终的关系矩阵Tf，具体满足如下条件：[0154] 条件1：所述关系矩阵Tf的秩尽可能小；[0155] 条件2：所述关系矩阵Tf的大小与所述关系矩阵Tc相同、且所述关系矩阵Tf是反对称的；

[0156] 条件3：所找到的最可信元素在Tc中的索引位置所对应的Tf中的元素，与所述最可信元素尽可能接近。[0157] （附记9）根据附记8所述的融合方法，其中，最终的关系矩阵Tf满足如下约束：

[0141]

CN 104239360 A[0158]

说明书

10/11页

s.t.Rank(Tf)≤MinR,Tf=-(Tf)T

[0160] 其中，A（Tf）表示在相应的所有最可信元素的索引位置上对应Tf中的元素，b是所找到的Tc中的最可信元素，Rank（Tf）表示Tf的秩，MinR是预设的常数。[0161] （附记10）一种多模态特征的融合装置，所述融合装置包括：[0162] 矩阵获取单元，利用训练图像以及图像的多模态特征，为查询图像生成多组关于多个类的第一分类分数，并获得所述第一分类分数对应的多个两两关系矩阵；[0163] 矩阵组合单元，融合所述多个两两关系矩阵以得到组合后的关系矩阵；[0164] 类别选择单元，根据组合后的关系矩阵计算最终的关于所述多个类的分类分数，并为所述查询图像选择具有较大分类分数的一个或多个类。[0165] （附记11）根据附记10所述的融合装置，其中，所述融合装置还包括：[0166] 特征拼接单元，将所有的多模态特征直接拼接成一组合特征；[0167] 并且，所述矩阵获取单元还用于利用训练图像以及所述组合特征，为所述查询图像生成一组关于所述多个类的第二分类分数，并获得所述第二分类分数对应的一个两两关系矩阵；所述矩阵组合单元还用于将所述第一分类分数对应的多个两两关系矩阵以及所述第二分类分数对应的一个两两关系矩阵进行融合以得到组合后的关系矩阵。

[0159]

[0168] （附记12）根据附记11所述的融合装置，其中，所述矩阵组合单元具体用于：对所

述第一分类分数对应的多个两两关系矩阵进行线性组合；并且将所述第二分类分数对应的两两关系矩阵作为约束项以引导所述线性组合。[0169] （附记13）根据附记12所述的融合装置，其中，所述线性组合获得的关系矩阵为：Tc=∑i=1,...,MwiTi，其中Ti为所述第一分类分数对应的两两关系矩阵，i=1,...,M，M为所述多模态特征的个数；wi为线性权重，所述线性权重满足如下条件：[0170] 条件1：所有线性权重均大于或者等于零；[0171] 条件2：线性权重的L2-范数最小；[0172] 条件3：线性组合中的Tc和Ta尽可能接近，所述Ta为所述第二分类分数对应的两两关系矩阵。

[0173] （附记14）根据附记13所述的融合装置，其中，所述线性组合满足如下约束：

[0174]

s.t.wi≥0,i=1,...,M[0176] 其中，w=(w1,w2,…,wM)T，μ是一个给定的常数。[0177] （附记15）根据附记10至14任一项所述的融合装置，其中，所述融合装置还包括：[0178] 矩阵变换单元，对所述组合后的关系矩阵进行过滤或变换以获得最终的关系矩阵；

[0179] 并且，所述类别选择单元还用于根据所述最终的关系矩阵计算最终的关于所述多个类的分类分数。[0180] （附记16）根据附记15所述的融合装置，其中，所述矩阵变换单元具体包括：[0181] 可信元素获取单元，找出并保留所述组合后的关系矩阵Tc中最可信的元素；

[0175]

CN 104239360 A[0182]

说明书

11/11页

最终矩阵获取单元，根据最可信的元素获得最终的关系矩阵Tf；

[0183] 其中，对于Tc中任意第（j，k）个元素，如果满足以下其中任一个条件，则该元素被认为是可信的：[0184] 条件1：Tc（j，k）>0且在M个关系矩阵Ti中有Nt个关系矩阵的第（j，k）个元素大于0；

[0185]

条件2：Tc（j，k）<0且在M个关系矩阵Ti中有Nt个矩阵的第（j，k）个元素小于

0；

其中，Nt大于一预设值；Ti为所述第一分类分数对应的两两关系矩阵，i=1,...,M。

[0187] （附记17）根据附记16所述的融合装置，其中，根据最可信的元素获得最终的关系矩阵Tf，具体满足如下条件：[0188] 条件1：所述关系矩阵Tf的秩尽可能小；[0189] 条件2：所述关系矩阵Tf的大小与所述关系矩阵Tc相同、且所述关系矩阵Tf是反对称的；

[0190] 条件3：所找到的最可信元素在Tc中的索引位置所对应的Tf中的元素，与所述最可信元素尽可能接近。[0191] （附记18）根据附记17所述的融合装置，其中，最终的关系矩阵Tf满足如下约束：

[0186] [0192]

s.t.Rank(Tf)≤MinR,Tf=-(Tf)T[0194] 其中，A（Tf）表示在相应的所有最可信元素的索引位置上对应Tf中的元素，b是所找到的Tc中的最可信元素，Rank（Tf）表示Tf的秩，MinR是预设的常数。[0195] （附记19）一种计算机可读程序，其中当在图像处理装置中执行所述程序时，所述程序使得计算机在所述图像处理装置中执行如附记1至附记9中任一项所述的多模态特征的融合方法。

[0196] （附记20）一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在图像处理装置中执行如附记1至9中任一项所述的多模态特征的融合方法。

[0193]

CN 104239360 A

说明书附图

图1

图2

1/7页

CN 104239360 A

说明书附图

2/7页

图3

CN 104239360 A

说明书附图

3/7页

图4

CN 104239360 A

说明书附图

4/7页

图5

CN 104239360 A

说明书附图

5/7页

图6

CN 104239360 A

说明书附图

6/7页

图7

图8

CN 104239360 A

说明书附图

7/7页

图9

图10

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

多模态特征的融合方法以及装置[发明专利]