您的当前位置:首页正文

一种实现自主学习的知识库构建方法[发明专利]

2022-01-29 来源:个人技术集锦
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 110334080 A(43)申请公布日 2019.10.15

(21)申请号 201910562032.3(22)申请日 2019.06.26

(71)申请人 广州探迹科技有限公司

地址 511400 广东省广州市番禺区小谷围

街青蓝街26号503(72)发明人 陈开冉 黎展 周捷光 (74)专利代理机构 广州三环专利商标代理有限

公司 44202

代理人 颜希文 麦小婵(51)Int.Cl.

G06F 16/21(2019.01)G06F 16/332(2019.01)G06F 16/35(2019.01)

权利要求书2页 说明书5页 附图1页

(54)发明名称

一种实现自主学习的知识库构建方法(57)摘要

本发明公开了一种实现自主学习的知识库构建方法,通过获取多个知识点,将多个知识点输入至知识点识别模型,生成候选知识点集合,再将候选新知识点集合输入至新知识点判定模型,生成新知识点集合,然后对新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合,并根据第一集合和新知识点集合,得到学习新知识点的第一准确率,当第一准确率达到预设的阈值时,将知识点识别模型结合新知识点判定模型,得到自主学习知识库,采用本发明提供的实施例,能够实现知识库自动区分相似知识点,以及从未知数据中发现新知识,并不断减少人工的指导,大大提高了工作效率。

CN 110334080 ACN 110334080 A

权 利 要 求 书

1/2页

1.一种实现自主学习的知识库构建方法,其特征在于,包括以下步骤:获取多个知识点,将所述多个知识点输入至预先建立的知识点识别模型,生成候选知识点集合;其中,知识点包括该知识对应的问题和该知识点问题对应的答案;

将所述候选新知识点集合输入至预先建立的新知识点判定模型,生成新知识点集合;对所述新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合;根据所述第一集合和所述新知识点集合,得到学习新知识点的第一准确率,并判断所述第一准确率是否达到预设的阈值;

若是,则将所述知识点识别模型,结合所述新知识点判定模型,得到自主学习知识库;若否,则对所述知识点识别模型和所述新知识点判定模型进行优化处理,以使学习新知识点的准确率达到所述预设的阈值。

2.如权利要求1所述的实现自主学习的知识库构建方法,其特征在于,所述预先建立的知识点识别模型通过以下方法构建:

以BERT文本二分类模型作为第一基础模型,获取多个常见知识点集合;对所述多个常见知识点集合中的每个知识点问题进行正负分类,得到属于需要的知识点的正知识点集合,和属于不需要的知识点的负知识点集合;

以所述多个常见知识点集合作为所述第一基础模型的输入,以所述正知识点集合作为所述第一基础模型的输出,并当所述第一基础模型的识别准确率达到第一阈值时,将所述第一基础模型作为知识点识别模型。

3.如权利要求2所述的实现自主学习的知识库构建方法,其特征在于,所述预先建立的新知识点判定模型通过以下方法构建:

以BERT文本相似度模型作为第二基础模型,获取多个新知识点和多个常见知识点集合;

根据相似度算法分别计算所述多个新知识点的问题,与所述多个常见知识点集合中每个知识点问题的相似度,得到相似度超过第二阈值的相似集合,和相似度不高于第二阈值的不相似集合;

以所述多个新知识点和所述多个常见知识点集合作为所述第二基础模型的输入,以所述不相似集合作为所述第二基础模型的输出,构建新知识点判定模型。

4.如权利要求3所述的实现自主学习的知识库构建方法,其特征在于,所述对所述知识点识别模型和所述新知识点判定模型进行优化处理,具体为:

当所述第一准确率未达到预设的阈值时,提高所述知识点识别模型中的第一阈值,以使所述知识点识别模型识别出更为需要的知识点;

降低所述新知识点判定模型中的第二阈值,以使所述新知识点判定模型判定出更为不相似的知识点。

5.如权利要求2所述的实现自主学习的知识库构建方法,其特征在于,所述需要的知识点为用户关心的问题和所述用户关心的问题的答案。

6.如权利要求3所述的实现自主学习的知识库构建方法,其特征在于,所述相似度算法为二分类算法。

7.如权利要求1-6任一项所述的实现自主学习的知识库构建方法,其特征在于,所述预设的阈值为0.95。

2

CN 110334080 A

权 利 要 求 书

2/2页

8.如权利要求7所述的实现自主学习的知识库构建方法,其特征在于,所述第一阈值为0.8。

9.如权利要求8所述的实现自主学习的知识库构建方法,其特征在于,所述第二阈值为0.2。

3

CN 110334080 A

说 明 书

一种实现自主学习的知识库构建方法

1/5页

技术领域

[0001]本发明涉及人工智能技术领域,尤其涉及一种实现自主学习的知识库构建方法。背景技术

[0002]对话知识库是对话系统中一个很重要的知识存储库,里面包含了大量人工构想以及实际积累的知识点(用户关心的问题以及对应的回答)。通过各种聚类或分类算法,以及人工查阅的方法可以从大量的对话数据中数据进行归类,每一类对应一种用户关心的问题。

[0003]然而,在现有的算法中,无法区分相似但不同的知识点,无法发现低频但重要的新知识点,还需要大量人工指导,人力成本过高,无法自行学习。发明内容

[0004]本发明实施例的目的是提供一种实现自主学习的知识库构建方法,能够区分相似知识点,自动从未知数据中发现新知识,并不断减少人工的指导,大大提高了工作效率。[0005]为实现上述目的,本发明实施例提供了一种实现自主学习的知识库构建方法,包括以下步骤:

[0006]获取多个知识点,将所述多个知识点输入至预先建立的知识点识别模型,生成候选知识点集合;其中,知识点包括该知识对应的问题和该知识点问题对应的答案;[0007]将所述候选新知识点集合输入至预先建立的新知识点判定模型,生成新知识点集合;

[0008]对所述新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合;[0009]根据所述第一集合和所述新知识点集合,得到学习新知识点的第一准确率,并判断所述第一准确率是否达到预设的阈值;[0010]若是,则将所述知识点识别模型,结合所述新知识点判定模型,得到自主学习知识库;

[0011]若否,则对所述知识点识别模型和所述新知识点判定模型进行优化处理,以使学习新知识点的准确率达到所述预设的阈值。[0012]进一步的,所述预先建立的知识点识别模型通过以下方法构建:[0013]以BERT文本二分类模型作为第一基础模型,获取多个常见知识点集合;[0014]对所述多个常见知识点集合中的每个知识点问题进行正负分类,得到属于需要的知识点的正知识点集合,和属于不需要的知识点的负知识点集合;[0015]以所述多个常见知识点集合作为所述第一基础模型的输入,以所述正知识点集合作为所述第一基础模型的输出,并当所述第一基础模型的识别准确率达到第一阈值时,将所述第一基础模型作为知识点识别模型。[0016]进一步的,所述预先建立的新知识点判定模型通过以下方法构建:[0017]以BERT文本相似度模型作为第二基础模型,获取多个新知识点和多个常见知识点

4

CN 110334080 A

说 明 书

2/5页

集合;

根据相似度算法分别计算所述多个新知识点的问题,与所述多个常见知识点集合

中每个知识点问题的相似度,得到相似度超过第二阈值的相似集合,和相似度不高于第二阈值的不相似集合;

[0019]以所述多个新知识点和所述多个常见知识点集合作为所述第二基础模型的输入,以所述不相似集合作为所述第二基础模型的输出,构建新知识点判定模型。[0020]进一步的,所述对所述知识点识别模型和所述新知识点判定模型进行优化处理,具体为:

[0021]当所述第一准确率未达到预设的阈值时,提高所述知识点识别模型中的第一阈值,以使所述知识点识别模型识别出更为需要的知识点;[0022]降低所述新知识点判定模型中的第二阈值,以使所述新知识点判定模型判定出更为不相似的知识点。[0023]进一步的,所述需要的知识点为用户关心的问题和所述用户关心的问题的答案。[0024]进一步的,所述相似度算法为二分类算法。[0025]进一步的,所述预设的阈值为0.95。[0026]进一步的,所述第一阈值为0.8。[0027]进一步的,所述第二阈值为0.2。[0028]与现有技术相比,具有如下有益效果:

[0029]本发明实施例提供的实现自主学习的知识库构建方法,通过获取多个知识点,将多个知识点输入至知识点识别模型,生成候选知识点集合,再将候选新知识点集合输入至新知识点判定模型,生成新知识点集合,然后对新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合,并根据第一集合和新知识点集合,得到学习新知识点的第一准确率,判断第一准确率是否达到预设的阈值;若是,则将知识点识别模型结合新知识点判定模型,得到自主学习知识库;若否,则对知识点识别模型和新知识点判定模型进行优化处理,以使学习新知识点的准确率达到预设的阈值,采用本发明提供的实施例,能够实现知识库自动区分相似知识点,以及从未知数据中发现新知识,并不断减少人工的指导,大大提高了工作效率。

附图说明

[0030]图1是本发明提供的实现自主学习的知识库构建方法的一个实施例的流程示意图。

具体实施方式

[0031]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0032]参见图1,图1是本发明提供的实现自主学习的知识库构建方法的一个实施例的流程示意图;本发明实施例提供一种实现自主学习的知识库构建方法,包括步骤S1-S6;

5

[0018]

CN 110334080 A[0033]

说 明 书

3/5页

S1,获取多个知识点,将所述多个知识点输入至预先建立的知识点识别模型,生成

候选知识点集合。[0034]其中,知识点包括该知识对应的问题和该知识点问题对应的答案。[0035]在本实施例中,所述预先建立的知识点识别模型通过以下方法构建:以BERT文本二分类模型作为第一基础模型,获取多个常见知识点集合;对所述多个常见知识点集合中的每个知识点问题进行正负分类,得到属于需要的知识点的正知识点集合,和属于不需要的知识点的负知识点集合;以所述多个常见知识点集合作为所述第一基础模型的输入,以所述正知识点集合作为所述第一基础模型的输出,并当所述第一基础模型的识别准确率达到第一阈值时,将所述第一基础模型作为知识点识别模型。[0036]需要说明的是,所述需要的知识点为用户关心的问题和所述用户关心的问题的答案,所述第一阈值最优为0.8。在实验中,第一阈值越搞,得到的知识点越为用户所需,但过高的阈值,会使得模型的工作效率过低,得到的知识点越少;但当第一阈值取0.8时,既可得到用户所需求的知识点,也不影响模型的工作效率。[0037]S2,将所述候选新知识点集合输入至预先建立的新知识点判定模型,生成新知识点集合。

[0038]在本实施例中,所述预先建立的新知识点判定模型通过以下方法构建:以BERT文本相似度模型作为第二基础模型,获取多个新知识点和多个常见知识点集合;根据相似度算法分别计算所述多个新知识点的问题,与所述多个常见知识点集合中每个知识点问题的相似度,得到相似度超过第二阈值的相似集合,和相似度不高于第二阈值的不相似集合;以所述多个新知识点和所述多个常见知识点集合作为所述第二基础模型的输入,以所述不相似集合作为所述第二基础模型的输出,构建新知识点判定模型。[0039]其中,所述相似度算法为二分类算法,所述第二阈值最优为0.2。在实验中,第二阈值越低,得到的不相似知识点越不相似,但过低的阈值即过低的相似度,会使得模型的工作效率过低,得到的知识点过少;但当第二阈值取0.2时,既可得到用户所需求的不相似知识点,也不影响模型的工作效率。

[0040]作为本发明的优选实施例,本发明还可以以BERT文本相似度模型训练另一种新知识点判定模型,用于区分该新知识点与其他知识点为非同类知识点,其训练方法为以同类知识点的问题作为相似文本,不同知识点的问题作为不相似文本,将问题两两拼接在一起,然后通过BERT编码后,通过一个二分类模型判断该两个问题是否相似,模型最终输出的正标签的概率值作为相似度。通过该新知识点判定模型从候选知识点集合对每个候选知识点与常见知识点集合进行区分,选择得分最高的知识点判定为新知识点,得分最低的知识点判定为非新知识点,其中,得分计算方法为:将候选知识的问题与常见知识点集合中的各问题的相似度的最大值作为新知识与常见知识集合的相似度,然后用(1-相似度)即可得到得分。因为相似度越高,该新知识就越与常见知识点相关,则分数应该更低。[0041]S3,对所述新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合。

[0042]S4,根据所述第一集合和所述新知识点集合,得到学习新知识点的第一准确率,并判断所述第一准确率是否达到预设的阈值。[0043]需要说明的是,所述预设的阈值为0.95。在实验中,当选择的阈值为0.95时,即提

6

CN 110334080 A

说 明 书

4/5页

取的新知识中有95%正确时,此时自行发现并归类新知识点的效果最好。[0044]S5,若是,则将所述知识点识别模型,结合所述新知识点判定模型,得到自主学习知识库。

[0045]S6,若否,则对所述知识点识别模型和所述新知识点判定模型进行优化处理,以使学习新知识点的准确率达到所述预设的阈值。[0046]作为本发明的优选实施例,当所述第一准确率未达到预设的阈值时,提高所述知识点识别模型中的第一阈值,以使所述知识点识别模型识别出更为需要的知识点;降低所述新知识点判定模型中的第二阈值,以使所述新知识点判定模型判定出更为不相似的知识点,能够使得学习新知识点的准确率达到预设的阈值。[0047]优选的,在训练模型的过程中,通过优化提高知识点识别模型中的第一阈值,能够提高候选知识点分类性能,从而提取到质量更高的候选知识点;通过优化降低新知识点判定模型的第二阈值,能够提高新知识点的判定性能,从而提高知识点集合的质量。[0048]为了更好的说明本发明的工作原理,以下为本发明提供的一个实施例的工作原理步骤,包括初始化阶段、知识点发现阶段、知识点判断阶段、人工审核阶段、系统优化阶段,以及评估与迭代阶段;[0049]初始化阶段:通过人工标注一些常见知识点集合,以及一个新知识点,以BERT文本二分类模型为基础,训练一个知识点识别模型,用于识别输入的数据是否为用户所需要的知识点,其中,用户所需要的知识点可通过后台进行自定义设置。[0050]然后以BERT文本相似度模型为基础,训练一个新知识点判定模型,用于判定知识点识别模型生成的候选知识点集合中的知识点是否为新知识点。[0051]知识点发现阶段:通过知识点识别模型从获取的数据中识别出正知识点,并将正知识点作为候选知识点集合。[0052]知识点判断阶段:通过将候选知识点集合和常见知识点集合,输入至新知识点判定模型,得到与常见知识点集合不相似的知识点集合作为新知识点集合。[0053]人工审核阶段:通过人工审核知识点判定中的新知识点和非新知识点。[0054]优化阶段:为了不断减少人工参与的同时提高模型工作性能。在上述阶段中,将收集到新的知识点作为新数据,重新加入至知识点识别模型进行训练。[0055]评估与迭代阶段:对本次优化阶段中对新知识点和非新知识点的判定结果准确率进行评估。不同的准确率对应着不同的状态,当准确率较高时,则说明了完全依赖两个模型就能够高质量的完成知识库构建技术,当准确率较低时,则还不能直接使用当前两个模型来进行知识库构建,必须添加人工指导。那么在迭代过程中,需要不断循环上述阶段,直到两个模型能够以高准确率的构建知识库,衡量这个临界值的准确率为一个可调节的阈值,当阈值过高,人工退出时间延后,系统自学习性较低,但是提取的知识质量越高;当阈值过低,人工退出提前,系统自学习性较高,提取的知识质量越低。

[0056]本发明实施例提供的实现自主学习的知识库构建方法,通过获取多个知识点,将多个知识点输入至知识点识别模型,生成候选知识点集合,再将候选新知识点集合输入至新知识点判定模型,生成新知识点集合,然后对新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合,并根据第一集合和新知识点集合,得到学习新知识点的第一准确率,判断第一准确率是否达到预设的阈值;若是,则将知识点识别模型结合新知识点判

7

CN 110334080 A

说 明 书

5/5页

定模型,得到自主学习知识库;若否,则对知识点识别模型和新知识点判定模型进行优化处理,以使学习新知识点的准确率达到预设的阈值,采用本发明提供的实施例,能够实现知识库自动区分相似知识点,以及从未知数据中发现新知识,并不断减少人工的指导,大大提高了工作效率。

[0057]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

[0058]以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

8

CN 110334080 A

说 明 书 附 图

1/1页

图1

9

因篇幅问题不能全部显示,请点此查看更多更全内容