对话交互方法、系统、电子设备和存储介质与流程

文档序号：34866535发布日期：2023-07-23 20:47阅读：50来源：国知局

1.本发明涉及智能语音领域，尤其涉及一种对话交互方法、系统、电子设备和存储介质。

背景技术：

2.为了提升用户在使用智能语音服务的体验，开发者对智能聊天机器人进行了不断的迭代与更新。全双工对话中，对话的双方可以同时发送和接收数据。这意味着在对话过程中，用户和聊天机器人可以同时传输数据，彼此之间没有任何时间限制，数据可以同时进行双向传输。这种方式可以有效提高用户对话交互的速度和效率。
3.在全双工对话中，聊天机器人通过在获取到语音识别的中间结果时就预测用户要表达的完整表述，基于预测的完整表述来提前生成回复信息，从而可以在满足回复条件时，例如在判断用户说完一段话后，立即输出该回复信息，通过这样达到高效的对话交互，也会有基于相似度判断预测结果和真实结果的相似度，如果相似，则输出预测结果对应的回复信息。
4.在实现本发明过程中，发明人发现相关技术中至少存在如下问题：
5.在全双工交互过程中，由于用户是口语化的表述，在实际识别的文本中经常掺杂口语化的词汇，比如“我想听一个，嗯，那个心太软”其中嗯，那个就属于口语化的词汇，可以出现在句子的任何位置，导致在预测结果时需要考虑更多的情况。再比如当用户说“我今天想要”或者“我想听”后续的句子几乎是不可预测的这会导致生成的搜索空间更大，占用过多的计算机资源并且预测成功的概率极低。
6.基于相似度判断预测结果和真实结果的相似度并不可靠，这种判断方式有可能导致对话结果产生变化，虽然两句话看起来很相似，但语义有可能不同，甚至完全相反(例如，“给你买六个”和“给你买个六”，实际一个表示会买，另一个表示不会买)，进而影响了对话效果。

技术实现要素：

7.为了至少解决现有技术中全双工对话中预测用户部分内容搜索空间过大，占用过多的计算资源，并且影响了预测成功率，进而降低了与用户对话交互的准确率的问题。
8.第一方面，本发明实施例提供一种对话交互方法，包括：
9.在确定出到达语音端点检测的暂停时间之前，实时对用户输入的交互语音进行识别，得到多个中间识别结果，对所述中间识别结果进行语义解析以及对话回复生成；
10.若在后时间的中间识别结果相较于上一刻在先时间的中间识别结果发生改变，则中断所述上一刻在先时间的中间识别结果的语义解析以及对话回复生成，并重新对所述在后时间的中间识别结果进行语义解析以及对话回复生成，将所述在后时间的中间识别结果确定为所述交互语音的预测中间识别结果；
11.在确定出到达语音端点检测的暂停时间时，得到所述交互语音的最终识别结果，
判断所述预测中间识别结果是否符合所述最终识别结果的对话条件，若符合，则利用所述到达语音端点检测的暂停时间之前确定的预测中间识别结果的对话回复向所述用户进行反馈。
12.第二方面，本发明实施例提供一种对话交互系统，包括：
13.中间识别结果确定程序模块，用于在确定出到达语音端点检测的暂停时间之前，实时对用户输入的交互语音进行识别，得到多个中间识别结果，对所述中间识别结果进行语义解析以及对话回复生成；
14.预测程序模块，用于若在后时间的中间识别结果相较于上一刻在先时间的中间识别结果发生改变，则中断所述上一刻在先时间的中间识别结果的语义解析以及对话回复生成，并重新对所述在后时间的中间识别结果进行语义解析以及对话回复生成，将所述在后时间的中间识别结果确定为所述交互语音的预测中间识别结果；
15.交互程序模块，用于在确定出到达语音端点检测的暂停时间时，得到所述交互语音的最终识别结果，判断所述预测中间识别结果是否符合所述最终识别结果的对话条件，若符合，则利用所述到达语音端点检测的暂停时间之前确定的预测中间识别结果的对话回复向所述用户进行反馈。
16.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的对话交互方法的步骤。
17.第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的对话交互方法的步骤。
18.本发明实施例的有益效果在于：借助识别过程中生成的中间识别结果以及vad pause time,可以使本方法在对话结果不发生变化的情况下(保证了对话系统的准确性)，减少对话系统的整体耗时，提高了对话系统的实时性。对话交互的实时性越高，用户同设备进行交互时的等待响应时间越短，有利于提升语音交互产品的竞争力。
附图说明
19.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1是本发明一实施例提供的一种对话交互方法的流程图；
21.图2是本发明一实施例提供的一种对话交互方法的现有语音交互对话示意图；
22.图3是本发明一实施例提供的一种对话交互方法的对话交互示意图；
23.图4是本发明一实施例提供的一种对话交互系统的结构示意图；
24.图5为本发明一实施例提供的一种对话交互的电子设备的实施例的结构示意图。
具体实施方式
25.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例
中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.如图1所示为本发明一实施例提供的一种对话交互方法的流程图，包括如下步骤：
27.s11：在确定出到达语音端点检测的暂停时间之前，实时对用户输入的交互语音进行识别，得到多个中间识别结果，对所述中间识别结果进行语义解析以及对话回复生成；
28.s12：若在后时间的中间识别结果相较于上一刻在先时间的中间识别结果发生改变，则中断所述上一刻在先时间的中间识别结果的语义解析以及对话回复生成，并重新对所述在后时间的中间识别结果进行语义解析以及对话回复生成，将所述在后时间的中间识别结果确定为所述交互语音的预测中间识别结果；
29.s13：在确定出到达语音端点检测的暂停时间时，得到所述交互语音的最终识别结果，判断所述预测中间识别结果是否符合所述最终识别结果的对话条件，若符合，则利用所述到达语音端点检测的暂停时间之前确定的预测中间识别结果的对话回复向所述用户进行反馈。
30.在本实施方式中，本方法考虑到如果想要优化全双工的交互的效果，从业人员需要熟悉对话系统的各个模块，从全链路整体的角度看待全双工交互。这就要求从业人员需要熟悉全链路各个模块的特点和不足。由于不同模块通常是由不同的研发人员来负责的，所以大部分的优化是集中于模块内的优化，涉及到跨模块的优化相对更加困难。
31.如果仅仅是在对话过程中提前预测用户的对话，例如“我想听”、“帮我打开”，听什么，以歌曲来说曲库中就有着上万首；打开什么，可能是打开软件，也可能是打开物联网控制下的智能家用电器，这就使得搜索空间过于庞大。由于用户是口语输入，即便预测对了用户所要说的内容，但用户口语化的表述与预测的内容也会有所偏差，因此，本方法在提前预测的基础上进一步在保持低系统耗时的情况下提升对话交互的效果。为了体现本方法对话交互的提升，列举了现有技术的语音交互过程以及本方法语音交互的过程。如图2所示为现有技术的语音交互过程，其中s0到s6记录了交互过程的时间轴信息，s0是语音开始时间，s2代表出识别结果时耗时总共为1000毫秒，s4代表出对话结果时总耗时是1300毫秒。可以看到在常规语音交互的过程中，语义解析过程是在识别结果完全出来(s2)之后才开始的。
32.如图3所示为本方法的语音交互过程。可以将本方法应用于云端语音服务器中，云端语音服务器对来自智能客户端传送的用户语音进行对话服务。对于步骤s11，例如，用户所要说的内容为“我想播放忘情水”，此时，用户身边的智能音响实时开启vad(voice activity detection，语音端点检测)，当检测到用户的声音时进行识别，当用户停止说话一段时间后(也就是图中的vad pause time-暂停时间)，确认用户说话停止。
33.在用户说话的过程中，实时对用户输入的交互语音进行识别，例如，在s0时，用户说了“我想”，在s1时得到了第一个词的识别结果“我想”，得到“我想”的识别结果后开始语义解析，并进行对话回复生成。基于同样的方式也会对其他交互语音进行识别处理。
34.对于步骤s12，例如，在s2时，得到的识别结果“我想播放”，此时s2得到的识别结果“我想播放”与s1得到的识别结果“我想”相比，发生了改变。因此中断了s1的语义解析及生成对话回复的过程，也就是中断对“我想”的语义解析以及对话回复生成，并重新确定“我想播放”的语义解析以及对话回复生成。
35.同样的，在s3时，得到了的识别结果为“我想播放忘情水”，此时s3得到的识别结果“我想播放忘情水”与s2得到的识别结果“我想播放”相比，发生了改变，因此中断了s2的语义解析及生成对话回复的过程，也就是中断对“我想播放”的语义解析以及对话回复生成，并重新确定“我想播放忘情水”的语义解析以及对话回复生成，例如，在s4时得到了语义解析结果，在s5时得到了对话模块生成的回复。通过上述方式不断的进行中断调整，将最后确定的交互语音的中间识别结果，确定为交互语音的预测中间识别结果。
36.作为一种实施方式，在所述对所述中间识别结果进行语义解析以及对话回复生成之后，所述方法还包括：
37.若在后时间的中间识别结果相较于上一刻在先时间的中间识别结果没有发生改变，则继续对所述上一刻在先时间的中间识别结果的语义解析以及对话回复生成，将所述上一刻在先时间的中间识别结果确定为所述交互语音的预测中间识别结果。
38.在本实施方式中，如果s1的识别结果为“我想”，而s2的识别结果还是“我想”，此时继续对s1识别的“我想”进行语义解析以及对话回复生成，由于识别结果没有发生改变，还是利用s1时确定的“我想”确定为所述交互语音的预测中间识别结果。
39.对于步骤s13，在s5时同时得到了对话模块生成的回复，以及识别结束的信号和最终的识别结果“我想播放忘情水”。判断预测中间识别结果是否符合最终识别结果的对话条件，具体的，
40.当所述预测中间识别结果与所述最终识别结果相同时，所述预测中间识别结果符合所述最终识别结果的对话条件，或
41.当所述预测中间识别结果与所述最终识别结果不同时，判断所述预测中间识别结果与所述最终识别结果的语义解析结果，若所述预测中间识别结果的语义解析结果与所述最终识别结果的语义解析结果相同时，所述预测中间识别结果符合所述最终识别结果的对话条件。
42.在本实施方式中，此时最终的识别结果与s3得到的预测中间识别结果是相同的，所以此时直接将s3得到的对话结果直接当作最终的对话回复返回。简单的说，如果pause time之后的识别文本没有发生变化，则直接使用提前生成好的对话结果。但如果pause time之后的识别文本发生变化了，语义解析结果没有发生变化，则仍然可以直接使用提前生成好的对话结果，这也就避免了用户口语的影响。
43.进一步的，如果在s5时，对话结果早于最终识别生成，过程同上面同时生成的过程一致。如果在s5时，对话结果还未生成，则此时等待s3的对话结果生成即可。通过图2与图3的比较，可以看出由于识别在生成最终的识别文本前通常会有一段几百毫秒的pause time(例如图示中的300毫秒)用于判断用户是否已经说完话，因此通过本方法可以提前几百毫秒得到语义解析结果。避免了在vad pasuetime之后才进行语义解析，从而可以节省几百毫秒的语义解析时间。整个对话交互过程中优化了三百毫秒，这三百毫秒的优化对于人机交互耗时的减少非常明显。
44.通过该实施方式可以看出，借助识别过程中生成的中间识别结果以及vad pause time,可以使本方法在对话结果不发生变化的情况下(保证了对话系统的准确性)，减少对话系统的整体耗时，提高了对话系统的实时性。对话交互的实时性越高，用户同设备进行交互时的等待响应时间越短，有利于提升语音交互产品的竞争力。
45.如图4所示为本发明一实施例提供的一种对话交互系统的结构示意图，该系统可执行上述任意实施例所述的对话交互方法，并配置在终端中。
46.本实施例提供的一种对话交互系统10包括：中间识别结果确定程序模块11，预测程序模块12和交互程序模块13。
47.其中，中间识别结果确定程序模块11用于在确定出到达语音端点检测的暂停时间之前，实时对用户输入的交互语音进行识别，得到多个中间识别结果，对所述中间识别结果进行语义解析以及对话回复生成；预测程序模块12用于若在后时间的中间识别结果相较于上一刻在先时间的中间识别结果发生改变，则中断所述上一刻在先时间的中间识别结果的语义解析以及对话回复生成，并重新对所述在后时间的中间识别结果进行语义解析以及对话回复生成，将所述在后时间的中间识别结果确定为所述交互语音的预测中间识别结果；交互程序模块13用于在确定出到达语音端点检测的暂停时间时，得到所述交互语音的最终识别结果，判断所述预测中间识别结果是否符合所述最终识别结果的对话条件，若符合，则利用所述到达语音端点检测的暂停时间之前确定的预测中间识别结果的对话回复向所述用户进行反馈。
48.本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的对话交互方法；
49.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
50.在确定出到达语音端点检测的暂停时间之前，实时对用户输入的交互语音进行识别，得到多个中间识别结果，对所述中间识别结果进行语义解析以及对话回复生成；
51.若在后时间的中间识别结果相较于上一刻在先时间的中间识别结果发生改变，则中断所述上一刻在先时间的中间识别结果的语义解析以及对话回复生成，并重新对所述在后时间的中间识别结果进行语义解析以及对话回复生成，将所述在后时间的中间识别结果确定为所述交互语音的预测中间识别结果；
52.在确定出到达语音端点检测的暂停时间时，得到所述交互语音的最终识别结果，判断所述预测中间识别结果是否符合所述最终识别结果的对话条件，若符合，则利用所述到达语音端点检测的暂停时间之前确定的预测中间识别结果的对话回复向所述用户进行反馈。
53.作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的对话交互方法。
54.图5是本技术另一实施例提供的对话交互方法的电子设备的硬件结构示意图，如图5所示，该设备包括：
55.一个或多个处理器510以及存储器520，图5中以一个处理器510为例。对话交互方法的设备还可以包括：输入装置530和输出装置540。
56.处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。
57.存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程
序、非易失性计算机可执行程序以及模块，如本技术实施例中的对话交互方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例对话交互方法。
58.存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
59.输入装置530可接收输入的数字或字符信息。输出装置540可包括显示屏等显示设备。
60.所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的对话交互方法。
61.上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
62.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
63.本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的对话交互方法的步骤。
64.本技术实施例的电子设备以多种形式存在，包括但不限于：
65.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
66.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。
67.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
68.(4)其他具有数据处理功能的电子装置。
69.在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品
或者设备中还存在另外的相同要素。
70.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
71.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
72.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2