语音音素识别方法、介质、装置和计算设备与流程

文档序号：34863602发布日期：2023-07-23 15:09阅读：39来源：国知局

1.本公开的实施方式涉及互联网技术领域，更具体地，本公开的实施方式涉及一种语音音素识别方法、介质、装置和计算设备。

背景技术：

2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.现有技术中，随着人工智能技术和人机交互技术的发展，通过虚拟人物、ai或虚拟主播来实现直播、旅游信息介绍等功能，得到越来越广泛的应用。通过预先制作需要播报的内容，然后由虚拟人物形象或ai来自动播送，能够显著节省人力成本。为保证观众用户体验，这类虚拟人物形象在播送时，其唇部动作与预先制作的内容语音需要保证较好的同步，即唇语驱动的场景。因此，需要ai对应的语音识别算法能够确定每个字或者更细的单位所出现的时间，以保证唇语驱动场景下虚拟人物形象的唇部动作能够与语音直接同步。
4.现有语音识别算法，通常只能确定整句的语音，粒度不足，导致无法有效匹配虚拟人物形象的唇部动作和语音，观众体验也较差。

技术实现要素：

5.本公开提供一种语音音素识别方法、介质、装置和计算设备，以解决相关技术中语音识别无法有效匹配虚拟人物形象的唇部动作和语音的问题。
6.在本公开实施方式的第一方面中，提供了一种语音音素识别方法，包括：
7.将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列，音素序列包括语音数据中每个音素的出现顺序。
8.在本公开实施方式的第二方面中，提供了一种语音音素识别模型训练方法，包括：
9.采集用于训练的样本语音数据和样本语音数据对应的样本音素序列；
10.将样本语音数据输入到音素识别模型中，基于输出的预测音素序列与样本音素序列，对音素识别模型进行训练。
11.在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，包括：
12.计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如本公开第一方面中的指标数据存储方法，和/或，计算机执行指令被处理器执行时用于实现如本公开第二方面中的语音音素识别模型训练方法。
13.在本公开实施方式的第四方面中，提供了一种语音音素识别装置，包括：
14.识别模块，用于将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列，音素序列包括语音数据中每个音素的出现顺序
15.在本公开实施方式的第五方面中，提供了一种语音音素识别模型训练装置，包括：
16.样本模块，用于采集用于训练的样本语音数据和样本语音数据对应的样本音素序列；
17.训练模块，用于将样本语音数据输入到音素识别模型中，基于输出的预测音素序列与样本音素序列，对音素识别模型进行训练。
18.在本公开实施方式的第六方面中，提供了一种计算设备，包括：至少一个处理器；
19.以及与至少一个处理器通信连接的存储器；
20.其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算设备执行如本公开第一方面中的语音音素识别方法；和/或，以使计算设备执行如本公开第二方面中的语音音素识别模型训练方法。
21.根据本公开实施方式的语音音素识别方法、介质、装置和计算设备，通过将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列。由此，可以将语音数据拆解为可以由ai的唇部动作对应表现的音素的集合，且以序列形式表现，使得ai通过读取音素序列，可以按每个音素的持续时间依次通过唇部动作进行表现，从而实现唇部动作与语音的准确匹配，进而显著提高观众的体验。
附图说明
22.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
23.图1示意性地示出了根据本公开实施方式的应用场景图；
24.图2示意性地示出了根据本公开另一实施例的语音音素识别方法的流程图；
25.图3示意性地示出了根据本公开又一实施例的语音音素识别模型训练方法的流程图；
26.图4示意性地示出了根据本公开再一实施例的语音音素识别模型训练方法的流程图；
27.图5示意性地示出了图4所示实施例中输出预测音素序列的方法流程图；
28.图6示意性地示出了根据本公开再一实施例的存储介质的结构示意图；
29.图7示意性地示出了根据本公开再一实施例的语音音素识别装置的结构示意图；
30.图8示意性地示出了根据本公开再一实施例的语音音素识别模型训练装置的结构示意图；
31.图9示意性地示出了根据本公开再一实施例的计算设备的结构示意图。
32.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
33.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
34.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
35.根据本公开的实施方式，提出了一种语音音素识别方法、介质、装置和计算设备。
36.下面是本公开涉及的用语说明：
37.唇语驱动：即虚拟人物直播中，通过虚拟人物形象或ai的唇部动作与播放的语音相匹配，使得观众产生语音是由虚拟人物形象或ai的唇部(和口腔)的运动而产生的场景，唇语驱动相对于非唇语驱动的场景，拟真度更高，不会让观众产生音画不同步的感觉，能显著提升用户观看虚拟人物直播时的体验。
38.音素：音素是最小的语音单位，一个发音动作构成一个音素，一段音频由多个音素构成的序列组成。
39.在本文中，需要理解的是，所涉及的术语仅用于方便理解，并未表示对含义的限制。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
40.另外，本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据，对数据的采集、传播、使用等，均符合国家相关法律法规要求，本公开实施方式/实施例可以互相组合。
41.发明概述
42.本发明人发现，现有技术中，通过预先制作需要播报的内容，然后由虚拟人物形象或ai来自动播送，能够显著节省人力成本。为保证观众用户体验，这类虚拟人物形象在播送时，其唇部动作与预先制作的内容语音需要保证较好的同步，即唇语驱动的场景。因此，需要ai对应的语音识别算法能够确定每个字或者更细的单位所出现的时间，以保证唇语驱动场景下虚拟人物形象的唇部动作能够与语音直接同步。现有语音识别算法，通常只能确定整句的语音，无法准确表征语音内部的复杂结构，且即使通过深度学习以识别语音，也会存在只能识别每个字的语音，粒度不足，导致虚拟人物形象的唇部动作和语音的时间不一致，导致观众体验也较差。
43.在本方案中，通过预先训练的音素识别模型来识别语音数据，输出每个音素的出现顺序，相对于现有识别方法，粒度显著提升，识别准确度增加，显著提升虚拟人物唇部动作与语音的匹配效果，进而提升观众的体验。
44.在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。
45.应用场景总览
46.首先参考图1所示，在语音音素识别过程中，服务器将语音数据100输入到音素识别模型110，就能输出音素序列120，以便将音素序列120发送给虚拟人物直播程序130进行播送，从而完成语音音素识别过程。
47.需说明的是，图1所示场景中语音数据、音素识别模型、音素序列和虚拟人物直播程序仅以一个为例进行示例说明，但本公开不以此为限制，也就是说，语音数据、音素识别模型、音素序列和虚拟人物直播程序的个数可以是任意的。
48.示例性方法
49.下面结合图1的应用场景，参考图2来描述根据本公开示例性实施方式的用于语音音素识别方法，并参考图3至图5来描述根据本公开示例性实施方式的用于语音音素识别模型训练方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，
本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。
50.图2为本公开一个实施例提供的语音音素识别方法的流程图。如图2所示，本实施例提供的语音音素识别方法包括以下步骤：
51.步骤s201、将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列。
52.其中，音素序列包括语音数据中每个音素的出现顺序。
53.具体的，语音数据为需要虚拟人物在直播中播放的音频内容，通常为由配音人员配音或程序自动生成且并基于特定文本的配音内容，因此，语音数据通常与特定文本相对应。
54.由于虚拟人物本身只是由程序驱动的动画形象，无法自动识别语音数据中的文本内容，因此，需要对语音数据进行识别，将其转化为虚拟人物对应程序可以(通过唇部动作)表现的内容，即识别语音数据中的音素。
55.因为一个完整的字可能涉及多个唇部动作，如“同”字，需要唇部先张开，然后再闭合，此时存在至少两个动作，如果只识别语音数据中的单字，可能会出现不知道何时唇部动作应该变化的情况，此时观众也会认为存在音画不同步的问题；而“同”字实际上存在三个音素(t、o、ng)，在不同音素下唇部状态不同(t音时，唇部略微张开，o音时，唇部完全张开，ng音时，唇部闭合)，如果将单字拆分具体到每个音素，再分别对应一个动作，就能非常准确的表达出唇部动作的变化。
56.由此可知，当音素发生变化变化时，通常人的唇部动作就会发生改变，因此，只要虚拟人物形象的唇部动作跟随语音数据中的音素改变而同步变化，就能给观众以音画同步的认知(观众潜意识中会认为语音是由虚拟人物念出来的)，进而保证观众体验。
57.因此，通过音素识别模型将语音数据转化为音素的序列，以便虚拟人物对应的程序确定在语音数据的各个音素出现的顺序及时间点，并在该时间点按顺序切换相应音素对应的唇部动作，从而实现唇语驱动的效果。
58.在本公开的一种实施例中，语音数据为中文语音，音素序列包括：每个中文汉字之间存在至少一个间隔字符。
59.具体的，在实际应用中，由于虚拟人物直播的观众主要来自汉语圈，因此，语音数据主要是中文语音。此时，由于中文的文字之间是没有空格等连接符的，为了在音素序列中标识出单字与单字之间的间隔，会在单字之间(即每个中文汉字之间)添加一个或多个间隔字符。当间隔字符只有一个时间，用于表示单字与单字之间的区分，当间隔字符存在连续多个时，可以用于表示单字之间停顿时间的长度，从而通过音素序列同时表达出音素的出现顺序和时间长度(及音素出现的时间点)，从而准确拆分语音数据，保证虚拟人物的唇部动作与音素之间匹配的高度准确性，从而显著提升用户的观看体验。
60.根据本公开实施方式的语音音素识别方法，通过将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列。由此，可以将语音数据拆解为可以由ai的唇部动作对应表现的音素的集合，且以序列形式表现，使得ai通过读取音素序列，可以按每个音素的持续时间依次通过唇部动作进行表现，从而实现唇部动作与语音的准确匹配，进而显著提高观众的体验。
61.图3为本公开一个实施例提供的语音音素识别模型训练方法的流程图。如图3所示，本实施例提供的语音音素识别模型训练方法包括以下步骤：
62.步骤s301、采集用于训练的样本语音数据和样本语音数据对应的样本音素序列。
63.具体的，语音音素识别模型即音素识别模型。在训练音素识别模型时，需要根据实际使用中对应的语种，确定音素识别模型的训练样本(即样本语音数据)的语种，并基于该语种，标识出样本语音数据中对应的音素序列(即样本音素序列)。
64.具体标识方法，可以基于样本语音数据中各个音素出现的时间点，按顺序和时间间隔标出，时间间隔可以通过间隔字符的数量体现，间隔字符数量越多，音素间的时间间隔越长。实际应用中，可以通过手工标注的方式，标识出对应的因素序列(即样本因素序列)。
65.步骤s302、将样本语音数据输入到音素识别模型中，基于输出的预测音素序列与样本音素序列，对音素识别模型进行训练。
66.具体的，将样本语音数据与样本音素序列结合，就得到音素识别模型的训练样本，其中样本语音数据用于输入到音素识别模型中进行训练，输出预测的音素序列(即预测音素序列)，并可以基于输出结果和相应的样本音素序列对比，计算损失函数(可以直接选用经典损失函数，此处不做限制)，同时基于损失函数对音素识别模型中的参数进行更新优化，从而实现训练过程。
67.当音素识别模型训练完毕后，在需要进行唇语驱动的场景，可以直接向需要使用的语音数据输入到训练完毕的音素识别模型中进行识别推理，输出对应的音素序列，然后将音素序列发送给虚拟人物直播对应的程序，就可以进行唇语驱动，同时保证用户的观看体验。相关内容可以参见图2所示实施例中的内容，此处不再赘述。
68.根据本公开实施方式的语音音素识别模型训练方法，通过采集用于训练的样本语音数据和样本语音数据对应的样本音素序列，然后将样本语音数据输入到音素识别模型中，基于输出的预测音素序列与样本音素序列，对音素识别模型进行训练。由此，使得训练出来的音素识别模型能够识别语音数据中的音素及音素出现的序列，以便将音素序列输入到虚拟人物直播的程序中，从而提高虚拟人物直播时唇语驱动的音画同步效果，提高用户体验。
69.图4为本公开一个实施例提供的语音音素识别模型训练方法的流程图。如图4所示，本实施例提供的语音音素识别模型训练方法包括以下步骤：
70.步骤s401、确定用于训练的样本语音数据对应的样本汉字序列。
71.具体的，在本实施例中，以训练用的样本语音数据为汉语语音数据(也即是虚拟人物直播时使用汉语普通话或方言进行播送的场景)为例进行说明。
72.因此，需要首先得到样本语音数据中使用的汉语文本，并从中提取样本汉字序列。
73.样本语音数据对应的汉语文本除了汉字，通常还包括标点符号、空格、换行等方便阅读的非汉字内容，但在语音数据中是不会念出这些非汉字内容的，因此需要对这些非汉字内容进行过滤，提取得到对应的汉字，及其出现顺序，进而得到汉字序列(也即是样本汉字序列)。
74.其中过滤非汉字内容的方法可以采用先用字符过滤算法，此处不做限制。
75.在本公开的一种实施例中，可以使用训练数据使用的是中文普通话唇语阅读数据集chinese mandarin lip reading(cmlr)，该数据集包含11位新闻联播主持人的102076条
句子，每个句子最多29个汉字，不包含英文、阿拉伯数字和稀有标点，用于训练时，识别效果较好，训练效率较高。
76.步骤s402、在每个相邻的样本文字间插入一个样本间隔字符。
77.具体的，如果直接将语音数据解析成完全由音素组成的序列，在虚拟人物直播时，会容易无法分清应该在哪儿断句、在哪儿暂停的问题，如音素序列“n i h a o”，如果不确定对应的汉字是“你好”还是“你哈哦”，就会出现唇语表现不准确的情况(两者对应的唇部动作不同)，因此，需要在训练时，就将汉字与汉字之间的间隔标识出来，以便后续训练的音素识别模型也能识别出汉字与汉字之间的间隔。
78.由此，需要在样本汉字序列中的每个字之间插入间隔字符(即样本间隔字符)，具体使用的间隔字符可以使用任意非汉字(通常还需要避开常用数字和字母)的符号均可，如
“‑”
、“·”等符号。
79.步骤s403、将样本汉字转化为样本拼音。
80.具体的，在汉语中，汉字的发音通过拼音表示，而拼音中的声母、韵母等则基于音素确定(一个韵母可能包含多个因素，如ong同时包含o和ng两个音素)，因此，在添加间隔字符的基础上，需要先将样本汉字序列中的每个汉字分别转化为对应的样本拼音，如“你-好”转化为“ni-hao”，以便后续再进一步转化为音素的序列。
81.步骤s404、将包含样本拼音和样本间隔字符的序列转化为样本音素序列。
82.具体的，将样本拼音按照拼音与音素的关系拆分，就可以将原来的样本拼音的序列转化为样本音素序列。拆分后的音素之间，可以用空格符号加以区分，也可以用其他与样本间隔字符不同的符号进行区分。
83.通过步骤s401至步骤s404，将样本语音数据中的中文转化为带间隔字符的样本音素序列，并通过插入间隔字符，使得训练出的音素识别模型能够将输出的音素序列与对应语音数据间实现时间片对齐(即音素与语音数据中心出现的时间节点相对齐)，从而保证应用中的唇部动作与语音的同步。
84.步骤s405、将样本语音数据输入到音素识别模型中，输出预测音素序列。
85.具体的，音素识别模型可以包括依次连接的卷积神经网络cnn、双向长短记忆网络bilstm和基于神经网络的时序类分类器ctc，通过cnn以将语音数据转化为音频特征参数序列，然后通过bilstm提取其中的音素特征，通过ctc保证输出的预测音素序列在时间上与样本语音数据的对齐效果。通过这三者的结果，实现将语音数据转化为音素序列的效果。
86.在本公开的一种实施例中，如图5所示，其为输出预测音素序列的方法流程图，其具体包括如下步骤：
87.步骤s4051、将样本语音数据转化为语谱图数据，并输入到卷积神经网络中，输出样本语音数据对应的语音特征数据。
88.具体的，将样本语音数据转化为语谱图数据的过程为语音识别中的标准过程，可以通过现有常规音频处理程序实现，也可以由封装后的卷积神经网络cnn直接完成。
89.卷积神经网络cnn会自动输出样本语音数据对应的语音特征数据，以便后续进一步处理。
90.步骤s4052、将语音特征数据输入到双向长短记忆网络中，输入样本语音数据对应的时序特征数据。
91.具体的，通过双向长短记忆网络bilstm对语音特征数据进行处理，可以充分提取句子中各个词语对应的关系和对应信息，进而有效识别其中的文字和音素，得到包含时序特征的数据(即时序特征数据)。
92.步骤s4053、将时序特征数据输入到基于神经网络的时序类分类器中，输出预测音素序列。
93.具体的，通过基于神经网络的时序类分类器ctc，可以将时序特征数据对应到具体的时间点，并可以通过生成不同数量的间隔字符，使得到的每个音素与样本语音数据对应声音出现的时间点相对齐，进而得到最终输出的包含间隔字符的预测音素序列。
94.步骤s406、基于输出的预测音素序列与样本音素序列，确定预测音素序列的正确性。
95.具体的，通过将输出的预测音素序列与样本音素序列进行对比，可以判断预测音素序列的正确性。其中，由于预测音素序列中的间隔字符的数量是由音素识别模型自动生成的，并能够起到对齐音素和样本语音数据时间片的效果，因此，预测音素序列中的间隔字符的数量通常会与样本音素序列中的间隔字符数量存在差异，这一点通常不影响预测音素序列的正确性。
96.在本公开的一种实施例中，确定预测音素序列正确性的方法包括如下情况：
97.情况一、若预测音素序列和样本音素序列中的相同音素的出现顺序相同，且预测音素序列对应的相邻汉字之间存在至少一个间隔字符，确定预测音素序列为正确的结果。
98.具体的，由于人工标注的样本音素序列中间隔字符只有一个，而预测音素序列中的间隔字符可能存在连续的多个，即预测音素序列中的间隔字符除了用于隔开汉字对应的音素，还用于对齐音素的出现时间点，因此，在相同音素出现顺序相同的前提下，只要求间隔字符满足了隔开汉字这一功能，就可以认为预测音素序列的正确性满足要求。
99.情况二、若预测音素序列和样本音素序列中的相同音素的出现顺序存在差异，或预测音素序列对应的相邻汉字之间不存在间隔字符，确定预测音素序列为不正确的结果。
100.具体的，若样本音素序列与预测音素序列中的音素出现顺序都存在差异，或没起到隔开汉字这一功能，显然预测结果是无法用于唇语驱动场景的，因此，这些情况需要被认为正确性不满足要求。
101.步骤s407、基于预测音素序列的正确性，计算音素识别模型的损失函数。
102.具体的，损失函数可以直接选择任意常规ctc损失函数，并基于预测音素序列识别的正确性(也即是正确率、识别准确率或识别概率，可以在步骤s406中进行正确性识别时，计算用于隔开汉字的间隔字符和音素的识别概率，全部都识别出来则识别概率为100％)，计算对应的损失函数。
103.步骤s408、基于损失函数的结果，对音素识别模型进行训练。
104.具体的，基于损失函数的结果进行反向传播，计算网络梯度，并基于计算的网络梯度，对音素识别模型中的参数进行更新，从而实现对音素识别模型的训练过程。
105.根据本公开实施方式的语音音素识别方法，通过确定用于训练的样本语音数据对应的样本汉字序列，在每个相邻的样本文字间插入一个样本间隔字符，将样本汉字转化为样本拼音，将包含样本拼音和样本间隔字符的序列转化为样本音素序列，然后将样本语音数据输入到音素识别模型中，输出预测音素序列，基于输出的预测音素序列与样本音素序
列，确定预测音素序列的正确性，并基于预测音素序列的正确性，计算音素识别模型的损失函数，最后基于损失函数的结果，对音素识别模型进行训练。由此，通过将应用所需语种的语音数据作为样本语音数据，并处理得到其对应的样本音素序列代入进行训练，使得音素识别模型能够准确识别出对应语种的音素序列，从而有效保证虚拟人物直播的唇部动作与语音的同步性，进而提高观众体验。
106.示例性介质
107.在介绍了本公开示例性实施方式的方法之后，接下来，参考图6对本公开示例性实施方式的存储介质进行说明。
108.参考图6所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品60，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。
109.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
110.可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
111.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备。
112.示例性装置
113.在介绍了本公开示例性实施方式的介质之后，接下来，参考图7对本公开示例性实施方式的语音音素识别装置进行说明，用于实现上述任一方法实施例中的语音音素识别方法，其实现原理和技术效果与前述对应方法的实施例类似，在此不再赘述。
114.本公开提供的语音音素识别装置700，包括：
115.识别模块710，用于将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列，音素序列包括语音数据中每个音素的出现顺序。
116.在本公开的一种示例性实施例中，识别模块710包括：语音数据为中文语音，音素序列包括：每个中文汉字之间存在至少一个间隔字符。
117.在本公开的一种示例性实施例中，语音音素识别装置700还包括：训练模块720，用于通过如下方式训练得到音素识别模型：采集用于训练的样本语音数据和样本语音数据对应的样本音素序列；将样本语音数据输入到音素识别模型中，基于输出的预测音素序列与样本音素序列，对音素识别模型进行训练。
118.在本公开的一种示例性实施例中，训练模块720具体用于，确定用于训练的样本语音数据对应的样本汉字序列；在每个相邻的样本文字间插入一个样本间隔字符；将样本汉字转化为样本拼音；将包含样本拼音和样本间隔字符的序列转化为样本音素序列。
119.在本公开的一种示例性实施例中，训练模块720具体用于，将样本语音数据输入到音素识别模型中，输出预测音素序列；基于输出的预测音素序列与样本音素序列，确定预测音素序列的正确性；基于预测音素序列的正确性，计算音素识别模型的损失函数；基于损失函数的结果，对音素识别模型进行训练。
120.在本公开的一种示例性实施例中，训练模块720具体用于：若预测音素序列和样本音素序列中的相同音素的出现顺序相同，且预测音素序列对应的相邻汉字之间存在至少一个间隔字符，确定预测音素序列为正确的结果；若预测音素序列和样本音素序列中的相同音素的出现顺序存在差异，或预测音素序列对应的相邻汉字之间不存在间隔字符，确定预测音素序列为不正确的结果。
121.在本公开的一种示例性实施例中，训练模块720具体用于：若音素识别模型包括依次连接的卷积神经网络、双向长短记忆网络和基于神经网络的时序类分类器，将样本语音数据转化为语谱图数据，并输入到卷积神经网络中，输出样本语音数据对应的语音特征数据；将语音特征数据输入到双向长短记忆网络中，输入样本语音数据对应的时序特征数据；将时序特征数据输入到基于神经网络的时序类分类器中，输出预测音素序列。
122.接下来，参考图8对本公开示例性实施方式的语音音素识别模型训练装置进行说明，用于实现上述任一方法实施例中的语音音素识别模型训练方法，其实现原理和技术效果与前述对应方法的实施例类似，在此不再赘述。
123.本公开提供的语音音素识别模型训练装置800，包括：
124.样本模块810，用于采集用于训练的样本语音数据和样本语音数据对应的样本音素序列；
125.训练模块820，用于将样本语音数据输入到音素识别模型中，基于输出的预测音素序列与样本音素序列，对音素识别模型进行训练。
126.在本公开的一种示例性实施例中，样本模块810具体用于：确定用于训练的样本语音数据对应的样本汉字序列；在每个相邻的样本文字间插入一个样本间隔字符；将样本汉字转化为样本拼音；将包含样本拼音和样本间隔字符的序列转化为样本音素序列。
127.在本公开的一种示例性实施例中，训练模块820具体用于，将样本语音数据输入到音素识别模型中，输出预测音素序列；基于输出的预测音素序列与样本音素序列，确定预测音素序列的正确性；基于预测音素序列的正确性，计算音素识别模型的损失函数；基于损失函数的结果，对音素识别模型进行训练。
128.在本公开的一种示例性实施例中，训练模块820具体用于：若预测音素序列和样本音素序列中的相同音素的出现顺序相同，且预测音素序列对应的相邻汉字之间存在至少一个间隔字符，确定预测音素序列为正确的结果；若预测音素序列和样本音素序列中的相同音素的出现顺序存在差异，或预测音素序列对应的相邻汉字之间不存在间隔字符，确定预测音素序列为不正确的结果。
129.在本公开的一种示例性实施例中，训练模块820具体用于：若音素识别模型包括依次连接的卷积神经网络、双向长短记忆网络和基于神经网络的时序类分类器，将样本语音
数据转化为语谱图数据，并输入到卷积神经网络中，输出样本语音数据对应的语音特征数据；将语音特征数据输入到双向长短记忆网络中，输入样本语音数据对应的时序特征数据；将时序特征数据输入到基于神经网络的时序类分类器中，输出预测音素序列。
130.示例性计算设备
131.在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图9对本公开示例性实施方式的计算设备进行说明。
132.图9显示的计算设备90仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
133.如图9所示，计算设备90以通用计算设备的形式表现。计算设备90的组件可以包括但不限于：上述至少一个处理单元901、上述至少一个存储单元902，连接不同系统组件(包括处理单元901和存储单元902)的总线903。
134.总线903包括数据总线、控制总线和地址总线。
135.存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)9021和/或高速缓存存储器9022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(rom)9023。
136.存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025，这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
137.计算设备90也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口905进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与计算设备90的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
138.应当注意，尽管在上文详细描述中提及了供应链策略确定装置和对象评分模型训练装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
139.此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
140.虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王树栋许盛辉潘照明
技术所有人：杭州网之易创新科技有限公司
我是此专利的发明人

上一篇：一种便于清洗剂投放的洗碗机的制作方法
上一篇：基于改进鲸鱼算法的胶囊神经网络的手写签名识别方法与流程