模型训练方法和装置、音素分割方法、设备及存储介质与流程

文档序号：34864414发布日期：2023-07-23 16:35阅读：7来源：国知局

1.本技术涉及人工智能技术领域，尤其涉及一种模型训练方法和装置、音素分割方法、设备及存储介质。

背景技术：

2.音素分割时语音或者音频产品应用的先导任务，主要目标是对输入的语音音频在时序上自动划分音素边界。相关技术中，音素分割模型主要通过大量标注数据进行训练，且标注数据包括每个音素的起止时间点及音素标签，因此需要耗费大量人力进行标注，且标注人员具备语音领域的专业知识，从而增加了音素分割模型训练的难度。

技术实现要素：

3.本技术实施例的主要目的在于提出一种模型训练方法和装置、音素分割方法、设备及存储介质，旨在构建音素分割准确性更高的音素分割模型。
4.为实现上述目的，本技术实施例的第一方面提出了一种模型训练方法，所述方法包括：
5.获取语音样本序列；
6.将所述语音样本序列输入至预设的音素分割模型；其中，所述音素分割模型包括：编码器、解码器、音素量化网络和最近邻聚类网络；
7.通过所述编码器对所述语音样本序列进行隐变量转换，得到原始语音特征序列；
8.通过所述解码器对所述原始语音特征序列进行掩码处理，得到音素参考数据；
9.通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理，得到目标音素特征序列；
10.通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割，得到音素分割数据；
11.通过预设的损失模型对所述音素参考数据和所述音素分割数据进行损失计算，得到分割损失值；
12.根据所述分割损失值对所述音素分割模型进行参数调整。
13.在一些实施例，所述通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理，得到目标音素特征序列，包括：
14.通过所述音素量化网络获取所述原始语音特征序列的特征向量，得到语音特征向量；
15.通过所述音素量化网络获取所述音素码本的条目向量，得到音素条目向量；
16.通过所述音素量化网络对所述语音特征向量和所述音素条目向量进行距离计算，得到目标距离；
17.通过所述音素量化网络根据所述目标距离对所述音素条目向量进行筛选处理，得到所述目标音素特征序列。
18.在一些实施例，所述通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割，得到音素分割数据，包括：
19.通过所述最近邻聚类网络对所述目标音素特征序列进行异常检测，得到原始异常值；
20.通过所述最近邻聚类网络对所述原始异常值进行峰值筛选处理，得到目标异常值；
21.根据所述目标异常值生成所述音素分割数据。
22.在一些实施例，所述目标音素特征序列包括至少两个音素特征子序列；所述通过所述最近邻聚类网络对所述目标音素特征序列进行异常检测，得到原始异常值，包括：
23.通过所述最近邻聚类网络获取所述目标音素特征序列中任意一个音素特征子序列，得到目标特征子序列；
24.通过所述最近邻聚类网络对所述目标特征子序列和所述音素特征子序列进行最小距离计算，得到所述原始异常值。
25.在一些实施例，所述通过所述最近邻聚类网络对所述原始异常值进行峰值筛选处理，得到目标异常值，包括：
26.通过所述最近邻聚类网络根据预设阈值对所述原始异常值进行筛选处理，得到候选异常值；
27.通过所述最近邻聚类网络获取任意一个所述候选异常值，得到选定异常值；
28.根据所述选定异常值获取前一个所述候选异常值，得到前一异常值，根据所述选定异常值获取后一个所述候选异常值，得到后一异常值；
29.若所述选定异常值大于所述前一异常值、所述后一异常值，将所述选定异常值作为所述目标异常值。
30.在一些实施例，所述损失模型包括：上下文网络和目标损失函数；所述通过预设的损失模型对所述音素参考数据和所述音素分割数据进行损失计算，得到分割损失值，包括：
31.通过所述上下文网络对所述音素参考数据进行上下文特征提取，得到候选特征信息；
32.通过所述上下文网络对所述音素分割数据进行上下文特征提取，得到目标特征信息；
33.通过所述目标损失函数对所述候选特征信息进行正负样本挑选，得到参考特征信息；
34.通过所述目标损失函数对所述参考特征信息和所述目标特征信息进行损失计算，得到所述分割损失值。
35.为实现上述目的，本技术实施例的第二方面提出了一种音素分割方法，所述方法包括：
36.获取目标语音数据；
37.将所述目标语音数据输入至目标音素分割模型进行音素分割处理，得到目标音素分割信息；其中，所述目标音素分割模型由第一方面所述的模型训练方法得到。
38.为实现上述目的，本技术实施例的第三方面提出了一种模型训练装置，所述装置包括：
39.数据获取模块，用于获取语音样本序列；
40.输入模块，用于将所述语音样本序列输入至预设的音素分割模型；其中，所述音素分割模型包括：编码器、解码器、音素量化网络和最近邻聚类网络；
41.通过所述编码器对所述语音样本序列进行隐变量转换，得到原始语音特征序列；
42.通过所述解码器对所述原始语音特征序列进行掩码处理，得到音素参考数据；
43.通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理，得到目标音素特征序列；
44.通过所述最近邻聚类网络对所述目标音素特征序列进行音素分割边界挑选，得到音素分割数据；
45.损失计算模块，用于通过预设的损失模型对所述音素参考数据和所述音素分割数据进行损失计算，得到分割损失值；
46.参数调整模块，用于根据所述分割损失值对所述音素分割模型进行参数调整。
47.为实现上述目的，本技术实施例的第四方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的模型训练方法，或者第二方面所述的音素分割方法。
48.为实现上述目的，本技术实施例的第五方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的模型训练方法，或者第二方面所述的音素分割方法。
49.本技术提出的模型训练方法和装置、音素分割方法、设备及存储介质，其通过设置包括音素量化网络和最近邻聚类网络的音素分割模型，且音素量化网络预设的音素码本用于将输入的原始语音特征序列表征为对应的音素，再通过最近邻聚类网络进行音素边界分割，以得到更加准确的音素分割数据，同时计算分割损失值，并根据分割损失值对音素分割模型进行参数调整，以训练得到音素分割更加准确的音素分割模型，提升音素分割后的下游任务的操作。
附图说明
50.图1是本技术实施例提供的模型训练方法的示例应用场景图；
51.图2是本技术实施例提供的模型训练方法的流程图；
52.图3是本技术实施例提供的模型训练方法中音素分割模型的框架示意图；
53.图4是图2中的步骤s205的流程图；
54.图5是图2中的步骤s206的流程图；
55.图6是图5中的步骤s501的流程图；
56.图7是图5中的步骤s502的流程图；
57.图8是图2中的步骤s207的流程图；
58.图9是本技术实施例提供的音素分割方法的流程图；
59.图10是本技术实施例提供的模型训练装置的结构示意图；
60.图11是本技术实施例提供的音素分割装置的结构示意图；
61.图12是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
62.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
63.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
64.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
65.首先，对本技术中涉及的若干名词进行解析：
66.人工智能(artificial intelligence，ai)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
67.语音处理(speech processing)：语音处理又称语音信号处理、人声处理，其目的是希望做出想要的信号，进一步做语音辨识，应用到手机界面甚至一般生活中，使人与电脑能进行沟通。语音信号处理的关键技术语音信号处理的理论基础就是一般的数字信号处理理论，它的主要研究内容是语音编码和语音压缩技术。
68.音素：音素是根据语音的自然属性划分出来的最小语音单位，分为元音与辅音两大类。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。
69.码本：把可用的码放在一块，组成一个表，再用序号给不同的码编上号，之后直接根据序号去表中搜索相关码，即为码本。
70.隐性变量法(latent variable approach)：隐性变量法的基本思路是，将全要素生产率视为一个隐性变量即未观测变量，从而借助状态空间模型利用极大似然估计给出全要素生产率估算。
71.掩码：掩码是一串二进制代码，其对目标字段进行位与运算，以屏蔽当前的输入位，可分为子网掩码和中断掩码等。将源码与掩码经过按位运算或逻辑运算得出新的操作数。
72.量化：在数字信号处理领域，量化指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。量化主要应用于从连续信号到数字信号的转换中。连续信号经过采样成为离散信号，离散信号经过量化即成为数字信号。注意离散信号并不需要经过量化的过程。量化就是将模拟声音的波形转换为数字，表示采样值的二进
制位数决定了量化的精度。量化的过程是先将整个幅度划分成有限个小幅度(量化阶距)的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。
73.k近邻算法(k-nearest neighbor，knn)：k近邻是一种基本的分类与回归算法，k近邻的输入是实例的特征向量，对应于特征空间的点；输出为实例的类别，可以取多类。k近邻算法假设给定一个训练数据集，其中的实例类别已定，分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。简单的说，给定一个训练数据集，对新的输入实例，在训练集中找到与该实例最近邻的k个实例，这k个实例的多数属于哪个类，就把该输入实例分为这个类。这就是k近邻算法中k的出处，通常k是不大于20的整数。
74.音素分割是许多语音或者音频产品应用的重要先导任务，例如语音识别、关键词侦测、声纹识别等等。其主要目标是对输入的语音音频在时序上自动划分音素边界，划分音素边界后能够提升下游任务的操作。相关技术中，音素分割主要是采用有监督音素分割模型，但是有监督音素分割模型通过大量标注数据训练得到，且标注内容包括每个音素的起止时间点及音素标签，这需要耗费很多的人力时间，并且需要语音领域专业知识。但是对于小众语言就缺乏标注树，所以无法适应于多种语言类型的音素分割。
75.基于此，本技术实施例提供了一种模型训练方法和装置、音素分割方法、设备及存储介质，通过将语音样本序列输入至预设的音素分割模型，语音分割模型包括：编码器、解码器、音素量化网络和最近邻聚类网络；通过编码器对语音样本序列进行隐变量处理得到原始语音特征序列，通过解码器对原始语音特征序列进行掩码处理得到音素参考数据，再通过音素量化网络根据预设的音素码本对原始语音特征序列进行量化处理得到目标音素特征序列，通过最近邻聚类网络对目标音素特征序列进行音素边界分割得到音素分割数据，并通过预设的损失模型对音素参考数据和音素分割数据进行损失计算得到分割损失值，以根据分割损失值对音素分割模型进行参数调整，以使分割损失值收敛后完成音素分割模型的训练。因此，通过音素量化网络将原始语音特征序列表征为对应音素的目标音素特征序列，再通过最近邻聚类网络判断目标音素特征序列的音素边界，得到音素分割数据，使得音素分割更加准确。同时根据分割损失值对音素分割模型进行参数调整，以构建音素分割更加准确的音素分割模型。
76.本技术实施例提供的模型训练方法和装置、音素分割方法、设备及存储介质，具体通过如下实施例进行说明，首先描述本技术实施例中的模型训练方法。
77.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
78.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
79.本技术实施例提供的模型训练方法，涉及人工智能技术领域。本技术实施例提供的模型训练方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机
等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现模型训练方法的应用等，但并不局限于以上形式。
80.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
81.需要说明的是，在本技术的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本技术实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
82.请参照图1，图1是本技术实施例提供的模型训练方法的示例应用场景图，场景包括：采集终端101和服务器102，本技术所提供的模型训练方法可以部署于服务器102，并获取采集终端101采集语音数据，并根据语音数据输入至预设数据库得到语音样本序列，然后服务器102根据语音样本序列进行模型训练以构建能够准确进行音素分割的音素分割模型。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。此外，应理解，服务器102仅作为示例被示出，实际上，也可以替代地或附加地使用其他具有计算能力及存储能力的设备或设备的组合来提供相应的服务。
83.图2是本技术实施例提供的模型训练方法的一个可选的流程图，图2中的方法可以包括但不限于包括步骤s201至步骤s208。
84.步骤s201，获取语音样本序列；
85.步骤s202，将语音样本序列输入至预设的音素分割模型；其中，音素分割模型包括：编码器、解码器、音素量化网络和最近邻聚类网络；
86.步骤s203，通过编码器对语音样本序列进行隐变量转换，得到原始语音特征序列；
87.步骤s204，通过解码器对原始语音特征序列进行掩码处理，得到音素参考数据；
88.步骤s205，通过音素量化网络根据预设的音素码本对原始语音特征序列进行量化处理，得到目标音素特征序列；
89.步骤s206，通过最近邻聚类网络对目标音素特征序列进行音素边界分割，得到音素分割数据；
90.步骤s207，通过预设的损失模型对音素参考数据和音素分割数据进行损失计算，
得到分割损失值；
91.步骤s208，根据分割损失值对音素分割模型进行参数调整。
92.本技术实施例所示意的步骤s201至步骤s208，通过构建包括编码器、解码器、音素量化网络和最近邻聚类网络的音素分割模型，则将语音样本序列输入音素分割模型，先通过编码器对语音样本序列进行隐变量转换得到原始语音特征序列，并通过解码器对原始语音特征序列进行掩码处理得到音素参考数据，同时音素量化网络根据预设的音素码本对原始语音特征序列进行量化处理得到目标音素特征序列。通过最近邻聚类网络对目标音素特征序列进行音素边界分割得到音素分割数据。最后通过预设的损失模型对音素参考数据和音素分割数据进行损失计算得到分割损失值，根据分割损失值对音素分割模型进行参数调整。因此，设置包括音素量化网络和最近邻聚类网络的音素分割模型，且音素量化网络预设的音素码本用于将输入的原始语音特征序列表征为对应的音素，再通过最近邻聚类网络进行音素边界分割，以得到更加准确的音素分割数据，同时计算分割损失值，并根据分割损失值对音素分割模型进行参数调整，以训练得到音素分割更加准确的音素分割模型，进而提升音素分割后的下游任务的操作。
93.在一些实施例的步骤s201中，可以从预设的样本数据库获取语音样本序列，或直接监听用户语音数据以得到语音样本序列，也可以通过其他方式获取语音样本序列，不限于此。其中，语音样本序列为未标注的样本序列，以通过无监督类型的音素分割模型从语音样本序列中挖掘音素。
94.在一些实施例的步骤s202中，构建编码器、解码器、音素量化网络和最近邻聚类网络的音素分割模型。其中，本实施例的音素分割模型是基于经典的无监督语音预训练模型改进得到，且经典的无监督语音预训练模型为wav2vec2.0模型。由于wav2vec2.0模型的核心思想是通过向量量化构造自建监督训练目标，对输入做大量掩码后利用比对学习的损失函数进行训练。本实施例的音素分割模型即保留了向量量化，还对传统的量化网络进行优化。本实施例构建音素量化网路，且音素量化网络预先设置音素码本，以通过音素码本将语音特征表征为音素特征。除此之外，本实施例的音素分割模型新增了最近邻聚类网络，通过最近邻聚类网络能够判断音素边界以实现音素分割。因此，本实施例构建包括编码器、解码器、音素量化网络和最近邻聚类网络的音素分割模型，将语音特征构建成音素特征序列，并直接对音素特征序列判断音素边界，使得音素分割操作更加准确。
95.具体地，请参照图3，图3是本技术实施例提供的模型训练方法中音素分割模型的框架示意图，编码器用于将输入的语音样本序列进行编码得到隐变量的原始语音特征序列z
t
，然后音素量化网络根据预设的音素码本对原始语音特征序列z
t
进行量化以将原始语音特征序列映射为量化隐变量得到目标音素特征序列z
t
。同时，原始语音特征序列z
t
输入解码器进行掩码处理得到音素参考数据，且目标音素特征序列z
t
输入至最近邻聚类网络进行音素边界分割得到音素分割数据s
t
。最后，通过损失模块对音素参考数据和音素分割数据进行损失计算得到分割损失值，以根据分割损失值对音素分割模型进行参数调整，以构建音素分割更加准确的音素分割模型。
96.在一些实施例的步骤s203中，将语音样本序列输入编码器，编码器对语音样本序列进行隐变量处理，也即对语音样本序列按照每一个时间步长t进行嵌入以得到隐变量表示的原始语音特征序列，也即按照向量的形式表征语音样本序列中的语音特征，以便于对
语音样本序列进行运算。例如，若语音样本序列为x＝(x1,
…
,x
t
,
…
,x
t
)，经过编码器对语音样本序列以时间步长t嵌入为隐变量以得到原始语音特征序列z＝(z1,
…
,z
t
,
…
,z
t
)。
97.具体地，编码器为设置六个卷积块的神经网络，且卷积块的卷积核步长为2，通过卷积核步长为2的六个卷积块对语音样本序列进行隐变量变换，也即将语音样本特征以向量的形式表示，得到原始语音特征序列。原始语音特征序列包括至少两个语音特征向量，且每一个语音特征向量表征一个语音特征。
98.在一些实施例的步骤s204中，解码器为掩码transformer解码器，且掩码transformer解码器每一步都只解码一个词，输出单词后放入解码器的输入，重复操作直到解码结束，以完成句子的输出得到音素参考数据。其中，音素参考数据作为判断音素分割数据的参考数据，以判断音素分割是否准确。在本实施例中，解码器结合了多个时间步长编码器输出的原始语音特征序列，先对原始语音特征序列进行掩码处理，掩码处理后再计算全局信息以得到音素参考数据。其中，掩码处理也即将原始语音特征序列进行解码，以转换为音素表达的形式得到音素参考数据。因此，通过解码器对编码器输出的原始语音特征序列进行掩码处理以得到音素参考数据，使得音素参考数据处理简易。
99.请参阅图4，在一些实施例中，步骤s205可以包括但不限于包括步骤s401至步骤s404：
100.步骤s401，通过音素量化网络获取原始语音特征序列的特征向量，得到语音特征向量；
101.步骤s402，通过音素量化网络获取音素码本的条目向量，得到音素条目向量；
102.步骤s403，通过音素量化网络对语音特征向量和音素条目向量进行距离计算，得到目标距离；
103.步骤s404，通过音素量化网络根据目标距离对音素条目向量进行筛选处理，得到目标音素特征序列。
104.在一些实施例的步骤s401中，原始语音特征序列包括至少两个语音特征向量，则通过音素量化网络获取原始语音特征序列的语音特征向量，以便于对每一语音特征向量进行处理。其中，通过获取语音特征向量，语音特征向量表示语音特征，则根据语音特征向量可以确定语音特征，以根据语音特征向量确定语音特征对应的音素。
105.在一些实施例的步骤s402中，为了将原始语音特征序列转换转化为音素表征的序列，则获取音素码本的条目向量得到音素条目向量。其中，音素码本为是音素表示的码本，则根据音素码本中的音素条目向量表征语音特征向量，使得音素分割更加准确。在本实施例中音素码本包括40个音素条目向量，且39个音素条目向量分别表征一个音素，也即通过39个音素条目向量表征39个基本音素，而剩下的1个音素条目向量表征静音。因此，通过获取40个音素条目向量，以40个音素条目向量表征音素特征，使得音素分割更加准确。
106.在一些实施例的步骤s403中，通过音素量化网络对语音特征向量和音素条目向量进行距离计算得到目标距离，具体地，对语音特征向量和音素条目向量进行欧式距离计算得到目标距离，以根据目标距离找到与语音特征向量最接近的音素条目向量，则将最接近的音素条目向量作为目标音素特征序列中的特征向量，以音素条目向量表征语音特征，以得到音素表征的目标音素特征序列，使得音素分割更加准确。
107.在一些实施例的步骤s404中，通过根据目标距离对音素条目向量进行筛选处理，
也即获取目标距离最小的音素条目向量，并将该音素条目向量替换为语音特征向量，以得到目标音素特征序列。通过将原始语音特征序列中的语音特征向量替换为音素条目向量，以音素特征向量的形式表征原始语音特征序列得到目标音素特征序列，以便于进行音素边界判断更加简易。
108.需要说明的是，若原始语音特征序列为z＝(z1,
…
,z
t
,
…
,z
t
)，且音素码本为e＝(e1,
…
,ek,
…
,e
40
)，则计算每一个语音特征向量和音素条目向量的欧式距离得到目标距离，并根据目标距离筛选出语音特征向量最接近的音素条目向量，将语音特征向量替换为音素条目向量得到目标音素特征序列，也即将以得到目标音素特征序列代替原始语音特征序列z
t
，以通过音素向量表征语音特征序列，则音素边界查找更加准确。
109.在本技术实施例所示意的步骤s401至步骤s404，通过音素量化网络获取原始语音特征序列的语音特征向量，再获取音素码本的音素条目向量，然后计算音素条目向量和语音特征向量之间的欧式距离得到目标距离，根据目标距离筛选出语音特征向量距离最近的音素条目向量，将音素条目向量替换原始语音特征序列中的语音特征向量以得到目标音素特征序列。因此，通过将语音特征表征为对应的音素特征，使得音素分割更加准确。
110.请参阅图5，在一些实施例中，步骤s206可以包括但不限于包括步骤s501至步骤s503：
111.步骤s501，通过最近邻聚类网络对目标音素特征序列进行异常检测，得到原始异常值；
112.步骤s502，通过最近邻聚类网络对原始异常值进行峰值筛选处理，得到目标异常值；
113.步骤s503，根据目标异常值生成音素分割数据。
114.在一些实施例的步骤s501中，通过最近邻聚类网络对目标音素特征序列进行异常检测得到原始异常值，其中，异常检测则是对目标音素特征序列中每一个音素特征向量进行距离计算以得到原始异常值，以通过原始异常值表征音素特征之间的异常关系，且原始异常值与音素特征之间的异常关系成正比，以通过原始异常值作为音素边界的判断标准，使得音素边界判断更加简易。
115.在一些实施例的步骤s502中，通过最近邻聚类网络对原始异常值进行峰值筛选处理得到目标异常值，其中，峰值检测也即将原始异常值按照顺序排序后形成异常值曲线，以判断异常值曲线的峰值。目标异常值作为原始异常值的峰值，以通过目标异常值确定音素分割边界，使得音素分割边界查找简易。
116.在一些实施例的步骤s503中，由于目标异常值表征最有可能的音素分割边界，则直接根据目标异常值生成音素分割数据，以通过音素分割数据确定音素分割边界，则音素分割操作更加简易。
117.在本技术实施例所示意的步骤s501至步骤s503，通过最近邻聚类网络对目标音素特征序列进行异常检测得到原始异常值，再对原始异常值进行峰值筛选处理得到目标异常值，以根据目标异常值生成音素分割数据。因此，通过最近邻聚类方式计算原始异常值作为判断音素边界的参考值，使得音素边界判断更加简易，生成的音素分割数据也更加准确。
118.请参阅图6，在一些实施例中，目标音素特征序列包括至少两个音素特征子序列，步骤s501可以包括但不限于包括步骤s601至步骤s602：
119.步骤s601，通过最近邻聚类网络获取目标音素特征序列中任意一个音素特征子序列，得到目标特征子序列；
120.步骤s602，通过最近邻聚类网络对目标特征子序列和音素特征子序列进行最小距离计算，得到原始异常值。
121.在一些实施例的步骤s601中，目标音素特征序列包括至少两个音素特征子序列，且每一个音素特征子序列包括至少两个音素特征向量。因此，通过最近邻聚类网络对获取目标音素特征序列中任意一个音素特征子序列得到目标特征子序列，使得目标特征子序列获取简易。
122.具体地，先获取目标音素特征序列中为t为中心预设数据帧的特征子序列，再将特征子序列中的音素特征向量进行拼接得到音素特征子序列，使得音素特征子序列获取简易。其中，所获取目标音素特征序列中窗口大小为10帧的音素特征子序列以得到目标特征子序列。
123.在一些实施例的步骤s602中，通过最近邻聚类网络对目标特征子序列和音素特征子序列进行最小距离计算，以定义原始异常值。因为目标音素特征序列包括至少两个音素特征子序列，所以计算得到至少两个原始异常值，也即得到原始异常值序列。
124.具体地，目标音素特征序列为目标特征子序列为音素特征子序列为则计算目标特征子序列和音素特征子序列的最小距离为以得到至少两个原始异常值，也即得到原始异常值序列为因此，通过原始异常值序列可以确定最有可能的音素分割边界。
125.在本技术实施例所示意的步骤s601至步骤s602，通过获取目标音素特征序列中任意一个音素特征子序列得到目标特征子序列，再将其他的音素特征子序列和目标特征子序列进行最小距离计算，最小距离计算也即计算最近邻距离f
knn
得到至少两个原始异常值，以通过原始异常值判断音素特征之间的关联性，以挑选出音素分割边界，使得音素分割更加简易。
126.请参阅图7，在一些实施例中，步骤s502可以包括但不限于包括步骤s701至步骤s704：
127.步骤s701，通过最近邻聚类网络根据预设阈值对原始异常值进行筛选处理，得到候选异常值；
128.步骤s702，通过最近邻聚类网络获取任意一个候选异常值，得到选定异常值；
129.步骤s703，根据选定异常值获取前一个候选异常值，得到前一异常值，根据选定异常值获取后一个候选异常值，得到后一异常值；
130.步骤s704，若选定异常值大于前一异常值、后一异常值，将选定异常值作为目标异常值。
131.在一些实施例的步骤s701中，通过最近邻聚类网络从至少两个原始异常值中挑选大于预设阈值的原始异常值以得到候选异常值，以初步筛除不属于峰值点的原始异常值。其中，预设阈值小于最低峰值的原始异常值，则先根据至少两个原始异常值构建异常值曲线，并对异常值曲线进行求导计算得到求导值，以获取求导值为负值和正值之间的点以确定峰值，并获取峰值点最小的原始异常值得到最小异常值，并根据最小异常值确定预设阈
值。因此，通过筛除低于预设阈值的原始异常值得到候选异常值，从候选异常值中挑选峰值，以节省数据计算量。
132.在一些实施例的步骤s702中，获取任意一个候选异常值得到选定异常值，且选定异常值为任意一个选中的候选异常值，以便于与其他候选异常值进行比较以筛选出为峰值的目标异常值。
133.在一些实施例的步骤s703中，获取选定异常值后，同时获取选定异常值的前一个候选异常值得到前一异常值，再获取选定异常值的后一个候选异常值得到后一异常值，以便于根据选定异常值、前一异常值和后一异常值进行峰值检测，使得峰值检测更加准确。
134.在一些实施例的步骤s704中，获取大于前一异常值和后一异常值的选定异常值，也即确定该选定异常值为峰值以得到目标异常值，使得目标异常值筛选简易。例如，若前一异常值为p
t-1
，选定异常值为p
t
，后一异常值为p
t+1
，若p
t-1
＜p
t
＞p
t+1
，则确定该选定异常值p
t
作为目标异常值。通过筛选出目标异常值，且目标异常值对应的音素特征作为最有可能的音素分割边界，则根据目标异常值生成音素分割数据，使得音素分割操作更加简易且准确。
135.在本实施例所示意的步骤s701至步骤s704，通过最近邻聚类网络获取大于预设阈值的原始异常值得到候选异常值，再任意选择一个候选异常值作为选定异常值，且获取选定异常值的前一个候选异常值作为前一异常值，获取选定异常值的后一个候选异常值作为后一异常值。然后获取大于前一异常值、后一异常值的选定异常值作为目标异常值，使得目标异常值挑选简易，以根据目标异常值确定音素的分割边界，使得音素分割操作更加简易且准确。
136.请参阅图8，在一些实施例，损失模型包括：上下文网络和目标损失函数；步骤s207包括但不限于包括步骤s801至步骤s804：
137.步骤s801，通过上下文网络对音素参考数据进行上下文特征提取，得到候选特征信息；
138.步骤s802，通过上下文网络对音素分割数据进行上下文特征提取，得到目标特征信息；
139.步骤s803，通过目标损失函数对候选特征信息进行正负样本挑选，得到参考特征信息；
140.步骤s804，通过目标损失函数对参考特征信息和目标特征信息进行损失计算，得到分割损失值。
141.在一些实施例的步骤s801中，将音素参考数据输入上下文网络进行上下文特征提取以得到候选特征信息，且候选特征信息作为判断音素分割数据训练的参考标准，以对音素分割模型进行训练，得到更加准确的音素分割数据。
142.在一些实施例的步骤s802中，将音素分割数据输入上下文网络进行上下文特征提取得到目标特征信息，在分析音素分割数据的分割准确性，则需要获取同一数据类型的目标特征信息与候选特征信息进行分析，以便于音素分割准确性判断更加准确。
143.在一些实施例的步骤s803中，通过目标损失函数对候选特征信息进行正负样本挑选以得到参考特征信息，为了使得目标特征信息比对更加准确，而无监督学习的核心在于拉近音素分割数据与音素参考数据的正例的距离，疏远其与负例之间的距离。因此，为了合理调节音素分割数据和音素参考数据之间的距离，所以获取候选特征信息中的正负样本以
得到参考特征信息，也即将候选特征信息划分为正负样本对应的参考特征信息，以根据负样本的参考特征信息和目标特征信息进行损失计算，以提高特征分析的准确性。
144.在一些实施例的步骤s804中，通过目标损失函数对参考特征信息和目标特征信息进行损失计算得到分割损失值，且分割损失值用于表征音素分割数据和音素参考数据之间的距离，因为参考特征信息为负样本的候选特征信息，则计算得到分割损失值。因此，根据分割损失值对音素分割模型进行参数调整，并重复执行步骤s201至步骤s207，直至分割损失值收敛，完成音素分割模型的训练。其中，由于参考特征信息为正负样本对应的参考特征信息，且目标损失函数为对比学习的对比损失函数，则通过对比损失函数计算正负样本对应的参考特征信息和目标特征信息之间的损失值以得到分割损失值，以通过分割损失值对音素分割模型进行参数调整，使得音素分割模型训练效果更优，以构建音素分割更加准确的音素分割模型。
145.在本实施例所示意的步骤s801至步骤s804中，通过上下文网络对音素参考数据进行上下文特征提取得到候选特征信息，再通过上下文网络对音素分割数据进行上下特征提取得到目标特征信息，且通过目标损失函数对候选特征信息进行正负样本挑选得到参考特征信息，最后通过目标损失函数对参考特征信息和目标特征信息进行损失计算得到分割损失值。因此，通过采用正负样本对应的参考特征信息和目标特征信息进行损失计算得到分割损失值，以根据分割损失值对音素分割模型进行参数调整更加准确，使得音素分割模型的模型训练效果更优。
146.请参阅图9，本技术实施例还提供了一种音素分割方法，可以包括但不限于包括步骤s901至步骤s902：
147.步骤s901，获取目标语音数据；
148.步骤s902，将目标语音数据输入至目标音素分割模型进行音素分割处理，得到目标音素分割信息；其中，目标音素分割模型由上述的模型训练方法得到。
149.在本实施例所示意的步骤s901至步骤s902中，获取目标语音数据，并将目标语音数据输入上述模型训练方法训练得到的目标音素分割模型，且目标音素分割模型由上述模型训练方法对音素分割模型进行多次参数调整，且分割损失值收敛后得到的目标音素分割模型。因此，通过目标音素分割模型对目标语音数据进行音素分割处理得到目标音素分割信息，使得音素分割操作简易且准确。
150.在一些实施例的步骤s901中，通过采集音频数据，并对音频数据中目标对象的语音数据进行提取以得到目标语音数据。其中，音频数据若包括多个对象的语音数据，则将语音数据按照对象划分，并获取语音数据的音色信息以得到候选音色信息，然后获取候选音色信息与预设音色信息匹配的语音数据以得到目标语音数据。
151.在一些实施例的步骤s902中，其中，目标音素分割模型包括：编码器、音素量化网络和最近邻聚类网络。通过编码器对目标语音数据进行隐变量处理得到目标语音特征序列，再通过音素量化网络根据预设的音素码本对目标语音特征序列进行量化处理得到候选音素特征序列，通过最近邻聚类网络对候选音素特征序列进行音素边界分割得到目标分割数据，并根据目标分割数据对目标语音数据进行分割得到目标音素分割信息。因此，通过编码器、音素量化网络和最近邻聚类网络进行音素分割，使得音素分割操作既简易又准确。通过得到目标音素分割信息后，若下游任务为语音识别、关键词侦测等，则根据目标音素分割
信息执行的下游任务更加准确。
152.请参照图3，本技术实施例通过获取语音样本序列，并将语音样本序列输入编码器，编码器对语音样本序列进行隐变量转换得到原始语音特征序列，编码器对原始语音特征序列进行掩码处理得到音素参考数据。同时，通过音素量化网络获取原始语音特征序列的语音特征向量，再获取音素码本的音素条目向量，然后计算音素条目向量和语音特征向量之间的欧式距离以得到目标距离，并根据目标距离筛选出语音特征向量距离最近的音素条目向量，将音素条目向量替换原始语音特征序列中的语音特征向量得到目标音素特征序列。通过最近邻聚类网络对目标音素特征序列进行异常检测得到原始异常值，再对原始异常值进行峰值筛选处理得到目标异常值，以根据目标异常值生成音素分割数据。通过上下文网络对音素参考数据进行上下文特征提取得到候选特征信息，再对音素分割数据进行上下特征提取得到目标特征信息。通过目标损失函数对候选特征信息进行正负样本挑选得到参考特征信息，并对参考特征信息和目标特征信息进行损失计算得到分割损失值。最后，根据分割损失值对音素分割模型进行参数调整，直至分割损失值收敛以停止音素分割模型的参数调整，以得到目标音素分割模型。通过获取目标语音数据输入至目标音素分割模型进行音素分割处理得到目标音素分割信息，使得音素分割操作简易且准确。
153.请参阅图10，本技术实施例还提供一种模型训练装置，可以实现上述模型训练方法，该装置包括：
154.数据获取模块1001，用于获取语音样本序列；
155.输入模块1002，用于将语音样本序列输入至预设的音素分割模型；其中，音素分割模型包括：编码器1003、解码器1004、音素量化网络1005和最近邻聚类网络1006；
156.通过编码器1003对语音样本序列进行隐变量转换，得到原始语音特征序列；
157.通过解码器1004对原始语音特征序列进行掩码处理，得到音素参考数据；
158.通过音素量化网络1005根据预设的音素码本对音素特征序列进行量化处理，得到目标音素特征序列；
159.通过最近邻聚类网络1006对目标音素特征序列进行音素分割边界挑选，得到音素分割数据；
160.损失计算模块1007，用于通过预设的损失模型对音素参考数据和音素分割数据进行损失计算，得到分割损失值；
161.参数调整模块1008，用于根据分割损失值对音素分割模型进行参数调整。
162.该种模型训练装置的具体实施方式与上述种模型训练方法的具体实施例基本相同，在此不再赘述。
163.请参阅图11，本技术实施例还提供一种音素分割装置，可以实现上述音素分割方法，该装置包括：
164.目标获取模块1101，用于获取目标语音数据；
165.音素分割模块1102，用于将目标语音数据输入至目标音素分割模型进行音素分割处理，得到目标音素分割信息；其中，目标音素分割模型由上述的模型训练方法得到。
166.该音素分割装置的具体实施方式与上述音素分割方法的具体实施例基本相同，在此不再赘述。
167.本技术实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存
储有计算机程序，处理器执行计算机程序时实现上述模型训练方法，或者上述音素分割方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
168.请参阅图12，图12示意了另一实施例的电子设备的硬件结构，电子设备包括：
169.处理器1201，可以采用通用的cpu(centralprocessingunit，中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术实施例所提供的技术方案；
170.存储器1202，可以采用只读存储器(readonlymemory，rom)、静态存储设备、动态存储设备或者随机存取存储器(randomaccessmemory，ram)等形式实现。存储器1202可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1202中，并由处理器1201来调用执行本技术实施例的模型训练方法，或者音素分割方法；
171.输入/输出接口1203，用于实现信息输入及输出；
172.通信接口1204，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信；
173.总线1205，在设备的各个组件(例如处理器1201、存储器1202、输入/输出接口1203和通信接口1204)之间传输信息；
174.其中处理器1201、存储器1202、输入/输出接口1203和通信接口1204通过总线1205实现彼此之间在设备内部的通信连接。
175.本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述模型训练方法，或者上述的音素分割方法。
176.存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
177.本技术实施例提供的模型训练方法和装置、音素分割方法、设备及存储介质，其通过编码器对语音样本序列进行隐变量转换得到原始语音特征序列，并通过解码器对原始语音特征序列进行掩码处理得到音素参考数据。通过音素量化网络根据预设的音素码本对原始语音特征序列进行量化处理得到目标音素特征序列，通过最近邻聚类网络对目标音素特征序列进行音素边界分割得到音素分割数据，然后通过预设的损失模型对音素参考数据和音素分割数据进行损失计算得到分割损失值，以根据分割损失值对音素分割模型进行参数调整，以不断优化音素分割模型，以构建音素分割更加准确的音素分割模型。因此，通过音素量化网络预设的音素码本用于将输入的原始语音特征序列表征为对应的音素，再通过最近邻聚类网络进行音素边界分割，以得到更加准确的音素分割数据。
178.本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
179.本领域技术人员可以理解的是，图中示出的技术方案并不构成对本技术实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
180.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
181.本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
182.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
183.应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
184.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
185.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
186.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
187.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例的方法的全部或部分步
骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序的介质。
188.以上参照附图说明了本技术实施例的优选实施例，并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本技术实施例的权利范围之内。

完整全部详细技术资料下载

当前第1页1 2