一种歌曲仿写方法、装置、电子设备及存储介质与流程

文档序号：34865792发布日期：2023-07-23 19:31阅读：7来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种歌曲仿写方法、装置、电子设备及存储介质。

背景技术：

2.歌曲是由歌词和曲调相结合的一种艺术形式，歌曲之所以是一种艺术形式，是因为歌曲既是感情的语言，又是声音的艺术。一首好的歌曲能够带给人们全方位的听觉享受，通过歌曲可以表达人内心的情感，让人产生共鸣。
3.歌曲仿写是指根据一首歌曲的歌词和曲调，模仿得到与该歌曲的歌词和曲调相似的歌曲。现有的歌曲仿写方式，主要依赖于音乐人进行模仿谱曲、模仿作词，自动化歌曲仿写技术比较少，如此，依赖于音乐人模仿谱曲、模仿作词实现歌曲仿写的方式，音乐人需要耗费大量的创作时间才能获得一首歌曲的仿写歌曲，歌曲仿写效率较低。

技术实现要素：

4.有鉴于此，本技术提供了一种歌曲仿写方法、装置、电子设备及存储介质。首先，获取源歌曲，将源歌曲分割为源歌词和源曲调。然后，根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面，根据源曲调，自回归生成源曲调的仿写曲调。最后，将仿写歌词与仿写曲调进行合并，得到目标歌曲。如此，本技术通过将源歌曲分割为源歌词和源曲调，再根据源歌词的画面词生成源歌词的仿写歌词，根据源曲调以自回归的方式生成源曲调的仿写曲调，再将仿写歌词和仿写曲调进行合并得到目标歌曲，能够快速获得和源歌曲相似的仿写歌曲，实现了智能化生成源歌曲的仿写歌曲，极大的缩短了音乐人的创作时间，提高了歌曲仿写的效率。
5.本技术实施例第一方面提供了一种歌曲仿写方法，该处理方法包括：
6.获取源歌曲，将源歌曲分割为源歌词和源曲调。
7.根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面。
8.根据源曲调，自回归生成源曲调的仿写曲调。
9.将仿写歌词与仿写曲调进行合并，得到目标歌曲。
10.本技术实施例第二方面提供了一种歌曲仿写装置，包括：
11.获取单元，用于获取源歌曲。
12.处理单元，用于将源歌曲分割为源歌词和源曲调。
13.生成单元，用于根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面。
14.生成单元，还用于根据源曲调，自回归生成源曲调的仿写曲调。
15.处理单元，还用于将仿写歌词与仿写曲调进行合并，得到目标歌曲。
16.本技术实施例第三方面提供了一种电子设备，包括：存储器和处理器，存储器和处
理器耦合。
17.其中，存储器用于存储一条或多条计算机指令。
18.处理器用于执行一条或多条计算机指令，以实现上述第一方面所述的一种歌曲仿写方法。
19.本技术实施例第四方面还提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其特征在于，该指令被处理器执行以实现上述任意一种技术方案所述的一种歌曲仿写方法。
20.与现有技术相比，本技术实施例具有以下优点：
21.本技术实施例所提供的歌曲仿写方法，首先，获取源歌曲，将源歌曲分割为源歌词和源曲调。然后，根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面，根据源曲调，自回归生成源曲调的仿写曲调。最后，将仿写歌词与仿写曲调进行合并，得到目标歌曲。如此，本技术通过将源歌曲分割为源歌词和源曲调，再根据源歌词的画面词生成源歌词的仿写歌词，根据源曲调以自回归的方式生成源曲调的仿写曲调，再将仿写歌词和仿写曲调进行合并得到目标歌曲，能够快速获得和源歌曲相似的仿写歌曲，实现了智能化生成源歌曲的仿写歌曲，极大的缩短了音乐人的创作时间，提高了歌曲仿写的效率。
附图说明
22.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
23.图1为本技术实施例提供的一种歌曲仿写方法的流程示意图；
24.图2为本技术实施例提供的一种根据画面词生成源歌词的仿写歌词流程示意图；
25.图3为本技术实施例提供的另一种歌词仿写方法流程示意图；
26.图4为本技术实施例提供的一种确定源歌词的画面词的流程示意图；
27.图5为本技术实施例提供的预训练语言模型的示意图；
28.图6为本技术实施例提供的初始曲调仿写模型训练过程示意图；
29.图7为本技术实施例提供的基于卷积编码器和变换器编码器的音频预训练模型架构图；
30.图8为本技术实施例提供的一种歌曲仿写方法装置示意图；
31.图9为本技术实施例提供的一种电子设备示意图。
具体实施方式
32.本技术提供了一种歌曲仿写方法、装置、电子设备及存储介质。首先，获取源歌曲，将源歌曲分割为源歌词和源曲调。然后，根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面，根据源曲调，自回归生成源曲调的仿写曲调。最后，将仿写歌词与仿写曲调进行合并，得到目标歌曲。如此，本技术通过将源歌曲分割为源歌词和源曲调，再根据源歌词的画面词生成源歌词的仿写歌词，根据源曲调以自回归的方式生成
源曲调的仿写曲调，再将仿写歌词和仿写曲调进行合并得到目标歌曲，能够快速获得和源歌曲相似的仿写歌曲，实现了智能化生成源歌曲的仿写歌曲，极大的缩短了音乐人的创作时间，提高了歌曲仿写的效率。
33.为了使本领域的技术人员能够更好的理解本技术的技术方案，下面结合本技术实施例中的附图，对本技术进行清楚、完整地描述。但本技术能够以很多不同于上述描述的其他方式进行实施，因此，基于本技术提供的实施例，本领域普通技术人员在不经过创造性劳动的情况下，所获得的所有其他实施例，都应属于本技术保护的范围。
34.需要说明的是，本技术的权利要求书、说明书及附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的，以便于本文所描述的本技术的实施例，能够在本文图示或描述的内容以外的顺序实施。此外，术语“包括”、“具有”以及他们的变形形式，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
35.在详细说明本技术的实施方式之前，首先对相关技术进行进一步介绍。
36.歌曲仿写是指根据一首歌曲的歌词和曲调，模仿得到与该歌曲的歌词和曲调相似的歌曲。示例性的，在一些应用场景中，通过对一些热门歌曲进行仿写，可以产生与之相似的歌曲，从而提高热门歌曲产生的效率，具有极大的经济价值。
37.现有的，提供一首源歌曲，对源歌曲进行仿写，主要是依赖于音乐人对源歌曲进行模仿谱曲、模仿作词，从而产生一首与源歌曲相似的仿写歌曲。另外，在现有技术中，有一些利用自动化技术自动生成歌词的方法，其主要利用歌词生成模型生成歌词。具体的，用户选取任意数量的关键词，将关键词输入至歌词生成模型中，歌词生成模型输出包含该关键词的歌词，可以理解的是，当用户选取的各个关键词之间的相关性较小或者用户选取的关键词数量很少的时候，通过歌词生成模型输出的歌词往往是前一句歌词是基于一个关键词生成的，而后一句歌词可能就是基于另外一个关键词生成的，如此，会导致生成的歌词上下文割裂严重，输出的整首歌词杂乱无章，无法表达一整首歌曲的完整意象。并且，通过关键词产生的歌词，由于没有源歌曲做参考，通过歌词生成模型输出的包含关键词的歌词主要为原创歌词，而并非是源歌词的仿写歌词，而对于源歌曲的曲调仿写，其自动化技术比较少。因此，目前要实现对源歌曲的仿写，主要依赖于音乐人模仿谱曲、模仿作词，从而实现歌曲仿写，这样，音乐人需要耗费大量的创作时间才能获得一首歌曲的仿写歌曲，歌曲仿写效率较低。
38.针对上述问题，本技术提供了一种歌曲仿写方法、装置、电子设备及存储介质。首先，获取源歌曲，将源歌曲分割为源歌词和源曲调。然后，根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面，根据源曲调，自回归生成源曲调的仿写曲调。最后，将仿写歌词与仿写曲调进行合并，得到目标歌曲。如此，本技术通过将源歌曲分割为源歌词和源曲调，再根据源歌词的画面词生成源歌词的仿写歌词，根据源曲调以自回归的方式生成源曲调的仿写曲调，再将仿写歌词和仿写曲调进行合并得到目标歌曲，能够快速获得和源歌曲相似的仿写歌曲，实现了智能化生成源歌曲的仿写歌曲，极大的缩短了音乐人的创作时间，提高了歌曲仿写的效率。
39.下面结合具体实施例及附图对本技术所述的方法、装置、终端以及计算机可读存储介质做进一步详细说明。
40.图1为本技术实施例提供的一种歌曲仿写方法的流程示意图。需要说明的是，该流程示意图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，同时，在某些情况，可以以不同于该流程示意图中示出的逻辑顺序执行所释出的步骤。
41.该方法的执行主体可以为终端设备或服务器，该终端设备可以为台式电脑、笔记本电脑、平板电脑、手机、等，也可以为其他电子设备，本技术不具体限定。该服务器用于为终端设备中的应用程序的客户端提供后台服务。例如，服务器可以是上述应用程序的后台服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器，本技术不具体限定。
42.如图1所示，该歌曲仿写方法包括以下步骤：
43.101、获取源歌曲，将源歌曲分割为源歌词和源曲调。
44.源歌曲是指用于生成仿写歌曲的参考歌曲，可以利用互联网、音乐软件等各种渠道获取源歌曲。源歌曲是由源歌词和源曲调构成的，源歌词是指源歌曲中的文字部分，源曲调是指源歌曲中的音频部分，源曲调可以包括人声部分和伴奏部分。在获取源歌曲以后，将源歌曲分割为源歌词和源曲调，源歌词用于实现歌词仿写，源曲调用于实现曲调仿写。
45.在一种实施方式中，将源歌曲分割为源歌词和源曲调，具体的，源歌曲的源歌词可以通过以爬取歌词的方式获取。爬取是指模拟客户端发送网络请求，接收请求响应，按照一定的规则，自动从互联网或者其他载体上收集数据。
46.源歌曲的源曲调可以通过spleeter获取。spleeter是音乐流媒体公司deezer开源的一个音轨分离软件，spleeter支持mp3、wav、ogg等常见音频格式。示例性的，将源歌曲输入spleeter中就可以得到源歌曲对应的源曲调，spleeter也可以将源曲调中的人声和各种乐器的伴奏声音进行分离。在一种实施方式中，可以将源曲调的人声和各种乐器的伴奏声分离，对人声和伴奏声分别进行仿写再进行合并得到源曲调的仿写曲调。在另一种实施方式中，对源曲调的人声和各种乐器的伴奏声不进行分离，直接对源曲调进行仿写，得到源曲调的仿写曲调。
47.102、根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面。
48.一首完整的歌曲，其歌词往往能够让人在脑海中描绘出一副或多副完整的画面，让人产生强烈的画面感。一首歌曲如果缺失画面感，会给人以破碎的感觉，让人没有头绪，因此，对于一首完整的歌曲，其歌词所表达出来的画面感是至关重要的。歌词所传达的画面感可以用一组描述画面的词汇来表示。画面词即是用于描述歌词所表达的画面的词汇。源歌词中的画面词用于表征源歌词所表达的画面。
49.示例性的，当我们看到断桥、白雪、油纸伞、姑娘这组词汇时，在脑海中会产生类似于以下的画面，一个美丽的姑娘撑着油纸伞，走在正在下雪的断桥之上，这种可以组成一个完整画面的词就是画面词。
50.根据源歌词中的画面词生成源歌词的仿写歌词，其仿写歌词所营造的画面感和源
歌词所营造的画面感是类似的。在现有的歌词生成技术中，用户选取任意数量的关键词，将关键词输入至歌词生成模型中，歌词生成模型输出包含该关键词的歌词，关键词是代表歌词的关键性词语，而不是用来描述歌词所表达的画面的词汇，因此，通过关键词无法让人在脑海中描绘出一副完整的画面。当用户选取的各个关键词之间的相关性较小或者用户选取的关键词数量很少的时候，通过歌词生成模型输出的歌词往往是前一句歌词是基于一个关键词生成的，而后一句歌词可能就是基于另外一个关键词生成的，如此，会导致生成的歌词上下文割裂严重，输出的整首歌词杂乱无章，无法表达出一首歌曲所营造的画面感。
51.在本技术中，由于画面词能够表征一首歌词所表达的画面，因此，通过源歌曲中的画面词生成源歌曲的仿写歌词，其仿写歌词和源歌词所表达的画面是类似的，解决了现有技术中，由关键词生成歌词的方式导致的歌词上下文割裂，无法表达歌词的画面感的问题。
52.103、根据源曲调，自回归生成源曲调的仿写曲调。
53.自回归，即使用当前自己预测的字符再去预测接下来的信息，在音频预测阶段，即给定一段音频，根据给定的当前音频，预测下一段音频信息。
54.在一种实施方式中，可以使用transformer(变换器)模型实现源曲调的仿写，transformer是一种自回归模型。具体的，对源曲调进行仿写，首先，可以从源曲调中选取目标子曲调，目标子曲调是指源曲调中的部分子曲调。
55.示例性的，在一种实施方式中，源曲调可以按照顺序随意划分为多个长度序列的子曲调。例如，将一个源曲调划分为x1、x2、x3、x4四个子曲调，x1、x2、x3、x4可以为同等长度的音频序列，也可以为不同长度的音频序列。一般的，在选择目标子曲调时，可以选取源曲调起始部分的曲调作为目标子曲调来生成仿写子曲调。例如，选择子曲调x1作为目标子曲调预测之后的仿写子曲调。
56.在另一种实施方式中，可以选取源曲调中间或其他任意部分的曲调作为目标子曲调来生成仿写子曲调，例如，也可以选择子曲调x2、x3、x4作为目标子曲调生成仿写子曲调。
57.在选取目标子曲调之后，将目标子曲调输入至目标曲调仿写模型中，自回归生成多个仿写子曲调。然后，再将目标子曲调、多个仿写子曲调组合成源歌曲的仿写曲调，并通过目标曲调仿写模型输出源歌曲的仿写曲调。
58.可以理解的是，通过目标曲调仿写模型可以输出源歌曲的一个仿写曲调，也可以输出源歌曲的多个仿写曲调。
59.示例性的，将目标子曲调输入至目标曲调仿写模型中，自回归生成多个仿写子曲调。具体的，选择子曲调x1为目标子曲调，然后将目标子曲调x1输入至目标曲调仿写模型中，通过目标曲调仿写模型可以得到仿写子曲调x2'，x2'代表子曲调x2的仿写子曲调，x2的仿写子曲调可以是一个，也可以是多个。
60.在一种实施方式中，当x2的仿写子曲调为一个时，根据x1、x2'生成x3'，x3'代表子曲调x3的仿写子曲调，再根据x1、x2'、x3'生成x4'，x4'代表子曲调x4的仿写子曲调。如此，通过这种自回归的方式生成x2'、x3'、x4'一共3个仿写子曲调，再将x1、x2'、x3'、x4'进行组合得到源歌曲的仿写曲调，最后，目标曲调仿写模型输出源歌曲的一个仿写曲调。
61.在另一种实施方式中，将目标子曲调x1输入至目标曲调仿写模型中生成x2的仿写子曲调为多个时，例如，x2的仿写子曲调的数量为三时，对应的x2的仿写子曲调分别为x2'、x2＂、x2”'。假设需要输出的源歌曲的仿写曲调的数量为二，则可以根据仿写子曲调x2'、
x2＂、x2”'与x2的相似度，选择相似度最高的前两个仿写子曲调用于生成后续的仿写子曲调。
62.例如，仿写子曲调x2'、x2＂、x2”'与x2的相似度分别为0.9、0.8、0.7，选择相似度最高的两个仿写子曲调x2'、x2＂生成后续的仿写子曲调。根据x1、x2'生成x3'、x3＂，根据x1、x2＂生成x3”'、x3
””
。根据x3'、x3＂、x3”'、x3
””
与x3的相似度，选择相似度最高的前两个仿写子曲调用于生成后续的仿写子曲调，依次类推，最终目标曲调仿写模型输出源歌曲的两个仿写曲调。
63.104、将仿写歌词与仿写曲调进行合并，得到目标歌曲。
64.本步骤用于在获得仿写歌词和仿写曲调之后，将仿写歌词与仿写曲调进行合并，得到目标歌曲。目标歌曲即为源歌曲的仿写歌曲。
65.在一种实施方式中，示例性的，当仿写歌词的数量为一，仿写曲调的数量为一时，将一个仿写歌词和一个仿写曲调合并得到目标歌曲。当仿写歌词的数量为多个，仿写曲调的数量为多个时，将多个仿写歌词和多个仿写曲调中的任一仿写歌词和任一仿写曲调进行合并，得到目标歌曲。
66.在上述本技术实施例所提供的技术方案，首先，获取源歌曲，将源歌曲分割为源歌词和源曲调。然后，根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面，根据源曲调，自回归生成源曲调的仿写曲调。最后，将仿写歌词与仿写曲调进行合并，得到目标歌曲。如此，本技术通过将源歌曲分割为源歌词和源曲调，再根据源歌词的画面词生成源歌词的仿写歌词，根据源曲调以自回归的方式生成源曲调的仿写曲调，再将仿写歌词和仿写曲调进行合并得到目标歌曲，能够快速获得和源歌曲相似的仿写歌曲，实现了智能化生成源歌曲的仿写歌曲，极大的缩短了音乐人的创作时间，提高了歌曲仿写的效率。
67.下面结合图2和图3对本技术实施例根据画面词生成源歌词的仿写歌词的方式进行进一步解释说明。
68.图2是本技术实施例提供的一种根据画面词生成源歌词的仿写歌词流程示意图，图3是本技术实施例提供的另一种歌词仿写方法流程示意图。
69.201、获取源歌词的n个画面词。
70.在一种实施方式中，获取源歌词的n个画面词，可以将源歌词划分为多个歌词分片，歌词分片是指源歌词中的部分歌词，将源歌词划分为多个歌词分片的方式有多种，可以按照源歌词的段落进行划分，例如，源歌词有三个段落，即把源歌词划分为三个歌词分片，也可以按照源歌词的主歌词和副歌词进行划分，将源歌词划分为主歌词分片和副歌词分片两个歌词分片，也可以按照其他方式对源歌词划分为多个同等长度或不同长度的源歌词的歌词分片，具体不做限定。
71.在将源歌词划分为多个歌词分片以后，将多个歌词分片输入至预训练语言模型中，根据预训练语言模型将各个歌词分片转换为各个歌词分片对应的分片向量，分片向量是指歌词分片所对应的向量。
72.进一步，对各个歌词分片进行分词，即将各个歌词分片中的每一句歌词通过分词划分为多个词组。
73.可以理解的是，由于中文文本之间每个汉字都是连续书写的，我们需要通过特定
的手段来获得其中的每个词组，这种手段叫做分词。
74.示例性的，在一种实施方式中，对各个歌词分片进行分词，可以使用jieba分词工具将各个歌词分片进行分词。jieba分词工具主要用于中文分词，其原理是利用一个中文词库，确定汉字之间的关联概率，汉字间概率大的组成词组，形成分词结果。
75.jieba分词工具有三种分词模式，第一种分词模式为精确模式：即把一段文本精确地切分成若干个中文单词，若干个中文单词之间经过组合，就精确地还原为之前的文本，其中不存在冗余单词。第二种分词模式为全模式：即把一段文本中所有可能的词语都扫描出来，一段文本按照不同的角度可以分为不同的词语，在全模式下，分词后的信息再组合起来会有冗余，不再是原来的文本。第三种分词模式为搜索引擎模式：即在精确模式的基础上，对长词再次进行切分，提高召回率，适合用于搜索引擎分词。
76.在得到各个歌词分片对应的分词之后，将各个歌词分片对应的分词输入至预训练语言模型中，根据预训练语言模型获取分词后的歌词分片的各个词向量，词向量是指各个歌词分片对应的分词的分词向量。计算各个歌词分片的各个词向量与歌词分片的分片向量的语义相似度，根据歌词分片的各个词向量与歌词分片的分片向量的语义相似度确定获取源歌词的n个画面词。
77.在一种实施方式中，预训练语言模型内部是针对字级别对文本语料进行处理的，根据预训练语言模型获得各个歌词分片对应的分片向量和歌词分片的各个词向量。示例性的，一个歌词分片中如果有14个字，则将每个字的字向量进行加和平均，将加和平均后的向量作为该歌词分片的分片向量。同理，例如，对该歌词分片进行分词，得到该歌词分片对应的6个分词，分别对各个分词中的字向量进行加和平均，将加和平均后的向量作为各个分词的词向量，再计算各个分词的词向量和分片向量的语义相似度。
78.计算歌词分片的各个词向量与歌词分片的分片向量的语义相似度，可以利用余弦相似度来计算歌词分片的各个词向量与歌词分片的分片向量的语义相似度，语义相似度越高，则表示这个词越可以代表整句话，也即，余弦相似度越大，语义相似度越高。余弦相似度，又称为余弦相似性，是通过测量两个向量的夹角的余弦值来度量它们之间的相似性。两个方向完全相同的向量的余弦相似度为1，而两个彼此相对的向量的相似度为-1。
79.示例性的，当歌词分片为“我向你奔赴而来，你就是星辰大海”，对其进行分词，对该歌词分片进行分词可以分为“我，向你，奔赴而来，你，就是，星辰大海”，通过上述步骤将歌词分片输入至预训练语言模型中，通过预训练语言模型可以获得该歌词分片的分片向量。例如，该歌词分片的分片向量为一个768维的向量[1，2，1.3，1.5
……
]，分词“奔赴而来”对应的分词向量为一个768维的向量[0.9，0.8，1.2，1.4
……
]，在获得歌词分片“我向你奔赴而来，你就是星辰大海”的分片向量和分词“奔赴而来”对应的词向量之后，通过余弦相似度来计算两个向量之间的语义相似度，两个向量之间的语义相似度越高，则代表该分词越能代表整个歌词分片。
[0080]
根据歌词分片的各个词向量与歌词分片的分片向量的语义相似度确定获取源歌词的n个画面词。具体的，将与歌词分片的分片向量的语义相似度最高的前s个词向量对应的分词确定为歌词分片的画面词，s为大于等于1的正整数。
[0081]
根据各个歌词分片的画面词对应的语义相似度，对各个歌词分片的画面词进行排序，获取语义相似度最高的n个画面词，将n个画面词确定为源歌词的n个画面词。
[0082]
在一种实施方式中，示例性的，将源歌词划分为主歌词和副歌词两个歌词分片，根据主歌词分片、副歌词分片的各个词向量与主歌词、副歌词的分片向量确定为源歌词的n个画面词。
[0083]
具体的，结合图4和以下内容对确定源歌词画面词的方法进行解释说明。图4是本技术实施例提供的一种确定源歌词的画面词方法的流程示意图。
[0084]
首先，将源歌词划分为主歌词和副歌词两个歌词分片。将主歌词分片和副歌词分片输入至预训练语言模型中，通过预训练语言模型分别得到主歌词分片和副歌词分片的分片向量，接着，利用jieba分词工具分别对主歌词分片和副歌词分片进行分词，得到主歌词分片和副歌词分片对应的各个分词，将主歌词分片和副歌词分片对应的各个分词输入至预训练语言模型中，通过预训练语言模型得到主歌词分片和副歌词分片对应的各个分词的词向量。然后，计算主歌词分片的各个分词向量与主歌词分片的分片向量的语义相似度，选取与主歌词分片的分片向量语义相似度最高的前s个主歌词分片的词向量对应的分词作为主歌词分片的画面词，计算副歌词分片的各个分词向量与副歌词分片的分片向量的语义相似度，选取与副歌词分片的分片向量语义相似度最高的前s个副歌词分片的分词向量对应的分词作为副歌词分片的画面词，s为大于等于1的正整数。
[0085]
在获得主歌词分片的画面词和副歌词分片的画面词以后，对主歌词的画面词和副歌词的画面词根据语义相似度进行排序，获取语义相似度最高的n个画面词，将n个画面词确定为源歌词的n个画面词，n为大于等于1的正整数。
[0086]
在一种实施方式中，可以分别选取不大于5个画面词作为主歌词的画面词和副歌词的画面词。例如，选取的主歌词的画面词为：画面词1、语义相似度为0.9，画面词2、语义相似度为0.7，画面词3、语义相似度为0.6，画面词4、语义相似度为0.8，副歌词的画面词为：画面词5、语义相似度为0.45，画面词6、语义相似度为0.75，画面词7、语义相似度为0.65，画面词8、语义相似度为0.3。根据语义相似度对画面词1、画面词2、画面词3、画面词4、画面词5、画面词6、画面词7和画面词8进行排序，在一种实施方式中，可以选取语义相似度最高的前5个画面词作为源歌词的画面词，即选择画面词1、画面词4、画面词6、画面词2和画面词7作为源歌词的画面词。选择源歌词的歌词分片的画面词数量和源歌词的画面词的数量时可以根据源歌词的歌词长度进行选取，在此不做限定。
[0087]
202、将n个画面词输入至歌词生成模型中，通过歌词生成模型生成包含画面词的参考歌词。
[0088]
在确定了源歌词的n个画面词之后，将n个画面词输入至歌词生成模型中，歌词生成模型可以根据输入的画面词输出参考歌词，参考歌词为包含画面词的歌词。通过歌词生成模型，可以生成一个参考歌词，也可以生成多个参考歌词。
[0089]
203、确定源歌词的歌词信息。
[0090]
确定源歌词的歌词信息包括确定源歌词的的词格、源歌词的风格、源歌词的情绪等信息。
[0091]
源歌词的词格指的是源歌词的格式，示例性的，可以包括源歌词的段落数、每个段落包含的句子数、每个句子包含的字数等。
[0092]
源歌词的风格是指源歌词的曲风类型，示例性的，包括摇滚、流行、古典、民谣、说唱等。
[0093]
源歌词的情绪是指源歌曲说要表达的情绪，示例性的，包括快乐、高兴、难过、悲伤、思念等。
[0094]
204、将第一语料和第二语料确定为平行语料，其中，第一语料包括n个画面词、源歌词的歌词信息和参考歌词，第二语料包括源歌词。
[0095]
平行语料是指将一种文本和另一种文本逐句进行对齐构成平行文本。本技术中将第一语料和第二语料进行对齐形成平行语料，通过语料对齐可以形成规范的语对。
[0096]
在一个实施方式中，将源歌词的n个画面词、源歌词的歌词信息和参考歌词确定为第一语料，将源歌词确定为第二语料，将第一语料和第二语料确定为平行语料，即将源歌词的n个画面词、源歌词的歌词信息和参考歌词和源歌词进行对齐。示例性的，构造(源歌词的n个画面词《p》源歌词的歌词信息《p》参考歌词，源歌词)格式的数据对。
[0097]
205、将平行语料输入至初始歌词仿写模型中，确定初始歌词仿写模型为目标歌词仿写模型。
[0098]
将平行语料输入至初始歌词仿写模型中，用于对初始歌词仿写模型进行训练。在一个实施方式中，将平行语料的最大序列长度设置为512，如果平行语料的序列长度超过512，即将超过512长度的平行语料进行裁剪，低于512长度的平行语料被补齐，形成一个n*512的矩阵进行训练。可以理解的是，也可以将平行语料的最大序列长度设置为1024或者其他数值，具体不做限定。对平行语料如此处理可以便于初始歌词仿写快速计算，更加有效的对模型进行训练。
[0099]
初始歌词仿写模型根据平行语料生成预测歌词，计算预测歌词和源歌词之间的第一损失函数，根据第一损失函数调整初始歌词仿写模型的参数至第一损失函数低于第一预设值，确定初始歌词仿写模型为目标歌词仿写模型。
[0100]
在一个实施方式中，需要实现对源歌词的仿写，因此，可以通过将第一损失函数控制在第一预设值对初始歌词仿写模型进行训练，第一预设值的设置不能过小，避免因损失函数过小而导致输出的仿写歌词和源歌词差别过小或者输出的仿写歌词为源歌词。例如，可以控制第一损失函数的第一预设值为25％，当第一损失函数达到第一预设值25％时，确定初始歌词仿写模型为目标歌词仿写模型。控制第一损失函数的第一预设值也可以是20％，30％或其他数值，具体不做限定。
[0101]
206、将源歌词输入至目标歌词仿写模型中，通过目标歌词仿写模型生成源歌词的仿写歌词。
[0102]
将源歌词输入至目标仿写歌词模型中，通过目标仿写歌词生成源歌词的仿写歌词。可以理解的是，通过目标仿写歌词模型可以生成源歌词的一个仿写歌词，也可以生成源歌词的多个仿写歌词。通过目标仿写模型生成的仿写歌词与源歌词的所营造的画面感、歌词信息相类似的歌词。
[0103]
以下内容将本技术涉及到的模型训练过程做简单的介绍。
[0104]
以下模型训练方法与上述歌曲仿写方法的执行主体可以为不同的终端设备或服务器，例如，歌曲仿写方法的执行主体为笔记本电脑1，模型训练方法的执行主体为笔记本电脑2。
[0105]
下面结合图5对预训练语言模型做介绍，图5为本技术实施例中的预训练语言模型的示意图。
[0106]
在训练预训练语言模型的过程中，需要收集大量的文本语料，语料通常是一定数量和规模的资源集合，文本语料则是指语言文字的集合。收集文本语料，可以从各个社交媒体网站和电子商务网站的评论数据、人民日报、中文维基百科、百度百科等收集尽可能多的文本语料。
[0107]
针对收集到的文本语料进行预处理，即对收集到的文本语料进行清洗，过滤掉文本语料中的脏数据，例如，文本语料中存在的网页链接、标签信息、网站地址名称、字数太少的行、重复数据等，这些脏数据既不能提供任何有用信息，而且还会拉低预训练语言模型的训练效果。
[0108]
在将文本语料进行过滤清洗掉脏数据以后，将文本语料处理为预训练模型可以解析的格式。因为预训练语言模型内部是针对字级别对文本语料进行处理的，因此，需要将文本语料处理为预训练语言模型可以理解的字级别的格式。示例性的，通过以空格分隔的方式将句子“我向你奔赴而来”变为“我向你奔赴而来”。
[0109]
将处理好的文本语料输入至预训练语言模型中，对预训练语言模型进行训练，具体的，使用gpt(generative pre-trained transformer，一种大规模预训练模型)的自生成式的训练方式，即基于已有的词来预测生成下一个词，通过transformer变换器模型结构进行预训练语言模型的训练，在本技术实施例中，预训练语言模型是一个包括了12层的transformer网络结构，初始化字向量的维度有768维，有12个注意力层，其中词典大小为21128。
[0110]
下面结合图6和图7对初始曲调仿写模型的训练过程进行解释说明，图6为本技术实施例中初始曲调仿写模型训练过程示意图，图7为基于卷积编码器和变换器编码器的音频预训练模型架构图。
[0111]
收集音频语料，音频语料是指一定数量和规模的音频文件的集合，示例性的，收集音频语料，可以通过互联网、音乐软件、社交媒体网站、电子书、播客等各种渠道获取音频文件。
[0112]
对获取到的音频语料进行预处理，可以理解的是，通过上述各种渠道收集到的音频语料中可能存在脏数据，例如，收集到的音频语料中可能存在外界的喇叭声、杂音、人声、汽车鸣笛声等多种噪声脏数据。对收集到的音频语料进行预处理即是指过滤掉音频语料中的噪声等脏数据。经过预处理之后的音频语料会变得更加干净，更加有利于模型的分析训练。将预处理之后的音频语料输入至初始曲调仿写模型中，初始曲调仿写模型对音频语料进行随机遮蔽，然后，根据未遮蔽的音频语料部分生成遮蔽的音频语料部分对应的预测音频部分，计算预测音频部分和遮蔽的音频语料部分之间的第二损失函数，根据第二损失函数调整初始曲调仿写模型的参数至第二损失函数低于第二预设值，确定初始曲调仿写模型为目标曲调仿写模型。
[0113]
在一个实施方式中，需要实现对源曲调的仿写，可以通过将第二损失函数控制在第二预设值对初始曲调仿写模型进行训练，第二预设值的设置不能过小，避免因损失函数过小而导致输出的仿写曲调和源曲调差别过小或者输出的仿写曲调为源曲调。例如，控制第二损失函数的第二损失函数为25％，当第二损失函数达到第二预设值25％时，确定初始曲调仿写模型为目标曲调仿写模型。控制第二损失函数的第二预设值也可以是20％，30％或其他数值，具体不做限定。
[0114]
基于cnn卷积编码器和transformer变换器编码器的音频预训练模型可以分为cnn卷积编码器模块和transformer变换器编码器模块。其中，cnn卷积编码器共有7层，每层包含一个时域卷积层、一个层规范化层和一个gelu(高斯误差线性单元)激活函数层。cnn卷积编码器用来识别音频语料，将音频语料转化为向量。
[0115]
在transformer编码器中，使用了门控相对位置编码，从而将相对位置引入到了注意力网络的计算中，以便更好地对局部信息进行建模。在训练中，随机地对输入音频文件进行变换，例如：将两个音频文件进行混合，或者加入背景噪音。之后，再随机遮盖约50％的音频信号，并在输出端预测被遮盖位置所对应的标签。形式化来讲，给定输入音频文件x，首先抽取其标签y，之后对x进行加噪和掩码，生成x^，而transformer变换器需要通过输入x^来预测被掩码位置的标签y。然后，使用掩码预测任务进行预测，即通过掩码预测任务遮随机遮蔽掉一部分音频数据，然后，再将遮蔽后的音频输入到transformer变换器编码器。transformer变换器编码器通过未遮蔽的音频预测被遮蔽部分的音频，从而通过transformer变换器编码器实现对曲调序列的建模，输出与源曲调频语料相似的曲调，最后，计算预测音频部分和遮蔽的音频语料部分之间的损失函数，根据损失函数调整音频预训练模型的参数继续训练音频预训练模型，直至损失函数低于预设值，则认为音频预训练模型为训练好的音频预训练模型。
[0116]
在上述本技术实施例所提供的技术方案，首先，获取源歌曲，将源歌曲分割为源歌词和源曲调。然后，根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面，根据源曲调，自回归生成源曲调的仿写曲调。最后，将仿写歌词与仿写曲调进行合并，得到目标歌曲。如此，本技术通过将源歌曲分割为源歌词和源曲调，再根据源歌词的画面词生成源歌词的仿写歌词，根据源曲调以自回归的方式生成源曲调的仿写曲调，再将仿写歌词和仿写曲调进行合并得到目标歌曲，能够快速获得和源歌曲相似的仿写歌曲，实现了智能化生成源歌曲的仿写歌曲，极大的缩短了音乐人的创作时间，提高了歌曲仿写的效率。
[0117]
图8为本技术实施例提供的了一种歌曲仿写方法装置的结构示意图，以下结合图8对本实施例提供的进行详细描述。以下描述所涉及的实施例用于解释本技术的技术方案，并不是实际使用的限定。
[0118]
该装置包括：
[0119]
获取单元801，用于获取源歌曲。
[0120]
处理单元802，用于将源歌曲分割为源歌词和源曲调。
[0121]
生成单元803，用于根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面。
[0122]
生成单元803，还用于根据源曲调，自回归生成源曲调的仿写曲调。
[0123]
处理单元802，还用于将仿写歌词与仿写曲调进行合并，得到目标歌曲。
[0124]
在一个可选的实施方式中，生成单元802，还用于根据源歌词中的画面词生成源歌词的仿写歌词。
[0125]
获取单元801，还用于根据画面词获取目标歌词仿写模型。
[0126]
生成单元803，还用于将源歌词输入至目标歌词仿写模型中，通过目标歌词仿写模型生成源歌词的仿写歌词。
[0127]
在一个可选的实施方式中，
[0128]
处理单元802，还用于将平行语料输入至初始歌词仿写模型中。
[0129]
生成单元803，还用于初始歌词仿写模型根据平行语料生成预测歌词。
[0130]
处理单元802，还用于计算预测歌词和源歌词之间的第一损失函数。
[0131]
处理单元802，还用于根据第一损失函数调整所述初始歌词仿写模型的参数至第一损失函数低于第一预设值，确定初始歌词仿写模型为目标歌词仿写模型。
[0132]
在一个可选的实施方式中，处理单元802，还用于将平行语料输入至初始歌词仿写模型中，生成单元803，还用于初始歌词仿写模型根据平行语料生成预测歌词之前，
[0133]
获取单元801，还用于获取源歌词的n个画面词，n为大于等于1的正整数。
[0134]
处理单元802，还用于将n个画面词输入至歌词生成模型中。
[0135]
生成单元803，还用于通过歌词生成模型生成包含画面词的参考歌词。
[0136]
处理单元802，还用于确定源歌词的歌词信息。
[0137]
处理单元802，还用于将第一语料和第二语料确定为平行语料，其中，第一语料包括所述n个画面词、源歌词的歌词信息和参考歌词，第二语料包括源歌词。
[0138]
在一个可选的实施方式中，获取单元801，还用于获取源歌词的n个画面词。
[0139]
处理单元802，还用于将源歌词划分为多个歌词分片。
[0140]
处理单元802，还用于将歌词分片输入至预训练语言模型中。
[0141]
获取单元801，还用于根据预训练语言模型获取歌词分片的分片向量。
[0142]
处理单元802，还用于将歌词分片进行分词。
[0143]
处理单元802，还用于将分词后的歌词分片的各个分词输入至预训练语言模型中。
[0144]
获取单元801，还用于根据预训练语言模型获取歌词分片的各个词向量。
[0145]
处理单元802，还用于计算歌词分片的各个词向量与歌词分片的分片向量的语义相似度。
[0146]
处理单元802，还用于根据歌词分片的各个词向量与歌词分片的分片向量的语义相似度确定获取源歌词的n个画面词。
[0147]
在一个可选的实施方式中，处理单元802，还用于根据歌词分片的各个词向量与歌词分片的分片向量的语义相似度确定获取源歌词的n个画面词。
[0148]
处理单元802，还用于将与歌词分片的分片向量的语义相似度最高的前s个词向量确定为歌词分片的画面词，s为大于等于1的正整数。
[0149]
处理单元802，还用于根据各个歌词分片的画面词对应的语义相似度，对各个歌词分片的画面词进行排序，获取语义相似度最高的n个画面词。
[0150]
处理单元802，还用于将n个画面词确定为源歌词的n个画面词。
[0151]
在一个可选的实施方式中，生成单元803，还用于根据源曲调，自回归生成源曲调的仿写曲调。
[0152]
处理单元802，还用于从源曲调中选取目标子曲调。
[0153]
生成单元803，还用于将目标子曲调输入至目标曲调仿写模型中，自回归生成多个仿写子曲调。
[0154]
处理单元802，还用于将目标子曲调
、
多个仿写子曲调组合成源歌曲的仿写曲调，并通过目标曲调仿写模型输出源歌曲的仿写曲调。
[0155]
在一个可选的实施方式中，
[0156]
获取单元801，还用于获取音频语料。
[0157]
处理单元802，还用于将音频语料输入至初始曲调仿写模型中，初始曲调仿写模型对音频语料进行随机遮蔽，根据未遮蔽的音频语料部分生成遮蔽的音频语料部分对应的预测音频部分。
[0158]
处理单元802，还用于计算预测音频部分和遮蔽的音频语料部分之间的第二损失函数。
[0159]
处理单元802，还用于根据第二损失函数调整初始曲调仿写模型的参数至第二损失函数低于第二预设值，确定初始曲调仿写模型为目标曲调仿写模型。
[0160]
在上述本技术实施例所提供的技术方案，首先，获取源歌曲，将源歌曲分割为源歌词和源曲调。然后，根据源歌词中的画面词生成源歌词的仿写歌词，画面词用于表征源歌词所表达的画面，根据源曲调，自回归生成源曲调的仿写曲调。最后，将仿写歌词与仿写曲调进行合并，得到目标歌曲。如此，本技术通过将源歌曲分割为源歌词和源曲调，再根据源歌词的画面词生成源歌词的仿写歌词，根据源曲调以自回归的方式生成源曲调的仿写曲调，再将仿写歌词和仿写曲调进行合并得到目标歌曲，能够快速获得和源歌曲相似的仿写歌曲，实现了智能化生成源歌曲的仿写歌曲，极大的缩短了音乐人的创作时间，提高了歌曲仿写的效率。
[0161]
需要说明的是，装置中各模块/单元之间的信息交互、执行过程等内容，与本技术中图1至图7对应的各个方法实施例基于同一构思，具体内容可参见本技术前述所示的方法实施例中的叙述，此处不再赘述。
[0162]
接下来介绍本技术实施例提供的一种电子设备，请参阅图9，图9为本技术实施例提供的电子设备的一种结构示意图，电子设备900具体可以表现为虚拟现实vr设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备或者雷达数据处理设备等，此处不做限定。其中，电子设备900上可以部署有图4对应实施例中所描述的歌曲仿写装置，用于实现图1至图7对应实施例中的功能。具体的，电子设备900包括：接收器901、发射器902、处理器903和存储器904(其中执行设备900中的处理器903的数量可以一个或多个，图5中以一个处理器为例)，其中，处理器903可以包括应用处理器9031和通信处理器9032。在本技术的一些实施例中，接收器901、发射器902、处理器903和存储器904可通过总线或其它方式连接。
[0163]
存储器904可以包括只读存储器和随机存取存储器，并向处理器903提供指令和数据。存储器904的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，nvram)。存储器904存储有处理器和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。
[0164]
处理器903控制执行设备的操作。具体的应用中，执行设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。
[0165]
上述本技术实施例揭示的方法可以应用于处理器903中，或者由处理器903实现。处理器903可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器903中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理
器903可以是通用处理器、数字信号处理器(digital signal processing，dsp)、微处理器或微控制器，还可进一步包括专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器903可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器904，处理器903读取存储器904中的信息，结合其硬件完成上述方法的步骤。
[0166]
接收器901可用于接收输入的数字或字符信息，以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器902可用于通过第一接口输出数字或字符信息；发射器902还可用于通过第一接口向磁盘组发送指令，以修改磁盘组中的数据；发射器902还可以包括显示屏等显示设备。
[0167]
本技术实施例中，处理器903中的应用处理器9031，用于执行图1至图3对应实施例中的歌曲仿写方法。需要说明的是，应用处理器9031执行各个步骤的具体方式，与本技术中图1至图7对应的各个方法实施例基于同一构思，其带来的技术效果与本技术中图1至图7对应的各个方法实施例相同，具体内容可参见本技术前述所示的方法实施例中的叙述，此处不再赘述。
[0168]
本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质包括计算机指令，计算机指令在被处理器执行时用于实现本技术实施例中任意一种歌曲仿写方法的技术方案。
[0169]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0170]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0171]
其中，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0172]
本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存
储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0173]
本技术虽然以较佳实施例公开如上，但其并不是用来限定本技术，任何本领域技术人员在不脱离本技术的精神和范围内，都可以做出可能的变动和修改，因此本技术的保护范围应当以本技术权利要求所界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：常永炷张荣升吕唐杰范长杰
技术所有人：网易（杭州）网络有限公司
我是此专利的发明人

上一篇：图标显示方法、电子设备及存储介质与流程
上一篇：一种基于多模态感知的双声道音频生成方法与流程