一个不靠谱中文录音改进方案（-Zenko

2018-04-06

一个不靠谱中文录音改进方案（

下午的时候和奇音讨论并由他初步实践了一下

因为我们知道中文的语音流变是很多很广泛程度很严重的，VC目前的录音表应该是单独音的形式吧，至少鼻音的流变（nmNN'N\）完全没听出来有录出来，然后绫妹开始oto又做得一团糟

再一个契机是研究了一下GUMI和VY2的体积，GUMI非常小，VY2也不算大，但是听起来用到的采样倒是非常丰富和体积不符，最可怕的是流畅度非常变态显然不是单独音能解决的……之前曾经猜测他有没有可能是录了一整段很长的wav，每个音根据前后衔接的音素来从这个整段的录音里直接截取，这样体量不会太大，流畅度也能保证

接下来要提到的中文录音方案基于上面这个猜测展开
我们滋道，VC的体积也是很巨型的，而英语西语音源虽然比较大却还没大到VC的程度。如果我们换一个思路，将中文的一个字认为是对应英语的一个词，英语会自动拆音，中文也可以自动在字内拆音，如我们输入一个拼音，在发音符号中自动拆出全部音素

这样一来就不再需要录制如iE_r，AN，iAU等音素，而只需要录制单独的A，N，E，i（我依然倾向于认为是e:）等等，然后在输入歌词时将这些单独的音素拼起来。这样当发生语音流变时，如'辩白'和'变化'的bian并非是同一个音，一为'piampai'一为'piaNxua'，可以直接从单个音素中选取流变成的对应的鼻音，从而解决掉为了录出语音流变而录制连续音导致音源体量过于巨大的问题。再，由于只拥有单个音素，我们再也不用面对VC跨语种没有单独音素不好跨等等问题，当然如果制作方开心他完全可以直接录制一个MAIKA式的多语种适用型音源，反正音素都是单独的，后期也可以随意编辑拼起来（。如此一来变化就非常丰富，也算扩展了音源的可能性

然而实际制作还是有问题的。最主要的问题即是衔接。如果制作得不好，单个的音素很可能衔接不上而在字内发生断裂，字间就更不用说了。再一个问题是单独的音素中之人也很难发出来/发标准。因此上面所猜测的，直接录制整段文字，从这样一个'连续音大礼包'中截取所需音素，则可能是一个很有效的解决方案。此处再重复一次，一个音素从何处截，需要由它前后所接的音各是什么共同决定，这样能最大程度保证连续性

但是这一方案对从整段音频中截取音素的精确度又要求很高，刀工不好很可能还会破坏音素。虽然我本人成功地切出来过各种辅音，尤其k_h t_h等送气的辅音也切分过，然而AN，AU等双元音则界限较为模糊，不是很好下手操作

再有一点，我们知道欧洲语言往往将元音aiueo划分为auo和ei，其中ei为软音，前所接辅音常与auo不同。换成中文也有这种问题，我们可以观察到ba和bei的b略有不同。在这一方案中，或可将每个有这种变化倾向的音素都分别录制开口（用于auo）与闭口（用于eiy）两种类型，视之后衔接的音素来决定使用哪个采样

本方案还有一个不靠谱之处在于，因为对音素切分的精细要求，再加上中文的复合元音，如当一个介母再一个双元音时，每个音素的时值都需要合理调整，蓝鹅我们知道绫妹开始这方面做得就挺……再，如果非常追求丰富变化和流畅自然的衔接，录音表需要经过非常严密的设计才能包括这些非常丰富的音素排列组合……（如果还想尽可能减小音源体积就更

因为有这些问题存在，如果真的将这个方案付诸实践，其工程量之巨大……累死oto的程度……录音表的编写等都非常使人脱发（。

*有可能会开设一个页面，一系列音源只提供各类型各语种录音文件，而不制作oto。由使用者自行标记，全盘接受各种二次配布
*因为我自己不用UTAU等等，希望充分发挥UTAU的自由精神，尽力帮使用者脑洞开得更大

2018-04-06 2

热度(2)