“最理想的语音合成,不是组合音节,而是直接组合数字信号。”
楼清焰:“我说的对吗。”
谢晋实实在在地惊讶了。
他一直以为楼清焰是个不学无术的纨绔,就算所有人都搞懂了计算机原理,他也不可能搞懂的那种。
没想到他真的懂。
楼清焰还没说完,他继而道:“理论上,AI软件通过深度学习,可以掌握数字信号的规律,构建一个数据模型,再基于模型生成语音。”
“但是,这需要一个大前提——机器学习算法能直接从数字层做特征提取。”
他问道:“能吗?”
谢晋服了,这人为啥总是一下子问到最关键的地方。
“现在确实没这个技术。我们设计的特征提取算法,主要瞄准声音的波形表现,频率、相位这些。”他简单地说。
楼清焰又说:“不止缺这一个技术吧。做了特征提取,知道怎么归纳总结吗?知道怎么训练模型吗?会写算法吗?设想过这个计算量有多庞大吗?”
谢晋:“……”
楼清焰发觉有点说过了,遂拍拍他肩膀,鼓励道:“不过你们已经做得很好了,能达到这个程度非常了不起……嗯,下一步工作是什么?”
谢晋:“……”看出来你是在敷衍了。
“软件的构造有点臃肿,只有在工作站上才能流畅运行,下一步先考虑优化问题。”
“好的。”楼清焰也就是随口一问。
他不在意软件本身,得知已经有了AI语音合成的雏形,他来这趟的目的就已经达成了。
谢晋研发的这款电子声带,其实还是提前录制人声,再进行排列组合。只不过基于AI算法训练的数据模型,会对音频波形进行修改,让声音变得流畅自然,更加真实。
这款软件的局限性在于算法。音频领域的特征提取没有可参考前例,谢晋团队必须把数字音频研究透彻,然后基于其特性设计新算法——不仅是逻辑框架,还包括万恶的数学模型。这可不是一朝一夕能搞出来的。
但是楼清焰呢,他脑子里有现成的。
在星际时代,声音合成是一项非常普及的技术,宇宙人早就可以在编码层面生成各种声音,还出现了一种新职业,叫音频作家。
类比于文学作家,音频作家就是直接创作广播剧的那种。
声音合成算法,是入门智械编程学习的一个启蒙案例。可见它简单到什么程度。在地球上也可以实现,条件是几套新的数学模型,一台大型计算机。
佳辉就有大型计算机,用作app服务器的,暂时关停服务器来计算软件,好像也没什么大不了的。
楼清焰只有一个人,不可能写出一个完整的软件,不过他有谢晋的代码基础,只要实现了那几个数学模型,用大型计算机快速完成机器学习运算,就可以达成他的目的。
嗯,他只是想让楼皓宸“说”几句话而已。
谢晋不知道他老板正在酝酿多么黑暗的犯罪过程,他看着楼清焰,心里已经对他完全改观了。
龙困浅滩,虎落平阳,却显得从容自若。落魄时不露难色,面对员工的消极嘲讽,姿态依旧那么强硬。他懂计算机,懂智能技术,并不是大家以为的那种不学无术的废物。最重要的是,他竟然懂他的想法。
谢晋此时强烈希望佳辉能度过这个难关。因为他第一次真情实感地发现,楼清焰是个好老板。
他暗暗看了对方一眼,正听到他说:“就这样吧,参观完了。下一步,用一天时间学会c语言。”
谢晋:“……?????”
第11章 拦路送钱
楼清焰可不是开玩笑的,离开公司他就到图书馆借了一堆书,找了开锁公司回家,一边敲电脑一边钻研。
于是,接下来的十多个小时里,谢晋同学崩溃了。
每隔一段时间,他就会收到老板打来的电话。
“喂,谢总监吗,我正在看数据结构c语言版,问你个问题……”
“谢总监呀,计算机组成的知识你还记得吗,我问一下……”
“谢总监呐,这一版算法设计与分析,里面有这么一个案例……”
谢晋的心理活动,从一开始“是不是在逗我”,到中间越来越沉默,到最后陷入对人生和世界的深刻怀疑。
要是他没听错的话……楼清焰大概可能也许……在一天时间里……读完了《数据结构》、《计算机组成原理》、《算法设计与分析》这三本书……???
还是从零基础开始,一边读一边操作,一边问一边学,举一反三,把他都问到哑口无言的那种?
小组例会中途,电话又打进来。
接完,他瞪着一双梦幻迷惑的卡姿兰大眼,坐回去,对组员们提出了一个充满茫然的问题:
“你们说,我大学四年,到底都干了些啥?”
组员:“???”
晚上九点钟,刻苦学习十二小时的楼清焰再次出现在公司,拉着谢晋给他开小班上课。
谢晋不知道揣着什么心情,就去了。
上课上到十二点。
楼清焰:ojbk,出师。
谢晋又不知道揣着什么心情,就下班了……
楼清焰开始尝试完成那几个数学模型的代码实现。由于地球没出现过类似的数学理论,函数库里一点现成的东西都没有,必须生造,这个过程一开始进行得特别艰难。
他摸索了一阵子,决定简单粗暴一点,完全不考虑算法复杂度、代码冗余的问题,只要写出来的东西能用就行。反正是大型计算机运行,怕球?
凌晨两点钟,第一个函数构建完毕。这就是谢晋苦求不得的那个公式,可以用来提取数字信息的特征,归纳1和0的排列规律,整理成音频、音高、波形等不同的参数。
楼清焰直接睡在了公司里,第二天早上起来,继续构建函数,一边写代码一边学习。