黑科技超級輔助 - 第四十三章：語音通話模型的製作（二更）

“宿主，你能要點臉不？你哪來的自信，出賣身體，能賺幾千萬。”

“我……我……”林奇竟然無言以對。

林奇仔細思考了下，發現自身記憶力驚人，學知識的速度快。但是也不能教授給別人，別人學不來的，他們沒有這些機遇。

那利用已經學習到的知識，怎麼能在短時間內賺那麼多的錢呢？

自己是把學校裏面的東西學會了，但是這該怎麼賺錢？辦補習班，來錢太慢了。

除此以外林奇也就學習了電池製造相關的東西，正是因爲要等待大規模生產才這麼缺錢，所以這條路也走不通。

那就剩餘一個了——自己之前學習的編程，還在算法大賽中取得第二名，贏得過20萬獎金。

但是應該通過什麼賺錢呢，開發出來遊戲嗎？小遊戲是簡單，但是沒有一個好的創意，很難有大的影響力。大的遊戲又不是一時半會能開發出來的。

林奇拿着手機打開了手機內的軟件。

打車軟件，共享單車軟件，新聞客戶端，郵件系統，短信，語音，視頻，聊天工具。

看了一個又一個的軟件，林奇突然腦中一閃，語音通話。

現在聊天工具能直接進行視頻和語音通話，還有一些軟件只有語音通話功能。

這些語音通話軟件有一個共同的特點就是：都消耗的是流量，不用話費。

最近幾年，語音通話的軟件是越來越多，並且不用話費。

有很大一部分人都用這個來代替打電話。但是因爲這些需要的是流量，所以通話質量不是那麼的有保證，質量和和網絡的穩定性成正比。

如果是在良好的4g網絡下或者wifi環境下，通話質量都挺好的，但是在3g甚至2g，或者信號不穩定的地方，發文字還正常，但是語音通話就不行，通話雙方會感覺卡頓，對方聽不到，聽不清這是經常會發生的事情。

如果能開發出一個軟件可以在各種複雜的網絡環境下讓語音通話都依然流暢，應該很有市場。

林奇通過看手機上的各種軟件，想到了這麼一個賺錢的機會。

怎麼才能實現這個目標呢？最好的就是發送文字，因爲文字佔用的帶寬最少了，即使網絡很不穩定也能收到，除非是完全沒有網絡。

最後林奇想到了一個非常精妙的方法，能實現這個功能。

那就是通過機器學習來建立每個人的音色庫，然後再把不同的文字用上不同的語氣，只要這個個人的模型訓練好，發送對方的手機裏面，然後把要說的話轉換爲文字，每次都只發送文字過去，這樣需要傳輸的信息就會小很多。

雖然這個方法想起來非常的簡單，但是做起來可不是這麼容易的。

首先每個人都有一個自己的語音模型，訓練這個模型需要有一個很優秀的訓練好的模型，然後做遷移學習。

但是訓練基礎模型的時候，是需要很多數據的，程序林奇很快的就做好了，但是沒有語音數據是硬傷。

最後林奇收集了很多的網絡上公開的音頻資料，來輸入到模型中進行訓練，剛開始的時候找來了很多的漢語的音頻。包括從電視劇，電影還有廣播，新聞等裏面抽取的音頻。

等訓練好之後林奇測試之後發現針對標準的普通話，這個表現很好，但是如果是方言甚至是另一種少數民族，比如蒙古語，這個軟件表現的就非常的不盡人意。

後來林奇換了一個思路，不把每個人的語音轉換爲文字。而是讓機器自己發明一種能發音的文字，不需要人類能看懂，只需要這個軟件自己能看懂就好，可以把聽到的任何聲音都轉換爲這種機器自己能識別的文字。

修改了核心的算法之後，林奇再次把數據輸入進去，同時這次增加了很多的其他的數據，包括英語，德語，日語……幾十種語言的數據。還有很多的大自然的聲音，樂器的聲音，等等。

電腦分析這些數據建立一個模型過程是很慢的，經過漫長的等待之後，終於重新生成了一個模型。

經過測試之後，效果出奇的好，林奇發現尤其是針對有規律的東西，包括語言，樂器這些東西，都能有很好的效果。

然後這些數據經過壓縮之後，體積比文字的還小了很多，即使網絡環境再不好，只要不是完全沒有，通話的質量都是很完美的。

但是美中不足的是，針對不太規律的東西，這個模型處理的效果就不是很好，比如一些環境噪音或者大自然的風聲雨聲鳥叫等。

林奇接着又去修改了模型，但是訓練後的結果都不是很好。

後來林奇想了想“環境噪音，在語音通話過程中，人們應該是不想要的，我幹嘛還要費那麼大的力氣給加上。這不正是幾千塊錢的所謂的主動降噪耳機，或者是骨傳導耳機追求的降噪的功能嗎？”

想至此，林奇想抽自己兩巴掌，白白浪費了那麼多時間。

至於一些風聲什麼的，林奇也有了一個很好的解決方法，就是在算法裏面判斷這個聲音，如果是沒有規律的，但是和環境噪音又有些區別的，那麼就保留原有的語音通話，只有這種有語言的才智能的運用自己這套系統。

這個系統的價值在於能讓語言的傳輸大大減小體積，同時還能高度還原原聲，甚至帶有主動降噪功能。

而這個系統的難點在於：模型的訓練。

訓練的時候剛開始針對的是普通話，到了後來，林奇徹底的放開了自己的思維，讓機器自己去生成一種能傳輸的自己認識的語言，這樣效果大大的提升了，不用針對每一種語言來訓練好一個模型，而是針對所有的聲音，訓練出了一套通用的模型。

在使用的時候，只需要把這個模型加載到用戶的手機，用戶只需要說幾句話，模型就會自動生成對應的音色，還有對應的語言的機器翻譯。

通過實際的使用，林奇測試發現，這完全秒殺了世面上所有的語音通話軟件。