亚洲欧美日韩国产电影,69人妻精品久久无人专区

簡介

Sounds of India 是一款獨特而有趣的交互式音樂體驗應(yīng)用，以印度傳統(tǒng)為靈感，并由機(jī)器學(xué)習(xí)提供支持。當(dāng)用戶在演唱印度歌曲時，瀏覽器中的機(jī)器學(xué)習(xí)模型會實時將他們通過移動設(shè)備上輸入的聲音轉(zhuǎn)換為各種印度古典樂器的聲音。

Sounds of India
https://soundsofindia.withgoogle.com/

完成整個體驗的開發(fā)過程僅需 12 周，您可了解開發(fā)者在使用 TensorFlow 生態(tài)系統(tǒng)時，如何快速地將模型從研究階段推進(jìn)到規(guī)模化生產(chǎn)。

研究：Magenta 的微分數(shù)字信號處理

Magenta 是 Google AI 中的一個開源研究項目，旨在探索機(jī)器學(xué)習(xí)可以有哪些創(chuàng)新使用。微分?jǐn)?shù)字信號處理 (Digital Signal Processing，DDSP) 是一個全新的開源庫，融合了現(xiàn)代機(jī)器學(xué)習(xí)與可解釋信號處理技術(shù)。

Magenta
https://magenta.tensorflow.org/

DDSP
https://magenta.tensorflow.org/ddsp

不同于訓(xùn)練純深度學(xué)習(xí)模型（如 WaveNet）去逐個渲染樣本的波形，我們改為訓(xùn)練輕量級模型，這些模型能夠向這些可微的 DSP 模塊中輸出隨時間變化的控制信號（因此，DDSP 中有一個額外的“D”），從而合成最終聲音。我們在 TensorFlow Keras 層的遞歸和卷積模型中整合了 DDSP，其有效生成音頻的速度為更大型自回歸模型的 1000 倍，而對模型參數(shù)和訓(xùn)練數(shù)據(jù)的需求僅為后者的百分之一。

WaveNet
https://deepmind.com/blog/article/wavenet-generative-model-raw-audio

DDSP 中一個有趣的應(yīng)用是音色轉(zhuǎn)換，即將用戶輸入的聲音轉(zhuǎn)換為樂器聲。先用目標(biāo)薩克斯對 DDSP 模型開展 15 分鐘的訓(xùn)練。然后，你可以演唱一段旋律，經(jīng)過訓(xùn)練的 DDSP 模型會將其重新渲染成薩克斯的聲音。我們已在 Sounds of India 中將這項技術(shù)應(yīng)用于三種印度古典樂器：Bansuri、Shehnai 和 Sarangi。

音色轉(zhuǎn)換
https://colab.sandbox.google.com/github/magenta/ddsp/blob/master/ddsp/colab/demos/timbre_transfer.ipynb#scrollTo=Go36QW9AS_CD

使用 TFX，TFJS 訓(xùn)練并部署到瀏覽器中

TFX

TensorFlow Extended (TFX)是用于生產(chǎn)機(jī)器學(xué)習(xí) (ML) 的端到端平臺，包括準(zhǔn)備數(shù)據(jù)、訓(xùn)練、驗證和在生產(chǎn)環(huán)境中部署模型。使用 TFX 訓(xùn)練模型（將用戶的聲音轉(zhuǎn)換為上述某種樂器聲），然后將這些模型轉(zhuǎn)換為 TensorFlow.js 格式，以部署在標(biāo)準(zhǔn)網(wǎng)絡(luò)瀏覽器中。

TensorFlow Extended (TFX)
https://tensorflow.google.cn/tfx/

TensorFlow.js
https://tensorflow.google.cn/js

通過部署到瀏覽器中，為用戶帶來與機(jī)器學(xué)習(xí)模型交互的無縫體驗：僅需點擊超鏈接，加載網(wǎng)站頁面。而無需安裝工作。在瀏覽器中運行客戶端，我們能夠直接在傳感器數(shù)據(jù)源處執(zhí)行推理，從而最大程度地減少延遲，降低與大型顯卡、CPU 和內(nèi)存相關(guān)的服務(wù)器成本。此外，應(yīng)用會將您的聲音用作輸入，因此用戶隱私十分重要。由于整個端到端的體驗都發(fā)生在客戶端和瀏覽器當(dāng)中，因此傳感器或麥克風(fēng)收集到的數(shù)據(jù)保留在用戶的設(shè)備上。

基于瀏覽器的機(jī)器學(xué)習(xí)模型需要進(jìn)行優(yōu)化以盡可能縮減其大小，從而降低所用帶寬。在這種情況下，每種樂器的理想超參數(shù)也大有不同。我們利用 TFX 對數(shù)百個模型進(jìn)行大規(guī)模訓(xùn)練和調(diào)試，確定每個樂器可用的最小模型尺寸。因此，我們能夠大幅降低其內(nèi)存占用。例如，在未對音質(zhì)產(chǎn)生明顯影響的情況下，Bansuri 樂器模型的磁盤占用量約降低至以前的二十分之一。

我們還可借助 TFX 在不同的模型架構(gòu)（GRU、CNN）、不同類型的輸入（響度、RMS 能量）和不同的樂器數(shù)據(jù)源上執(zhí)行快速迭代。我們每次都能夠快速有效地運行 TFX 流水線，生成具有所需特性的新模型。

TensorFlow.js

構(gòu)建 TensorFlow.js DDSP 模型需要達(dá)到嚴(yán)格的性能和模型質(zhì)量目標(biāo)，所以具有獨特的挑戰(zhàn)性。模型需要高效執(zhí)行音色轉(zhuǎn)換，以便在移動設(shè)備上有效運行。同時，一旦模型質(zhì)量出現(xiàn)任何下降，便會導(dǎo)致音頻失真，進(jìn)而破壞用戶體驗。

我們首先探索了眾多的 TensorFlow.js 后端和模型架構(gòu)。WebGL 后端的優(yōu)化程度最高，而 WebAssembly 后端則可在低端手機(jī)上運行良好。我們采用了基于 Convnet 的 DDSP 模型，并利用 WebGL 后端，以滿足 DDSP 的計算需求。

WebGL 后端
https://github.com/tensorflow/tfjs/tree/master/tfjs-backend-webgl

WebAssembly 后端
https://github.com/tensorflow/tfjs/tree/master/tfjs-backend-wasm

為縮短模型下載時間。我們研究了模型的拓?fù)浣Y(jié)構(gòu)，并使用 Fill/ZeroLike 算子壓縮了大量常數(shù)張量，從而將模型大小從 10MB 縮減到 300KB。

為使 TensorFlow.js 模型準(zhǔn)備就緒，以便在生產(chǎn)環(huán)境中將其大規(guī)模部署在設(shè)備上，我們還重點關(guān)注了以下三個主要領(lǐng)域：推理性能、內(nèi)存占用和數(shù)值穩(wěn)定性。

推理性能優(yōu)化

DDSP 模型中包括神經(jīng)網(wǎng)絡(luò)和信號合成器。合成器部分包含許多需要大量算力的信號處理算子。為提升模型在移動設(shè)備上的性能，我們使用特殊的 WebGL Shader 重新編寫了內(nèi)核，以便充分利用 GPU。例如，通過并行累積求和算子，推理時間可縮短 90%。

降低內(nèi)存占用

我們的目標(biāo)是盡可能在更多種類型的移動設(shè)備上運行模型。由于許多手機(jī)的 GPU 顯存有限，我們需要確保盡可能降低模型的內(nèi)存占用。通過處理中間張量并添加新標(biāo)記，我們能夠提早處理 GPU 紋理，從而實現(xiàn)這一目標(biāo)。通過這些方法，我們可以將顯存占用減少 60%。

數(shù)值穩(wěn)定性

DDSP 模型需要達(dá)到非常高的數(shù)值精度，才能生成動聽的音樂。這一點與常見的分類模型截然不同：在分類模型中，一定范圍內(nèi)的精度降低并不會影響最終的分類結(jié)果。我們在此體驗中使用的 DDSP 模型為生成模型。任何精度較低和不連續(xù)的音頻輸出都可輕易被我們敏感的耳朵發(fā)覺。使用 float16 WebGL 紋理時，我們遇到了數(shù)值穩(wěn)定性問題。因此，我們重新編寫了一些主要算子，以減少輸出結(jié)果的上溢和下溢。例如，在累積求和算子中，我們會確保在 Shader 內(nèi)以全浮點精度完成累積，并在將輸出結(jié)果寫入 float16 紋理前，運用模數(shù)計算來避免結(jié)果溢出。

動手嘗試！

您可使用手機(jī)訪問 g.co/SoundsofIndia，嘗試此體驗。如您愿意，請與我們分享您的結(jié)果。我們十分期待看到您用自己的聲音所創(chuàng)作的音樂。

如果您有興趣了解機(jī)器學(xué)習(xí)如何增強創(chuàng)造力與創(chuàng)新性，可瀏覽 Magenta 團(tuán)隊的博客，詳細(xì)了解該項目，并為他們的開源 GitHub 貢獻(xiàn)力量，也可查看 #MadeWithTFJS，從 TensorFlow.js 社區(qū)獲得更多瀏覽器端機(jī)器學(xué)習(xí)示例。如果您對使用 ML 最佳做法在生產(chǎn)環(huán)境中大規(guī)模訓(xùn)練并部署模型比較感興趣，請查看 Tensorflow Extended。

博客
https://magenta.tensorflow.org/blog

GitHub
https://github.com/magenta/magenta

#MadeWithTFJS
https://twitter.com/search?q=%23madewithtfjs&src=typed_query

致謝

本項目的實現(xiàn)離不開 Miguel de Andrés-Clavera、Yiling Liu、Aditya Mirchandani、KC Chung、Alap Bharadwaj、Kiattiyot (Boon) Panichprecha、Pittayathorn (Kim) Nomrak、Phatchara (Lek) Pongsakorntorn、Nattadet Chinthanathatset、Hieu Dang、Ann Yuan、Sandeep Gupta、Chong Li、Edwin Toh、Jesse Engel 的巨大努力，以及 Michelle Carney、Nida Zada、Doug Eck、Hannes Widsomer 和 Greg Mikels 提供的其他幫助。非常感謝 Tris Warkentin 和 Mitch Trott 的大力支持。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)字信號處理

數(shù)字信號處理

+關(guān)注

關(guān)注
15

文章
539

瀏覽量
45693
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8306

瀏覽量
131848
tensorflow

tensorflow

+關(guān)注

關(guān)注
13

文章
327

瀏覽量
60413