[論文閱讀]Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio Embeddings－Liocean

Paper Information

Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio Embeddings

Authors: Da-Rong Liu, Kuan-Yu Chen, Hung-Yi Lee, Lin-shan Lee

傳統上使用deep learning來做語音轉文字需要大量的label來做supervise learning, 但實際上是有更多的資料

是沒有label的, 因此此篇文章講述如何做unsupervised的語音辨識. 另外這篇文章的核心價值也可用於其他領域

例如"drawing style transformation" or "articles summary" 等

將Generative Adversarial Network(GAN) 這種unsupervised learning 方法套用在傳統上需要supervise learning

才能完成的語音辨識上.

首先需要準備的資料為一堆"語音資料"和"文章", 這些語音和文字是不相干的.

先對語音作sequence to sequence auto encoder, 機器就能夠在embbeding layer學到一段語音的精華, 但這樣下來的

結果往往是我們無法解讀的資訊, 因此這時用GAN來限制說embbeding layer 所生成出的資料必須要能騙過discriminator

,也就是要很接近discriminator所看過的其他"文章"的音素.

因此, embbeding layer 就會產生既是精華又能夠解讀的資訊(音素).

未命名

未命名

李祐賢

Liocean

李祐賢發表在痞客邦留言(0) 人氣()

E-mail轉寄