Paper Information
Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio Embeddings
Authors: Da-Rong Liu, Kuan-Yu Chen, Hung-Yi Lee, Lin-shan Lee
Introduction
傳統上使用deep learning來做語音轉文字需要大量的label來做supervise learning, 但實際上是有更多的資料
是沒有label的, 因此此篇文章講述如何做unsupervised的語音辨識. 另外這篇文章的核心價值也可用於其他領域
例如"drawing style transformation" or "articles summary" 等
Contribution
將Generative Adversarial Network(GAN) 這種unsupervised learning 方法套用在傳統上需要supervise learning
才能完成的語音辨識上.
Summarization
首先需要準備的資料為一堆"語音資料"和"文章", 這些語音和文字是不相干的.
先對語音作sequence to sequence auto encoder, 機器就能夠在embbeding layer學到一段語音的精華, 但這樣下來的
結果往往是我們無法解讀的資訊, 因此這時用GAN來限制說embbeding layer 所生成出的資料必須要能騙過discriminator
,也就是要很接近discriminator所看過的其他"文章"的音素.
因此, embbeding layer 就會產生既是精華又能夠解讀的資訊(音素).
Result
留言列表