Paper Information
Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio Embeddings
Authors: Da-Rong Liu, Kuan-Yu Chen, Hung-Yi Lee, Lin-shan Lee
Introduction
傳統上使用deep learning來做語音轉文字需要大量的label來做supervise learning, 但實際上是有更多的資料
是沒有label的, 因此此篇文章講述如何做unsupervised的語音辨識. 另外這篇文章的核心價值也可用於其他領域
例如"drawing style transformation" or "articles summary" 等
Contribution
將Generative Adversarial Network(GAN) 這種unsupervised learning 方法套用在傳統上需要supervise learning
才能完成的語音辨識上.
Summarization
首先需要準備的資料為一堆"語音資料"和"文章", 這些語音和文字是不相干的.
先對語音作sequence to sequence auto encoder, 機器就能夠在embbeding layer學到一段語音的精華, 但這樣下來的
結果往往是我們無法解讀的資訊, 因此這時用GAN來限制說embbeding layer 所生成出的資料必須要能騙過discriminator
,也就是要很接近discriminator所看過的其他"文章"的音素.
因此, embbeding layer 就會產生既是精華又能夠解讀的資訊(音素).
Result