close

Paper Information

Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio Embeddings

Authors: Da-Rong Liu, Kuan-Yu Chen, Hung-Yi Lee, Lin-shan Lee

Introduction

傳統上使用deep learning來做語音轉文字需要大量的label來做supervise learning, 但實際上是有更多的資料

是沒有label的, 因此此篇文章講述如何做unsupervised的語音辨識. 另外這篇文章的核心價值也可用於其他領域

例如"drawing style transformation" or "articles summary" 等

Contribution

將Generative Adversarial Network(GAN) 這種unsupervised learning 方法套用在傳統上需要supervise learning

才能完成的語音辨識上. 

Summarization

首先需要準備的資料為一堆"語音資料"和"文章", 這些語音和文字是不相干的.

先對語音作sequence to sequence auto encoder, 機器就能夠在embbeding layer學到一段語音的精華, 但這樣下來的

結果往往是我們無法解讀的資訊, 因此這時用GAN來限制說embbeding layer 所生成出的資料必須要能騙過discriminator

,也就是要很接近discriminator所看過的其他"文章"的音素.

因此, embbeding layer 就會產生既是精華又能夠解讀的資訊(音素).

未命名  

Result

未命名  

arrow
arrow
    全站熱搜

    李祐賢 發表在 痞客邦 留言(0) 人氣()