Paper Information
Veit at al. Learning From Noisy Large-Scale Datasets With Minimal Supervision. CVPR 2017.
Introduction
有些時候,data容易取得,帶卻沒有相對應的label.在人類的學習過程中,絕大多數都是unsupervised的,因此unsupervised learning在物理上是可行的.至於該如何具體實現是一難題.
Contribution
此篇paper探討如何利用大量的noisy label 和少量的 clean label來做semi-supervised,傳統的做法是先pre-trained在noisy label上, 再fine-tune在clean label上,而作者提出了更好的方法.
Summarization
此網路架構可分為三個主要的components:
1. CNN: 用來提取input image的特徵。
2. Label Cleaning Network: 將noisy label mapping到clean label
3. Image Classifier: 用來做image multi-label classify
首先,有一小部份的data它們同時有clean label 和 noisy label . 其他大部分的data只有noisy data.
一開始先丟第一部份的training data進去,因為它有clean data, 因此它可同時train三個model. 當地一部分的data都餵完時,Label Cleaning Network已經train完了.此時我們可以利用已經train完的Label Cleaning Network 來得到剩餘data的clean label,然後在進一步將這些結果餵給其它兩個model訓練. 最後得到的CNN和Image Classifier就是我們要的最後產物.