[論文閱讀]Visualizing Data using t-SNE－Liocean｜痞客邦

May 01 Tue 2018 11:06
[論文閱讀]Visualizing Data using t-SNE

close

Paper Information

Laurens van der Maaten, Geoffrey Hinton. Visualizing Data using t-SNE; The Journal of Machine Learning Research, 2008.

Introduction

在機器學習的領域中，我們常希望能從資料中抓取近可能少但重要的feature,因為不必要的feature會造成overfitting. PCA可以幫我們找到應該被保留的特徵，以此做到降維的目的。雖然PCA效果還不錯，但PCA是線性降維,另一個常用的降維方法是SNE，SNE的視覺化效果比PCA來得好，但有低維空間有crowding問題.

Contribution

作者針對SNE的做改進，以達到更好的降維效果:

使用對稱版的SNE，以此簡化梯度公式，改進不好優化的缺點
在低維空間下以"t分佈"取代"高斯分佈"

Summarization

作者提出的方法可以分為四個步驟

將高維的數據用高斯分佈的機率密度函數近似

高斯分佈的機率密度函數( x為隨機變量，𝝈 為變異數，𝜇 為平均 )：

螢幕快照 2018-04-25 下午5.53.03

故高維數據可表示為：

螢幕快照 2018-04-25 下午5.53.10

2. 將高維的數據用t分佈的機率密度函數近似

低維數據可表示為：

螢幕快照 2018-04-25 下午5.53.18

用t分佈是因為即使在樣本數少時仍可以很好地模擬分佈情形，不被noise所影響

3. 利用對稱版的KL散度算cost

在原本SNE中採用的KL散度是不對稱的，這樣會造成optimization的困難

所以作者採用對稱版的KL散度，如此將會更好優化：

螢幕快照 2018-04-25 下午5.53.47

4. 用梯度下降法求最佳值

梯度可表示為：

螢幕快照 2018-04-25 下午5.53.53

Result

螢幕快照 2018-04-25 下午6.05.46

螢幕快照 2018-04-25 下午6.05.57

李祐賢

Liocean

李祐賢發表在痞客邦留言(0) 人氣()

E-mail轉寄

全站分類：不設分類
上一篇： [論文閱讀]A Hybrid Neural Network-Latent Topic Model
下一篇： [論文閱讀]Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio Embeddings

留言列表

站方公告

活動快報

【船井...

newdirect

船井生醫推出專門針對高度用眼族、輕熟齡者的葉黃素... 看更多活動好康

我的好友

熱門文章

文章分類

未分類文章 (10)

最新文章

最新留言

動態訂閱

文章精選

所有文章列表

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

本日人氣：
累積人氣：

QR Code

qrcode

POWERED BY

(登入)