Supervised Topic Modeling Using Word Embedding with Machine Learning Techniques
tags: NLP
,Topic Modeling
Abstract
基於 HMM model做出的 supervised embedding達成分類問題
貢獻:單詞含義和順序對於topic model的重要性。
使用LSTM和CNN達到SOTA
Introduction
非結構化的文本資料到處都有。儘管文本中包含了豐富的訊息,為了利用這些資料,必須先根據內容組織,理解和總結。需要通過新的統計模型分析這些數據,且速度必須要快。
Topic modeling使用 supervised 或是 unsupervised 的統計機器學習技術來處理大型語料庫。
- 與unsupervised的方法相比較,supervised可以節省研究者大量時間。
- 而unsupervised的方法在於可以處理大多dataset,但代價是其準確性和更長的訓練時間
LSA和LDA分析文件中的單詞,已發現貫穿他們的主題以及這些主體如何與另一個主題聯繫,但是由於缺少對於特定task的優化,缺少task-specific feature。而後來有word embedding可以用來fine tuning on task。
此外,這個model可以使用單詞結構,含義和順序,因為由HMM和RNN組成,可以分辨出數據序列。當雨word embedding一起使用時,可以帶別單詞的含義。
本文提出了一種新的主題建模方法,該方法考慮了語義(單詞的含義)並具有句子中單詞順序的感覺。
Model在訓練時,使用”分佈式表示(就是embedding i.e.Word2vec and Glove)”來訓練模型,這些表示允許具有相似含義或語法特性的單詞具有相似向量。
Related Work
Generative Models(機率)
- 用來抓取全局的語意一致性的model,例如LDA使用Dirichlet distribution,假設每一個文件都是主題的機率分佈,每一個主題都是文件中單詞的機率分佈,使用conjugate prior 可以從小型到大型數據之間衍生。
- 主題關聯模型(CTM),解決LDA無法對建構的主題考量其關聯性的問題。使用normalize log normal prior,可以抓取成對的主題相關性,使用stochastic variational inference。其增強版本:Efficient CTM,可以透過比較topic vector的相近成度,判斷相關性。
- Gaussian-LDA假設文件的輸入是一系列的word embedding而不是系列的單詞類型。
- 最近較新的方法(DocNADE,an extension of NADE),從未標記的文件中學習有意義的文件表示,並以bows表示文件。
Using Word Embedding
- TWE通過使用lantent topic model,給文件中的每一個單詞分配主題,TWE通過使用NN來同時學習topic 和word。
- BoE(Bag-of-Embeddings),通過給定文件的指定主題最大化其單詞的embedding probability來預測其主題。
- ToWE(Task-oriented Word Embedding),學習與給定的task相關的word distribution representation。著重於結合單詞的語意和特定任務的特徵。透過regularize突出詞的分佈,使其具有明確的分類邊界獲取task specific feature,丙且調整空間中的其他詞的分佈。
- GMNTM:使用文件中單詞的語意和順序,且作為另一個方向:使用Neural probabilistic methods,例如RNNLM。
Machine Learning
- NMF,關注主題一致性(有意義的主題),數入室Bow並產生兩個較小的矩陣,文件到主題矩陣和單詞到主題矩陣,相乘後生成Bow矩陣
- NNDSVD,為NMF得增強版,使用SVD以其向量初始化NMF,對於sparse data特別有效(i.e. text)
- Ensemble learning strategy:基於NFM,結合一堆ML方法:SVM,KNN,CNN
- LRP,用以識別文件中的相關單詞。
- ctx-DocNADE:DocNADE和LSTM,學習補充語意的功能。
- LTMF:unsupervised透過使用LSTM和LDA
WORD EMBEDDING AND MACHINE LEARNING MODEL ARCHITECTURE
Word Embedding Models
- Word2Vec:CBOW or Skip-Gram
- Glove:Count-based,計算單詞在上下文中出現的頻率來建造co-matrix,大型矩陣要通過分解來降維。
Machine Learning
- HMM:一種圖形模型,預測順序的hidden state。不會觀察到狀態,但是可以透過使用前-後遞algorithm來推斷state
- CNN
- RNN:GRU用在小型dataset,LSTM用在大的
Proposed Method
Word Embedding and HMM
使用word embedding替代word。然後為每一個topic建構一個HMM。在dataset中有20個topic所以有20個HMM model,看哪一種state和Gaussian Mixture會給出較好的結果,在每一個state$state_1,…,state_{10}$,每一個GM都會進行測試$GM_1,…,GM_{10}$
Word Embedding and CNN
圖太大去看原論文
Word Embedding and RNN-CNN
圖太大去看原論文
Experimental
dataset:20NewsGroup dataset(分類)
18846 document分為20個topic
60% for training 40% for testing。
使用word2vec(google)並且在google news dataset pretrain,每一個都是300維。
Discussion
值得注意的是,與基於LSTM-CNN的模型經過訓練以找出最有區別的特徵並同時捕獲上下文相比,使用非歧視性算法訓練的基於HMM的模型提供的結果較差。
Conclusion and Furure work
提出supervised topic modeling,抓取單詞相關的global semantic meaning。獲取單詞序列和局部結構,
就Topic modeling而言,純粹的CNN會比RNN好,將兩個合在一起會更好。
Future work:跟訓練在特定領域的word embedding和通用的word embedding比較。
比較右到左dataset的各類model的性能,嘗試與unsupervised 獲得可比較的結果。