Supervised Topic Modeling Using Word Embedding with Machine Learning Techniques

Supervised Topic Modeling Using Word Embedding with Machine Learning Techniques

tags: NLP,Topic Modeling

ieee論文網址

Abstract

基於 HMM model做出的 supervised embedding達成分類問題
貢獻:單詞含義和順序對於topic model的重要性。
使用LSTM和CNN達到SOTA

Introduction

非結構化的文本資料到處都有。儘管文本中包含了豐富的訊息,為了利用這些資料,必須先根據內容組織,理解和總結。需要通過新的統計模型分析這些數據,且速度必須要快。

Topic modeling使用 supervised 或是 unsupervised 的統計機器學習技術來處理大型語料庫。

  • 與unsupervised的方法相比較,supervised可以節省研究者大量時間。
  • 而unsupervised的方法在於可以處理大多dataset,但代價是其準確性和更長的訓練時間

LSA和LDA分析文件中的單詞,已發現貫穿他們的主題以及這些主體如何與另一個主題聯繫,但是由於缺少對於特定task的優化,缺少task-specific feature。而後來有word embedding可以用來fine tuning on task。
此外,這個model可以使用單詞結構,含義和順序,因為由HMM和RNN組成,可以分辨出數據序列。當雨word embedding一起使用時,可以帶別單詞的含義。
本文提出了一種新的主題建模方法,該方法考慮了語義(單詞的含義)並具有句子中單詞順序的感覺。
Model在訓練時,使用”分佈式表示(就是embedding i.e.Word2vec and Glove)”來訓練模型,這些表示允許具有相似含義或語法特性的單詞具有相似向量。

Generative Models(機率)

  • 用來抓取全局的語意一致性的model,例如LDA使用Dirichlet distribution,假設每一個文件都是主題的機率分佈,每一個主題都是文件中單詞的機率分佈,使用conjugate prior 可以從小型到大型數據之間衍生。
  • 主題關聯模型(CTM),解決LDA無法對建構的主題考量其關聯性的問題。使用normalize log normal prior,可以抓取成對的主題相關性,使用stochastic variational inference。其增強版本:Efficient CTM,可以透過比較topic vector的相近成度,判斷相關性。
  • Gaussian-LDA假設文件的輸入是一系列的word embedding而不是系列的單詞類型。
  • 最近較新的方法(DocNADE,an extension of NADE),從未標記的文件中學習有意義的文件表示,並以bows表示文件。

Using Word Embedding

  • TWE通過使用lantent topic model,給文件中的每一個單詞分配主題,TWE通過使用NN來同時學習topic 和word。
  • BoE(Bag-of-Embeddings),通過給定文件的指定主題最大化其單詞的embedding probability來預測其主題。
  • ToWE(Task-oriented Word Embedding),學習與給定的task相關的word distribution representation。著重於結合單詞的語意和特定任務的特徵。透過regularize突出詞的分佈,使其具有明確的分類邊界獲取task specific feature,丙且調整空間中的其他詞的分佈。
  • GMNTM:使用文件中單詞的語意和順序,且作為另一個方向:使用Neural probabilistic methods,例如RNNLM。

Machine Learning

  • NMF,關注主題一致性(有意義的主題),數入室Bow並產生兩個較小的矩陣,文件到主題矩陣和單詞到主題矩陣,相乘後生成Bow矩陣
  • NNDSVD,為NMF得增強版,使用SVD以其向量初始化NMF,對於sparse data特別有效(i.e. text)
  • Ensemble learning strategy:基於NFM,結合一堆ML方法:SVM,KNN,CNN
  • LRP,用以識別文件中的相關單詞。
  • ctx-DocNADE:DocNADE和LSTM,學習補充語意的功能。
  • LTMF:unsupervised透過使用LSTM和LDA

WORD EMBEDDING AND MACHINE LEARNING MODEL ARCHITECTURE

Word Embedding Models

  • Word2Vec:CBOW or Skip-Gram
  • Glove:Count-based,計算單詞在上下文中出現的頻率來建造co-matrix,大型矩陣要通過分解來降維。

Machine Learning

  • HMM:一種圖形模型,預測順序的hidden state。不會觀察到狀態,但是可以透過使用前-後遞algorithm來推斷state
  • CNN
  • RNN:GRU用在小型dataset,LSTM用在大的

Proposed Method

Word Embedding and HMM

使用word embedding替代word。然後為每一個topic建構一個HMM。在dataset中有20個topic所以有20個HMM model,看哪一種state和Gaussian Mixture會給出較好的結果,在每一個state$state_1,…,state_{10}$,每一個GM都會進行測試$GM_1,…,GM_{10}$

Word Embedding and CNN

圖太大去看原論文

Word Embedding and RNN-CNN

圖太大去看原論文

Experimental

dataset:20NewsGroup dataset(分類)
18846 document分為20個topic
60% for training 40% for testing。
使用word2vec(google)並且在google news dataset pretrain,每一個都是300維。

Discussion

值得注意的是,與基於LSTM-CNN的模型經過訓練以找出最有區別的特徵並同時捕獲上下文相比,使用非歧視性算法訓練的基於HMM的模型提供的結果較差。

Conclusion and Furure work

提出supervised topic modeling,抓取單詞相關的global semantic meaning。獲取單詞序列和局部結構,
就Topic modeling而言,純粹的CNN會比RNN好,將兩個合在一起會更好。
Future work:跟訓練在特定領域的word embedding和通用的word embedding比較。
比較右到左dataset的各類model的性能,嘗試與unsupervised 獲得可比較的結果。


為啥你能上IEEE

Powered by Hexo and Hexo-theme-hiker

Copyright © 2020 - 2021 DSMI Lab's website All Rights Reserved.

UV : | PV :