nlu和nlp的區別，【NLP】用膩了 CRF，試試 LAN 吧？

2023-12-09 阅读 27 评论 0

摘要：點擊上方，選擇星標或置頂，每天給你送干貨！閱讀大概需要6分鐘跟隨小博主，每天進步一丟丟作者：Tobias Lee來自：AINLP公眾號nlu和nlp的區別。知乎專欄：NLPer 的成長之路原文鏈接，可點擊文末"閱讀原文"直達

點擊上方，選擇星標或置頂，每天給你送干貨！

閱讀大概需要6分鐘
跟隨小博主，每天進步一丟丟

作者：Tobias Lee

來自：AINLP公眾號

nlu和nlp的區別。知乎專欄：NLPer 的成長之路

原文鏈接，可點擊文末"閱讀原文"直達：

https://zhuanlan.zhihu.com/p/91031332

西湖大學在 EMNLP 2019 上提出了一種序列標注模型，在比 BiLSTM-CRF 訓練解碼速度更快的情況下，取得了更高的精度。

論文鏈接:?arxiv.org/abs/1908.08676
源碼鏈接:?Nealcly/BiLSTM-LAN（https://github.com/Nealcly/BiLSTM-LAN）

1. 序言

統計自然語言處理中，條件隨機場（Conditional Random Field）在詞性標注，命名實體識別，中文分詞等序列標注任務上都取得了驚人的效果。然而在深度學習時代，很多情況下 BiLSTM-CRF 并沒有比不對輸出序列進行建模的 BiLSTM-softmax 取得更好的效果。一個可能的原因是神經網絡編碼器已經有很強的序列信息編碼能力，在此基礎上 CRF 并沒有引入更多的有效信息。
為了更好的對輸出序列進行編碼，論文中提出了一種逐層改進的基于標簽注意力機制的網絡(Hierarchically-Refined?Label?Attention?Network)。該模型通過利用標簽知識，更好的捕捉標簽間長期的依賴關系。在英文詞性標注，命名實體識別和組合范疇語法超標注的任務上，BiLSTM-LAN 在比 BiLSTM-CRF 訓練解碼速度更快的情況下，取得了更好的效果。
如下圖所示，以詞性標注為例，對輸入句子 "They can fish and also tomatoes here"，第一層中，模型通過局部信息對每個單詞詞性進行判斷，傾向于判斷 "can" 為情態動詞(MD)，"fish" 為動詞(VB)。在經過多層LAN信息交互以后，長期標簽依賴關系被考慮以后，"tomatoes"為名詞的信息幫助模型對 "can" 和 "fish" 的詞性進行重新判斷，認定 "can" 和 "fish" 應為動詞(VB)和名詞(NN)。

示意圖

2. 模型
下圖模型中包含了兩層 BiLSTM-LAN。每一個 BiLSTM-LAN 由對序列信息進行編碼的 BiLSTM Encoding Layer 和對標簽信息進行推理的 Label Attention Inference Layer 組成。

LAN-Model

BiLSTM Encoding Layer 為標準的 BiLSTM，定義其輸出為??。Label Attention Inference Layer 首先通過計算詞表示
?與所有候選標簽??的 attention 生成??，其中??為序列長度，為??候選標簽個數, ??為 BiLSTM 隱層緯度。??表示每個詞對每個標簽的概率分布。最終我們將蘊含標簽信息的??與蘊含詞信息的??拼接并輸入到下一個 BiLSTM-LAN 層。在之后的 BiLSTM-LAN 中輸入文本的序列表示和輸出標簽的序列表示分布同時被 BiLSTM 編碼，底層的 BiLSTM-LAN 學習到局部的信息，頂層 BiLSTM-LAN 學習到更加全局的信息。在最后一層，BiLSTM-LAN 直接根據預測每個詞的標簽。
BiLSTM-LAN可以被看成一種 BiLSTM-softmax 的變種。一層BiLSTM-LAN與一層BiLSTM-softmax 完全相同。然而多層 BiLSTM-softmax 僅僅疊加BiLSTM以期更好的編碼輸入序列信息。BiLSTM-LAN可以理解為即疊加了BiLSTM也疊加了softmax，用來更好的學習輸入和輸出序列的表示。

3. 實驗
本文在詞性標注(WSJ, UD v2.2)，命名實體識別(OntoNotes 5.0)和組合范疇語法超標注(CCGBank)上進行了實驗。

其中，*表示利用多任務與半監督學習取得的結果

4. 分析
4.1 標簽可視化
論文使用t-SNE對詞性標注的標簽向量進行了可視化分析。

訓練開始前，所有標簽隨機分散到空間內。模型訓練5輪后，可以看到"NNP"和"NNPS"，"VBD"和"VBN"等相似詞性聚集到一起。在訓練38輪后，幾乎所有相似的詞性被聚集到了一起，例如"VB","VBD","VBN","VBG"和"VBP"。

4.2 超標簽復雜度
為了驗證BiLSTM-LAN捕捉長距離標簽依賴關系的能力，論文中對不同復雜度的超標簽標注準確率進行了分析。

越復雜的超標簽需要更長期的標簽依賴關系進行判斷。隨著復雜度的增加，BiLSTM-CRF 并沒有比 BiLSTM-softmax 表現的好，然而 BiLSTM-LAN 表現顯著高于其他模型。

4.3 案例分析
下圖是不同模型的預測結果，錯誤部分使用黃色標注。

由于進行局部預測，BiLSTM-softmax 并不能捕捉到 "settled" 和 "at" 的關系。BiLSTM-CRF在出現"/PP"后，由于馬爾科夫假設，預測 "with" 為 "PP/NP"。可以看出，BiLSTM-LAN 基于全局信息更好地進行了預測。

5. 總結

理論和序列標注實驗結果證明，BiLSTM-LAN 通過對所有候選標簽進行編碼的方式，很好的捕捉了標簽間長期依賴關系，并在一定程度上解決了標注偏執問題。在比BiLSTM-CRF訓練解碼速度更快的情況下，在詞性標注，命名實體識別和組合范疇語法超標注任務上可以達到更高的精度。

方便交流學習，備注：昵稱-學校（公司）-方向，進入DL&NLP交流群。
方向有很多：機器學習、深度學習，python，情感分析、意見挖掘、句法分析、機器翻譯、人機對話、知識圖譜、語音識別等。記得備注呦推薦閱讀：【ACL 2019】騰訊AI Lab解讀三大前沿方向及20篇入選論文【一分鐘論文】IJCAI2019 | Self-attentive Biaf?ne Dependency? Parsing
【一分鐘論文】 NAACL2019-使用感知句法詞表示的句法增強神經機器翻譯
【一分鐘論文】Semi-supervised Sequence Learning半監督序列學習
【一分鐘論文】Deep Biaffine Attention for Neural Dependency Parsing
詳解Transition-based Dependency parser基于轉移的依存句法解析器經驗 | 初入NLP領域的一些小建議
學術 | 如何寫一篇合格的NLP論文
干貨?|?那些高產的學者都是怎樣工作的？
一個簡單有效的聯合模型
近年來NLP在法律領域的相關研究工作讓更多的人知道你“在看”

原文链接：https://hbdhgg.com/5/193432.html

上一篇：哈工大論文上會需要修改，【論文】哈工大SCIR Lab | EMNLP 2019 基于BERT的跨語言上下文相關詞向量在零樣本依存分析中的應用...

下一篇：linux必學的60個命令，【linux】最常用 150 個Linux命令匯總