nlu和nlp的區別,【NLP】用膩了 CRF,試試 LAN 吧?

 2023-12-09 阅读 27 评论 0

摘要:點擊上方,選擇星標或置頂,每天給你送干貨!閱讀大概需要6分鐘跟隨小博主,每天進步一丟丟作者:Tobias Lee來自:AINLP公眾號nlu和nlp的區別。知乎專欄:NLPer 的成長之路原文鏈接,可點擊文末"閱讀原文"直達

點擊上方,選擇星標置頂,每天給你送干貨

閱讀大概需要6分鐘

跟隨小博主,每天進步一丟丟

作者:Tobias Lee

來自:AINLP公眾號

nlu和nlp的區別。知乎專欄:NLPer 的成長之路

原文鏈接,可點擊文末"閱讀原文"直達:

https://zhuanlan.zhihu.com/p/91031332


西湖大學在 EMNLP 2019 上提出了一種序列標注模型,在比 BiLSTM-CRF 訓練解碼速度更快的情況下,取得了更高的精度。

論文鏈接:?arxiv.org/abs/1908.08676
源碼鏈接:?Nealcly/BiLSTM-LAN(https://github.com/Nealcly/BiLSTM-LAN)

1. 序言

統計自然語言處理中,條件隨機場(Conditional Random Field)在詞性標注,命名實體識別,中文分詞等序列標注任務上都取得了驚人的效果。然而在深度學習時代,很多情況下 BiLSTM-CRF 并沒有比不對輸出序列進行建模的 BiLSTM-softmax 取得更好的效果。一個可能的原因是神經網絡編碼器已經有很強的序列信息編碼能力,在此基礎上 CRF 并沒有引入更多的有效信息。
為了更好的對輸出序列進行編碼,論文中提出了一種逐層改進的基于標簽注意力機制的網絡(Hierarchically-Refined?Label?Attention?Network)。該模型通過利用標簽知識,更好的捕捉標簽間長期的依賴關系。在英文詞性標注,命名實體識別和組合范疇語法超標注的任務上,BiLSTM-LAN 在比 BiLSTM-CRF 訓練解碼速度更快的情況下,取得了更好的效果。
如下圖所示,以詞性標注為例,對輸入句子 "They can fish and also tomatoes here", 第一層中,模型通過局部信息對每個單詞詞性進行判斷,傾向于判斷 "can" 為情態動詞(MD),"fish" 為動詞(VB)。在經過多層LAN信息交互以后,長期標簽依賴關系被考慮以后,"tomatoes"為名詞的信息幫助模型對 "can" 和 "fish" 的詞性進行重新判斷,認定 "can" 和 "fish" 應為動詞(VB)和名詞(NN)。

示意圖


2. 模型
下圖模型中包含了兩層 BiLSTM-LAN。每一個 BiLSTM-LAN 由對序列信息進行編碼的 BiLSTM Encoding Layer 和對標簽信息進行推理的 Label Attention Inference Layer 組成。

LAN-Model

BiLSTM Encoding Layer 為標準的 BiLSTM,定義其輸出為??。Label Attention Inference Layer 首先通過計算詞表示
?與所有候選標簽??的 attention 生成??,其中??為序列長度,為??候選標簽個數, ??為 BiLSTM 隱層緯度。??表示每個詞對每個標簽的概率分布。最終我們將蘊含標簽信息的??與蘊含詞信息的??拼接并輸入到下一個 BiLSTM-LAN 層。在之后的 BiLSTM-LAN 中輸入文本的序列表示和輸出標簽的序列表示分布同時被 BiLSTM 編碼,底層的 BiLSTM-LAN 學習到局部的信息,頂層 BiLSTM-LAN 學習到更加全局的信息。在最后一層,BiLSTM-LAN 直接根據預測每個詞的標簽。
BiLSTM-LAN可以被看成一種 BiLSTM-softmax 的變種。一層BiLSTM-LAN與一層BiLSTM-softmax 完全相同。然而多層 BiLSTM-softmax 僅僅疊加BiLSTM以期更好的編碼輸入序列信息。BiLSTM-LAN可以理解為即疊加了BiLSTM也疊加了softmax,用來更好的學習輸入和輸出序列的表示。

3. 實驗
本文在詞性標注(WSJ, UD v2.2),命名實體識別(OntoNotes 5.0)和組合范疇語法超標注(CCGBank)上進行了實驗。

其中,*表示利用多任務與半監督學習取得的結果

4. 分析
4.1 標簽可視化
論文使用t-SNE對詞性標注的標簽向量進行了可視化分析。

訓練開始前,所有標簽隨機分散到空間內。模型訓練5輪后,可以看到"NNP"和"NNPS","VBD"和"VBN"等相似詞性聚集到一起。在訓練38輪后,幾乎所有相似的詞性被聚集到了一起,例如"VB","VBD","VBN","VBG"和"VBP"。

4.2 超標簽復雜度
為了驗證BiLSTM-LAN捕捉長距離標簽依賴關系的能力,論文中對不同復雜度的超標簽標注準確率進行了分析。

越復雜的超標簽需要更長期的標簽依賴關系進行判斷。隨著復雜度的增加,BiLSTM-CRF 并沒有比 BiLSTM-softmax 表現的好,然而 BiLSTM-LAN 表現顯著高于其他模型。

4.3 案例分析
下圖是不同模型的預測結果,錯誤部分使用黃色標注。

由于進行局部預測,BiLSTM-softmax 并不能捕捉到 "settled" 和 "at" 的關系。BiLSTM-CRF在出現"/PP"后,由于馬爾科夫假設,預測 "with" 為 "PP/NP"。可以看出,BiLSTM-LAN 基于全局信息更好地進行了預測。

5. 總結

理論和序列標注實驗結果證明,BiLSTM-LAN 通過對所有候選標簽進行編碼的方式,很好的捕捉了標簽間長期依賴關系,并在一定程度上解決了標注偏執問題。在比BiLSTM-CRF訓練解碼速度更快的情況下,在詞性標注,命名實體識別和組合范疇語法超標注任務上可以達到更高的精度。

?

方便交流學習,備注:昵稱-學校(公司)-方向,進入DL&NLP交流群。
方向有很多:機器學習、深度學習,python,情感分析、意見挖掘、句法分析、機器翻譯、人機對話、知識圖譜、語音識別等。記得備注呦推薦閱讀:【ACL 2019】騰訊AI Lab解讀三大前沿方向及20篇入選論文【一分鐘論文】IJCAI2019 | Self-attentive Biaf?ne Dependency? Parsing
【一分鐘論文】 NAACL2019-使用感知句法詞表示的句法增強神經機器翻譯
【一分鐘論文】Semi-supervised Sequence Learning半監督序列學習
【一分鐘論文】Deep Biaffine Attention for Neural Dependency Parsing
詳解Transition-based Dependency parser基于轉移的依存句法解析器經驗 | 初入NLP領域的一些小建議
學術 | 如何寫一篇合格的NLP論文
干貨?|?那些高產的學者都是怎樣工作的?
一個簡單有效的聯合模型
近年來NLP在法律領域的相關研究工作讓更多的人知道你“在看”

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/5/193432.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息