面向應用的長名詞短語研究
漢語自動句法分析的難點問題
自動句法分析是中文信息處理領域諸多應用技術(shù)的基礎,如機器翻譯、人機對話系統(tǒng)等。但句法分析技術(shù)在處理大規(guī)模真實語料時遇到了較大的困難。按照PARSE-VAL評測體系,目前英語
句法分析的F值可達90%以上,漢語則徘徊在80%左右(李帥克等,22)。這一體系基于短行評價,若按照句子的完整結(jié)構(gòu)和關行評價,則又要低很多。可以說,在今天詞法分析已經(jīng)能夠基本達到應用要求的情況下,句法分析技術(shù)已經(jīng)成為制約中文信息處理技術(shù)發(fā)展的瓶頸。
世紀90年代中后期,國內(nèi)英語淺層句法分析的思想,展開了組塊識別與分析研究。由于底層句法歧義在很大程度上影響了句法分析的效果,淺層句法分析主張從識別句子中某些簡單的組塊開始,在充分化解底層歧義的基礎上,逐步完成句法分析的任務。它把一個句子的完整分析過程劃分為三個部分,即組塊識別、組塊間依存關系的識別以及組塊內(nèi)部的結(jié)構(gòu)分析,并著力于組塊的識別和內(nèi)部結(jié)構(gòu)分析。淺層句法分析的思想是句法分析技術(shù)步,適合用于分析缺乏形態(tài)變化、底層歧義較多的漢語句子,成為漢語句法分析技術(shù)的重要發(fā)展趨勢。
國際上,淺層句法分析任務經(jīng)歷了單一短語的識別、覆蓋較廣的組塊識別、結(jié)構(gòu)復雜的小句識別等發(fā)展階段,而國內(nèi)研究多集中在基本塊,是簡單名詞短語的識別分析取得了較多的成果;較為復雜的語塊能塊、復雜名詞短語識別也受到了一定的關注,但分析效果還一步提升的空間。
在淺層句法分析的研究過程中,名詞短語引起了研究者的關注。一方面,名詞短語編碼了實體和概念,這些實體和概念是理解文本的基礎;另一方面,名詞短語承擔著句子中的論元角色,也是語義關系分析的基礎。
自然語言處理研究者對名詞短行了新的分類,提出兩種具有較高處理價值的名詞短語,一種是基本名詞短語,一種是長名詞短語。相比較而言,長名詞短語的內(nèi)部結(jié)構(gòu)復雜多樣,既有較為簡單的名詞短語,含類似英語定語從句的范疇,識別和分析的難度更大。
顯然,結(jié)構(gòu)復雜的長名詞短語識別需要語言學知識的支持。然而,在本體語言學研究中,語法研究的是動詞,名詞重在語義研究。因此,漢語動詞短語的句法研究取得了豐碩的成果,名詞短語的相關研究卻相對較少,主要集中在靜態(tài)結(jié)構(gòu)的描寫以及定語語序等理論研究方面,而動態(tài)結(jié)構(gòu)構(gòu)造規(guī)律和分布狀況還沒有得到充分描寫。譬如,“的”是漢語中出現(xiàn)頻率高的詞,也是語法研究的熱點問題。幾乎所有的詞類和句法結(jié)構(gòu)都能入含“的”名詞短語,這些結(jié)構(gòu)是如何嵌套的,主體模式是什么,分布比例如何,本體語言學很少從這一角度展開描寫,但是其是名詞短語識別的重要參考數(shù)據(jù)。