中文分詞
詞是能獨(dú)立運(yùn)用的最小語(yǔ)言單位,自然語(yǔ)言處理中的很多方法都是基于詞來(lái)實(shí)現(xiàn)的。由于中文書寫的特點(diǎn),即詞與詞之間沒(méi)有明顯的分隔符,使得計(jì)算機(jī)對(duì)于詞的準(zhǔn)確識(shí)別變得非常困難。因此,分詞就成了中文處理中所要解決的最基本的問(wèn)題,分詞的性能對(duì)后續(xù)的語(yǔ)言處理如機(jī)器翻譯、信息檢索等有著至關(guān)重要的影響。隨著對(duì)中文處理關(guān)注程度的增加,國(guó)際計(jì)算語(yǔ)言聯(lián)合會(huì) (ACL) 下設(shè)的漢語(yǔ)特別興趣 (SIGHAN) 研究組每年舉辦國(guó)際漢語(yǔ)分詞評(píng)測(cè)大賽。大賽提供多種語(yǔ)料上的開(kāi)放和封閉測(cè)試,至今已有斯坦福大學(xué)、新加坡國(guó)立大學(xué)、微軟亞洲研究院、法國(guó)電信北京研發(fā)中心、中科院計(jì)算所、哈爾濱工業(yè)大學(xué)、東北大學(xué)等多家國(guó)內(nèi)外研究機(jī)構(gòu)參加此評(píng)測(cè)。
中文分詞組以評(píng)測(cè)作為驅(qū)動(dòng),主要研究統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在中文分詞、詞性標(biāo)準(zhǔn)和命名實(shí)體識(shí)別中的應(yīng)用。研究?jī)?nèi)容包括隱馬爾科夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)等多個(gè)統(tǒng)計(jì)模型在中文序列標(biāo)注中的應(yīng)用和相關(guān)的特征選取技術(shù)。在此工作的基礎(chǔ)上,分詞組參加了第三屆國(guó)際漢語(yǔ)分詞評(píng)測(cè)大賽,在大賽提供的四種語(yǔ)料的封閉測(cè)試上取得了很好的成績(jī)。
指導(dǎo)教師:朱靖波 教授
小組成員:
2004級(jí)碩士生:王屹林
2005級(jí)碩士生:王振興 張海雷