基于模板的統(tǒng)計翻譯模型研究及漢英機器翻譯系統(tǒng)實現(xiàn)(劉群).ppt 104頁
日期:2023-03-11 12:39:36 / 人氣: 493 / 發(fā)布者:成都翻譯公司
也就是說,一個源語言結(jié)點的模板角色標記只與產(chǎn)生該結(jié)點的源語言上下文無關規(guī)則有關。1990年代早期在IBM公司舉行的DARPA機器翻譯評價時,我們曾經(jīng)預計只有很短(10個詞左右)的句子才可以用統(tǒng)計方法進行解碼,即使那樣,每個句子的解碼時間也可能是幾個小時。詞典特征(MX):計算給定的輸入輸出句子中有多少詞典中存在的共現(xiàn)詞對。聯(lián)合使用兩個模型效果好于單獨使用翻譯模型,因為后者容易導致一些不好的譯文。將對齊概率理解為標注概率:語法樹的翻譯過程理解為對源語言句法樹的節(jié)點進行標注,建立句法樹標注的概率模型,對轉(zhuǎn)換模板——圖進行標注的過程顯示源語言語法樹的每個節(jié)點的轉(zhuǎn)換模板標簽: vbnun np ap np vp 比較其他工廠的做法 (a) (b) (c) (d) (e) (f) (g) (a) (b) 轉(zhuǎn)換模板問題的注解:一個轉(zhuǎn)換模板作用于多個源語言節(jié)點的情況下,無法區(qū)分不同源語言節(jié)點的標簽。例如:在上面的例子中,模板(a)同時作用于兩個節(jié)點 vp 和 v。在計算標記概率時,
與其他源語言節(jié)點的語法標記和模板角色標記無關。所以:這里,N是源語言語法樹上的任意節(jié)點,Syn(N)是節(jié)點對應的語法標簽,Role(N)是節(jié)點對應的模板角色標簽。對應的參數(shù)歸一化條件為:這里Syn是任意語法標簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設每個源語言節(jié)點的模板角色標簽只與該節(jié)點及其子節(jié)點的句法標簽相關,與其他源語言的語法標簽和模板角色標簽無關語言節(jié)點。即,換句話說,源語言節(jié)點的模板角色標簽僅與生成節(jié)點的源語言的上下文無關規(guī)則相關。其中,N為源語言語法樹上的任意節(jié)點,Syn(N)為節(jié)點對應的語法標簽基于模板的統(tǒng)計翻譯,Role(N)為節(jié)點對應的模板角色標簽。對應的參數(shù)歸一化條件為:這里Syn是任意語法標簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設每個源語言節(jié)點的模板角色標簽只與該節(jié)點及其子節(jié)點的句法標簽相關,與其他源語言的語法標簽和模板角色標簽無關語言節(jié)點。即,換句話說,源語言節(jié)點的模板角色標簽僅與生成節(jié)點的源語言的上下文無關規(guī)則相關。其中,N為源語言語法樹上的任意節(jié)點,Syn(N)為節(jié)點對應的語法標簽,Role(N)為節(jié)點對應的模板角色標簽。對應的參數(shù)歸一化條件為:這里Syn是任意語法標簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設每個源語言節(jié)點的模板角色標簽只與該節(jié)點及其子節(jié)點的句法標簽相關,與其他源語言的語法標簽和模板角色標簽無關語言節(jié)點。即,換句話說,源語言節(jié)點的模板角色標簽僅與生成節(jié)點的源語言的上下文無關規(guī)則相關。Role(N)為節(jié)點對應的模板角色標簽。對應的參數(shù)歸一化條件為:這里Syn是任意語法標簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設每個源語言節(jié)點的模板角色標簽只與該節(jié)點及其子節(jié)點的句法標簽相關,與其他源語言的語法標簽和模板角色標簽無關語言節(jié)點。即,換句話說,源語言節(jié)點的模板角色標簽僅與生成節(jié)點的源語言的上下文無關規(guī)則相關。Role(N)為節(jié)點對應的模板角色標簽。對應的參數(shù)歸一化條件為:這里Syn是任意語法標簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設每個源語言節(jié)點的模板角色標簽只與該節(jié)點及其子節(jié)點的句法標簽相關,與其他源語言的語法標簽和模板角色標簽無關語言節(jié)點。即,換句話說,源語言節(jié)點的模板角色標簽僅與生成節(jié)點的源語言的上下文無關規(guī)則相關。Template Role Tagging-Probability Model 2 假設每個源語言節(jié)點的模板角色標簽只與該節(jié)點及其子節(jié)點的句法標簽相關,與其他源語言的語法標簽和模板角色標簽無關語言節(jié)點。即,換句話說,源語言節(jié)點的模板角色標簽僅與生成節(jié)點的源語言的上下文無關規(guī)則相關。Template Role Tagging-Probability Model 2 假設每個源語言節(jié)點的模板角色標簽只與該節(jié)點及其子節(jié)點的句法標簽相關,與其他源語言的語法標簽和模板角色標簽無關語言節(jié)點。即,換句話說,源語言節(jié)點的模板角色標簽僅與生成節(jié)點的源語言的上下文無關規(guī)則相關。
因此: 這里,N 是源語言句法樹上的任意節(jié)點,Syn(N) 是該節(jié)點對應的句法標記,Rule(N) 是生成該節(jié)點的上下文無關規(guī)則。對應的參數(shù)歸一化條件為: 模板角色標簽-概率模型 3 假設每個源語言節(jié)點的模板角色標簽不僅與節(jié)點及其子節(jié)點的句法標簽有關,還與父節(jié)點的模板有關角色標簽是相關的,與其他源語言節(jié)點的語法標簽和模板角色標簽無關。所以:這里,N 是源語言語法樹上的任意節(jié)點基于模板的統(tǒng)計翻譯,Syn(N) 是節(jié)點對應的語法標記,Rule(N) 是生成節(jié)點的上下文無關規(guī)則,Parent(N) 是node 點的父節(jié)點。對應的參數(shù)歸一化條件為: 訓練方法算法 維特比算法:每次只考慮*大可能的對齊 EM算法:考慮所有可能的對齊 基本過程:迭代,直到收斂短語對齊模板提取參數(shù)估計參數(shù)訓練算法目前可用 初步思路,但考慮尚不成熟。您需要嘗試多種方法并通過實驗來驗證它們。下面通過一個例子簡單說明EGYPT工具包EGYPT的模塊GIZA:該模塊用于從雙語語料庫中提取統(tǒng)計知識(參數(shù)訓練) Decoder:Decoder,用于執(zhí)行具體的翻譯過程(在源通道模型中, “翻譯”是“解碼”)開羅:整個翻譯系統(tǒng)的可視化界面,用于管理所有參數(shù)和查看雙語語料的對齊過程和翻譯模型的解碼過程 Whittle:語料預處理工具EGYPT可以在網(wǎng)上免費下載,它有成為SMT的標桿。和性能。
在 1990 年代初在 IBM 舉行的 DARPA 機器翻譯評估中,我們曾經(jīng)預測只有非常短的句子(大約 10 個單詞)可以通過統(tǒng)計方法進行解碼。即便如此,每個句子的解碼時間也可能是幾個小時。在 IBM 早期工作近 10 年后,摩爾定律、更好的編譯器、更充足的內(nèi)存和硬盤空間幫助我們構(gòu)建了一個可以在幾秒鐘內(nèi)解碼 25 個單詞的句子的系統(tǒng)。為確保成功,我們在搜索中使用了相當嚴格的閾值和約束,如下所述。但是,解碼器相當有效的事實預示著未來該方向的工作前景良好,也肯定了IBM工作的初衷,即強調(diào)概率模型比效率更重要?!訨HU統(tǒng)計機器翻譯研討會關于改進IBM方法的技術(shù)報告。IBM方法的問題不考慮結(jié)構(gòu):能否適用于句法結(jié)構(gòu)差異較大的語言?數(shù)據(jù)稀疏問題嚴重。后續(xù)改進工作 王業(yè)怡的改進 山田和奈特的改進。Och 等人的改進。王野義的改進(1) 背景:德英口語翻譯系統(tǒng)的語法結(jié)構(gòu)差異較大。數(shù)據(jù)稀疏(訓練數(shù)據(jù)有限)。改進:兩級對齊模型粗對齊:短語之間的對齊精細對齊:詞組中詞的對齊方式王野義的改進(2)詞聚類的語法推導:基于互信息法的詞組合并規(guī)則學習優(yōu)勢 提高機器翻譯準確率:錯誤率降低11% 提高整個系統(tǒng)效率:搜索空間更小,數(shù)據(jù)稀疏問題口語數(shù)據(jù)的缺乏得到緩解。Yamada 和 Knight 的改進(1) Syntax-based TM):輸入是源語言句法樹輸出是目標語言句子翻譯的過程:每個內(nèi)部節(jié)點的子節(jié)點隨機重新排列:置換概率在每個節(jié)點的左邊或右邊隨機插入一個詞。左右插入和不插入的概率取決于父節(jié)點和當前節(jié)點標簽插入哪個詞只與插入詞相關的概率,不是位置?翻譯每個葉節(jié)點:詞到詞的翻譯概率輸出Yamada和Knight的目標句改進(2) Yamada and Knight改進(3)
*大熵方法大大擴展了統(tǒng)計機器翻譯的思路;特征的選擇更加靈活。統(tǒng)計機器翻譯的應用 傳統(tǒng)機器翻譯的應用是跨語言檢索 聶建云 使用IBM Model 1 快速開發(fā)CLIR 機器翻譯系統(tǒng)。未知語言統(tǒng)計機器翻譯方法的快速發(fā)展總結(jié)。IBM 當年的工作有些先進。雖然很多人懷疑統(tǒng)計方法能否在機器翻譯中取得成功,但這現(xiàn)在已經(jīng)不是問題了。在 NIST MT Eval 2002 中,得分*高的系統(tǒng)都采用了統(tǒng)計機器翻譯方法?;谄叫姓Z法的機器翻譯方法普遍不成功?;?大熵的方法為統(tǒng)計機器翻譯方法開辟了新天地。研究思路總結(jié)。基于模板的統(tǒng)計翻譯模型轉(zhuǎn)換算法的基本假設。概率模型訓練算法(對齊)。實驗方案與其他統(tǒng)計機器翻譯方法的比較?;炯僭O總結(jié)。使用基于*大熵的統(tǒng)計機器翻譯模型;提出基于模板的統(tǒng)計翻譯模型: 基于模板翻譯模型的句法樹對齊提取翻譯模板其他特征中文詞法分析中文句法分析基于模板的統(tǒng)計翻譯模型轉(zhuǎn)換模型P(T|S)轉(zhuǎn)換模型的輸入輸出P (T|S) 是句法樹。引入轉(zhuǎn)換模板是為了引入模板角色的概念。模板角色標注的思想建立了三個不同層次的統(tǒng)計翻譯模型。基于模板的統(tǒng)計翻譯模型的參數(shù)訓練算法轉(zhuǎn)換 template-illustration vp(v:1 n:2)? Vp(vp:1 np( t(one's) n:2)) v vp n vp vp np vn 轉(zhuǎn)換模板-定義轉(zhuǎn)換模板的形式化定義:轉(zhuǎn)換模板由兩棵具有對齊關系的句法子樹組成;兩棵句法子樹的根節(jié)點相互對齊;句子全部非根非根-子樹的葉節(jié)點對齊為空;語法子樹的葉節(jié)點要么與相應語法子樹的葉節(jié)點對齊,要么與空對齊;
轉(zhuǎn)換模板反映了兩個句法子樹的節(jié)點之間的對應關系?;谀0宓霓D(zhuǎn)換算法以自頂向下轉(zhuǎn)換算法為例。該圖顯示可以使用其他搜索策略。練習規(guī)劃。Chinese: 我們可以參考其他工廠的經(jīng)驗來制定我們的計劃?;谀0宓霓D(zhuǎn)換 (1) (a) vp(v(cf.) np:1)? Pp( p(in ) np(np(t(the) n(light)) pp(p) (of) np:1))) vbnun np ap np vp 基于模板轉(zhuǎn)換比較其他工廠的做法 (2) ( b) np(ap:1 n(practice))? np(np( t(the) n(experiences)) pp:1) pbnun np ap np:
基于并行概率文法的統(tǒng)計機器翻譯模型的基本思想。兩種語言建立了一套平行的語法規(guī)則。規(guī)則對應兩套規(guī)則,服從相同的概率分布。句法分析的過程決定了生成的過程。主要模型基于 Alshawi 的 Head Transducer。MT模型吳德凱的Inverse Transduction Grammar(ITG)武田的Pattern-based CFG for MT Head Transducer MT(1) Head Transducer)是Definite State Automata(有限狀態(tài)自動機)和一般有限狀態(tài)識別器的區(qū)別:端不僅有輸入,還有輸出;不是從左到右輸入,而是從中心詞輸入到兩邊 Head Transducer MT(2) a:a 0:0 0:0 b:ba:a -1:+1 b:b -1 :+1 示例:
對于上下文無關語法規(guī)則的每個右側(cè)部分(子節(jié)點)對于非終結(jié)符,可以指定其中心詞;對于規(guī)則左邊的非終結(jié)符(父節(jié)點),可以直接指定它的中心字,也可以使用相同的序號來指定它的中心字等于某個右邊的中心字非終結(jié)符;鏈接約束:源語言骨架和目標語言骨架的非終結(jié)符子節(jié)點使用相同的序號建立對應關系,具有對應關系的非終結(jié)符為相互翻譯。或者可以使用相同的序號來指定其中心字等于某個對非終結(jié)符的中心字;鏈接約束:源語言骨架和目標語言骨架的非終結(jié)符子節(jié)點使用相同的序號建立對應關系,具有對應關系的非終結(jié)符為相互翻譯?;蛘呖梢允褂孟嗤男蛱杹碇付ㄆ渲行淖值扔谀硞€對非終結(jié)符的中心字;鏈接約束:源語言骨架和目標語言骨架的非終結(jié)符子節(jié)點使用相同的序號建立對應關系,具有對應關系的非終結(jié)符為相互翻譯。
源通道模型假設目標語言文本T是從一段源語言文本S中通過某種奇怪的編碼得到的,那么翻譯的目標是將T還原為S,這是一個解碼過程。注意,源語言S是噪聲通道的輸入語言,目標語言T是噪聲通道的輸出語言,正好與整個機器翻譯系統(tǒng)的源語言和目標語言相反。SP(S) P(T|S) T 統(tǒng)計機器翻譯的基本方程 P. Brown 將上述方程稱為統(tǒng)計機器翻譯的基本方程。語言模型:P(S) 翻譯模型:P(T|S) 語言模型反映“S”“Like a sentence”的程度:翻譯模型反映“T is like S”的流暢程度:兩種模型的結(jié)合對于保真度來說比單獨使用翻譯模型要好,因為后者很可能會導致一些不好的翻譯。語言模型和翻譯模型考慮漢語動詞“打”的翻譯:對應的英文單詞翻譯有幾十種:打人、玩飯、玩魚、玩毛衣、打獵、玩草稿等,如果直接用翻譯模型,只需使用翻譯模型。需要基于上下文建立復雜的上下文條件概率模型。如果采用source-channel思想,只要建立一個簡單的翻譯模型,就可以達到目標詞選擇的效果: 翻譯模型:不考慮上下文,只考慮詞之間的翻譯概率。模型:根據(jù)詞之間的共現(xiàn)選擇*佳目標詞。統(tǒng)計機器翻譯的三個問題。三個問題: 語言模型 P(S) 的參數(shù)估計 翻譯模型 P(T|S) 的參數(shù)估計和解碼(搜索) 算法語言模型將語言理解為產(chǎn)生句子的隨機事件。語言模型反映了一個句子在一種語言中出現(xiàn)的概率。語言模型N-gram P(S)=p(s0)* p(s1|s0)*…*p(Sn|Sn-1…Sn-N) 鏈式語法:可以處理長距離相關PCFG(需要語法符號) 引入隱藏變量: Align 一個翻譯模型,將對齊P(T|S)的計算轉(zhuǎn)化為P(T,A|S)的估計對齊:建立源語言句子和目標語言句子的詞之間的對應關系。IBM 模型比較 P(T,
設m為當前總詞數(shù):m-prime+φ0;根據(jù)概率表t(f|e),用外來詞f替換每個詞e;對于每個不是由空詞NULL產(chǎn)生的外來詞,根據(jù)概率表d(j|i,l,m)分配一個位置。這里j是法語單詞在法語字符串中的位置,i是產(chǎn)生當前法語單詞的對應英語單詞在英語句子中的位置,l是英語字符串的長度,m是法語字符串;如果任一目標語言位置多次登錄(包含多個單詞)將返回失敗;由空詞 NULL 生成的詞被分配一個目標語言位置。這些位置必須是空的(未被占用)。任何分配都被認為是等概率的,概率值為 1/φ0。*后,讀取法語字符串,其概率是上述每個步驟的概率的乘積。翻譯模型參數(shù)訓練 Viterbi Training(對比:EM Training) 給定初始參數(shù);使用現(xiàn)有參數(shù)尋找*佳(維特比)比對;使用得到的alignment重新計算參數(shù);返回第二步直到收斂。IBM 模型 1:存在全局*優(yōu)。IBM Model 2~5:沒有全局*優(yōu)。初始值是之前模型訓練的結(jié)果。統(tǒng)計機器翻譯的解碼參考了語音識別的搜索算法:棧搜索參數(shù)空間很大,搜索不能總是保證*好。從錯誤類型來看,只有兩種類型: 模型錯誤:概率*高的句子不是正確的句子。搜索錯誤:沒有找到概率*高的句子。第二類錯誤僅占錯誤總數(shù)的 5% (IBM) Search 問題不是瓶頸。IBM 的 Candide 系統(tǒng) 1 基于統(tǒng)計的機器翻譯方法 analysis-transformation-generation 中間表示是線性分析,生成都是可逆分析(預處理):1.詞組切分2.專有名詞和數(shù)字檢測3.大小寫和拼寫糾正4.形態(tài)分析5.語言歸一化IBM Candide系統(tǒng)2轉(zhuǎn)換(解碼):基于統(tǒng)計的機器翻譯解碼分為兩個階段: 階段1:Stack search使用粗糙模型輸出140個得分*高的翻某言模型: 三元語法翻譯模型:EM算法第二階段:使用精細模型的擾動搜索擴展第一階段的輸出結(jié)果,然后重新-分數(shù)。語言模型:鏈式語法翻譯模型:*大熵法IBM的Candide系統(tǒng)3 ARPA測試結(jié)果:?流暢度充足時間比 1992 1993 1992 1993 1992 1993 Systran .466 .540 .686 .743?? 老實人 .511 .580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手冊?。833?.840?? JHU 1999 年夏季研討會起源于引起廣泛興趣的IBM 實驗。IBM 的實驗很難重復:工作量太大。目的是構(gòu)建一個統(tǒng)計機器翻譯工具(EGYPT)并使其對研究人員有用。說它是可用的(免費傳播);在研討會中使用此工具集構(gòu)建捷克-英語機器翻譯系統(tǒng);進行基準評估:主觀和客觀;通過使用形態(tài)和句法轉(zhuǎn)錄機改進基準結(jié)果;在研討會結(jié)束時,一天之內(nèi)為新語言對構(gòu)建了一個翻譯器。JHU Summer Seminar極大地推動了統(tǒng)計機器翻譯的研究。北京大學博士論文公開報告 2002-12-30 北京大學博士論文公開報告 2002-12-30 580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手冊?.833?.840?? 重復:工作量太大。目的是構(gòu)建一個統(tǒng)計機器翻譯工具(EGYPT)并提供給研究人員(免費傳播);在研討會中使用該工具集構(gòu)建捷克-英語機器翻譯系統(tǒng);進行基準評估:主觀和客觀;通過使用形態(tài)和句法轉(zhuǎn)錄機改進基準結(jié)果;在研討會結(jié)束時,在一天內(nèi)構(gòu)建一個新的語言對翻譯器。JHU Summer Seminar極大地推動了統(tǒng)計機器翻譯的研究。北京大學博士論文公開報告 2002-12-30 北京大學博士論文公開報告 2002-12-30 580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手冊?.833?.840?? 重復:工作量太大。目的是構(gòu)建一個統(tǒng)計機器翻譯工具(EGYPT)并提供給研究人員(免費傳播);在研討會中使用該工具集構(gòu)建捷克-英語機器翻譯系統(tǒng);進行基準評估:主觀和客觀;通過使用形態(tài)和句法轉(zhuǎn)錄機改進基準結(jié)果;在研討會結(jié)束時,在一天內(nèi)構(gòu)建一個新的語言對翻譯器。JHU Summer Seminar極大地推動了統(tǒng)計機器翻譯的研究。北京大學博士論文開題報告 2002-12-30 北京大學博士論文開題報告 2002-12-30
- 上一條審協(xié)筆試翻譯模板 專利審查協(xié)作廣東中心2020年度公開招聘專利審查員筆面試公告(第一批)
- 下一條英國使館簽證出生證翻譯模板 英國留學:2018簽證新政規(guī)定tier4學生簽需提交的資料清單
相關閱讀Relate
熱門文章 Recent
- 美國弗吉尼亞州駕照翻譯模板樣本 干貨 | 中國駕照在美國哪些州可以開車?2023-03-11
- 四級翻譯景區(qū)題模板 2019年6月英語四級翻譯考試模擬題:旅游業(yè)2023-03-11
- 公章模板翻譯 關于翻譯蓋章:為什么翻譯的內(nèi)容還要蓋章呢?2023-03-11
- 兼職翻譯服務合同協(xié)議書范本模板 兼職翻譯服務合同詳細版2023-03-11
- 內(nèi)部翻譯模板 【*新】外貿(mào)翻譯類個人簡歷模板大全-word范文模板 (3頁)2023-03-11
- 四六級成績翻譯模板 11月大學英語四六級口語考試必備,自我介紹*全模板!2023-03-11
- 新西蘭成績單翻譯模板 新西蘭留學簽證辦理時間需要多久2023-03-11
- 去公證處翻譯無罪證明模板 涉外公證翻譯中應注意的幾個問題2023-03-11
- 在讀證明翻譯模板2023-03-11
- 電影翻譯文獻綜述模板 5個要點!寫出高質(zhì)量文獻綜述2023-03-11