无码人妻久久一区二区三区蜜桃 ,国模吧无码一区二区三区,被黑人掹躁10次高潮,午夜精品人妻无码一区二区三区

?

專利翻譯模板 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)

日期:2023-03-11 12:39:36 / 人氣: 509 / 發(fā)布者:成都翻譯公司

本發(fā)明專利技術(shù)涉及一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,屬于自然語言處理中的機(jī)器翻譯技術(shù)領(lǐng)域。[0011]一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:[0022]圖2為本專利技術(shù)的基于模板的神經(jīng)機(jī)器翻譯模型圖;[0025]一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:

本發(fā)明專利技術(shù)涉及一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,屬于自然語言處理中的機(jī)器翻譯技術(shù)領(lǐng)域。該方法通過引入匹配的高度相似的翻譯模板來引導(dǎo)和約束模型的解碼過程,從而提高翻譯質(zhì)量。首先,構(gòu)建翻譯模板庫和相應(yīng)的模板匹配算法。然后,構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型。之后,采用兩階段訓(xùn)練策略將翻譯模板引入模型中,構(gòu)建的模型參數(shù)不斷迭代更新,指導(dǎo)訓(xùn)練過程。*后專利翻譯模板,訓(xùn)練好的神經(jīng)機(jī)器翻譯模型用于分別翻譯匹配高度相似翻譯模板的句子。與現(xiàn)有技術(shù)相比,該方法簡化了翻譯模板的構(gòu)建過程,更側(cè)重于提高部分句子的翻譯效果,這些句子可以匹配高度相似的翻譯模板,而不是所有的句子。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。

下載所有詳細(xì)的技術(shù)數(shù)據(jù)

【技術(shù)實(shí)現(xiàn)步驟總結(jié)】

一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法

[0001] 本專利技術(shù)涉及神經(jīng)機(jī)器翻譯中構(gòu)建翻譯模板庫,并將翻譯模板引入與翻譯性能對應(yīng)的神經(jīng)機(jī)器翻譯優(yōu)化器的技術(shù),具體涉及一種基于神經(jīng)機(jī)器翻譯的神經(jīng)機(jī)器翻譯方法。翻譯模板,屬于語言處理中的自然機(jī)器翻譯

技術(shù)介紹

[0002] 目前,由于神經(jīng)機(jī)器翻譯在多種自然語言方面優(yōu)于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,在工業(yè)領(lǐng)域,谷歌、有道、百度等各大公司已成功部署神經(jīng)機(jī)器翻譯作為基本翻譯服務(wù)。這些方便快捷的翻譯服務(wù)被人們廣泛使用。

[0003] 然而,神經(jīng)機(jī)器翻譯主要是通過雙語并行語料庫數(shù)據(jù)訓(xùn)練來獲得源語言和目標(biāo)語言的語言特征知識以及兩者之間的對應(yīng)關(guān)系。因此,神經(jīng)機(jī)器翻譯對訓(xùn)練數(shù)據(jù)有很大的依賴性。性別。當(dāng)訓(xùn)練語料數(shù)據(jù)不包含某些特征信息或僅包含較少的特征信息時(shí),模型將很難學(xué)習(xí)到相應(yīng)的知識,從而導(dǎo)致模型無法捕捉到這部分信息。在翻譯包含這部分待翻譯知識的句子時(shí),神經(jīng)機(jī)器翻譯會(huì)產(chǎn)生低質(zhì)量的翻譯。

[0004] 在計(jì)算機(jī)輔助翻譯場景中,人工翻譯接收機(jī)器翻譯模型生成的翻譯,首先檢查翻譯中是否存在錯(cuò)誤并進(jìn)行必要的更正,然后對翻譯錯(cuò)誤進(jìn)行后期編輯以確保*終的翻譯質(zhì)量。衡量審校和譯后編輯時(shí)間是量化人工翻譯工作量*直接、*有效的方法。在使用傳統(tǒng)的神經(jīng)機(jī)器翻譯方法時(shí),人工翻譯并不了解翻譯的質(zhì)量,這意味著人工翻譯必須花費(fèi)相同的工作量來審核每個(gè)翻譯。在這種情況下,只有研究如何提高整個(gè)測試集的翻譯性能,只能減少翻譯后的編輯時(shí)間。

[0005] 在現(xiàn)實(shí)場景中,現(xiàn)有的翻譯知識有很多,例如固定的翻譯句型、固有的翻譯搭配、專業(yè)領(lǐng)域的雙語詞典等。人類語言專家總結(jié)的翻譯知識是完全正確的,人類翻譯人員可以直接利用這些固定的翻譯知識來輔助翻譯工作。因此,利用外部知識來提高機(jī)器翻譯模型的翻譯質(zhì)量具有很高的研究價(jià)值。一般來說,大部分研究工作主要集中在使用雙語詞典和雙語翻譯示例進(jìn)行解碼約束或數(shù)據(jù)增強(qiáng),但將翻譯模板作為外部知識整合到神經(jīng)機(jī)器翻譯中的研究相對較少。翻譯模板保留了句子和一些目標(biāo)詞的句法結(jié)構(gòu)信息。在知識粒度上,模板介于翻譯規(guī)則和翻譯實(shí)例之間。與翻譯實(shí)例相比,翻譯模板具有更高的抽象度,從而具有更高的匹配率。與翻譯規(guī)則相比,翻譯模板包含更多的詞匯信息。

[0006] 綜上所述,如果能夠構(gòu)建出適合神經(jīng)機(jī)器翻譯的高質(zhì)量翻譯模板庫,并將翻譯模板的知識引入神經(jīng)機(jī)器翻譯中,就可以獲得高質(zhì)量的翻譯。

[0007] 然而,目前還沒有發(fā)表比較完整的機(jī)器翻譯系統(tǒng)或相關(guān)技術(shù)將翻譯模板引入到神經(jīng)機(jī)器翻譯中。

技術(shù)實(shí)現(xiàn)思路

[0008] 本專利技術(shù)的目的是為了解決現(xiàn)有機(jī)器翻譯系統(tǒng)在語料庫的大小和質(zhì)量上的限制,導(dǎo)致

針對由此產(chǎn)生的翻譯質(zhì)量差的技術(shù)問題,創(chuàng)造性地提出了一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法。該方法通過引入匹配的高度相似的翻譯模板來引導(dǎo)和約束模型的解碼過程,從而提高翻譯質(zhì)量。

[0009] 該專利技術(shù)的創(chuàng)新之處在于:首先,構(gòu)建了翻譯模板庫和相應(yīng)的模板匹配算法。然后,構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型。之后,采用兩階段訓(xùn)練策略將翻譯模板引入模型中,構(gòu)建的模型參數(shù)不斷迭代更新,指導(dǎo)訓(xùn)練過程。*后,使用訓(xùn)練好的神經(jīng)機(jī)器翻譯模型對匹配高度相似翻譯模板的句子進(jìn)行單獨(dú)翻譯。

[0010] 為實(shí)現(xiàn)上述目的,本專利技術(shù)采用以下技術(shù)方案。

[0011] 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:

[0012] 步驟1:基于*長名詞短語的翻譯模板構(gòu)建方法,構(gòu)建翻譯模板庫。

[0013] 步驟2:構(gòu)建多策略模板匹配算法,檢索高度相似的翻譯模板。

[0014] 第三步:構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型,將翻譯模板引入神經(jīng)機(jī)器翻譯中。

[0015] 步驟4:采用兩階段模型訓(xùn)練策略訓(xùn)練基于模板的神經(jīng)機(jī)器翻譯模型。

[0016] 步驟5:利用訓(xùn)練模型的翻譯神經(jīng)模型對匹配高度相似翻譯模板的句子進(jìn)行翻譯。

[0017] 好處

[0018] 與現(xiàn)有技術(shù)相比,本專利技術(shù)具有以下有益效果和優(yōu)點(diǎn):

[0019] 1. 本專利技術(shù)采用自定義翻譯模板提取算法,構(gòu)建高質(zhì)量翻譯模板。通過提取*長的名詞短語,可以省略雙語詞對齊信息,簡化翻譯模板的構(gòu)建過程。

[0020]2.這項(xiàng)專利技術(shù)不同于現(xiàn)有的機(jī)器翻譯系統(tǒng),更側(cè)重于提高部分句子的翻譯效果,這些句子可以匹配高度相似的翻譯模板而不是所有句子,使用匹配的高度相似的翻譯模板翻譯 該模板提高了翻譯質(zhì)量。

圖紙說明

[0021] 圖 圖1是專利技術(shù)的翻譯模板構(gòu)建算法示意圖;

[0022] 圖 圖2是基于專利技術(shù)模板的神經(jīng)機(jī)器翻譯模型示意圖;

[0023] 圖 圖3為專利技術(shù)的兩階段模型訓(xùn)練策略圖。

詳細(xì)方法

[0024] 下面結(jié)合附圖和實(shí)施例對本專利的技術(shù)方法作進(jìn)一步詳細(xì)說明。

[0025] 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:

[0026] 步驟一:基于*長名詞短語的翻譯模板構(gòu)建方法,構(gòu)建翻譯模板庫。

[0027] 如圖1所示,具體方法如下:

[0028] 步驟1.1:利用成分句法樹分析方法,在平行句對上構(gòu)建雙句法樹;

[0029] 步驟1.2:識別提取*長名詞短語,構(gòu)建翻譯模板。

[0030] 其中,*長的名詞短語(maximal

長度名詞短語,MNP),是指沒有被任何其他名詞短語嵌套的名詞短語。在句法樹中,*長的名詞短語是指從根節(jié)點(diǎn)開始的第一個(gè)標(biāo)簽為“NP”的子樹。*長的名詞短語比基本名詞短語具有更多的粒度信息。這項(xiàng)專利技術(shù)使用*長的名詞短語包括普通名詞(NN)、專有名詞(NR)、時(shí)間名詞(NT)和人稱代詞(PRP)作為模板變量,其余部分作為模板常量構(gòu)建翻譯模板。

[0031] 翻譯模板包括模板常量和模板變量;模板常量是指??模板中的固定詞,表示源句的句子結(jié)構(gòu)信息;模板變量是一類詞或名詞短語,是模板中的概括信息。模板常量在模板匹配中作為檢索到的信息,在翻譯過程中作為翻譯產(chǎn)生的約束信息;在翻譯過程中,翻譯模板變量根據(jù)源句信息替換翻譯模板變量,得到相應(yīng)的譯文。

[0032] 步驟1.3:利用翻譯模板的長度和模板抽象化對翻譯模板進(jìn)行過濾,保留滿足設(shè)定的長度閾值和抽象化閾值的翻譯模板。

[0033] 具體地,步驟1.3包括以下步驟:

[0034] 步驟1.3.1:設(shè)置長度閾值,丟棄不滿足長度閾值的翻譯模板。

[0035] 步驟1.3.2:設(shè)置抽象級別的上下閾值,計(jì)算翻譯模板的抽象級別,丟棄不在閾值范圍內(nèi)的翻譯模板。

[0036] 其中,翻譯模板抽象Score

腹肌

計(jì)算如下:

[0037] [0038] 其中專利翻譯模板,Num

VA

表示翻譯模板變量的個(gè)數(shù),lt表示翻譯模板中包含的單詞數(shù)。

[0039] 步驟2:構(gòu)建多策略模板匹配算法以檢索高度相似的翻譯模板。

[0040] 具體地,步驟2包括以下步驟:

[0041] 步驟2.1:使用步驟1中描述的翻譯模板構(gòu)建算法對待翻譯句子進(jìn)行處理,得到待匹配模板。

[0

【技術(shù)保護(hù)點(diǎn)】

【技術(shù)特點(diǎn)摘要】

1. 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,其特點(diǎn)包括以下步驟: 步驟1:基于*長名詞短語的翻譯模板構(gòu)建方法構(gòu)建翻譯模板庫;Step 2:構(gòu)建多策略模板 檢索高度相似翻譯模板的匹配算法包括以下步驟: Step 2.1:使用Step 1中描述的翻譯模板構(gòu)建算法對待翻譯句子進(jìn)行處理,得到要匹配的模板;步驟2.2:使用基于詞命中率的粗粒度匹配策略,從步驟1構(gòu)建的翻譯模板庫中獲取候選集。其中,基于單詞命中率的粗粒度匹配策略定義如下: 粗粒度匹配策略使用待匹配模板和模板庫源翻譯模板的單詞共現(xiàn)頻率來衡量匹配程度兩者之間的相似性。相似度函數(shù)FM定義如下: 其中word(

·

) 表示字符串中包含的單詞;Tm值

源文件

表示匹配的源翻譯模板;X

表示待翻譯的句子使用步驟1中得到的待匹配模板;連(

·

) 表示要匹配的模板的長度;Step 2.3:使用基于字符串相似度的細(xì)粒度匹配策略對候選集進(jìn)行匹配;其中,基于字符串相似度的細(xì)粒度匹配策略定義如下:細(xì)粒度匹配策略使用Levinstein編輯距離來衡量候選集中每個(gè)模板與檢索到的目標(biāo)的相似度;Levinstein 編輯距離是指一個(gè)模板可以通過添加、插入、刪除操作轉(zhuǎn)化為另一個(gè)模板的*小編輯次數(shù);細(xì)粒度匹配相似度函數(shù)Lev定義如下:編輯次數(shù)少;細(xì)粒度匹配相似度函數(shù)Lev定義如下:表示將要匹配的模板轉(zhuǎn)換為模板庫中匹配的源端翻譯模板所需的*小編輯距離;分?jǐn)?shù)

Tm值

表示要匹配的模板X

匹配模板庫中的源翻譯模板X

Tm值

之間的模糊匹配分?jǐn)?shù);i 和 j 分別表示 X

和 X

Tm值

中間的第 i 個(gè)和第 j 個(gè)位置;Step 3:構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型,將翻譯模板引入到神經(jīng)機(jī)器翻譯中,包括以下步驟: Step 3.1:在編碼端,添加額外的模板編碼器對檢索到的進(jìn)行編碼目標(biāo)翻譯模板;模板編碼器如下:模板編碼器采用Transformer編碼器結(jié)構(gòu),由若干相同子層堆疊而成,每個(gè)子層包括一個(gè)自注意力層子層和前饋神經(jīng)網(wǎng)絡(luò)子層層; 模板編碼器與原始 Transformer 編碼器具有相同的結(jié)構(gòu);模板編碼器和源編碼器在編碼過程中相互獨(dú)立,并且在呈現(xiàn)過程中沒有兩種信息相互交互的情況下融合,*終得到源句和目標(biāo)翻譯模板在高維語義空間中的向量表示;源編碼器和目標(biāo)模板編碼器的編碼表示如下:

H

=Enc

源文件

(X,θ

源文件

)

?????????????????????

(4)其中,Enc

源文件

表示源語句編碼器;X 代表要翻譯的句子;編碼器

Tm值

代表模板編碼器;θ

源文件

和 θ

Tm值

分別代表源句編碼器和模板編碼器的參數(shù),源句編碼器和模板編碼器的參數(shù)不共享;H

表示源語句編碼器對源語句進(jìn)行編碼得到的包含源語句信息的向量表示,表示模板編碼器對目標(biāo)翻譯模板進(jìn)行編碼得到的包含目標(biāo)翻譯模板信息的向量表示;Tm值

時(shí)間

表示匹配的目標(biāo)翻譯模板;步驟3.2:在解碼端,添加模板代碼

解碼attention子層,將模板知識引入解碼器,引導(dǎo)和約束模型的解碼過程,從而獲得高質(zhì)量的翻譯;其中解碼器如下:在Transformer解碼器的基礎(chǔ)上,增加模板編碼

解碼注意力子層;新的解碼器包含四個(gè)子層:掩碼多頭注意力子層、模板編碼

解碼注意力子層,源碼

解碼注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層;編碼模板

解碼attention子層,放在源碼上

...

【專利技術(shù)屬性】

技術(shù)研發(fā)人員:馮沖、尚偉、

申請人(專利權(quán)):北京理工大學(xué),

類型:發(fā)明

國家省市:

下載所有詳細(xì)的技術(shù)資料 我是此專利的擁有者

相關(guān)閱讀Relate

  • 江蘇省增值稅發(fā)票翻譯模板 江蘇稅務(wù)局出口貨物退(免)稅申報(bào)管理系統(tǒng)軟件
  • 江蘇省增值稅發(fā)票翻譯模板 江蘇出口貨物退(免)稅申報(bào)管理服務(wù)平臺(tái)
  • 非機(jī)動(dòng)車翻譯模板免費(fèi)下載 安行浙江知識競賽答案2017下載-安行浙江知識競賽app下載免費(fèi)版-軟件下載
  • 雙學(xué)位翻譯模板 浙商大教〔2009〕218號 浙江工商大學(xué)關(guān)于修訂 雙專業(yè)、雙學(xué)位實(shí)施方案
  • 專利翻譯模板 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)
  • 江蘇戶口翻譯模板 上戶口申請書怎么寫
  • 江蘇戶口翻譯模板 簡歷翻譯、戶口本翻譯,身份證,駕照翻譯
  • 個(gè)體營業(yè)執(zhí)照副本翻譯模板 三證合一營業(yè)執(zhí)照英文翻譯
  • 無錫專業(yè)德文專利翻譯模板 德語翻譯
  • 浙江大學(xué)畢業(yè)證翻譯模板 學(xué)歷證明怎么開 學(xué)歷證明模板
  • 專利翻譯模板 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù) www.ryuhikb.cn/fymb/4801.html
    ?
    本站部分內(nèi)容和圖片來源于網(wǎng)絡(luò)用戶和讀者投稿,不確定投稿用戶享有完全著作權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果侵犯了您的權(quán)利,請聯(lián)系:chinazxzy@163.com,及時(shí)刪除。
    Go To Top 回頂部
    • 掃一掃,微信在線