基于模板的統(tǒng)計(jì)翻譯模型研究及漢英機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)(劉群).ppt 104頁(yè)
日期:2023-03-11 12:39:36 / 人氣: 508 / 發(fā)布者:成都翻譯公司
也就是說(shuō),一個(gè)源語(yǔ)言結(jié)點(diǎn)的模板角色標(biāo)記只與產(chǎn)生該結(jié)點(diǎn)的源語(yǔ)言上下文無(wú)關(guān)規(guī)則有關(guān)。1990年代早期在IBM公司舉行的DARPA機(jī)器翻譯評(píng)價(jià)時(shí),我們?cè)?jīng)預(yù)計(jì)只有很短(10個(gè)詞左右)的句子才可以用統(tǒng)計(jì)方法進(jìn)行解碼,即使那樣,每個(gè)句子的解碼時(shí)間也可能是幾個(gè)小時(shí)。詞典特征(MX):計(jì)算給定的輸入輸出句子中有多少詞典中存在的共現(xiàn)詞對(duì)。聯(lián)合使用兩個(gè)模型效果好于單獨(dú)使用翻譯模型,因?yàn)楹笳呷菀讓?dǎo)致一些不好的譯文。將對(duì)齊概率理解為標(biāo)注概率:語(yǔ)法樹(shù)的翻譯過(guò)程理解為對(duì)源語(yǔ)言句法樹(shù)的節(jié)點(diǎn)進(jìn)行標(biāo)注,建立句法樹(shù)標(biāo)注的概率模型,對(duì)轉(zhuǎn)換模板——圖進(jìn)行標(biāo)注的過(guò)程顯示源語(yǔ)言語(yǔ)法樹(shù)的每個(gè)節(jié)點(diǎn)的轉(zhuǎn)換模板標(biāo)簽: vbnun np ap np vp 比較其他工廠(chǎng)的做法 (a) (b) (c) (d) (e) (f) (g) (a) (b) 轉(zhuǎn)換模板問(wèn)題的注解:一個(gè)轉(zhuǎn)換模板作用于多個(gè)源語(yǔ)言節(jié)點(diǎn)的情況下,無(wú)法區(qū)分不同源語(yǔ)言節(jié)點(diǎn)的標(biāo)簽。例如:在上面的例子中,模板(a)同時(shí)作用于兩個(gè)節(jié)點(diǎn) vp 和 v。在計(jì)算標(biāo)記概率時(shí),
與其他源語(yǔ)言節(jié)點(diǎn)的語(yǔ)法標(biāo)記和模板角色標(biāo)記無(wú)關(guān)。所以:這里,N是源語(yǔ)言語(yǔ)法樹(shù)上的任意節(jié)點(diǎn),Syn(N)是節(jié)點(diǎn)對(duì)應(yīng)的語(yǔ)法標(biāo)簽,Role(N)是節(jié)點(diǎn)對(duì)應(yīng)的模板角色標(biāo)簽。對(duì)應(yīng)的參數(shù)歸一化條件為:這里Syn是任意語(yǔ)法標(biāo)簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設(shè)每個(gè)源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽只與該節(jié)點(diǎn)及其子節(jié)點(diǎn)的句法標(biāo)簽相關(guān),與其他源語(yǔ)言的語(yǔ)法標(biāo)簽和模板角色標(biāo)簽無(wú)關(guān)語(yǔ)言節(jié)點(diǎn)。即,換句話(huà)說(shuō),源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽僅與生成節(jié)點(diǎn)的源語(yǔ)言的上下文無(wú)關(guān)規(guī)則相關(guān)。其中,N為源語(yǔ)言語(yǔ)法樹(shù)上的任意節(jié)點(diǎn),Syn(N)為節(jié)點(diǎn)對(duì)應(yīng)的語(yǔ)法標(biāo)簽基于模板的統(tǒng)計(jì)翻譯,Role(N)為節(jié)點(diǎn)對(duì)應(yīng)的模板角色標(biāo)簽。對(duì)應(yīng)的參數(shù)歸一化條件為:這里Syn是任意語(yǔ)法標(biāo)簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設(shè)每個(gè)源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽只與該節(jié)點(diǎn)及其子節(jié)點(diǎn)的句法標(biāo)簽相關(guān),與其他源語(yǔ)言的語(yǔ)法標(biāo)簽和模板角色標(biāo)簽無(wú)關(guān)語(yǔ)言節(jié)點(diǎn)。即,換句話(huà)說(shuō),源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽僅與生成節(jié)點(diǎn)的源語(yǔ)言的上下文無(wú)關(guān)規(guī)則相關(guān)。其中,N為源語(yǔ)言語(yǔ)法樹(shù)上的任意節(jié)點(diǎn),Syn(N)為節(jié)點(diǎn)對(duì)應(yīng)的語(yǔ)法標(biāo)簽,Role(N)為節(jié)點(diǎn)對(duì)應(yīng)的模板角色標(biāo)簽。對(duì)應(yīng)的參數(shù)歸一化條件為:這里Syn是任意語(yǔ)法標(biāo)簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設(shè)每個(gè)源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽只與該節(jié)點(diǎn)及其子節(jié)點(diǎn)的句法標(biāo)簽相關(guān),與其他源語(yǔ)言的語(yǔ)法標(biāo)簽和模板角色標(biāo)簽無(wú)關(guān)語(yǔ)言節(jié)點(diǎn)。即,換句話(huà)說(shuō),源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽僅與生成節(jié)點(diǎn)的源語(yǔ)言的上下文無(wú)關(guān)規(guī)則相關(guān)。Role(N)為節(jié)點(diǎn)對(duì)應(yīng)的模板角色標(biāo)簽。對(duì)應(yīng)的參數(shù)歸一化條件為:這里Syn是任意語(yǔ)法標(biāo)簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設(shè)每個(gè)源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽只與該節(jié)點(diǎn)及其子節(jié)點(diǎn)的句法標(biāo)簽相關(guān),與其他源語(yǔ)言的語(yǔ)法標(biāo)簽和模板角色標(biāo)簽無(wú)關(guān)語(yǔ)言節(jié)點(diǎn)。即,換句話(huà)說(shuō),源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽僅與生成節(jié)點(diǎn)的源語(yǔ)言的上下文無(wú)關(guān)規(guī)則相關(guān)。Role(N)為節(jié)點(diǎn)對(duì)應(yīng)的模板角色標(biāo)簽。對(duì)應(yīng)的參數(shù)歸一化條件為:這里Syn是任意語(yǔ)法標(biāo)簽,Role是任意模板角色。Template Role Tagging-Probability Model 2 假設(shè)每個(gè)源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽只與該節(jié)點(diǎn)及其子節(jié)點(diǎn)的句法標(biāo)簽相關(guān),與其他源語(yǔ)言的語(yǔ)法標(biāo)簽和模板角色標(biāo)簽無(wú)關(guān)語(yǔ)言節(jié)點(diǎn)。即,換句話(huà)說(shuō),源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽僅與生成節(jié)點(diǎn)的源語(yǔ)言的上下文無(wú)關(guān)規(guī)則相關(guān)。Template Role Tagging-Probability Model 2 假設(shè)每個(gè)源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽只與該節(jié)點(diǎn)及其子節(jié)點(diǎn)的句法標(biāo)簽相關(guān),與其他源語(yǔ)言的語(yǔ)法標(biāo)簽和模板角色標(biāo)簽無(wú)關(guān)語(yǔ)言節(jié)點(diǎn)。即,換句話(huà)說(shuō),源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽僅與生成節(jié)點(diǎn)的源語(yǔ)言的上下文無(wú)關(guān)規(guī)則相關(guān)。Template Role Tagging-Probability Model 2 假設(shè)每個(gè)源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽只與該節(jié)點(diǎn)及其子節(jié)點(diǎn)的句法標(biāo)簽相關(guān),與其他源語(yǔ)言的語(yǔ)法標(biāo)簽和模板角色標(biāo)簽無(wú)關(guān)語(yǔ)言節(jié)點(diǎn)。即,換句話(huà)說(shuō),源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽僅與生成節(jié)點(diǎn)的源語(yǔ)言的上下文無(wú)關(guān)規(guī)則相關(guān)。
因此: 這里,N 是源語(yǔ)言句法樹(shù)上的任意節(jié)點(diǎn),Syn(N) 是該節(jié)點(diǎn)對(duì)應(yīng)的句法標(biāo)記,Rule(N) 是生成該節(jié)點(diǎn)的上下文無(wú)關(guān)規(guī)則。對(duì)應(yīng)的參數(shù)歸一化條件為: 模板角色標(biāo)簽-概率模型 3 假設(shè)每個(gè)源語(yǔ)言節(jié)點(diǎn)的模板角色標(biāo)簽不僅與節(jié)點(diǎn)及其子節(jié)點(diǎn)的句法標(biāo)簽有關(guān),還與父節(jié)點(diǎn)的模板有關(guān)角色標(biāo)簽是相關(guān)的,與其他源語(yǔ)言節(jié)點(diǎn)的語(yǔ)法標(biāo)簽和模板角色標(biāo)簽無(wú)關(guān)。所以:這里,N 是源語(yǔ)言語(yǔ)法樹(shù)上的任意節(jié)點(diǎn)基于模板的統(tǒng)計(jì)翻譯,Syn(N) 是節(jié)點(diǎn)對(duì)應(yīng)的語(yǔ)法標(biāo)記,Rule(N) 是生成節(jié)點(diǎn)的上下文無(wú)關(guān)規(guī)則,Parent(N) 是node 點(diǎn)的父節(jié)點(diǎn)。對(duì)應(yīng)的參數(shù)歸一化條件為: 訓(xùn)練方法算法 維特比算法:每次只考慮*大可能的對(duì)齊 EM算法:考慮所有可能的對(duì)齊 基本過(guò)程:迭代,直到收斂短語(yǔ)對(duì)齊模板提取參數(shù)估計(jì)參數(shù)訓(xùn)練算法目前可用 初步思路,但考慮尚不成熟。您需要嘗試多種方法并通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證它們。下面通過(guò)一個(gè)例子簡(jiǎn)單說(shuō)明EGYPT工具包EGYPT的模塊GIZA:該模塊用于從雙語(yǔ)語(yǔ)料庫(kù)中提取統(tǒng)計(jì)知識(shí)(參數(shù)訓(xùn)練) Decoder:Decoder,用于執(zhí)行具體的翻譯過(guò)程(在源通道模型中, “翻譯”是“解碼”)開(kāi)羅:整個(gè)翻譯系統(tǒng)的可視化界面,用于管理所有參數(shù)和查看雙語(yǔ)語(yǔ)料的對(duì)齊過(guò)程和翻譯模型的解碼過(guò)程 Whittle:語(yǔ)料預(yù)處理工具EGYPT可以在網(wǎng)上免費(fèi)下載,它有成為SMT的標(biāo)桿。和性能。
在 1990 年代初在 IBM 舉行的 DARPA 機(jī)器翻譯評(píng)估中,我們?cè)?jīng)預(yù)測(cè)只有非常短的句子(大約 10 個(gè)單詞)可以通過(guò)統(tǒng)計(jì)方法進(jìn)行解碼。即便如此,每個(gè)句子的解碼時(shí)間也可能是幾個(gè)小時(shí)。在 IBM 早期工作近 10 年后,摩爾定律、更好的編譯器、更充足的內(nèi)存和硬盤(pán)空間幫助我們構(gòu)建了一個(gè)可以在幾秒鐘內(nèi)解碼 25 個(gè)單詞的句子的系統(tǒng)。為確保成功,我們?cè)谒阉髦惺褂昧讼喈?dāng)嚴(yán)格的閾值和約束,如下所述。但是,解碼器相當(dāng)有效的事實(shí)預(yù)示著未來(lái)該方向的工作前景良好,也肯定了IBM工作的初衷,即強(qiáng)調(diào)概率模型比效率更重要?!訨HU統(tǒng)計(jì)機(jī)器翻譯研討會(huì)關(guān)于改進(jìn)IBM方法的技術(shù)報(bào)告。IBM方法的問(wèn)題不考慮結(jié)構(gòu):能否適用于句法結(jié)構(gòu)差異較大的語(yǔ)言?數(shù)據(jù)稀疏問(wèn)題嚴(yán)重。后續(xù)改進(jìn)工作 王業(yè)怡的改進(jìn) 山田和奈特的改進(jìn)。Och 等人的改進(jìn)。王野義的改進(jìn)(1) 背景:德英口語(yǔ)翻譯系統(tǒng)的語(yǔ)法結(jié)構(gòu)差異較大。數(shù)據(jù)稀疏(訓(xùn)練數(shù)據(jù)有限)。改進(jìn):兩級(jí)對(duì)齊模型粗對(duì)齊:短語(yǔ)之間的對(duì)齊精細(xì)對(duì)齊:詞組中詞的對(duì)齊方式王野義的改進(jìn)(2)詞聚類(lèi)的語(yǔ)法推導(dǎo):基于互信息法的詞組合并規(guī)則學(xué)習(xí)優(yōu)勢(shì) 提高機(jī)器翻譯準(zhǔn)確率:錯(cuò)誤率降低11% 提高整個(gè)系統(tǒng)效率:搜索空間更小,數(shù)據(jù)稀疏問(wèn)題口語(yǔ)數(shù)據(jù)的缺乏得到緩解。Yamada 和 Knight 的改進(jìn)(1) Syntax-based TM):輸入是源語(yǔ)言句法樹(shù)輸出是目標(biāo)語(yǔ)言句子翻譯的過(guò)程:每個(gè)內(nèi)部節(jié)點(diǎn)的子節(jié)點(diǎn)隨機(jī)重新排列:置換概率在每個(gè)節(jié)點(diǎn)的左邊或右邊隨機(jī)插入一個(gè)詞。左右插入和不插入的概率取決于父節(jié)點(diǎn)和當(dāng)前節(jié)點(diǎn)標(biāo)簽插入哪個(gè)詞只與插入詞相關(guān)的概率,不是位置?翻譯每個(gè)葉節(jié)點(diǎn):詞到詞的翻譯概率輸出Yamada和Knight的目標(biāo)句改進(jìn)(2) Yamada and Knight改進(jìn)(3)
*大熵方法大大擴(kuò)展了統(tǒng)計(jì)機(jī)器翻譯的思路;特征的選擇更加靈活。統(tǒng)計(jì)機(jī)器翻譯的應(yīng)用 傳統(tǒng)機(jī)器翻譯的應(yīng)用是跨語(yǔ)言檢索 聶建云 使用IBM Model 1 快速開(kāi)發(fā)CLIR 機(jī)器翻譯系統(tǒng)。未知語(yǔ)言統(tǒng)計(jì)機(jī)器翻譯方法的快速發(fā)展總結(jié)。IBM 當(dāng)年的工作有些先進(jìn)。雖然很多人懷疑統(tǒng)計(jì)方法能否在機(jī)器翻譯中取得成功,但這現(xiàn)在已經(jīng)不是問(wèn)題了。在 NIST MT Eval 2002 中,得分*高的系統(tǒng)都采用了統(tǒng)計(jì)機(jī)器翻譯方法?;谄叫姓Z(yǔ)法的機(jī)器翻譯方法普遍不成功?;?大熵的方法為統(tǒng)計(jì)機(jī)器翻譯方法開(kāi)辟了新天地。研究思路總結(jié)。基于模板的統(tǒng)計(jì)翻譯模型轉(zhuǎn)換算法的基本假設(shè)。概率模型訓(xùn)練算法(對(duì)齊)。實(shí)驗(yàn)方案與其他統(tǒng)計(jì)機(jī)器翻譯方法的比較?;炯僭O(shè)總結(jié)。使用基于*大熵的統(tǒng)計(jì)機(jī)器翻譯模型;提出基于模板的統(tǒng)計(jì)翻譯模型: 基于模板翻譯模型的句法樹(shù)對(duì)齊提取翻譯模板其他特征中文詞法分析中文句法分析基于模板的統(tǒng)計(jì)翻譯模型轉(zhuǎn)換模型P(T|S)轉(zhuǎn)換模型的輸入輸出P (T|S) 是句法樹(shù)。引入轉(zhuǎn)換模板是為了引入模板角色的概念。模板角色標(biāo)注的思想建立了三個(gè)不同層次的統(tǒng)計(jì)翻譯模型。基于模板的統(tǒng)計(jì)翻譯模型的參數(shù)訓(xùn)練算法轉(zhuǎn)換 template-illustration vp(v:1 n:2)? Vp(vp:1 np( t(one's) n:2)) v vp n vp vp np vn 轉(zhuǎn)換模板-定義轉(zhuǎn)換模板的形式化定義:轉(zhuǎn)換模板由兩棵具有對(duì)齊關(guān)系的句法子樹(shù)組成;兩棵句法子樹(shù)的根節(jié)點(diǎn)相互對(duì)齊;句子全部非根非根-子樹(shù)的葉節(jié)點(diǎn)對(duì)齊為空;語(yǔ)法子樹(shù)的葉節(jié)點(diǎn)要么與相應(yīng)語(yǔ)法子樹(shù)的葉節(jié)點(diǎn)對(duì)齊,要么與空對(duì)齊;
轉(zhuǎn)換模板反映了兩個(gè)句法子樹(shù)的節(jié)點(diǎn)之間的對(duì)應(yīng)關(guān)系?;谀0宓霓D(zhuǎn)換算法以自頂向下轉(zhuǎn)換算法為例。該圖顯示可以使用其他搜索策略。練習(xí)規(guī)劃。Chinese: 我們可以參考其他工廠(chǎng)的經(jīng)驗(yàn)來(lái)制定我們的計(jì)劃?;谀0宓霓D(zhuǎn)換 (1) (a) vp(v(cf.) np:1)? Pp( p(in ) np(np(t(the) n(light)) pp(p) (of) np:1))) vbnun np ap np vp 基于模板轉(zhuǎn)換比較其他工廠(chǎng)的做法 (2) ( b) np(ap:1 n(practice))? np(np( t(the) n(experiences)) pp:1) pbnun np ap np:
基于并行概率文法的統(tǒng)計(jì)機(jī)器翻譯模型的基本思想。兩種語(yǔ)言建立了一套平行的語(yǔ)法規(guī)則。規(guī)則對(duì)應(yīng)兩套規(guī)則,服從相同的概率分布。句法分析的過(guò)程決定了生成的過(guò)程。主要模型基于 Alshawi 的 Head Transducer。MT模型吳德凱的Inverse Transduction Grammar(ITG)武田的Pattern-based CFG for MT Head Transducer MT(1) Head Transducer)是Definite State Automata(有限狀態(tài)自動(dòng)機(jī))和一般有限狀態(tài)識(shí)別器的區(qū)別:端不僅有輸入,還有輸出;不是從左到右輸入,而是從中心詞輸入到兩邊 Head Transducer MT(2) a:a 0:0 0:0 b:ba:a -1:+1 b:b -1 :+1 示例:
對(duì)于上下文無(wú)關(guān)語(yǔ)法規(guī)則的每個(gè)右側(cè)部分(子節(jié)點(diǎn))對(duì)于非終結(jié)符,可以指定其中心詞;對(duì)于規(guī)則左邊的非終結(jié)符(父節(jié)點(diǎn)),可以直接指定它的中心字,也可以使用相同的序號(hào)來(lái)指定它的中心字等于某個(gè)右邊的中心字非終結(jié)符;鏈接約束:源語(yǔ)言骨架和目標(biāo)語(yǔ)言骨架的非終結(jié)符子節(jié)點(diǎn)使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符為相互翻譯?;蛘呖梢允褂孟嗤男蛱?hào)來(lái)指定其中心字等于某個(gè)對(duì)非終結(jié)符的中心字;鏈接約束:源語(yǔ)言骨架和目標(biāo)語(yǔ)言骨架的非終結(jié)符子節(jié)點(diǎn)使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符為相互翻譯?;蛘呖梢允褂孟嗤男蛱?hào)來(lái)指定其中心字等于某個(gè)對(duì)非終結(jié)符的中心字;鏈接約束:源語(yǔ)言骨架和目標(biāo)語(yǔ)言骨架的非終結(jié)符子節(jié)點(diǎn)使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符為相互翻譯。
源通道模型假設(shè)目標(biāo)語(yǔ)言文本T是從一段源語(yǔ)言文本S中通過(guò)某種奇怪的編碼得到的,那么翻譯的目標(biāo)是將T還原為S,這是一個(gè)解碼過(guò)程。注意,源語(yǔ)言S是噪聲通道的輸入語(yǔ)言,目標(biāo)語(yǔ)言T是噪聲通道的輸出語(yǔ)言,正好與整個(gè)機(jī)器翻譯系統(tǒng)的源語(yǔ)言和目標(biāo)語(yǔ)言相反。SP(S) P(T|S) T 統(tǒng)計(jì)機(jī)器翻譯的基本方程 P. Brown 將上述方程稱(chēng)為統(tǒng)計(jì)機(jī)器翻譯的基本方程。語(yǔ)言模型:P(S) 翻譯模型:P(T|S) 語(yǔ)言模型反映“S”“Like a sentence”的程度:翻譯模型反映“T is like S”的流暢程度:兩種模型的結(jié)合對(duì)于保真度來(lái)說(shuō)比單獨(dú)使用翻譯模型要好,因?yàn)楹笳吆芸赡軙?huì)導(dǎo)致一些不好的翻譯。語(yǔ)言模型和翻譯模型考慮漢語(yǔ)動(dòng)詞“打”的翻譯:對(duì)應(yīng)的英文單詞翻譯有幾十種:打人、玩飯、玩魚(yú)、玩毛衣、打獵、玩草稿等,如果直接用翻譯模型,只需使用翻譯模型。需要基于上下文建立復(fù)雜的上下文條件概率模型。如果采用source-channel思想,只要建立一個(gè)簡(jiǎn)單的翻譯模型,就可以達(dá)到目標(biāo)詞選擇的效果: 翻譯模型:不考慮上下文,只考慮詞之間的翻譯概率。模型:根據(jù)詞之間的共現(xiàn)選擇*佳目標(biāo)詞。統(tǒng)計(jì)機(jī)器翻譯的三個(gè)問(wèn)題。三個(gè)問(wèn)題: 語(yǔ)言模型 P(S) 的參數(shù)估計(jì) 翻譯模型 P(T|S) 的參數(shù)估計(jì)和解碼(搜索) 算法語(yǔ)言模型將語(yǔ)言理解為產(chǎn)生句子的隨機(jī)事件。語(yǔ)言模型反映了一個(gè)句子在一種語(yǔ)言中出現(xiàn)的概率。語(yǔ)言模型N-gram P(S)=p(s0)* p(s1|s0)*…*p(Sn|Sn-1…Sn-N) 鏈?zhǔn)秸Z(yǔ)法:可以處理長(zhǎng)距離相關(guān)PCFG(需要語(yǔ)法符號(hào)) 引入隱藏變量: Align 一個(gè)翻譯模型,將對(duì)齊P(T|S)的計(jì)算轉(zhuǎn)化為P(T,A|S)的估計(jì)對(duì)齊:建立源語(yǔ)言句子和目標(biāo)語(yǔ)言句子的詞之間的對(duì)應(yīng)關(guān)系。IBM 模型比較 P(T,
設(shè)m為當(dāng)前總詞數(shù):m-prime+φ0;根據(jù)概率表t(f|e),用外來(lái)詞f替換每個(gè)詞e;對(duì)于每個(gè)不是由空詞NULL產(chǎn)生的外來(lái)詞,根據(jù)概率表d(j|i,l,m)分配一個(gè)位置。這里j是法語(yǔ)單詞在法語(yǔ)字符串中的位置,i是產(chǎn)生當(dāng)前法語(yǔ)單詞的對(duì)應(yīng)英語(yǔ)單詞在英語(yǔ)句子中的位置,l是英語(yǔ)字符串的長(zhǎng)度,m是法語(yǔ)字符串;如果任一目標(biāo)語(yǔ)言位置多次登錄(包含多個(gè)單詞)將返回失?。挥煽赵~ NULL 生成的詞被分配一個(gè)目標(biāo)語(yǔ)言位置。這些位置必須是空的(未被占用)。任何分配都被認(rèn)為是等概率的,概率值為 1/φ0。*后,讀取法語(yǔ)字符串,其概率是上述每個(gè)步驟的概率的乘積。翻譯模型參數(shù)訓(xùn)練 Viterbi Training(對(duì)比:EM Training) 給定初始參數(shù);使用現(xiàn)有參數(shù)尋找*佳(維特比)比對(duì);使用得到的alignment重新計(jì)算參數(shù);返回第二步直到收斂。IBM 模型 1:存在全局*優(yōu)。IBM Model 2~5:沒(méi)有全局*優(yōu)。初始值是之前模型訓(xùn)練的結(jié)果。統(tǒng)計(jì)機(jī)器翻譯的解碼參考了語(yǔ)音識(shí)別的搜索算法:棧搜索參數(shù)空間很大,搜索不能總是保證*好。從錯(cuò)誤類(lèi)型來(lái)看,只有兩種類(lèi)型: 模型錯(cuò)誤:概率*高的句子不是正確的句子。搜索錯(cuò)誤:沒(méi)有找到概率*高的句子。第二類(lèi)錯(cuò)誤僅占錯(cuò)誤總數(shù)的 5% (IBM) Search 問(wèn)題不是瓶頸。IBM 的 Candide 系統(tǒng) 1 基于統(tǒng)計(jì)的機(jī)器翻譯方法 analysis-transformation-generation 中間表示是線(xiàn)性分析,生成都是可逆分析(預(yù)處理):1.詞組切分2.專(zhuān)有名詞和數(shù)字檢測(cè)3.大小寫(xiě)和拼寫(xiě)糾正4.形態(tài)分析5.語(yǔ)言歸一化IBM Candide系統(tǒng)2轉(zhuǎn)換(解碼):基于統(tǒng)計(jì)的機(jī)器翻譯解碼分為兩個(gè)階段: 階段1:Stack search使用粗糙模型輸出140個(gè)得分*高的翻某言模型: 三元語(yǔ)法翻譯模型:EM算法第二階段:使用精細(xì)模型的擾動(dòng)搜索擴(kuò)展第一階段的輸出結(jié)果,然后重新-分?jǐn)?shù)。語(yǔ)言模型:鏈?zhǔn)秸Z(yǔ)法翻譯模型:*大熵法IBM的Candide系統(tǒng)3 ARPA測(cè)試結(jié)果:?流暢度充足時(shí)間比 1992 1993 1992 1993 1992 1993 Systran .466 .540 .686 .743?? 老實(shí)人 .511 .580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手冊(cè)?。833?.840?? JHU 1999 年夏季研討會(huì)起源于引起廣泛興趣的IBM 實(shí)驗(yàn)。IBM 的實(shí)驗(yàn)很難重復(fù):工作量太大。目的是構(gòu)建一個(gè)統(tǒng)計(jì)機(jī)器翻譯工具(EGYPT)并使其對(duì)研究人員有用。說(shuō)它是可用的(免費(fèi)傳播);在研討會(huì)中使用此工具集構(gòu)建捷克-英語(yǔ)機(jī)器翻譯系統(tǒng);進(jìn)行基準(zhǔn)評(píng)估:主觀(guān)和客觀(guān);通過(guò)使用形態(tài)和句法轉(zhuǎn)錄機(jī)改進(jìn)基準(zhǔn)結(jié)果;在研討會(huì)結(jié)束時(shí),一天之內(nèi)為新語(yǔ)言對(duì)構(gòu)建了一個(gè)翻譯器。JHU Summer Seminar極大地推動(dòng)了統(tǒng)計(jì)機(jī)器翻譯的研究。北京大學(xué)博士論文公開(kāi)報(bào)告 2002-12-30 北京大學(xué)博士論文公開(kāi)報(bào)告 2002-12-30 580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手冊(cè)?.833?.840?? 重復(fù):工作量太大。目的是構(gòu)建一個(gè)統(tǒng)計(jì)機(jī)器翻譯工具(EGYPT)并提供給研究人員(免費(fèi)傳播);在研討會(huì)中使用該工具集構(gòu)建捷克-英語(yǔ)機(jī)器翻譯系統(tǒng);進(jìn)行基準(zhǔn)評(píng)估:主觀(guān)和客觀(guān);通過(guò)使用形態(tài)和句法轉(zhuǎn)錄機(jī)改進(jìn)基準(zhǔn)結(jié)果;在研討會(huì)結(jié)束時(shí),在一天內(nèi)構(gòu)建一個(gè)新的語(yǔ)言對(duì)翻譯器。JHU Summer Seminar極大地推動(dòng)了統(tǒng)計(jì)機(jī)器翻譯的研究。北京大學(xué)博士論文公開(kāi)報(bào)告 2002-12-30 北京大學(xué)博士論文公開(kāi)報(bào)告 2002-12-30 580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 手冊(cè)?.833?.840?? 重復(fù):工作量太大。目的是構(gòu)建一個(gè)統(tǒng)計(jì)機(jī)器翻譯工具(EGYPT)并提供給研究人員(免費(fèi)傳播);在研討會(huì)中使用該工具集構(gòu)建捷克-英語(yǔ)機(jī)器翻譯系統(tǒng);進(jìn)行基準(zhǔn)評(píng)估:主觀(guān)和客觀(guān);通過(guò)使用形態(tài)和句法轉(zhuǎn)錄機(jī)改進(jìn)基準(zhǔn)結(jié)果;在研討會(huì)結(jié)束時(shí),在一天內(nèi)構(gòu)建一個(gè)新的語(yǔ)言對(duì)翻譯器。JHU Summer Seminar極大地推動(dòng)了統(tǒng)計(jì)機(jī)器翻譯的研究。北京大學(xué)博士論文開(kāi)題報(bào)告 2002-12-30 北京大學(xué)博士論文開(kāi)題報(bào)告 2002-12-30
- 上一條審協(xié)筆試翻譯模板 專(zhuān)利審查協(xié)作廣東中心2020年度公開(kāi)招聘專(zhuān)利審查員筆面試公告(第一批)
- 下一條英國(guó)使館簽證出生證翻譯模板 英國(guó)留學(xué):2018簽證新政規(guī)定tier4學(xué)生簽需提交的資料清單
相關(guān)閱讀Relate
熱門(mén)文章 Recent
- 駕照的翻譯模板 2020如何用中國(guó)駕照翻譯件在澳洲開(kāi)車(chē)?2023-03-11
- 南非駕駛證翻譯模板 中國(guó)駕照在Khao Lak能用嗎2023-03-11
- 帶翻譯的考研英語(yǔ)一模板 考研英語(yǔ)一歷年真題解析書(shū)籍推薦2023-03-11
- 法律職業(yè)資格證翻譯模板 2019@人民日?qǐng)?bào)推薦的13本證書(shū)!你打算考哪個(gè)?2023-03-11
- 招聘英語(yǔ)作文萬(wàn)能模板帶翻譯 英語(yǔ)求職范文帶翻譯2023-03-11
- 英語(yǔ)四級(jí)萬(wàn)能模板及翻譯 四級(jí)英語(yǔ)作文萬(wàn)能模板和翻譯2023-03-11
- 翻譯評(píng)鑒模板-營(yíng)業(yè)執(zhí)照翻譯模板2023-03-11
- 日語(yǔ)合同翻譯模板 翻譯服務(wù)合同模板一2023-03-11
- 應(yīng)聘翻譯的簡(jiǎn)歷模板應(yīng)屆生-本科應(yīng)屆畢業(yè)生個(gè)人簡(jiǎn)歷模板2023-03-11
- 美國(guó)堪薩斯州駕照翻譯模板展示 出國(guó)當(dāng)選自駕游,一分鐘讓你的“中國(guó)駕照”通用180個(gè)國(guó)家2023-03-11