數(shù)據(jù)處理模板的翻譯 基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器翻譯模板自動(dòng)獲取方法
日期:2023-03-11 12:39:36 / 人氣: 752 / 發(fā)布者:成都翻譯公司
這種算法是一種無監(jiān)督的、基于統(tǒng)計(jì)的、數(shù)據(jù)驅(qū)動(dòng)的方法。齊的自動(dòng)獲取機(jī)器翻譯模板的方法。在早期的基于實(shí)例的機(jī)器翻譯系統(tǒng)中,翻譯模板往往是手工從語料庫中提取出來的。的機(jī)器翻譯系統(tǒng)[2],在這個(gè)系統(tǒng)中,采用了人工撰寫的匹配表達(dá)式作為機(jī)器翻譯的模板。在本文當(dāng)中,我們提出了一種基于統(tǒng)計(jì)的、數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯模板自動(dòng)獲取方法。結(jié)論在本文當(dāng)中,我們提出了一種基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器翻譯模板的自動(dòng)獲取方法。機(jī)器翻譯中文圖像分類號(hào):TP391.2 Approach Automatic Translation Template Acquisition Based Statistical Learning 胡日樂,宗承清,徐波(模式識(shí)別國(guó)家實(shí)驗(yàn)室,中國(guó)科學(xué)院自動(dòng)化研究所,北京100080,中國(guó)); 摘要:論文,我們提出了一種新方法,可以從未注釋的雙語口語語料庫中自動(dòng)獲取翻譯模板。無監(jiān)督、統(tǒng)計(jì)、數(shù)據(jù)驅(qū)動(dòng)的方法。方法中,采用了兩種基本算法,即語法歸納算法對(duì)齊算法,即使用括號(hào)轉(zhuǎn)導(dǎo)語法的算法。首先,從兩種源語言目標(biāo)語言中提取語義組短語結(jié)構(gòu)組。其次,基于對(duì)齊算法的 BracketingTransduction 語法對(duì)齊短語結(jié)構(gòu)組。對(duì)齊的短語結(jié)構(gòu)組翻譯模板。初步實(shí)驗(yàn)結(jié)果我們的算法實(shí)用。關(guān)鍵詞:雙語語法歸納,翻譯模板獲取數(shù)據(jù)處理模板的翻譯,結(jié)構(gòu)對(duì)齊,機(jī)器模板作為機(jī)器翻譯系統(tǒng)中知識(shí)表示的一種重要形式,由于其表達(dá)簡(jiǎn)潔、形式直觀、通用性強(qiáng)。機(jī)器翻譯簡(jiǎn)介機(jī)器翻譯模板是機(jī)器翻譯系統(tǒng)中重要的知識(shí)表示形式。由于其表達(dá)簡(jiǎn)潔、形式直觀、通用性強(qiáng),近年來受到廣泛關(guān)注。機(jī)器翻譯引言機(jī)器翻譯模板是機(jī)器翻譯系統(tǒng)中一種重要的知識(shí)表示形式。
在許多機(jī)器翻譯和機(jī)器輔助翻譯系統(tǒng)中,機(jī)器翻譯模板是必不可少的資源。因此,研究機(jī)器翻譯模板的自動(dòng)獲取方法具有重要的現(xiàn)實(shí)意義。在本文中,我們提出了一種基于短語結(jié)構(gòu)提取和對(duì)齊的英漢對(duì)齊雙語語料庫自動(dòng)獲取機(jī)器翻譯模板的方法。在早期的基于實(shí)例的機(jī)器翻譯系統(tǒng)中,翻譯模板通常是從語料庫中手動(dòng)提取的。北野在他的系統(tǒng)中采用了手動(dòng)編碼翻譯規(guī)則的方法[1]。Sato 還建立了一個(gè)基于實(shí)例的機(jī)器翻譯系統(tǒng)[2],其中將人類編寫的匹配表達(dá)式作為機(jī)器翻譯的模板。然而,隨著語料庫越來越大,這種手工方法會(huì)越來越難,會(huì)帶來越來越多的錯(cuò)誤。作者簡(jiǎn)介:胡日樂(1978-),男,博士生,研究方向?yàn)闄C(jī)器翻譯。也有學(xué)者提出了從語料庫中自動(dòng)獲取模板的方法,如Gvenir和Cicekli等人[3][4]提出的基于類比學(xué)習(xí)的方法。以及Watanabe和Imamura等人[5][6]提出的基于結(jié)構(gòu)對(duì)齊的方法?;陬惐??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子。這種手工方法會(huì)越來越難數(shù)據(jù)處理模板的翻譯,會(huì)帶來越來越多的錯(cuò)誤。作者簡(jiǎn)介:胡日樂(1978-),男,博士生,研究方向?yàn)闄C(jī)器翻譯。也有學(xué)者提出了從語料庫中自動(dòng)獲取模板的方法,如Gvenir和Cicekli等人[3][4]提出的基于類比學(xué)習(xí)的方法。以及Watanabe和Imamura等人[5][6]提出的基于結(jié)構(gòu)對(duì)齊的方法?;陬惐??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子。這種手工方法會(huì)越來越難,會(huì)帶來越來越多的錯(cuò)誤。作者簡(jiǎn)介:胡日樂(1978-),男,博士生,研究方向?yàn)闄C(jī)器翻譯。也有學(xué)者提出了從語料庫中自動(dòng)獲取模板的方法,如Gvenir和Cicekli等人[3][4]提出的基于類比學(xué)習(xí)的方法。以及Watanabe和Imamura等人[5][6]提出的基于結(jié)構(gòu)對(duì)齊的方法?;陬惐??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子。作者簡(jiǎn)介:胡日樂(1978-),男,博士生,研究方向?yàn)闄C(jī)器翻譯。也有學(xué)者提出了從語料庫中自動(dòng)獲取模板的方法,如Gvenir和Cicekli等人[3][4]提出的基于類比學(xué)習(xí)的方法。以及Watanabe和Imamura等人[5][6]提出的基于結(jié)構(gòu)對(duì)齊的方法?;陬惐??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子。作者簡(jiǎn)介:胡日樂(1978-),男,博士生,研究方向?yàn)闄C(jī)器翻譯。也有學(xué)者提出了從語料庫中自動(dòng)獲取模板的方法,如Gvenir和Cicekli等人[3][4]提出的基于類比學(xué)習(xí)的方法。以及Watanabe和Imamura等人[5][6]提出的基于結(jié)構(gòu)對(duì)齊的方法。基于類比??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子。也有學(xué)者提出了從語料庫中自動(dòng)獲取模板的方法,如Gvenir和Cicekli等人[3][4]提出的基于類比學(xué)習(xí)的方法。以及Watanabe和Imamura等人[5][6]提出的基于結(jié)構(gòu)對(duì)齊的方法。基于類比??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子。也有學(xué)者提出了從語料庫中自動(dòng)獲取模板的方法,如Gvenir和Cicekli等人[3][4]提出的基于類比學(xué)習(xí)的方法。以及Watanabe和Imamura等人[5][6]提出的基于結(jié)構(gòu)對(duì)齊的方法。基于類比??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子?;陬惐??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子。基于類比??的學(xué)習(xí)方法是將語料庫中翻譯實(shí)例的相同部分和不同部分進(jìn)行比較,匯總,用變量替換不同部分,得到翻譯模板。這種方法需要非常大規(guī)模的雙語語料庫,其中包含大量相似的句子。
基于結(jié)構(gòu)對(duì)齊的方法遵循“分析-分析-匹配”的過程[7]。該方法首先分別分析兩種語言的語法,然后根據(jù)一定的啟發(fā)式算法匹配雙語結(jié)構(gòu)。這種方法需要兩種語言的高精度句法分析器。目前,尤其是中文,很難找到可靠的句法分析工具。盧亞娟[9]等人提出了一種基于單一句法分析的結(jié)構(gòu)對(duì)齊方法,取得了較好的效果,但仍需以句法分析為基礎(chǔ)。在本文中,我們提出了一種基于統(tǒng)計(jì)、數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯模板自動(dòng)獲取方法。該方法基于雙語語法歸納和基于括號(hào)轉(zhuǎn)導(dǎo)語法(BTG)的結(jié)構(gòu)對(duì)齊。本文的其余部分是這樣安排的: 第 2 部分介紹了模板獲取系統(tǒng)的系統(tǒng)架構(gòu);第三部分介紹了兩種基本算法,即雙語語法歸納算法和基于雙語分界語法的對(duì)齊算法;第四部分介紹了實(shí)驗(yàn)結(jié)果與分析;*后,第五部分是結(jié)論。系統(tǒng)架構(gòu)介紹 基于結(jié)構(gòu)對(duì)齊的模板獲取方法是當(dāng)前模板獲取研究的主要方法。許多學(xué)者在這一研究領(lǐng)域做了大量工作。但是由于很難得到足夠準(zhǔn)確的句法分析結(jié)果(尤其是中文),
因此,我們致力于尋找一種方法來避免使用句法分析的結(jié)果。在本文中,我們使用雙語語法歸納作為短語結(jié)構(gòu)提取的方法。我們的機(jī)器翻譯模板采集系統(tǒng)的架構(gòu)如圖1所示: Sentence Alignment Bilingual corpus 漢語詞匯歸納語法歸納對(duì)齊翻譯模板 翻譯模板采集系統(tǒng)架構(gòu) 系統(tǒng)的輸入是sentence-aligned雙語語料。首先對(duì)中文語料進(jìn)行分割,然后分別對(duì)中文和英文的語法進(jìn)行歸納,得到雙語的語義類(標(biāo)記為SCi)和短語結(jié)構(gòu)類(標(biāo)記為PCi)。*后,使用改進(jìn)的 BTG 對(duì)齊獲得的短語結(jié)構(gòu)類。對(duì)對(duì)齊的短語結(jié)構(gòu)類進(jìn)行后處理后,即可得到所需的翻譯模板。下面通過一個(gè)簡(jiǎn)單的例子來說明如何獲取模板。表1列出了我們從語料庫中得到的一些語義類和詞組結(jié)構(gòu)類的列表: 部分語義類和詞組結(jié)構(gòu)類 中文部分:SCC10 Double Standard Room PCC3 PCC3SCC10 PCC12 Reservation PCC20 PCC12PCC8 英文部分:SCE5 standardPCE2 SCE5room PCE8 PCE2reserve PCE14 PCE8PCE4 從表1中的語義類和詞組結(jié)構(gòu)類,對(duì)齊后可以得到如下結(jié)果:room/N]]。其中to/ε表示to在這句話中沒有對(duì)應(yīng)的中文詞;= single;N=double room=double;N=standard room=standard 由此,我們可以得到如下翻譯模板:=single;N=double room=double; N=standard room=standard 我們稱之為常量模板。它被稱為變量模板。
基本算法說明 3.1 語法歸納算法 本文使用的語法歸納算法是一種聚類算法。該算法包括兩個(gè)主要步驟:空間聚類和時(shí)間聚類。在空間聚類過程中,我們將具有相似上下文的單元?dú)w為一類。這些單元通常具有相似的語義。我們稱這些類別為語義類別,并將它們標(biāo)記為 SCi。在時(shí)間聚類過程中,我們將共現(xiàn)概率*高的單元?dú)w為一類。這些單位是常用的短語。我們將這些類別稱為短語結(jié)構(gòu)類別并將它們標(biāo)記為 PCi。語法歸納算法流程如表2所示。 語法歸納算法流程步驟1:設(shè)置計(jì)數(shù)器i=0;第二步:如果處理了中文部分,對(duì)中文部分進(jìn)行分詞;第三步:提取詞匯(單元不僅僅是詞匯,還有可能還有班級(jí)標(biāo)記);Step 4:空間聚類,將語義相似度較高的詞聚類為一類;第五步:將語義類中的詞替換為其標(biāo)記;Step 6:時(shí)間聚類,將互信息較高的聚集在一起;第七步:將詞組結(jié)構(gòu)類中的單元替換為它們的類標(biāo)記;第八步:i=i+1;步驟9:如果i達(dá)到預(yù)設(shè)數(shù)量N,則結(jié)束;否則轉(zhuǎn)步驟3。聚類數(shù)N根據(jù)語料設(shè)置。在空間聚類中,我們使用兩種類型的相似性度量,即基于距離的度量和基于向量空間的相似性度量。提取詞匯(單元不僅僅是詞匯,還有可能還有班級(jí)標(biāo)記);Step 4:空間聚類,將語義相似度較高的詞聚類為一類;第五步:將語義類中的詞替換為其標(biāo)記;Step 6:時(shí)間聚類,將互信息較高的聚集在一起;第七步:將詞組結(jié)構(gòu)類中的單元替換為它們的類標(biāo)記;第八步:i=i+1;步驟9:如果i達(dá)到預(yù)設(shè)數(shù)量N,則結(jié)束;否則轉(zhuǎn)步驟3。聚類數(shù)N根據(jù)語料設(shè)置。在空間聚類中,我們使用兩種類型的相似性度量,即基于距離的度量和基于向量空間的相似性度量。提取詞匯(單元不僅僅是詞匯,還有可能還有班級(jí)標(biāo)記);Step 4:空間聚類,將語義相似度較高的詞聚類為一類;第五步:將語義類中的詞替換為其標(biāo)記;Step 6:時(shí)間聚類,將互信息較高的聚集在一起;第七步:將詞組結(jié)構(gòu)類中的單元替換為它們的類標(biāo)記;第八步:i=i+1;步驟9:如果i達(dá)到預(yù)設(shè)數(shù)量N,則結(jié)束;否則轉(zhuǎn)步驟3。聚類數(shù)N根據(jù)語料設(shè)置。在空間聚類中,我們使用兩種類型的相似性度量,即基于距離的度量和基于向量空間的相似性度量。將語義相似度較高的詞歸為一類;第五步:將語義類中的詞替換為其標(biāo)記;Step 6:時(shí)間聚類,將互信息較高的聚集在一起;第七步:將詞組結(jié)構(gòu)類中的單元替換為它們的類標(biāo)記;第八步:i=i+1;步驟9:如果i達(dá)到預(yù)設(shè)數(shù)量N,則結(jié)束;否則轉(zhuǎn)步驟3。聚類數(shù)N根據(jù)語料設(shè)置。在空間聚類中,我們使用兩種類型的相似性度量,即基于距離的度量和基于向量空間的相似性度量。將語義相似度較高的詞歸為一類;第五步:將語義類中的詞替換為其標(biāo)記;Step 6:時(shí)間聚類,將互信息較高的聚集在一起;第七步:將詞組結(jié)構(gòu)類中的單元替換為它們的類標(biāo)記;第八步:i=i+1;步驟9:如果i達(dá)到預(yù)設(shè)數(shù)量N,則結(jié)束;否則轉(zhuǎn)步驟3。聚類數(shù)N根據(jù)語料設(shè)置。在空間聚類中,我們使用兩種類型的相似性度量,即基于距離的度量和基于向量空間的相似性度量。如果i達(dá)到預(yù)設(shè)數(shù)量N,則結(jié)束;否則轉(zhuǎn)步驟3。聚類數(shù)N根據(jù)語料設(shè)置。在空間聚類中,我們使用兩種類型的相似性度量,即基于距離的度量和基于向量空間的相似性度量。如果i達(dá)到預(yù)設(shè)數(shù)量N,則結(jié)束;否則轉(zhuǎn)步驟3。聚類數(shù)N根據(jù)語料設(shè)置。在空間聚類中,我們使用兩種類型的相似性度量,即基于距離的度量和基于向量空間的相似性度量。
下面分別介紹兩類相似性度量。在基于距離的度量中,我們使用 Kullback-Leibler (KL) 距離作為衡量?jī)蓚€(gè)單元的上下文分布相似度的度量:其中,p1 表示單元 e1 的相鄰詞的分布,p2 表示e2單元的相鄰詞。V 表示出現(xiàn)在 e1 和 e2 相鄰位置的所有單詞的集合。為了得到一個(gè)對(duì)稱的距離度量,我們使用散度作為距離的度量: right right left left 為了使聚類精度更高,我們引入了extended context的概念。所謂擴(kuò)展上下文是指e1和e2的相鄰詞匯的相鄰詞,即語料庫中與e1和e2距離為2的詞匯。在計(jì)算中,我們也考慮了擴(kuò)展上下文,兩個(gè)單元之間的距離可以表示為: rightright right left left left left where 是擴(kuò)展上下文的發(fā)散度。Div 的兩個(gè)單元的相似度可以表示為: DistSIM 在基于向量空間的相似度度量中,我們引入特征向量來描述一個(gè)單元的上下文。如果一個(gè)單元w出現(xiàn)在給定單元e的上下文中,這個(gè)特征可以用f(posi,w)表示,posi代表w的位置,如果w出現(xiàn)在e的左邊,則posi的值,否則,posi 的值是正確的。Div 的兩個(gè)單元的相似度可以表示為: DistSIM 在基于向量空間的相似度度量中,我們引入特征向量來描述一個(gè)單元的上下文。如果一個(gè)單元w出現(xiàn)在給定單元e的上下文中,這個(gè)特征可以用f(posi,w)表示,posi代表w的位置,如果w出現(xiàn)在e的左邊,則posi的值,否則,posi 的值是正確的。Div 的兩個(gè)單元的相似度可以表示為: DistSIM 在基于向量空間的相似度度量中,我們引入特征向量來描述一個(gè)單元的上下文。如果一個(gè)單元w出現(xiàn)在給定單元e的上下文中,這個(gè)特征可以用f(posi,w)表示,posi代表w的位置,如果w出現(xiàn)在e的左邊,則posi的值,否則,posi 的值是正確的。
每個(gè)特征的值是該特征在語料庫中出現(xiàn)的次數(shù)之和。我們用它來表示兩個(gè)單元u和v的特征向量,n是從語料庫中提取的特征總數(shù)。fi 表示第 i 個(gè)特征。我們介紹了三種基于向量空間的相似性度量,Cosine Measure,Cosine PointwiseMutual Information 和 Dice Co-efficient。余弦測(cè)度計(jì)算兩個(gè)特征向量的余弦:代表特征fi和單元u的共現(xiàn)概率,代表特征fi的概率,代表單元u的概率。其中,如果在空間聚類中,我們選擇*相似的單元(即相似度*大的單元),將它們歸為一類,并以SCi作為標(biāo)記。然后,用標(biāo)記替換類中的單位,而是執(zhí)行時(shí)間聚類。在時(shí)間聚類中,我們用互信息作為度量來表征兩個(gè)單元的共現(xiàn)程度:(10) 互信息*大的單元將歸為一類,PCi 將作為然后用對(duì)應(yīng)的標(biāo)記替換其對(duì)應(yīng)的類別,然后循環(huán)進(jìn)行空間聚類和時(shí)間聚類,直到達(dá)到預(yù)設(shè)次數(shù),語法歸納結(jié)束后,我們得到標(biāo)記為SCi的語義類和類標(biāo)記為PCi Phrase 結(jié)構(gòu)類,下一步是對(duì)齊詞組結(jié)構(gòu)?;バ畔?大的單元將被歸為一類,PCi 將作為它的標(biāo)簽。然后使用對(duì)應(yīng)的標(biāo)記替換其對(duì)應(yīng)的類別,然后循環(huán)進(jìn)行空間聚類和時(shí)間聚類,直到達(dá)到預(yù)設(shè)次數(shù)。語法歸納結(jié)束后,得到標(biāo)記為SCi的語義類和標(biāo)記為PCi的詞組結(jié)構(gòu)類別,下一步就是對(duì)齊詞組結(jié)構(gòu)。互信息*大的單元將被歸為一類,PCi 將作為它的標(biāo)簽。然后使用對(duì)應(yīng)的標(biāo)記替換其對(duì)應(yīng)的類別,然后循環(huán)進(jìn)行空間聚類和時(shí)間聚類,直到達(dá)到預(yù)設(shè)次數(shù)。語法歸納結(jié)束后,得到標(biāo)記為SCi的語義類和標(biāo)記為PCi的詞組結(jié)構(gòu)類別,下一步就是對(duì)齊詞組結(jié)構(gòu)。
3.2 基于雙語分界語法的對(duì)齊算法假設(shè)一個(gè)英文句子e1,...,eT,其對(duì)應(yīng)的中文句子為c1,...,cV。代表英文子串e s+1, es+2,..., et,分別代表c到英文和中文的約束函數(shù),s,t分別是雙語分析中對(duì)應(yīng)英文部分的開始和結(jié)束位置, u, v 是中文的開始位置和結(jié)束位置。約束函數(shù)的作用是表達(dá)已有的結(jié)構(gòu)信息,并將其整合到分析中。以下面的句子為例。如果分析的邊界與結(jié)構(gòu)提取的結(jié)果不一致,如(4, 5), (1, 2), etc),
語料庫包含 2950 個(gè)句子對(duì)。漢語詞匯989個(gè),英語詞匯1074個(gè)。中文句子平均句長(zhǎng)7.0詞,英文句子平均句長(zhǎng)6.7。將這些句子作為數(shù)據(jù)集進(jìn)行語法歸納和結(jié)構(gòu)對(duì)齊,得到翻譯模板。4.2 在實(shí)驗(yàn)結(jié)果的語法歸納中,聚類數(shù)N設(shè)為100,實(shí)驗(yàn)準(zhǔn)確率定義為:NrAcc(12) 其中N為所有模板的個(gè)數(shù)算法從語料中提取出來的,Nr是正確模板的個(gè)數(shù)。在只使用詞的翻譯概率的情況下,BTG也可以進(jìn)行雙語分析,進(jìn)行詞組對(duì)齊。因此,我們已經(jīng)將我們的算法與 BTG 單獨(dú)進(jìn)行了比較。對(duì)比結(jié)果見表2: 實(shí)驗(yàn)結(jié)果對(duì)比 1 實(shí)驗(yàn)Acc(%) only Using BTG 63.58 Our Algorithm 75.44 為了研究不同相似性度量對(duì)在算法中,我們使用了不同的相似性度量來進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表 3 所示。 顯示: 實(shí)驗(yàn)結(jié)果比較 2 相似性度量 Acc(%) Dist* 75.44 Cosine Measure 73.21 Cosine PointwiseMutual Information 76.@ >77 Dice Co-efficient 75.@ >69 4.3 實(shí)驗(yàn)結(jié)果分析從表3可以看出,使用我們算法的架構(gòu)自動(dòng)獲取機(jī)器翻譯模板比僅僅使用BTG要好,并且準(zhǔn)確率已經(jīng)達(dá)到了很好的水平。這個(gè)算法是有效的。
從表4可以看出,使用不同的相似度測(cè)度對(duì)系統(tǒng)的精度有一定的影響,采用基于點(diǎn)互信息的余弦測(cè)度作為相似度測(cè)度可以達(dá)到*高的精度。實(shí)驗(yàn)結(jié)果出現(xiàn)錯(cuò)誤的主要原因有兩個(gè):一是句子中包含的各種信息沒有被聚類算法充分利用;二是一些習(xí)語的對(duì)齊方式出現(xiàn)了一定的錯(cuò)誤。. 在今后的研究工作中,我們會(huì)介紹一些詞庫的知識(shí),對(duì)一些特殊的語言現(xiàn)象進(jìn)行一些預(yù)處理,以獲得更好的實(shí)驗(yàn)結(jié)果,減少出錯(cuò)的概率。結(jié)論 在本文中,我們提出了一種基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器翻譯模板自動(dòng)獲取方法。這種方法不需要對(duì)語料進(jìn)行注釋,也不需要任何句法分析器。該方法在雙語中分別采用語法歸納法得到語義類和短語結(jié)構(gòu)類,然后采用BTG引導(dǎo)的結(jié)構(gòu)對(duì)齊過程。對(duì)結(jié)構(gòu)對(duì)齊的結(jié)果進(jìn)行后處理,得到機(jī)器翻譯的模板。初步的實(shí)驗(yàn)結(jié)果表明,雖然我們?cè)谔岣哒Z法歸納和對(duì)齊的質(zhì)量方面還面臨許多困難,但該方法取得了令人滿意的效果。參考文獻(xiàn):PracticalModel Memory-based Machine Translation[A]。13.IJCAI[C]。法國(guó)尚貝里。1993. 佐藤聰。MBT2:結(jié)合片段基于實(shí)例的翻譯[J]. 人工智能, 1995, 75: 31-50. AltayGvenir, IlyasCicekli。從例子中學(xué)習(xí)翻譯模板[J],信息系統(tǒng),1998,Vol。23,第 353-36 頁3. IlyasCicekli HalilAltay Guvenir。
- 上一條翻譯報(bào)價(jià)模板 英語翻譯服務(wù)報(bào)價(jià)差距原因
- 下一條大學(xué)生英文簡(jiǎn)歷模板翻譯 大學(xué)生英語翻譯個(gè)人簡(jiǎn)歷模板
相關(guān)閱讀Relate
熱門文章 Recent
- 大學(xué)六級(jí)翻譯模板 2021年12月大學(xué)英語六級(jí)翻譯練習(xí)題:雙語學(xué)習(xí)2023-03-11
- 模范學(xué)生獎(jiǎng)狀翻譯模板 獎(jiǎng)狀名稱幼兒園_獎(jiǎng)狀模板幼兒園2023-03-11
- 初中英語作文萬能模板套用含翻譯 2018年深圳市中考英語作文萬能模板及寫作技巧2023-03-11
- 8表翻譯模板 2-8 Table per Type Inheritance 建模2023-03-11
- 翻譯稿件供銷合同模板 翻譯服務(wù)合同模板3篇2023-03-11
- 戶口本翻譯件標(biāo)準(zhǔn)模板親測(cè)可用 哪里可以翻譯身份證翻譯戶口簿翻譯結(jié)婚證翻譯等證件?2023-03-11
- 畫論翻譯模板-Word流程圖模板2023-03-11
- 成績(jī)單翻譯模板太傻 翻譯一份成績(jī)單多少錢?2023-03-11
- 中國(guó)郵政儲(chǔ)蓄銀行流水模板翻譯 中國(guó)郵政儲(chǔ)蓄銀行如何查詢卡號(hào) 中國(guó)郵政儲(chǔ)蓄銀行查詢卡號(hào)方法2023-03-11
- 護(hù)照翻譯蓋章模板 2021護(hù)照如何辦理?2023-03-11