機械は機械を信頼できるか——Back-Translationが抱える評価の矛盾

Kaori Myatt
5月24日
読了時間: 4分

Back-Translationとは何か

バックトランスレーション（Back-Translation）という言葉を聞いたことがあるだろうか。翻訳者なら、バックトランスレーションを提供して、と言われたことが一度ならずもあるかもしれない。

機械翻訳の世界では、品質向上と評価の両方に使われてきたまあまあ定番ともいえる手法だ。翻訳された文章をまた逆の言語方向に訳し直すだけのことだ。なーんだと思った人もいるかもしれないが、これはこれで結構厄介だ。翻訳とは単に言葉を置き換えるだけの作業ではないからである。一歩間違えればまったく別の意味になってしまうこともあるのだ。

しかしここ数年、その評価方法をめぐる議論が活発になっている。

また、Back-Translationには大きくわけて二通りの使い方がある。一つは品質評価としての使い方で、翻訳された文章をもう一度元の言語に訳し直し、原文と照合することで翻訳の精度を確かめる。これは依頼された人も多いかもしれない。もう一つはデータ拡張としての使い方だ。対訳データが少ない低リソース言語のMTモデルを学習させる際、ターゲット言語の単言語テキストを一度ソース言語に逆翻訳し、それを合成対訳データとして追加学習に使う。いずれも対訳コーパスが十分に確保できない状況で特に重宝されてきた手法だ。実際、英語↔ルガンダ語の低リソース翻訳では、反復的なBack-Translationを活用することで翻訳性能が10 BLEUポイント以上向上したという報告もある。NLLBやSeamlessM4Tといった最新の多言語モデルでも、BT系の手法は現役で活用されている。

BLEUスコアと「translationese」

では、何が問題視されているのか。

Back-Translationで学習したモデルは、低リソース環境では翻訳性能を大きく改善することがある。だが一方で、BLEUとの相互作用が指摘されている。Facebook AI Research（現Meta AI）のEdunov らが2020年のACLで発表した論文では、BLEUスコアによる自動評価とプロの翻訳者による人間評価の相関が低いことが確認されている。BLEUは、ソース文が自然発話テキストである場合、参照訳が翻訳調（translationese）になるため、人間が好まない可能性も指摘されている。

つまり構図はこうだ。BT生成データはtranslationese的な文体と相性が良く、BLEUもtranslationese的な表現を好む傾向がある。その結果、Back-Translationで学習したモデルはBLEUスコア上は高く評価されやすいが、それが必ずしも実際の翻訳品質の高さを意味しない(！)という「見かけ上の好スコア」問題になってしまっているという。

これは翻訳者にとって直感的に納得できる話ではないだろうか。「スコアは高いのに、読んでみると何か引っかかる」そういう文は最近結構よく目にするようになった。流暢に読めるが原文の意図からずれているヘンテコな訳文が、スコア上は「良訳」とされてしまう構造的な問題である。

LEUの後継、COMETも万能ではない

BLEUの限界が広く認識されるようになったことで、近年はCOMET（Crosslingual Optimized Metric for Evaluation of Translation）という指標が普及してきた。COMETは人間の評価スコアを学習データとして使った神経ネットワークベースの指標で、語順や言い換えに対してBLEUより柔軟に対応できる。

しかしCOMETにも限界はある。BLEUより豊かな言語特徴を捉えられる一方、流暢さ・文化的適切さ・レジスターといった品質側面を人間評価ほど安定して判断できるわけではない。LLMベースのMTが生成する訳文は流暢だが、ソースに対して不誠実（hallucinated）なケースがある。COMETの学習データには低スコアの明白なハルシネーション事例がほとんど含まれていないため、自信は満々に出してくるが不正確な訳文に過大な評価を与えてしまうという指摘がある。

「機械が機械を評価する」という循環

翻訳者にとってここで本質的に重要なのは、「機械が機械を評価する」という循環の問題だ。自動指標で高スコアを取るように最適化されたモデルを、同じ自動指標で評価する...この構造の中では、指標の盲点がそのまま見過ごされ続けるリスクがある。特に法律・医療・技術文書のような、意味の正確さが問われる分野では致命的だ。

ACL（Association for Computational Linguistics）のWMT24(Workshop on Machine Translation)では、指標に有利な出力をシステムが学習してしまうハッキング「metric-bias」が主要な議論テーマになった。WMTでは現在でも人間評価が重要な基準として重視されており、自動指標だけでは十分でないという認識が研究者・実務者の間で共有されている。

人間の目こそ重要

最後に、Back-Translationは古く廃れた手法ではない。低リソース言語の翻訳において依然として重要な役割を果たしている。問題の本質は手法そのものではなく、評価方法の限界が露呈しているという点だ。

自動品質指標はMT開発の反復サイクルには欠かせないが、あくまで近似値であり、誤解を招く可能性もある。言語にかかわらず人間によるレビューが理想であることには変わりない。

自動指標の限界が明らかになるほど、人間の翻訳者がレビュープロセスに関わることの価値は高まっている。流暢さの陰に隠れた微細なニュアンスのズレ、文化的な不適切さ、専門用語の誤用、文法のねじれなどなど。これらを見抜くのは、依然として人間にしかできない仕事なのだ。

日本語はENをクリックしてJAを選択してください