Studio 2009 - 自動翻訳の実力
★
少し前に、Studio 2009 で自動翻訳が使えるように設定してみました(Studio 2009 の自動翻訳 - これでいいのかな)。
そこで、Trados で使える翻訳エンジンの現時点の実力を見てみることにしました。
以下の各スクリーンショットは、Studio 2009 の翻訳メモリー参照ウィンドウ。ツールバーのすぐ下が原文、左右ならびの左側も同じ原文(注)、右側が訳文です。また、
1番として提示されているのが Language Weaver の訳文
2番として提示されているのが Google の訳文
となっており、残念ながら自前であるはずの SDL.com の翻訳結果は、アクセスエラーとなってしまって表示されません。警告マーク付きで「翻訳注に問題が発生しました」と表示されているのはそのためです(この状態が、ここ最近ずっと発生しているようです)。
注:今回は、ツールバー直下と左側の原文が同じですが、機械翻訳ではなく通常のメモリーを参照する場合には、ツールバー直下が翻訳対象の原文、左側がメモリーで見つかった既存ペアの原文になります。
■
"global database"を「世界的な~」ではなく「グローバル~」と処理できているところが、Google で採用されている「統計ベース」の実力という気がします。受動態を含む単文ですが、Language Weaver の出力はだいぶ見劣りします。
※統計ベースの機械翻訳については、たとえばこちらをどうぞ。
リンク: 統計ベースの機械翻訳: Buckeye the Translator
(偶々ですが、"統計ベース"でググったらトップでヒットしました)
if 節の入った複文。Language Weaver と Google でさらに差がつきました。これなら、ポストエディット(機械翻訳された訳文を人間が編集する作業)の手間も最小限 --- 「あなたの」を削除、Advanced Installation を UI として処理する --- で済むレベルでしょう。
単文ですが、to 不定詞以下に当たる句が 4 つ並列になっています。一見するとどちらも日本語になっていませんが、よく見ると Google のほうはその並列関係が正しく理解されています。この精度はかなりのものと言えます。
これもいいサンプルでした。動名詞が主語になり、関係代名詞も登場しています。主述の関係はさすがに乱れていますが、やはり関係代名詞の処理で Google が勝っています。
かなり単純な文。Google はほぼ完璧です。
今回のサンプリングの中では珍しく、Language Weaver が勝っていた例です。after 節はこの後でもう1つ出てきます。
今回比較した中で、Google 翻訳の驚くべき水準が最もよく表われている例かもしれません。only までの句の処理も優秀ですし、specify の目的語が正しく並列として処理されていて、実はこれはスゴイことなのです。
前の例と似た句が含まれていますが、permissions の後の前置詞 on を修正する程度で実用レベルになるでしょう。
いわゆる無生物主語の構文です。人間による翻訳であれば、prevent をこのように訳してしまったらたいてい失格ということになりますが、機械翻訳の場合、この程度なら許容される方向に
要求水準自体が変わってくる
可能性が高いようです。機械翻訳の技術的な進歩より、このような翻訳体系の変質のほうがはるかにコワいと私は思っています。
やはり、Google くんはどうも after 節の処理が苦手なようです。が、これが正しく処理されるようになるのも、統計ベースの進化を考えれば時間の問題でしょう。
これは、統計ベースが裏目に出てしまったのかもしれません。なにしろ、こういう主語を「~では」って訳すのって、IT 翻訳ではおなじみですよね(私は悪癖だと思っています)。
最後は、おそらくたいていのローカライズ翻訳でこのまんま通用するだろうというサンプルです。「代名詞 they を訳さない」というレベルがちゃんとクリアされています。
■
以上、使った例文は、昨年の翻訳フォーラムで使ったドキュメントのままなのですが、偶然ながらけっこう典型的なサンプルが集まったように思います。
機械翻訳のレベルは、今やここまできています。
Trados とは別の機械翻訳システムでポストエディットにも触れた経験のある私自身、正直言って今回のこの結果にはかなり驚いています。
純粋なマニュアルやヘルプの翻訳マーケットは --- 難易度にもよりますが、おそらくは中程度くらいまで含めて --- 数年前の予想よりはるかに急激に縮小してしまうかもしれません。
■
このような現状を考えると、今年の JTF 翻訳祭、特に「支援ツール分科会」は、特に IT 翻訳者にとって必見かもしれません(手前味噌ですけど)。
統計ベースの機械翻訳については、D-3 セッションで聴くことができます。
機械翻訳を実地に利用したい場合には、D-4 セッション。
ポストエディットに興味のある方には D-5 セッションがありますし、こうした現状で翻訳者が生きる道を模索するなら、C-5 セッションがお奨めです。
02:44 午前 Trados 機能バージョン - Studio 2009 | URL
この記事へのコメントは終了しました。
コメント
統計的機械翻訳を調べていてこのページを見つけました。知りたかった情報なので、ありがたく拝見しました。
Language Weaverの方がGoogleより劣る結果ですが、そのとき、対訳コーパスはどのようなものが使われたのでしょうか? このようなITシステム構築関連の対訳コーパスがpoorだと、良い結果は出ないと思いますが、ベンダー側が標準で備えているものでしょうか?
Googleの方は対訳集が汎用とは言え、膨大な量を蓄積しているでしょうから、そこそこ良い訳が出てくるのではないかと思います。
投稿: PaddyField | 2011/02/11 21:03:30
PaddyField さん、コメントありがとうございます。何か少しでもお役に立てるようであれば嬉しい限りです。
コーパスがどのようなものかは判りません。Googleの蓄積データは膨大なはずですが、ただデータの精度はまだまだ未知数です。
機械翻訳については、先日も山本ゆうじさんとお話しする機会があったのですが、「統計ベースより、癖がわかって対応しやすいルールベースのほうが将来性がある」と力説していらっしゃいました。
機械翻訳って、純粋に技術の発展という意味では個人的に非常に注目しているし、楽しみにもしているのですが、仕事としてはあまり関わりたくないなぁという思いもあります。
投稿: baldhatter | 2011/02/16 13:36:42
先日、Language Weaverの販売代理店のNSD社の人に聞く機会があって確認した結果、TRADOS Studioから個別契約なしで使えるLanguage Weaverの機械翻訳エンジンは標準のベースライン・エンジンだということでした。
良い訳を得るには、個別契約をして顧客ごとにカスタマイズしてもらったエンジン(顧客ごとの対訳集を学習させたもの)を使わないと駄目ということのようです。
やはり、統計的機械翻訳はその分野の大量のコーパスがないと上手い訳は出てこないですね。
投稿: PaddyField | 2011/02/23 12:10:15
PaddyField さん、ご報告ありがとうございます。
> 個別契約をして顧客ごとにカスタマイズしてもらったエンジン
それはそうでしょうね。コーパスの量では Google が圧倒的にリードしているはずですが、逆に量だけ膨大で絞り込めないからトンチンカンな翻訳が出力されるのかもしれません。
投稿: baldhatter | 2011/02/24 21:40:44