2014.10.05

Legacy Converterが2014に対応

★★
SDL OpenExchangeで無料公開されているLegacy Converterというサポートアプリケーションについてご存じなければ、まずこちらをご覧ください。

リンク:side TRADOS: Studio案件を2007環境で - Legacy Converter

Trados Studio用に支給されたファイルを

・レガシーのTrados環境、つまりSDL Trados 2007(以前)で翻訳し、

・その結果をTrados Studioに戻せる

という実にありがたいツールです。


残念なことに、Studio 2011用に開発されたバージョンのまま、2014には対応していなかった(きっと、sdlxliffのフォーマットが変わったんでしょうね。エラーになります)のですが、気になって探してみたら、開発元のサイトではStudio 2014対応版が公開されていました。

リンク:SDLXLIFF To Legacy Converter

1410051

OpenExchangeサイトのほうはまだ、2009/2011のみ対応の旧バージョン(1.0.0.37)のままなので、使いたい場合は上の開発元サイトで、

Download Legacy Converter SDL Trados Studio 2014

というリンクからどうぞ。

08:47 午前 Trados 機能, バージョン - Studio 2014 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2013.09.08

WinAlign、実はすごかったのかも


SDL Trados Studio 2014では整合機能の一新が予定されていますが、WinAlignといえば、これまで

使い物にならない子

というのが、Tradosユーザーの一般的な認識でした。


私も、原文-訳文がかなりの割合で一対一になっていれば整合を試みますが、最近は

原文-原文のメモリーを作って旧版との一致率を探る

という程度の使い方しかしていませんでした。


でも、もしかしたら私、WinAlignくんの実力をちゃんと知らなかったかもしれません。


(以下、ついでなので簡単にWinAlignの使い方も書いておきます)

1. [ファイル][新しいプロジェクト]を選択する。

2. [全般]タブで原文と訳文の言語を設定する。

1309071

3. [ファイル]タブでファイルを指定する。

1309072

後は、だいたいデフォルト設定のまま、

4. [ファイル名で整合]を押す。

5. [整合]メニューから[ファイル ペアの整合]を選択する。

というのが一般的な手順ですが、実は[新しいプロジェクト]の

[整合]タブ

を細かく設定すると、状況次第ですが、整合の精度がかなり上がります。

1309073


これ、知ってはいたのですが、今までちゃんと使ったことがありませんでした。

でも、今やってる案件で「参考用」として渡された既訳を試しに整合しようとして、この画面の

[予測語による重要度]

を最高にしてみたら、なんと、かなり「使い物になる」メモリーが生成されるじゃあーりませんか。


「予測語」とは何かというと、ヘルプでこう説明されています。

「予測語」とは、数字を伴う単語、または 2 文字以上の大文字を含む単語を指します。2 文字以上の大文字を含む単語の例として CPU (頭字語) が挙げられます。技術文書では、予測語が文章全体の 5% を占めます。したがって、整合中に良好なアンカー ポイントとなります。

(脱線しますけど、レガシーTradosのヘルプの翻訳はStudioのヘルプよりだいぶマシですね)


前後が多少ずれることが多いのはもちろんですが、デフォルトのままより、正しいマッチは飛躍的に増えます。

しかも、正しくマッチしない場合でも

前後数セグメントだけずれている程度

のことも多いので、このメモリーをエクスポートして参照すれば、前後で正しい既訳が見つかることもあり、旧版の原文と訳文を別々につき合わせるより、だいぶ効率的です。


新しいStudio 2014の整合でも、この機能がちゃんと踏襲されるのあれば、「実は使える子」になるかもしれません。

11:48 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2013.06.24

Studio案件を2007環境で - Legacy Converter

★★
私もそうなのですが、Studio環境になじめない方はまだまだ多いようで、ひとつ前のエントリにも、またそんなコメントをいただきました。

そんなレガシーなTradosユーザーのために、SDL OpenExchangeで公開されている

SDLXLIFF to Legacy Converter

というツールをご紹介します。


上のURLにアクセスするには、あるいは少なくともダウンロードするには、ログインする必要があります。また、OpenExchangeについては(総目次から)以前の記事をご覧ください。

文字どおり、Trados Studioの作業ファイルであるSDLXLIFFファイルと、レガシーのTrados翻訳用ファイルを相互に変換してくれるツールです。具体的には

・doc
・docx
・ttx

変換し、レガシー環境で翻訳した後に、SDLXLIFFファイルとして書き戻してくれます。


ただし、このツールでメモリーは書き出されません。メモリーについては、Trados Studio上でエクスポートし、レガシー側のWorkbenchにインポートするという作業が必要です。つまり、流れとしては以下のようになります。


  1. お客さんからパッケージが支給される。パッケージにメモリーも含まれているものとする。

  2. [プロジェクトの設定]→[言語ペア]→[すべての言語ペア]→[翻訳メモリと自動翻訳]を開いてメモリーをエクスポートする。

  3. レガシー環境のWorkbenchで新規メモリーを作成し、上の手順でエクスポートしたファイルをインポートする。

  4. プロジェクトのSDLXLIFFを、SDLXLIFF to Legacy Converterで変換する。

  5. レガシー環境で翻訳する。

  6. SDLXLIFF to Legacy Converterで、レガシーファイルからSDLXLIFFを書き戻す。


今回、メモリーのエクスポート/インポートについてはこれ以上詳しく触れません。


SDLXLIFF to Legacy Converterの使い方

たとえばこんなファイルがあるとします。Trados Studioで開いた状態です。

まったく未翻訳の状態でも変換/書き戻しの手順はまったく変わりませんが、今回は便宜的に、一部翻訳済みのファイルを扱います。

1306231

2つ目のセグメントまでが翻訳済み、かつメモリーにも登録済みと仮定します。

以下の作業は、いっぺんStudioを終了するか、SDLXLIFFファイルを閉じて行ってください。


  1. SDL OpenExchangeのサイトからSDLXLIFF to Legacy Converterをダウンロードします。

  2. 起動したインターフェースはこんなです。

    1306232

  3. [Export]タブを選択し、ドロップダウンリストからファイル形式を選択して(この例では*.docを指定)、[Add]を選択します。

  4. ファイル選択ダイアログで *.sdlxliffファイルを選択します。対象の *.sdlxliffファイルは、プロジェクトディレクトリの中の「ja-JP」というフォルダにあります。

    1306234

  5. [Start Prpcessing]ボタン(左上の右向き三角)を押します。

  6. 生成された doc ファイルを開くと、こんな風になっています。ふだんと違うタグが見えますが、これは絶対に変更しないでください。

    1306235

  7. レガシー環境で翻訳します(メモリーについては割愛)。

    1306236

  8. SDLXLIFF to Legacy Converterで、インポートの前に設定を少しだけ変更します。スパナのボタンで[Settings]ダイアログを開き、[Segment Status Assignment]で、1つ目のオプションを[Translated]に変更します。この設定をしておかないと、Studioに書き戻したとき、翻訳ステータスが「翻訳済」に変わりません。

    13062311

  9. [Import]タブで、翻訳の済んだ *.doc ファイルを選択し、[Start Prpcessing]ボタンを押します。この時点で *.sdlxliffファイルが生成されます。生成前の*.sdlxliffは*.bakファイルという拡張子のバックアップファイルとして確保されるので、このプロセスがうまくいかなかったら、ひとつ前のステータスに戻れます。

  10. Studioで *.sdlxliffを開いてみると、レガシー環境で翻訳した部分が更新されています。

    13062312

  11. ただし、当然のことですがこの翻訳はStudio上のメモリーには反映されていません。

    1306239

    訳文の確認を含めてひとつひとつ確定登録するか、一括でメモリーを更新する必要があります。

私が2回ほど使った限りでは、タグなども含めて正確にStudio上に反映されます。

レガシーTradosユーザーの方、興味があればお試しください。

12:43 午前 Trados 機能, バージョン - Studio共通 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2012.12.29

Wordマクロで訳文の生成

★★
前エントリで書いたようにクリーンアップがうまくいかないときの対処法のひとつに、Wordのマクロを使うという方法があります。


その前に、念のためですが前提を確認しておきます。それは、

「訳文の生成」(クリーンアップ)には、2つの意味がある

ということです。つまり、

(ア)バイリンガルファイルを訳文のみのファイルにする

(イ)オリジナルファイルを生成する

の2つです。

前エントリと同じく作業内容の分類を考えると、

1-A. WordファイルをWord上で翻訳する場合
1-B. WordファイルをTagEditorで翻訳する場合
2-A. 他形式のファイルを変換してWord上で翻訳する場合
2-B. 他形式のファイルをTagEditorで翻訳する場合

があるわけですが、

1-A. の場合は、(ア)=(イ)ということになります。

※バックアップを生成するように設定しておかないと危険です。

1-B. の場合、イコールではありませんが、(ア)と同時に(イ)も実行されます。つまり、ttxファイル(バイリンガル)をクーンアップすると、ttxはそのままで、元のWordファイル形式で訳文のみのファイルが生成されます。

2-A. の場合は、(ア)で訳文のみのWordファイルが生成されるだけで、(イ)は得られません。中間処理が必要になります。

2-B. は1-B. と基本的に同じです。

Wordのマクロで対処できるのは、1-A. の場合と、せいぜい1-B. の場合だけです。

マクロの操作は、Word 2003までと、Word 2007以降で違います。

【Word 2003の場合】

[ツール]→[マクロ]→[マクロ]を選択して、[マクロ]ダイアログを開きます。

1212281

tw4winClean.Mainを実行します。


【Word 2007以降の場合】

[開発]リボンで[マクロ]ボタンを押して、[マクロ]ダイアログを開きます。

同じく、tw4winClean.Mainを実行します。

[開発]リボンが表示されていない場合(たぶんデフォルトでは表示されていません)は、

[ファイル]→[オプション]→[リボンのユーザー設定]を開いて、[開発]を有効にする必要があります。

1212282


マクロと言っても、要するに、隠し文字を全部削除しているだけのこと、です。やろうと思えば、手作業の置換でもできるでしょう。

ただし、この場合は

原文でセンテンス間にあったスペースが、訳文だけになったときにもそのまま残ってしまう

ので、句点(。)の後の半角スペースを削除する必要があります。ご注意ください。

09:49 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

訳文を生成できないとき

★★
Tradosを使って無事に翻訳が終わり、さあ、訳文を生成して納品だぁ。ところがこの「訳文の生成」、別名クリーンアップの段階が困りもの。うまく生成できなくてあたふたした経験が、虎使いのみなさんなら一度や二度、たいていはもっと頻繁にあることと思います。

特に、Trados指定案件であれば生成できない旨を先方にも説明できますが、Trados指定ではなくこっちの任意でTradosを使っている場合、最終形式のファイルを納品できないとかなり辛いことになります。


今回は、そんなケースを紹介しておきます。環境は、SDL Trados 2007です。

あらかじめお断りしておきますが、解決方法はない場合のほうが多いようです。


訳文生成の前に、Tradosで扱うファイルの形式と、翻訳環境について整理しておきます。

1. オリジナルがWordファイル(doc、docx、rtf)で、

  1-A. Word上で翻訳する場合
  1-B. TagEditorで翻訳する場合

2. オリジナルは他形式(HTML、XML、PPT、EXCEL...)で、

  2-A. ファイルを変換してWord上で翻訳する場合
  2-B. TagEditorで翻訳する場合


この4つのいずれかによって、訳文生成できないトラブルの大きさも違ってきます。ただし、2-A. は最近あまり見かけないフローかもしれませんし、残っているとしても翻訳会社を介している場合がほとんどで、たいていはバイリンガル形式納品だろうと思うので、今回はちょっと無視しておきます。


1-A. WordファイルをWord上で翻訳した場合

docとrtfの場合、クリーンアップできないケースはほとんどありません。厄介なのはdocxです。XML形式、しかもMicrosoft独自のXML形式であり、ユーザーからは見えないところに記録されているいろいろな情報が邪魔をしている気配があります(詳しくはわかりません)。

しかも、試してみたところ、ふつうはクリーンアップできなければエラーメッセージが出るのですが、docxをクリーンアップできない場合には、エラーさえ出ず、ログ上でも

Cleanup finished successfully without errors!

となっています。

あいにく、SDL Trados 2007はdocxファイルを正式にはサポートしていないので、クリーンアップできなくてもSDLさんに文句を言うわけにはいきません。

【対処法】

幸い、オリジナルがWordなので、この場合は確実な対処方法があります。それは、

Wordマクロでクリーンアップ

を実行する方法です。これについては、次のエントリで書くことにします。


1-B. WordファイルをTagEditorで翻訳した場合

1-A. より厄介です。

前述したようにdocxはSDL Trados 2007のサポート対象外なので、そもそもTagEditorで開けないってことならわかるのですが、どうも翻訳はできてしまうらしい。そして、docxに戻るかどうかは、

やってみないとわからない

模様です。これは困ります。

【対処法】

メモリーはできているはずなので、オリジナルのWordにバッチ翻訳をかけて、後は1-A.と同じくマクロで対処するというところでしょうか。

1-A.の場合も1-B.の場合も、SDL Studio環境(2009または2011)に移植してしまうという手があるかもしれません。つもり、メモリーをStudio環境に変換し、StudioでWordファイルに翻訳をかけてみてクリーンアップを試みる、ということです。これなら、docx対応の環境のはずですから、きちんと生成されるはず。


2-B. 他形式のファイルをTagEditorで翻訳した場合

この話は基本的に、「side TRADOS: pptxのもっと困ったこと」で書いた内容と重複します。

PPTやEXCELのオリジナルファイルから生成したTTXを作業対象として支給された場合は、まずクリーンアップできないと思って間違いありません。TTXを生成した環境と、こちらの環境が違うからです。

ただ、この場合も「TTXを作業対象として支給された」時点で、こちらの責任は回避されるので、「クリーンアップはできませんでした」と報告してバイリンガルファイルを納品すれば済みます。

でも、PPTなんかは特に、仕上がりを確認せずに納品するのは気持ち悪くてしかたないですよね。

【対処法】

オリジナルファイルから、自分の環境でTTXを生成し、それにバッチ翻訳をかける

ことになります。これなら生成は可能(なはず)です。

このように、やはり訳文の生成でトラブルになることが多いのは、docx、pptx、xlsxなど、つまりOffice 2007以降の***xファイルなんですね。これらのファイルについては、SDL Studio環境を使うのが正統なので、SDL Studio 2007環境で ***x ファイルを使う場合は自己責任、ということになります。

翻訳環境にインストールされているOfficeのバージョンにも注意が必要です。

Office 2003までしかインストールされていない環境で、Office 2007以降の***xファイルを開くことは、当然ですが、できません。

2003用の互換パック(Word/Excel/PowerPoint 用 Microsoft Office 互換機能パック - Microsoft Download Center - Download Details)を追加すれば、開くことはできますが、***x形式のファイルを新しく作成することはできません。

したがって、Office 2003までしかインストールされていない環境で、SDL Studio 2007を使ってdocxを翻訳することはできますが、訳文の生成もできない道理です。

09:15 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2012.07.13

ワードカウントは必ず自分でも実行

★★
この話はもっと早く書いておくべきでした。

(関連エントリ: Workbench の設定- [オプション]-[翻訳メモリ オプション]


Trados案件、特にマッチ率のレンジによる重み付け(=ファジーマッチの単価は完全新規の何分の一かになる)がある案件の場合、あらかじめお客さんからワードカウントが送られてきて、それが発注額になるというケースも普通です。

先方がTradosを正しく使っていれば、このワードカウントが間違っていることはそれほどありません。自分の環境で実行しても、ほぼ同じ結果が出ます(まったく同じ条件でカウントしても、たいていは誤差が出ます。その原因はよくわかりませんが、これは単価換算の幅でおおむね吸収できる程度の誤差です)。


ところが、ごくまれに、お客さんが出してくるワードカウントが間違っている場合があって、気をつけないとこちらが損をしてしまいます。


ワードカウントに影響するのは、Workbenchの[オプション]→[翻訳メモリ オプション][ペナルティ]タブの設定です。


なお、このタブの設定については、幸い日本語化されている標準添付のマニュアルに記載されています。詳細は、そのマニュアルも併せてご覧ください。

[プログラム]→[SDL International]→[SDL Trados 2007 Freelance]→[Documentation]→[Translator's Workbench User Guide]

の2-36から2-40ページです(パスはバージョンによって少し違います)。

デフォルトでは、このようなペナルティ設定になっています。

1207131


しかし、実際の現場では次の赤丸のように設定を変えていることも少なくありません。

1207132

[整合ペナルティ]は、WinAlignを使っていなければ関係ありませんし、[機械翻訳によるペナルティ]も同様です。

HTMLやXMLの場合はもともとファイル上の書式はどうでもいいので、[異なる書式によるペナルティ]も影響ありません。

お客さんとは、ワードカウントのときこのペナルティをどのように設定しているのか、まず相互に確認するようにしましょう。

タグ付きファイルにいちばん影響があるのは、[固定要素の不一致によるペナルティ]です。しかし、実際には

[原文のタグが異なるときはペナルティを課す]

というオプションもオンにしておかないと、タグの違いがマッチ率に十分反映されません。


実例で示します。

1207133
:[原文のタグが異なるときはペナルティを課す]オフのとき

1207134
:[原文のタグが異なるときはペナルティを課す]オンのとき

このオプションの違いだけで、2%の差が出ています。


実は、Trados Workbenchは、既訳と原文でタグに差があるときは原文の現状に合わせてタグを自動的に置換することになっているので、これが十全に機能するのならタグにペナルティを課さなくてもいいわけです。ところが実際には、上の例でわかるように、この機能はまともに機能しないことのほうが多い。

したがって、このペナルティの差は実質的な作業負荷に影響してくるのです。

1207135

上の行がこのペナルティをオンにした場合、下の行がオフにした場合です。特にマッチ率の高いレンジに差が出ます。


こういう細かい話、SDLさんでも説明される機会が少ないせいか、実際にTradosを使っている会社でもちゃんとわかっていない場合があるようです。送られてきたワードカウントを鵜呑みにしていると、知らないうちに損をしているかもしれません。


念のため、キットを受け取ったら自分でも必ず解析を実行するようにし、もし大きい差異があったら、きっちり確認をとるようにしましょう。

07:41 午前 Trados 機能 | | コメント (7) | トラックバック (0)

はてなブックマークに追加

2012.05.23

TagEditorでの最初の操作


つい最近も質問を受けたので、TagEditorで翻訳する場合の、最初の操作について説明します。TagEditorを使うという以上、言うまでもなくバージョン2007までに対応した話です。


TagEditorを使うとき、まず理解しておきたいのは、

元のファイルとは別にバイリンガルファイルが作られる

という点です。これがWordファイルで翻訳する場合の最大の違いです。

Wordファイルを翻訳する場合も、状況は2種類あります。

Wordファイル自体がターゲット
Wordファイルを直接編集し、ソース言語のWordファイル → (翻訳) → バイリンガルのWordファイル → (訳文生成) → ターゲット言語のWordファイル、というプロセスをたどります。

Wordが中間ファイルの場合
オリジナルはHTML/XML、FrameMakerファイルなどの構造化文書で、それをいったんWordファイルに変換して翻訳するケースです。オリジナルファイル → (変換処理) → ソース言語のWordファイル → (翻訳) → バイリンガルのWordファイル → (訳文生成) → ターゲット言語のWordファイル → (逆変換) → ターゲットファイル、というプロセスをたどります。


一方、TagEditorを使う場合には、種類にかかわらずオリジナルファイルはそのままで、*.ttxというバイリンガル中間ファイルが生成されます。

1. オリジナルファイル(Word、Excel、PowerPoint、HTML/XMLなど)をそのままTagEditorで開きます([ファイル]メニューから開く、ドラッグ&ドロップする、など)。

2. TagEditorの[ファイル]メニューから[別名(バイリンガル)で保存]を選択し、元のファイル名 + .ttx というファイル名で保存します。

この時点で、オリジナルファイルは更新されていません。これ以降も、上書き保存(Ctrl + S)するたびに更新されるのは *.ttx だけで、オリジナルファイルは更新されません。

3. 翻訳が終わり、Workbenchで[訳文の生成]を実行すると、その時点で初めてオリジナルファイルがターゲット言語版に更新されます

[訳部の生成]を実行するときは、オリジナルファイルが同じフォルダになければなりません。逆に言うと、同じフォルダにあるオリジナルファイルは[訳部の生成]で上書き更新されてしまうので、ソース言語版のオリジナルを確保しておきたい場合は、このフォルダとは別の場所にコピーで残しておく必要があります。

TagEditorで翻訳する場合、Word/Excel/PowerPointなどのファイルはそのまま開けますが、HTML/XMLなどの構造化文書の場合は、タグ構造が文書ごとに異なるので、タグ定義を指定する必要があります。

それが指定されているのが、*.ini という拡張子の「タグ設定」ファイルです。

*.iniファイルは自分で作ることもできますが、対象ファイルにあわせてクライアントや翻訳会社から支給されるのが普通です。

06:24 午前 Trados 機能 | | コメント (4) | トラックバック (0)

はてなブックマークに追加

2012.03.06

翻訳メモリーの中身の検索

★★
(SDL Trados 2007 までの話です。Studio アーキテクチャではだいぶ事情が変わります)

訳文セグメントに候補として示される訳文ではなく、

翻訳メモリーの中から訳文または訳の一部を検索

したいときがあります。というより、むしろ翻訳メモリーで本当に必要な機能はむしろこちらではないか、と私は思っています。センテンス単位の一致/類似ではなく、部分的な表現を合わせることにこそ、翻訳メモリーを使う重要な意味があると考えるからです(統一性が重視される翻訳の話です、言うまでもなく)。

翻訳メモリーを売る側も使う側も、実はこの点をあまりちゃんと判っていないんじゃないでしょうか。

メモリー技術の登場以来、センテンス単位の一致/類似と再利用性ばかりがアピールされてきたから、「文脈に合わなくてもセンテンスごとの対応が重要」みたいにガチガチな発想で運用されたり、「再利用性はそれほどない」と言われたりしている。

用語レベルは用語集(MultiTerm)で統一すればいい。センテンス単位を考えるのは翻訳者の仕事。その「はざま」にあるフレーズレベルの表現の模倣/統一にこそ、翻訳メモリーは真価を発揮するのではないでしょうか。

そう考えれば、翻訳セグメントに候補が出てくるのをただ待っているのではなく、積極的にメモリー内を検索すべきです。

Trados Workbench では[ツール]→[訳語検索]、いわゆる「コンコーダンス検索」がこの機能ですが、肝心のこの機能が、2007まではかなり使えないということを過去に何度か書いています。

参考リンク: Tips - 「訳語検索」

そこで、Workbenchの不十分な検索機能を補う方法を紹介します。メモリーをテキストファイルにエクスポートして、それを活用する方法です。

1. TM のエクスポート

Workbench の[ファイル]→[エクスポート]を選択します。フィルタを指定するダイアログが出ますが、それは気にせず[OK]をクリックします。ファイル保存ダイアログの[ファイルの種類]は、[Translator(s Workbench 7.x/8.x (*.txt)]にしておいてください(たぶんデフォルト)。その次の[Translator(s Workbench 2.x-6.x]でもだいたい同じです。その他の TMX- ではダメ。

※SDL Tradosが2007より前のバージョンだと、エクスポートテキストのフォーマットが以下の説明と少し違うかもしれません。


2. エクスポートファイルの加工

エクスポートしたテキストをテキストエディタで開くと、

原文が <Seg L=EN-US>
訳文が <Seg L=JA>

というタグで示されていることが判ります(これは英日の場合。他の言語なら言語コードの部分が違うだけ)。ただし、それが別々の行になっているので、たとえば秀丸エディタを使った grep 結果だと、原文か訳文のどちらかしか見えないことになります。そこで私は、

検索文字列 \n<Seg L=JA>
置換文字列 \t<Seg L=JA>

という全置換をかけて(正規表現オン)、1行形式に加工しています。


3. フォント情報の削除

元の翻訳時にフォントが混在していた場合には、エクスポートしたテキスト上にも、かなり複雑なフォント情報が残っています。たとえば、<em> という内部タグだけでも、

{\cs6\f1\cf6\lang1024 <em>}Notes{\cs6\f1\cf6\lang1024 </em>}

こんな具合です。ちなみに、フォント情報を消した元の情報は<em>Notes</em> だけです。

これが残ってると、あるはずの情報も検索できないことになるので、できればこのフォント情報も消してしまいたい。ちょっとややこしいですが、こんな置換をかけます(秀丸エディタでの指定方法です。正規表現オン)。

検索文字列 {\\[^{} ]+ \f[^{}]+\f} または {\\.*?+ \f.*?\f}
置換文字列 \1

いわゆる「タグ付き正規表現」というワザで、たとえば上の例で言えば、前後のフォント情報だけ削除して Notes の部分だけが残る置換です。ただ、フォント情報はいろんなパターンがあるので、これだけではキレイにならないメモリーもあるかもしれません。

注意: ここまで置換加工したテキストファイルは、たぶん Workbench に正常にインポートできなくなります。エクスポートしたファイルを加工するのは、あくまでも参照用に限定し、後からインポートするテキストファイルは加工しないように。


4. 実際の検索

テキストベースなので、十分に検索したい場合も、やはりエディタ上で正規表現を使うことになります。

このコンコーダンス検索機能がもっともっと充実していて簡単に使えるツールがあれば、翻訳支援としてはそれが最強かもしれません。

04:26 午前 Trados Tips, Trados 機能 | | コメント (18) | トラックバック (0)

はてなブックマークに追加

2012.02.11

Workbench の設定 - [設定]-[置換]


今回の話をする前に、まず「固定要素」という用語を説明しなければなりません。

「固定要素」(英語では Placeable)というのは、基本的に翻訳が不要で、原文から訳文にそのままコピーしておくだけでいい文字列のことを言います。

その代表が、タグ付き文書であれば内部タグ(編集可能な赤いタグ)ですが、そのほかにも数字や日付が同様に扱われます。

120211_wb3

ツールバーのこのボタンを使えば(ショートカットもあります)訳文に取り込むことができますが、複数あるときは、3つのボタンと固定要素の順序が固定ではなく相対的に移動するので、ちょっと慣れが必要です。

真ん中のボタンが「現在の固定要素」で、セグメントを開いた初期状態なら 1 番目の固定要素のことです。

その右にあるボタンが「次の固定要素」で、セグメントを開いた初期状態でこれを 1 回押すと 2 番目の固定要素が取り込まれます。ところが、この時点では 2 番目が「現在の固定要素」になり、「前の固定要素」を押せば 1 番目の固定要素に戻る......そんな具合です。

そのため、ちょっとタグが多くて複雑になっていると、どのタグが「現在の固定要素」か、わからなくなります。そういうときは、訳文をメモリーに登録せずに閉じるだけの操作(ツールバーの[閉じる])を使っていったんセグメントを閉じ、もう一度ひらくと、ことのタグの数え方が初期状態に戻ります。

タグ以外の固定要素は、[ファイル]→[設定]→[置換]タブで指定されています。

120211_wb1

デフォルトでは[数字]、[日付]、[時刻]、[単位]がチェックされています。つまり、固定要素を訳文に取り込む操作をすると、タグ以外にこれらに該当する文字列があれば、それも順番に取得されるということです。たとえば原文が、

</strong>

となっていると、開始タグの次に終了タグを取り込もうとしても、終了タグの前に「2012」という数字も取り込まれます。数字がたくさん出てくる翻訳のときは便利かもしれませんが、このことを知らないと、タグを取り込んだつもりで数字を取り込んでしまい、タグ不対応エラーの原因になることもあるので注意してください。


[日付]、[時刻]、[単位]の場合は、ユーザーのロケール(国とか地域)に応じて、適切なフォーマットに置換までしたうえで取り込んでくれます。たとえば、原文が 2012/2/11 だったら、「2011年2月11日」に置き換えられます。便利かもしれないし、案件によっては邪魔かもしれません。不要なら、このダイアログでチェックボックスをオフにしちゃいましょう。

ちなみに、日付や時刻のフォーマットは、[オプション]→[翻訳メモリ オプション]→[地域に関する情報]で設定されています。

デフォルトでオフになっていますが、分野や用途によって便利かもしれないのが、このダイアログの

[頭字語]と[変数]

です。

120211_wb2

「IBM」とか「SOPA」のような頭字語が多い文章の場合は、[頭字語]をチェックしておけば手入力が不要になってミスも避けられます。

それから、メーカー名とか製品名とか、英ママ表記することになっている語句が頻出する場合には、[変数]をチェックしたうえで、右側の[変数リスト]に当該の用語を入力します。

ただし、このダイアログはどうやら改行がきかないらしく、1 回に 1 語(1 行)しか入力できません。いくつか指定したい場合には、いったんこのダイアログを閉じてから再度ひらくと、次の行に入力できるようになっています。
【訂正追記】
このエントリをアップしてすぐ、sagtran さんからご指摘いただきました。[Ctrl]+[Enter]で改行できます。情報提供ありがとうございます。

[頭字語]や[変数]も、固定要素を取り込む操作では頭から順番に扱われるので、タグ付き文書の場合には、やはりタグエラーにならないよう注意が必要です。

03:50 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.12.21

MultiTerm - 用語集の作成でインポートにトラブル

★★
MultiTerm で用語集を作成する手順については、以前「MultiTerm 5.5 から作成する手順」としてご紹介しました。

リンク: side TRADOS: MultiTerm - 用語集の作成 - MultiTerm 5.5 から

このときは、旧版 MultiTerm ファイルから作成する手順でしたが、Excel など、他のソースから作成するときも、最初の手順が違うだけで基本は共通です。つまり、

1. MultiTerm Convert でソースファイルから *.xml ファイルを作成する

2. MultiTerm で用語ベース(*.sdltb)を作成する

3. *.xml ファイルをインポートする

という基本手順です。

ところが、今回、いくらやっても 3. のところで xml ファイルの半分以下しかインポートされない、という現象が起きました。参考までに、今回の解決方法をメモっておきます。

ソースは Excel ファイル(原語のアルファベット順にソートしてある)。 *.xml ファイルを作成した時点では、3,000 個ちょっとのエントリがありました。

ところが、用語ベースにインポートしてみると、1,400 ちょっとしかインポートされないのです。おそらくソースのどこかに問題があって、そこでインポートが止まってしまうのだろうと推測し、当たりを付けてみます。

まず、ソースで 1,400 番目前後のエントリを探し、そのエントリを、いちおう出来上がった MultiTerm で検索して、どのエントリまで正常にインポートされたか確かめます。

すると、こんなエントリが見つかりました。

111221_mt

なんだか、♂マークみたいなのが入ってます。*.xml 上では実体参照表現になっていました。これをただの半角スペースに置き換えたところ、正常にすべてのインポートが完了。

このように、「インポートできない原因の箇所を特定し、その部分を修正する」というのが、おおむねの流れです。


【Tips】
XML ファイルは、かなり大きいファイルでも改行が入っていない、つまり論理行として 1 行しかない場合があります。そういう XML ファイルを秀丸エディタで開こうとすると、膨大な文字数を 1 行として表示しようとするため、フリーズしてしまうことがあります。

そんなときのために、私は控えのエディタとして EmEditor を使っています。これなら、MB 単位の大きい XML ファイルでも問題なく開くことができます。

08:37 午後 Trados 機能, バージョン - Studio共通 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.10.22

Trados メモリーのファイルたち(2007)、その2

★★
9/12 のエントリで、SDL Trados 2007 までのメモリーには、補助ファイルも含めて 5 つのファイルセットが必要という話を書いたところ、

日英のTMは、tmw, mtf, mdf, iix の 4 ファイルから構成されていますね。

というコメントをいただきました。つまり、*.mwf がないのですね。ちょっとググってみたら、たしかにいくつかのサイトや tratool メーリングリストの過去ログでそんな記事が見つかりました。

メモリーとしてセットされている 5 つのファイルの正体について、肝心の SDL さんには(予想されるとおり)何の情報もありません。マイナーな拡張子なので、有名な「拡張子辞典」さんのサイトにも載っていませんでしたかが、さらに調べてみたら、海外の拡張子情報サイトにはちゃんと 5 つすべての解説が載っていました。

リンク: FileInfo.com - The Central File Extensions Registry

こちらのサイトで、ある程度のことがわかったので、以下そのサイトによる解説文を紹介しておきます。

以下、英文が上記サイトによるオリジナルの解説です。

*.tmw

言うまでもなく、翻訳単位を格納するメインのデータファイルですね。データベース本体。
Data file that contains linguistic and translation units for a translation memory used by Trados document translation software; continually grows and learns from the translator; can be opened directly with Trados Translator's Workbench.


*.iix

名前から推測されるとおり、翻訳メモリのインデックスデータです。削除してもTradosによって再生成されるって書いてありますけど、試してはいません。
Contains index data for a translation memory used by Trados translation software; organizes the contents of a translation memory; will be regenerated by Trados Translator's Workbench if deleted.


*.mdf

メモリー内のデータを高速検索するためのサポートファイル、だそうです。
Supporting file for a translation memory used by Trados translation software; enables fast look up of data within the translation memory.


*.mtf

メモリーで単語とフレーズの高速な翻訳(変換?)をサポートするファイルだそうです。ここで言っている translation が何のことか、正確にはわかりません。
Supporting file for a translation memory used by Trados translation software; supports fast translations of words and phrases contained within a translation memory.


*.mwf

メモリー内の単語を高速検索するためのサポートファイルだそうです。
Supporting file for a translation memory used by Trados translation software; enables fast look up of words contained within a translation memory.

日→英のメモリーにないのはこのファイルですね。

つまり、ソースがヨーロッパ言語であれば単語の区切りがはっきりしているから「単語検索」のための内部データがあるけど、ソースが日本語の場合には単語の区切りが曖昧だから(あるいは、Trados がそのための構造解析ロジックを持っていないから)、「単語検索」のためのデータは持つ必要がない、とそういうことのようです。

*.mdf(高速データ検索)とどう機能を分担しているのかは分かりません。

ってことは、もしかして日→英のメモリーだとコンコーダンス検索(Workbench 上の[F3])って、まともに機能しないんですか?

01:59 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.09.12

Trados メモリーのファイルたち(2007)


ごく基本的なことですが、今まで取り上げていなかったので、SDL Trados 2007(まで)の翻訳メモリーの構成ファイルについて触れておきます。

Trados 2007 までのメモリーファイルの拡張子が tmw であることはわりと知られていますが、そのほかにも補助ファイルがあることはあまり説明されていません。

メモリーを自分で作成してみるとわかりますが、同じフォルダに、tmw のほかに 4 つの関連ファイルも生成されます。

110912_wb

この 5 つのファイルは、必ず同じフォルダにそのまま置いておくこと。ひとつでも削除したり、なまえを変えたりすると、メモリーが開かなくなります。

10:27 午後 Trados 機能 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2011.09.11

Word 2010 と Trados ツールバー


Office 2010 は、SDL Trados 2007 よりだいぶ新しい製品なので、Word 2010 で Trados 2007 を使おうとすると、いつものツールバー(リボン?)が表示されなかったりするそうです。

「リボン?」とか「~そうです」としか書けないのは、自分の環境が未だに Office 2003 で、2010 どころか 2007 も導入していないためです。あしからず。

で、そういう質問が頻繁にあるらしく、SDL のナレッジベースサイトに対処法が載っています。

SDL Trados 2007 Suite toolbar compatibility with Microsoft Office 2010
※直接表示されず、ポータルの入り口にリダイレクトされるかもしれません。その場合は検索フィールドに上のタイトルを入れてみてください。

【2012/4/17更新】
ナレッジベースへのリンクが切れてしまったので、Prozの掲示板へのリンクに差し替えておきます。
http://jpn.proz.com/forum/sdl_trados_support/208097-sdl_2007_suite_does_not_work_with_windows_2010.html#1809637

With the introduction of SDL Trados Studio 2009, the Trados toolbar for Microsoft Word is now obsolete.

という言いぐさはちょっとムカツキますが、以下、この対処方法を日本語にしておきました(適宜、省略と補足あり)。

  1. SDL Trados、MultiTerm、Office 関連アプリケーション(Outlook も)をすべて閉じます。
  2. 念のために、Windows タスク マネージャの[プロセス]タブを開き、Winword.exe がリストにあったらプロセスを終了します(右クリックで[プロセスの終了])。
  3. TRADOS8.dotm ファイルを探します。デフォルトインストールであれば、
    C:\Program Files\SDL International\T2007_FL\TT\Templates、または
    C:\Program Files (x86)\SDL International\T2007_FL\TT\Templates
    にあります(フリーランス版の場合。コーポレート版だと T2007_FL のところが違うはず)。
    ※TRADOS8.dot もありますが、そちらではなく TRADOS8.dotm です。Word 2007 以降のツールバー(リボン)に対応しているテンプレート(たぶん)。
  4. TRADOS8.dotm を以下のディレクトリにコピーします。
    • Windows XP:
      C:\Documents and Settings\[USERNAME]\Application Data\Microsoft\Word\Startup\
    • Windows Vista / Windows 7:
      C:\Users\[USERNAME]\AppData\Roaming\Microsoft\Word\Startup\
  5. MultiTerm8.dotm ファイルを探します。こちらは MultiTerm 用のテンプレート。
    C:\Program Files\SDL\SDL MultiTerm\MultiTerm8\Templates\MultiTerm8.dotm
    ※さっきは SDL International ディレクトリでしたが、今度は SDL なので注意。
  6. MultiTerm8.dotm を以下のディレクトリにコピーします(上のディレクトリと同じ)。
    • Windows XP:
      C:\Documents and Settings\[USERNAME]\Application Data\Microsoft\Word\Startup\
    • Windows Vista / Windows 7:
      C:\Users\[USERNAME]\AppData\Roaming\Microsoft\Word\Startup\
  7. 同名のファイルがすでに存在している場合には、上書きしてください。これで、Microsoft Word 2010 にツールバーが表示されるはずです。

ちなみに、2003 までの Office でもツールバーが表示されないという現象はときどきありました。バージョンは変わっても、

TRADOSx.dot
TRADOS8.dotm

などのテンプレートファイルを所定のディレクトリに置いておき、Word の起動時に読み込ませる、という基本は同じです。

12:49 午前 Trados 機能 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2011.09.10

MultiTerm からのエクスポート

★★
1 つ前のエントリは、MultiTerm アーキテクチャについての愚痴ばかりでしたので、もう少し実用的な話として、MultiTerm 用語集をエクスポートする方法を説明しておきます。

その際、エクスポートするエントリを決める定義が必要になります。

デフォルトのタブ区切り定義でエクスポートしたら、意味のない列が多すぎたということを前回書きました。そこで、オリジナルのタブ区切り定義ファイルを作成してみようと思ったのですが、予想以上に設定が面倒です。そこで、デフォルトのタブ区切り定義を編集加工、その定義でエクスポートするまでの手順です。

MultiTerm でインポート/エクスポート機能を使うときには、画面左下で[カタログ]を選択します。その状態で[Export]を選択する(なぜか UI が未翻訳)と、右側にエクスポートの定義ファイルが一覧されます。

110909mt4

この中で、赤線を引いた下のほう(所有者が System)がデフォルトのタブ区切り定義です。システム所有の定義を直接編集することはできないので、コピーを作成します。定義を右クリックすると ---

110909mt7

[重複]というメニューコマンドがあります。あらら......、また誤訳発見。原典はきっと Duplicate でしょう。[複製]コマンドです。これを選択すると、上の赤線のように編集可能なコピー(所有者が User)が作られます。これを右クリックして[編集]を選択すると[エクスポート ウィザード]が開くので、ここで定義を変えるわけです。

ウィザードを進んでいくと(途中で、エクスポートファイルの名前を指定します)、次のようにエントリ構造を示す画面になります。

110909mt5

[Created by]、[Created on]、[Modified by]、[Modified on]というフィールドがやたらとたくさん並んでいます。前回エクスポートしたときの無駄なフィールドは、ここで定義されていたんでした。ウィザードを次のステップに進むと ---

110909mt6

フィールドを選択するチェックボックスがあるので、ここで[Created by]、[Created on]、[Modified by]、[Modified on]をぜんぶオフにします。これで、必要なデータだけのタブ区切り定義が出来上がります。

あとは、この定義を右クリックして[アクティブ化]を選択し、もう一度右クリックして[実行]を選択すれば、タブ区切りファイルがエクスポートされます。

07:19 午前 Trados 機能 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2011.09.09

用語認識バッチ、公式にも発表

★★
しばらく前にご紹介した、「Studio 2009 で用語認識が機能しないとき」のバッチファイルの存在が、日本語ブログでも公式に告知されました。

リンク: [サポート便り]用語認識しない、赤い線が表示されない場合の対応方法 - SDL Japan

原因を次のように説明しています。

Studioを起動する前に、Trados 2007を起動していた場合に起きることがあります。
それは、用語認識の連携がSDL MultiTerm 2009 –SDL Trados 2007 Workbench の状態になり、SDL MultiTerm 2009-SDL Trados 2009 Studioの連携が切れてしまうからです。

ここの記事では、LaunchStudio.bat というファイル名になっています(以前ご紹介したときのファイル名は Multiterm Activator for SDL Trados Studio 2009 SP2.bat)が、中身を比較したら、思った通りまったく一緒でした。

02:02 午前 Trados 機能, バージョン - Studio 2009 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.08.24

「フィールド情報」について

★★
メモリーを利用するときは、既訳がどこから来たものか、ということを意識したほうがいい場合があります。

たとえば、何回かの部分改訂を通じて使い続けられているメモリーの場合、常に最新の情報だけが利用されるようにメンテナンスされていればいいのですが、支給されたメモリーに

類似の既訳がいくつも並んでいる

ということも珍しくありません。そういうとき、2007 Suite までの環境であれば Workbench のフィールド情報を参照するのが普通です。

1108241

[作成日]、[作成者]、[更新日]、[更新者]という 4 つの情報が表示されるので、たとえば作成日や更新日が新しいものを優先するとか、複数のユーザー名が登録されている場合には誰の訳文を信用するとかw、そのような補足データとして使うことができます。

※この欄が表示されていない場合には、[表示][表示領域拡大]が選択されてしまっている可能性があります。ショートカットが Ctrl+B なので、うっかり触って消えているかもしれません。このチェックをオフにしてください。

上の図で表示されている 4 つのフィールドはシステムフィールドで、特に設定しなくても必ず既訳ペアに追加される情報です。これとは別に任意の情報フィールドを追加したい場合には、[ファイル][設定][フィールド]タブを使います。

1108245

[テキスト フィールド]と[属性フィールド]にはペナルティに影響するかどうかという差がありますが、それはまた別の機会に。メモリーの運用方法によっては、この追加フィールドでいろいろな情報を示して既訳を使い分けることもできますが、あまりに煩雑だと使うほうがイヤになります。

さて、このような使い途のある情報フィールドですが、Studio 2009 では、従来のように表示させる方法が見つかっていません。

[翻訳メモリ]ビューにすると、

1108246

こんな風に[カスタム フィールド]と[システム フィールド]として表示されるのですが、通常の翻訳作業時、つまり[エディタ]ビューのときには、2007 までのようにアクティブなセグメントに対して必ず表示されるのではなく、

1108243

このように、メモリセクションにカーソルを置いたときポップアップ表示されるだけです。これではいかにも不便なので、[エディタ]ビューでフィールド情報を常時表示する設定はないものかと探しているのですが、未だに見つかっていません。ご存じの方がいらっしゃったら、ぜひお知らせください。


04:45 午前 Trados 機能 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2011.07.27

T-Window for Clipboard

★★
前エントリで書いたように、SDL Open Exchange プログラムで比較的最近公開された(6/14)のが、この T-Window for Clipboard です。こちらの特徴と使い方については、SDL 公式ブログに詳しい記事がありましたので、そちらをご覧ください。

リンク: SDL Studio 2009の対象外ファイル形式でも翻訳メモリの使用が可能!SDL T-Window for Clipboardがリリースされました - SDL Japan

SDL Trados Studio 2009 SP3 がインストールされている PC であれば、MS Word とか TagEditor のように固定された翻訳作業環境ではなく、たとえばただのテキストエディタ上でも Trados メモリーを参照できるという、うまく使えばかなり便利そうに思えるアプリケーションです。

上の公式ブログ記事では「対象外ファイル形式でも~」と書かれていますが、対象ファイルであっても、たとえばすべてを翻訳するのではなく PPT ファイルの一部だけ Trados 翻訳したいという用途にも利用できます。

仕組みはわりと単純です。システムに常駐してクリップボードを監視しており、任意のエディタ上でコピー(=クリップボードへの格納)操作があったら、メモリーを検索し、結果を独自のインターフェース上に返します。利用できる訳文があったら、それもまたクリップボード経由で元のエディタ上に貼り付けられます。

さて、この T-Window、今回は Studio 2009 対応アプリケーションとしてリリースされましたが(対応するメモリーが *.sdltm 形式)、実は従来の Trados 環境に用意されていたレガシー機能の復活版です。

ご存じのように、Trados はバージョンアップのたびに対応ファイル形式が増えていきましたが、その途中過程では対応していないファイル形式がいろいろとあり、そのための、いわば一時しのぎ的に存在していたのが、T-Window シリーズでした。

たとえば、SDL Trados 2007 まででも最終的には Excel や PowerPoint のファイルが対応されましたが、それまでは T-Window for PowerPoint とか T-Window for Excel というモジュールが存在していました。

2007 Suite では、その一部が残っています。

110727_twin2_2

TWE.exe は T-Window for Excel
TWR.exe は T-Window for Resource
TWX.exe は T-Window for Exclusive

そして、

TWC.exe が T-Window for Clipboard。はい。今回の Open Exchange アプリケーションと同名のアプリケーション。こちらが本家で、[スタート]メニューのプログラムグループにも入っています。

110727_twin1

機能は Open Exchange 版とだいたい同じですが、こちらは 2007 対応なので、従来形式のメモリー(*.tmw)と連携できます。ただし、新しいだけあって Open Exchange 版のほうが機能も操作性も上でした。

2007 対応版は、たとえばこんな風に使います。

110727_twin3

このように、メモリーと任意のファイルを開いておき、(1)まず原文をコピーします。

110727_twin4

このように T-Window で検索結果が返されますが、(2)この既訳を使うには、もう一度コピー操作します。さらにめんどくさいのは、(3)上の状態が「セグメントを開いた」状態に当たり、次の翻訳に進むにはこれを「閉じる」必要があるということ。手間が多くて、操作性はけっこう悪いと思います。

かたや Open Exchange アプリケーションは、オプションでメモリーを指定するだけで、Trados 本体を起動する必要がありません。(1)エディタでコピー操作を行うとメモリーが検索されて T-Window 上に候補が表示される点は同じですが、

110727_twin5

(2)この状態でショートカットを使えば、既訳のコピーと「セグメントを閉じる」動作が一緒に行われます。これなら使う気になるかも。

実は、今回のセミナーで私も久しぶりにこの T-Window というモジュールの存在を思い出し、使えそうかなと考えたのですが、この記事を書くためにいろいろ操作していたら、結局このモジュールを使うことなく終わった理由を思い出しました。

クリップボード監視型の常駐アプリケーションって、どんな場面でコピー操作しても出しゃばってくるんですよ。やってみるとわかりますが、これって実は想像以上に不便です。辞書を引くときとか、コピー操作はとにかく頻繁。そのたびにメモリーを読みにいって T-Window が前面に出てくる。

いつまでも「常駐」させておくのではなく、ほんの一瞬だけ T-Window の機能を利用し、その後はすぐに終了させる --- そんな使い方でしょうか。

02:28 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.07.23

QA Checkerプロファイルを解析してみました

★★★
解析、というほど大げさなものではありませんけど.....前エントリで書いたように、QA Checker 3.0 でもいちばん活躍すると予想される機能が[単語リスト]と[正規表現]なのですが、リストの読み込み/書き込み機能がないためルール定義をいちいち入力しなければならず、そこがいちばんのネックでした。

ただ、QA Checkerの設定ぜんぶを XML ファイルとして書き出す/読み込む機能はあって、その中に[単語リスト]と[正規表現]のルールも書かれているので、必要な部分だけ編集すれば何とかなるだろうと前から思っていました。

以下、QA Checker 3.0 での説明になります。2.0 以前の場合、XML ファイルの構造やタグは違うかもしれませんが、基本的な手順は同じです。

QA Checker 3.0 のルール設定(プロファイル)は、sdlqasettings という拡張子で保存される XML ファイルです。XML って、いろんな情報をテキストで操作できのは便利なのですが、構造を把握するのに苦労することがあります。特に困るのは、改行がまったくなくて、論理行の 1 行でだらだらーと続いちゃってる場合。*.sdlqasettings もそんな作りです。

1107221

そこで、XML ファイルを解析して、要素ごとにツリー構造で表示してくれる XML エディタで開いてみます(Internet Explorer などでも表示できますが、あまり見やすくありません)。

[単語リスト]の定義に当たる部分:
1107222

[正規表現]の定義に当たる部分:

1107223

[単語リスト]のほうは、

<Setting Id="WrongWordPairs">
  <ArrayOfWrongWordDef...>
    <WrongWordDef>

      (個々の定義)
    </WrongWordDef>
  </ArrayOfWrongWordDef>
</Setting>

という構造で、個々の定義が

<_CorrectWord>;ユーザー</_CorrectWord>
<_WrongWord>ユーザ</_WrongWord>

というペアです。

[正規表現]はもう少し複雑になっていて、

<Setting Id="RegExRules">
  <ArrayOfRegExRule...>
    <RegExRule.>

      (個々の定義)
    </RegExRule.>
  </ArrayOfRegExRule>
</Setting>

という構造で、個々の定義は、

<_Description>長音が必要なカタカナ</_Description>
<_IgnoreCase>false</_IgnoreCase>
<_RegExSource></_RegExSource>
<_RegExTarget>アクセサ\b</_RegExTarget>
<_RuleCondition>TargetOnly</_RuleCondition>
<_SourceRX xmlns:d3p1="..."true" />
<_TargetRX xmlns:d3p1="..."true" />

のように、もともとの定義フィールドが多い分、情報が多くなっています。<_RegExSource>< の行は定義が空ですが、これは原文に対する正規表現を指定していないから(訳文のみチェック)で、原文にもルールを指定する場合には、ここにも情報が入ります。

このような構造さえわかれば、後はこれに必要な定義を当てはめたリストを作り、XML 構造を壊さないように注意して貼り付ければオッケー。

たとえば、プリミティブですがわかりやすい方法はこれ。

1107224

このように Excel 表に元の構造を貼り付けて、定義の列(この場合は C 列と F 列)に必要なルールを貼り付け、タグの行を下方向にコピーするという方法です。後は、これをテキストに貼ってタブと改行を削除すれば出来上がり。

この秋には Studio 2011 がリリースされることが決まりましたが、QA Checker はどのくらい進化するのでしょうか。

09:45 午前 Trados 機能, バージョン - Studio 2009 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.07.22

QA Checker 3.0 はそれなりに使える

★★
QA Checker については、ちょうど 1 年くらい前に以前の記事で軽く紹介しただけでした。

リンク: 翻訳後のチェック - TagEditor の場合 - 検証機能

SDL Trados 2007 Suite の時点では QA Checker 2.0 でしたが、Studio 2009 で 3.0 になり、機能がいくぶん整理統合されました。今回はこの 3.0 をベースに書いていますが、2.0 でも基本は同じです。

なお、QA Checker 3.0 の設定ダイアログを開くには、2 つの方法があります。

[ツール]→[オプション]→[検証]→[QA Checker 3.0]
[プロジェクト]→[プロジェクトの設定]→[検証]→[QA Checker 3.0]

前者は Studio 2009 の既定設定、つまりいちど設定すると、それ以降に作成するプロジェクトに共通して適用されます。後者は、現在開いているプロジェクトにのみ設定されます。これを気をつけないと、「いくら設定しても反映されない」と慌てることになります。この原則は、実はいろんな場面で当てはまるので注意してください。

以下、QA Checker 3.0 の主な設定項目です。

[分節の検証]

110722_qa_1

[原文のままの分節と空白の分節]は、訳もれ防止に有効です。[原文分節と訳文分節の比較]のうち[原文と訳文が同一]は、文章の種類によっては必要以上にエラー報告が出るかもしれません。そのほかは特に実効性を感じません。

[分節の除外]

110722qa2

100% 分節を除外するとか、逆に既訳だけチェックしたいとか、そういう状況で使い途がありそうです。


[不整合]

110722qa3

[不整合のある翻訳をチェックする]をオンにすると、いわゆる同英違和の訳文がチェックされます。[訳文内の反復語句をチェックする]は、たとえば「はは」のような助詞の重複を想定しているようですが、「かかわる」のような false positive が多数検出されてしまい、実用的ではありません。
[編集されていないあいまい一致をチェックする]は、ファジーマッチなのに訳文が編集されていないというエラーが見つかるので、これはかなり便利です。


[句読点]

110722qa4

「原文にピリオドがあるのに訳文に句点(。)がない」などのエラーを検出します([原文と訳文の文末にある句点の対応をチェックする])。検出には、原文と訳文の言語がきちんと考慮されます。[余分なピリオドとスペース]なども原文の状況によっては使えるでしょう。このなかで、使えそうで使えないのが[括弧のチェック]でした。開きカッコと閉じカッコの対応をチェックしてくれると期待したのですが、なぜか「開きも閉じもエラー」のような結果になります。


[数字]

110722qa5

これは基本的に使えます。ただし、たとえば英和の場合に原文が "January"、訳文が「1 月」だったりすると、やはり「訳文にしか数字がない」と怒られます。原文が "three"、訳文が「3」でも同様です。


[単語リスト]

110722qa6

QA Checker でいちばん使い途が多いかもしれない機能です。記号類の全角/半角、漢字/かなの使い分け、訳し方が決まっている語句などはここで指定するといいでしょう。

ただし、上のショットでは「×ユーザ、○ユーザー」のような長音の有無を指定していますが、これは実はうまく機能しません。「ユーザ」と訳されている箇所については、「ユーザーが正しいですよ」と注意してくれますが、「ユーザー」と訳されていても、その中に「ユーザ」が含まれていると見なされ、「ユーザは正しくないですよ」と言われてしまうからです。これは、長音を処理するとき必ず考えなきゃいけない問題なのですが、この機能では対処できていません。次に挙げる「正規表現」を使う必要があります。


[正規表現]

110722qa7

これも、[単語リスト]と同じかそれ以上に実効性の高い機能です。設定のしかたはちょっと煩雑ですが、正規表現のエンジンは、ほぼ Perl 互換のようです(明記してある資料はないんですが......)。原文と訳文のそれぞれに正規表現を指定でき、原文と訳文のどちらにそれが出現するか、という条件も指定できます。

[単語リスト]では対応できなかった、カタカナの長音はここでチェック可能です。上のショットでは、
×アクセサ(長音が必要)
ということをチェックしようとしています。実は最初は アクセサ[^ー] と指定してみたのですが、なぜかこれがうまくいきません。どうやら訳文中の単語区切りが正しく認識されないらしく、「アクセサー」と訳してあっても、その中に「アクセサが含まれる」と解釈されてしまうようです(単語リストのときと同じ)。そこで、アクセサ\b という風に「アクセサ、で単語が終わっている」と指定してみたらうまくいきました。


[商標のチェック]

110722qa8

法律関係に煩い文章の場合に効果がありそうです。


[長さの検証]

110722qa9

用途として思いつくのは、リソースファイル(UI)を翻訳するときでしょうか。あるいは、吹き替えスクリプトの翻訳とか。


[QA Checker のプロファイル]

110722qa10

ここで、QA Checker の設定全体をエクスポート/インポートできます。

※UI の翻訳が間違っています。「インポートの設定」ではなく「設定のインポート」が正解。

さて、この最後のダイアログでインポート/エクスポートできるのはいいのですが、いちばん使えるはずの[単語リスト]と[正規表現]については、ルール定義をひとつひとつ入力しなければならず、たとえば Excel などの一覧をまとめて読み込むことができません。カタカナ長音の有無は[正規表現]でしか検出できないのですが、何百個もあるカタカナ語のリストを、この方法で指定するというのは非現実的、非常識でしょう。

さいわい、QA Checker プロファイルのエクスポートファイルは XML 形式なので、その構造を解析すれば、テキスト上で編集できます。それについては、次のエントリでご紹介します。

ところで、カタカナ長音のチェックであれば、MultiTerm 用語ベースと比較して訳語をチェックする[用語検証機能]が使えるはず、と思った方もいらっしゃるかもしれません。

これ、試してみたのですが、ダメでした。MultiTerm はもともと、表記のゆらぎを許容する(あいまい検索)ようにできているので、ユーザー/ユーザのようなゆらぎはチェックされないのでした。

11:46 午後 Trados 機能, バージョン - Studio 2009 | | コメント (4) | トラックバック (0)

はてなブックマークに追加

2011.04.29

Workbench に TMX ファイルをインポートするときのエラー

★★★
諸事情により、Idiom Desktop Workbench や SDL Trados Studio 2009(あるいは、その他の翻訳支援ツール)のメモリーを SDL Trados 2007 の Workbench で使いたい場合があります。

そういうときは、業界標準の *.tmx ファイル形式でエクスポートし、Trados Workbench でインポートすることになりますが、たいていはこんなエラーに遭遇すると思います。

Tmximporterror1

この症状については Proz.com などでもすでに報告があり、解決方法も紹介されていますが、私も必要になることがあったので、ここでも紹介しておきます。

原因は、*.tmx ファイルのエンコーディングにあります。

標準の *.tmx ファイルは、冒頭の XML 宣言がこのようになっています。

Tmximporterror2

encoding="utf-8" で、ファイルももちろん UTF-8 形式で保存されています。

ところが、SDL Trados 2007 Workbench にインポートするファイルは、UTF-16 でなければならないのでした。したがって、*.tmx ファイルをまずテキストエディタで開き、1 行目を次のように書き換えます( 8→16 にするだけ)

<?xml version="1.0" encoding="utf-16"?>

そのうえで、ファイル自体も UTF-16 で保存し直します。こうすれば、Trados Workbench に無事インポートできます。

ちなみに、Workbench 側から *.tmx 形式でエクスポートしたファイルには、なんと encoding 指定がありません。

Tmximporterror3

09:40 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.04.05

Studio 2009 で「用語認識」が機能しない場合

★★
以前ご報告した MultiTerm の不具合(MultiTerm - SP3 アップデート後のエラー)と関係があるのかどうか、私のところでも

SDL Trados Studio 2009 で MultiTerm の用語認識が機能しない

という症状を確認しました(SP3 後のようなメッセージは出ていない)。「用語認識」というのは、MultiTerm インターフェースを別に起動して検索するのではなく、Studio 2009 でセグメントを移動するたびに、該当する用語があれば「用語認識」のウィンドウに単語が表示される、という機能です。

110405_mt_3

MultiTerm って、インターフェースの使い勝手が悪いので、私はもともとあまり使っていません(用語集の検索はもっぱらテキストベース)。したがって「用語認識」も昔からほとんど使っていないのですが、ちょっと必要があって、この症状に気づいた次第です。

1 つ前のエントリで書いた MultiTerm SP4 でこれが解消されるのかどうかは、まだ確認していません。

6/18追記: 後述するバッチファイルをダウンロードできるリンク先を追加しました】

[プロジェクトの設定]で用語ベースを追加しても、Studio 2009 上でこの[用語認識]ウィンドウが機能せず、「該当する結果がありません」としか表示されません。もちろん、ヘルプを見てもいっこうに埒があきません。

110405_mt_2

日本語でググってもあまりいい結果はないので、英語でググってみたら、あっさりこんなページが見つかりました(個人の翻訳者さんのようです)。

リンク: Re-enabling SDL Multiterm in SDL Trados Studio 2009 after working with SDL Trados 2007 | Michal Cinciala – Freelance Translator's Blog

If you work on a project in SDL Trados 2007 and then start another work in Studio, you will probably find out that SDL Multiterm does not work properly in Studio. Despite set up correctly in project settings, no terms are shown in the termbase results window in the Studio.
(太字は引用者)

しかも、これを解消するためのバッチファイルまであると書かれているのですが ---

Download and save “Multiterm Activator for SDL Trados Studio 2009 SP2.bat”

公式ページをいくら見ても、こんなバッチが公開されているとはどこにも書かれていません。このブログの持ち主に詳細を聞いて見たいのですが、コメント欄が見つかっていません。連絡がとれて詳細が判ったら、またご報告します。

バッチファイルの中身を見てみると、どうも MultiTerm と .NET Framework がらみのファイルをいじるようです。ちょっと心配なのですが、2009 環境だけなら多少おかしくなっても仕事には差し支えないので、エイヤっと実行してみました(batファイルのダブルクリックで OK)。結果は、バッチリでした。

なお、この方も親切に注意を書き添えていますが、バッチファイルのリンクは、クリックするとファイルの中身が表示されるだけです。それをすべてコピーして、任意の名前 + 拡張子 bat で保存してもいいのですが、右クリックして保存するほうが簡単ですね。

02:41 午後 Trados 機能, バージョン - Studio 2009 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2011.02.24

Studio 2009 - オンラインヘルプの使い方


SDL Trados Studio 2009 のヘルプは、分量としてはわりと充実していると思います。各種のダイアログから[ヘルプ]を押せば、必要なコンテキストヘルプにもリンクします。が、残念ながら

日本語だと意味がわからない

ことが圧倒的に多く、そういうとき英語版を見るとあっさり納得できたりします。

この辺は2007 の頃と同じです(参考: 「TagEditor における見かけの書式 - その2(ヘルプの不備)」)。

[表示]→[ユーザー インターフェイスの言語]で表示言語を切り替えればヘルプも切り替わりますが、そのつどアプリケーションの再起動が必要なので、直接参照できるオンラインヘルプの URL を紹介しておきます。

英語版: http://producthelp.sdl.com/SDL%20Trados%20Studio/client_en/SDL_Trados_Studio_Help.htm

日本語版: http://producthelp.sdl.com/SDL%20Trados%20Studio/client_ja/SDL_Trados_Studio_Help.htm


[ヘルプ]ダイアログの左下に[オンライン]と[ローカル]を切り替えるスイッチがあって、これを[オンライン]にすると、ダイアログはそのままですが、中身はオンラインで表示されます。

2009help

右側のペインを右クリックすると、Internet Explorer と同じコンテキストメニューが表示されるので、[プロパティ]を選択すると URL を確認できます。

2009help2

私はこの方法でオンラインヘルプの URL を確保したのですが、

[スタート]-[SDL]-[SDL Trados Studio 2009]-[Documentation]-[SDL Trados Studio 2009 Help]

を選択すれば、デフォルトブラウザで開くと、翻訳フォーラムで教えていただきました。

08:00 午後 Trados 機能, バージョン - Studio 2009 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.12.10

MultiTerm - SP3 アップデート後のエラー

★★
SDL MultiTerm 2009 SP3 の修正パッチがリリースされています。

先日のエントリにミストラルさんからコメントをいただきました。私はまだ遭遇していないのですが、MultiTerm を SP3 にアップデートした後に、エラーが出ることがあるそうです(.NET Framework 関連らしいのですが、TMサーバーに接続できないとか、そんなことも言われる模様)。Proz.com にも同様の症状について何件か報告があります。

リンク: Update SP3 Trados Studio, error message Multiterm (SDL Trados support)

そして、ミストラルさんからご報告があったように、このスレッドの最後のほうに SDL Support からの返信があって、修正パッチが公開されているとのことです。そのページがこちら。

リンク: Resolving Server connection errors after installing SDL MultiTerm 2009 SP3 (+Cumulative Update 8/9)

もし、MultiTerm を SP3 にアップデートした後でなんらかの不具合がある場合には、こちらのパッチを当ててみるといいかもしれません。

ちなみに、正規ユーザーであれば SDL サイトで[My Account] にログインして[マイ ダウンロード]に進めば、公開されているパッチはダウンロードできるようになっているのですが、この修正パッチは(まだ)載っていません。もしかすると、マイナーパッチ扱いで、もう少しまとまったところでパッチとしてリリースするのかもしれませんが、症状としてはけっこう大きいのにこの程度の扱いというのは、ちょっと不親切です。

というわけで、SDL の中の人にも「見てます」と言われてしまった拙ブログの責任として :) ご報告しておきます。最後になりましたが、ミストラルさん、情報提供ありがとうざいました。

03:39 午後 Trados 機能 | | コメント (7) | トラックバック (0)

はてなブックマークに追加

2010.11.21

TagEditor - 検索/置換機能 - その2

★★
昨年の 9 月に、TagEditor の検索機能が少し向上したと書きました(TagEditor と Word の違い、訂正)が、実際に使ってみたことは、ほとんどありませんでした。

なんでかというと、ttx ファイルはテキストエディタで開いて検索したほうが早いからなんですが、たまたま発見があったので、一応ざっと確認しておくことにしました。

たまたま気づいたこと、っていうのがこれ。

Tageditorsearch2

タグの中身を検索できるようになった、というのはけっこうな進歩だと思っていたのですが、[大文字と小文字を区別する]のオプションがグレイアウトされているところに注目。このオプションは、先にオフにしておいても必ずオンになってしまいます。つまり、タグの内容を検索するときは

大/小文字を厳密に指定

しなきゃいけないということ。なんでこんな半端な実装になってるのか、想像もつきません。

それからもうひとつ、検索機能の向上としては「ワイルドカード」を使えるようになったということもあったわけですが、

Tageditorsearch3

たとえばこう指定したら、

Tageditorsearch5

こんな風に怒られてしまいました。せっかくのワイルドカードなのに

* を先頭では使えない

という、これまた実に中途半端な仕様。いったい、設計・実装した人の頭ん中はどうなってるんでしょう。

それから、検索のヘルプを見て知ったのですが、「特殊フィールドの検索」という機能が増えてました。これは特にオプションボタンはなく、

Tageditorsearch4

このように ^ を付けて指定するだけ。検索できる内容はこのようになってますが、

Tageditorsearchhelp

どう考えてもあまり使い途はないんですよね。

12:43 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.10.28

Workbench の設定- [オプション]-[翻訳メモリ オプション]


SDL Trados 2007 の基本的な設定機能については、1年くらい前にいくつかエントリを書いたまま時間が経ってしまいました。今回は、ふだんの Trados 操作でいちばんよく使うオプション設定画面について説明します。

[オプション]-[翻訳メモリ オプション]

です。

ところで、SDL 社はもう Studio 2009 にかかりっきりですから、2007 がアップデートされることももうないと思うのですが、このオプション設定はグローバル、つまり開いているメモリーにかかわらず Workbench 共通で適用されてしまいます。機能から考えて、これはメモリーごとに適用すべきでした。

[翻訳メモリ オプション]ダイアログ

[全般]タブ

Tradoswbmemoption1

[一致精度最小値]
このオプションで指定したマッチ率以上の既訳が Workbench に表示されます。つまり、メモリーにある既訳のうち、どの程度を再利用したいかという設定。デフォルトは 70% ですが、実用的には 50% くらいまで下げておくと再利用できる範囲が広がります(もちろんゴミの表示も増えます)。最小は 30% で、実際にはこのくらいでも再利用できる場合がある一方、70% を超えていてもあまり使えないケースがあったりします。その辺のことは、たぶんユーザーならよくご存じでしょう。

それから、あまり知られていないことですが、[一致精度最小値]はワードカウントのログにも影響します。

Tradoswbmemoption2
これがデフォルトの 70% のとき。

Tradoswbmemoption3_2
これが最小の 30% まで下げたとき。

このサンプルではたった 3 ワードの差ですが、「不一致」と「50% - 74%」に差が出ています。つまり、[一致精度最小値]が 70% のときはこの 3 ワードが「一致なし」とカウントされたが、[一致精度最小値]を 30% に下げると、同じ 3 ワードについて「50% - 74%」レンジの既訳が見つかったとカウントされたわけです。Trados 翻訳の場合、マッチ率ごとのワードカウントが料金に直結することは多いはずなので、このことはもっと知られているべきでしょう。

[一致精度最小値]以外はだいたいデフォルトのままで大丈夫。[タグの後ろに空白を挿入]はデフォルトでオン/オフどちらだったか忘れましたが、オフにすべきです。


[ペナルティ]タブ

Tradoswbmemoption4

上の図がデフォルトのペナルティ設定ですが、実際の運用現場では、たとえば上から 0、0、2、0、0、1 程度に設定することも多いようです。

[原文のタグが異なるときはペナルティを課す]はデフォルトでオフですが、実際にはオンにするのが常識です。なぜなら、Trados には既訳と異なるタグを自動的に置換する機能があるのですが、多くの場合これが

まったくアテにならない

からです。このオプションをオフにして、つまり Trados によるタグの自動置換に任せておいたら、目も当てられないことになります(TagEditor 上で警告が出るので大丈夫、と SDL では考えているのでしょうけど)。

さて、このオプションの適用がグローバルなのは重要な欠陥だったと私は考えています。ペナルティの使い方はメモリーによって(機械翻訳を含むか、Win Align の結果を含むか、など)、あるいは翻訳会社の運用方法によって違っていることが多いからです。メモリーごとに設定できるようになっていないので、プロジェクトが変わるごとに設定を確認/変更しなければなりません。


[地域に関する情報]タブ

Tradoswbmemoption5

通常はデフォルトのまま、つまりすべてオンにしておきます。数字や単位が自動置換されます。ただし、この置換機能も完璧ではないのでオフにするよう指定する会社もあるようです。


[訳語検索]タブ

Tradoswbmemoption6

今までにも何度か書いている、あまり使いものにならないことも多い「訳語検索」(Concordance 検索)機能に関するオプションです。ここにも[一致精度最小値]という指定がありますが、計算方法はメモリーのときと同じではないようです。どんな計算になるのか、実はよく判っていません(言及してる資料も見たことがありません)。

[参照 ( 読み取り専用) 翻訳メモリ]
というのは、まだ複数のメモリーを同時に開くことができない 2007 までのメモリーアーキテクチャ上では苦肉の策とも言える機能です。訳語検索のとき、開いているメモリーのほかにひとつだけ、別のメモリーも検索することができます。

この設定もグローバルなので、一度設定すると変更するまで有効なままです。別のプロジェクトに移ったとき、以前のプロジェクトで検索していた別メモリーを引き続き検索してしまうので注意が必要。


[ツール]タブ

Tradoswbmemoption7

基本的にデフォルトのままで大丈夫ですが、[バックアップ コピーを保存]だけは必ずオンになっていることを確認してください。

Trados のバッチ処理、つまり[ツール]→[翻訳]で訳文を埋め込んだり、[ツール]→[訳文を生成]でターゲット言語だけのファイルを生成するとき、Word ファイルの場合にはオリジナルが上書き更新されます。つまり、[バックアップ コピーを保存]オプションをオンにしておかないと、バイリンガルファイルがなくなってしまうということです。[バックアップ コピーを保存]オプションをオンにしておけば、オリジナルが *.BAK というファイルで確保されます。

[ツール]タブではもうひとつ、[タグ設定ファイル]という重要な機能もあるのですが、こちらはややこしいので、別の機会に説明します。


[自動翻訳(Beta)]タブ
このタブについては、少し前のエントリ(自動翻訳(Beta)- SDL Trados 2007のオプション機能)を参照してください。

12:45 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.10.27

Studio 2009 - 自動翻訳の実力


少し前に、Studio 2009 で自動翻訳が使えるように設定してみました(Studio 2009 の自動翻訳 - これでいいのかな)。

そこで、Trados で使える翻訳エンジンの現時点の実力を見てみることにしました。

以下の各スクリーンショットは、Studio 2009 の翻訳メモリー参照ウィンドウ。ツールバーのすぐ下が原文、左右ならびの左側も同じ原文(注)、右側が訳文です。また、

1番として提示されているのが Language Weaver の訳文
2番として提示されているのが Google の訳文

となっており、残念ながら自前であるはずの SDL.com の翻訳結果は、アクセスエラーとなってしまって表示されません。警告マーク付きで「翻訳注に問題が発生しました」と表示されているのはそのためです(この状態が、ここ最近ずっと発生しているようです)。

注:今回は、ツールバー直下と左側の原文が同じですが、機械翻訳ではなく通常のメモリーを参照する場合には、ツールバー直下が翻訳対象の原文、左側がメモリーで見つかった既存ペアの原文になります。

Tra2009_at00
(クリックで拡大、以下同)

"global database"を「世界的な~」ではなく「グローバル~」と処理できているところが、Google で採用されている「統計ベース」の実力という気がします。受動態を含む単文ですが、Language Weaver の出力はだいぶ見劣りします。

※統計ベースの機械翻訳については、たとえばこちらをどうぞ。
リンク: 統計ベースの機械翻訳: Buckeye the Translator
(偶々ですが、"統計ベース"でググったらトップでヒットしました)


Tra2009_at01

if 節の入った複文。Language Weaver と Google でさらに差がつきました。これなら、ポストエディット(機械翻訳された訳文を人間が編集する作業)の手間も最小限 --- 「あなたの」を削除、Advanced Installation を UI として処理する --- で済むレベルでしょう。


Tra2009_at02

単文ですが、to 不定詞以下に当たる句が 4 つ並列になっています。一見するとどちらも日本語になっていませんが、よく見ると Google のほうはその並列関係が正しく理解されています。この精度はかなりのものと言えます。


Tra2009_at03

これもいいサンプルでした。動名詞が主語になり、関係代名詞も登場しています。主述の関係はさすがに乱れていますが、やはり関係代名詞の処理で Google が勝っています。


Tra2009_at04

かなり単純な文。Google はほぼ完璧です。


Tra2009_at05

今回のサンプリングの中では珍しく、Language Weaver が勝っていた例です。after 節はこの後でもう1つ出てきます。


Tra2009_at06

今回比較した中で、Google 翻訳の驚くべき水準が最もよく表われている例かもしれません。only までの句の処理も優秀ですし、specify の目的語が正しく並列として処理されていて、実はこれはスゴイことなのです。


Tra2009_at08

前の例と似た句が含まれていますが、permissions の後の前置詞 on を修正する程度で実用レベルになるでしょう。


Tra2009_at09

いわゆる無生物主語の構文です。人間による翻訳であれば、prevent をこのように訳してしまったらたいてい失格ということになりますが、機械翻訳の場合、この程度なら許容される方向に

要求水準自体が変わってくる

可能性が高いようです。機械翻訳の技術的な進歩より、このような翻訳体系の変質のほうがはるかにコワいと私は思っています。


Tra2009_at10

やはり、Google くんはどうも after 節の処理が苦手なようです。が、これが正しく処理されるようになるのも、統計ベースの進化を考えれば時間の問題でしょう。


Tra2009_at12

これは、統計ベースが裏目に出てしまったのかもしれません。なにしろ、こういう主語を「~では」って訳すのって、IT 翻訳ではおなじみですよね(私は悪癖だと思っています)。


Tra2009_at13

最後は、おそらくたいていのローカライズ翻訳でこのまんま通用するだろうというサンプルです。「代名詞 they を訳さない」というレベルがちゃんとクリアされています。

以上、使った例文は、昨年の翻訳フォーラムで使ったドキュメントのままなのですが、偶然ながらけっこう典型的なサンプルが集まったように思います。

機械翻訳のレベルは、今やここまできています。

Trados とは別の機械翻訳システムでポストエディットにも触れた経験のある私自身、正直言って今回のこの結果にはかなり驚いています。

純粋なマニュアルやヘルプの翻訳マーケットは --- 難易度にもよりますが、おそらくは中程度くらいまで含めて --- 数年前の予想よりはるかに急激に縮小してしまうかもしれません。

このような現状を考えると、今年の JTF 翻訳祭、特に「支援ツール分科会」は、特に IT 翻訳者にとって必見かもしれません(手前味噌ですけど)。

統計ベースの機械翻訳については、D-3 セッションで聴くことができます。

機械翻訳を実地に利用したい場合には、D-4 セッション

ポストエディットに興味のある方には D-5 セッションがありますし、こうした現状で翻訳者が生きる道を模索するなら、C-5 セッションがお奨めです。

02:44 午前 Trados 機能, バージョン - Studio 2009 | | コメント (4) | トラックバック (0)

はてなブックマークに追加

2010.10.19

Word で翻訳単位が壊れたときの対処法


以前のエントリ(Word についてほとんど書かれないこと)でも、Microsoft Word を翻訳エディタとして使用するとき、その動作は

マクロで組まれている

と書きました。

最近は、ようやく少しずつ Studio 2009 案件も動き始めたようであり、2007 で Word ファイルを扱う場合でも TagEditor で開くことが増えてきましたから、Word + Workbench という作業スタイルは減ってくると思われますが、まだまだ Word 上で Trados 翻訳という機会はなくならないので、やはり

Word 上で翻訳中に、セグメントが壊れたらどうするか

ということは書いておいたほうがよさそうです。

ちなみに、[編集]メニューで[元に戻す]と[やり直し]を見てみると、Trados 操作に伴う処理の履歴を探ってみることができます。セグメントを開閉するだけでも、「ブックマークの編集」のほか、複数のVBA処理によって文字列のコピーや貼り付けが実行されています。

「セグメントが壊れる」というのは、このステップにどこかで狂いが生じ、その時点からマクロを正しく実行できなくなってしまう状態です。そうなると、[登録]はもちろん、セグメントを[閉じる]ことさえできなくなり、Trados 初級の方などが途方に暮れてしまいます。

1. [文書の修正]コマンド

いちばんオーソドックスなのは、Word のメニューバーから[Trados]→[文書の修正]コマンドを選択する方法です。運がよい、つまり破損が軽症の場合には、これで正常に戻ります。閉じなくなった後で、慌てていろいろなコマンドを試してしまうと、さらに別のマクロが実行され、[文書の修正]が成功する可能性が低くなるようです。異常が起きたら、すぐこのコマンドを使うほうが早道かもしれません。

★ここで重要な注意がひとつあります。★

セグメント、つまり原文-訳文のペアが出来上がったとき、原文には隠し文字属性が設定されています。[文書の修正]コマンドを実行すると、

原文の隠し文字属性が外れてしまう

ということです。したがって、[文書の修正]を実行したときは、必ずそのセグメントを「もう一度開いて閉じる」必要があります。


2. [元に戻す](Undo)コマンド

Ctrl+Z で、正しい状態まで自力で戻ります。とは言っても、この「正しい状態」を見きわめるのがかなり困難。たとえば、

101019_trados_corrupt1

あるいは

101019_trados_corrupt2

こんな風に編集記号が見えていればもちろん NG ですが、見かけだけでは判断できません。

いちばんわかりやすいのは、自分が訳文を入力していた途中の段階まで戻ることでしょう。文字列の入力途中であれば、セグメント処理のうえでは正常な状態、と言えるので、そこからなら復帰は容易だろうと思います。


3. Trados セグメントタグが壊れたとき

セグメントの開始と終了、マッチ率を表すタグ {0> <}100{> <0} というタグは、通常プロテクトされていますが、これもあっさり壊れたりします(参照:タグプロテクションの落とし穴)。

この場合、壊した操作に覚えがあるなら、Ctrl+Z でうまくいくかもしれません。

そうでない場合には、付近にある正常なセグメントからセグメントタグを手作業でコピペするしかありません。きわめて原始的ですが、有効ではあります。このときは当然、[タグプロテクションの切り替え]で、プロテクトを一時的に解除する必要があります。

なんでこんなエントリを書いたかと言うと、自分の環境で、最近ときどき予期しないセグメント破損が起きているからです。

[後続の完全一致を翻訳]コマンド --- かつての社内では「グルグル」ボタンと呼んでいました --- で既訳を取り込んでいくと、ときどき上のスクリーンショットのように、編集記号が残った半端な状態になります。比較的最近になって発生するようになった症状ですが、もちろん原因は不明です。

この症状の場合、Ctrl+Z を 1 回使うだけで正常に戻ります。


10:02 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.10.16

Studio 2009 の自動翻訳 - これでいいのかな

★★
前々エントリ、前エントリと立て続けにアップしてから、もう一度 Studio 2009 の自動翻訳について調べてみました。

SDL のサイトにこんなページがあって、不出来なヘルプより、こちらのほうが役に立つようです。
リンク: ビデオチュートリアル - SDL Trados Studio 2009

前々エントリで、こう書いたばかりです。

さて、自動翻訳を実際に使ってみるには、[ファイル]→[サーバー]で機械翻訳のサーバーに接続しなければならないのですが、

だって、ヘルプにこう書いてあったんだもん。

自動翻訳を使用するには、自動翻訳サーバーを追加してから、そのサーバーに接続する必要があります。

でも、これはウソでした。日本語版ヘルプを信じた私が間違っていました。

自動翻訳のサーバーを追加するには、[プロジェクトの設定]→[翻訳メモリと自動翻訳]を使います。つまり、ローカルのメモリーやサーバー上の共有メモリーを追加するときと同じように、SDL/Google/Language Weaverのサーバーを指定できるのでした。

Tra2009101016autotransdlg4

そこで、現在選択できる 3 つの機械翻訳エンジンをさっそく試してみることにしました。

まずは、いちばん見てみたかった Language Weaver のサーバー(ただし、ダイアログのオプションから察すると正式版ではなく、SDL Trados Studio ユーザー用に用意された先行お試し版のようです)。

Tra2009101016autotransdlg5lw

ダイアログに2つの訳文候補が表示されています。マッチ率が「91%」になっているのがローカルのメモリーでヒットした既訳、「AT」となっているのが、Language Weaver のエンジンから取得された訳文です。

次は、Google 翻訳。

Tra2009101016autotransdlg5ggl

まあ、五十歩百歩といったところですね。

で、自前の SDL サーバーなんですが、こちらを指定するとプロトコルエラーとなって結果が返ってきません。原因は不明です。

【2010/11/14 追記】
その後、SDL の方にこの件を確認する機会がありました。[SDL 自動翻訳]のオプションは、日本語に対応していないそうです。そのため、私がやったこのサンプルのように「英語-日本語」を指定していると、エラーになってしまうと。

09:21 午後 Trados 機能, バージョン - Studio 2009 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

自動翻訳(Beta)- SDL Trados 2007のオプション機能

★★
Studio 2009 では自動翻訳(機械翻訳)を試すことができない、と前エントリで書きましたが、SDL Trados 2007 であれば試してみることができます。

[オプション]→[翻訳メモリ オプション]→[自動翻訳(Beta)]タブを開いて、

Tra2007101016autotrans2

[翻訳メモリに一致しなければ、SDL 自動翻訳を使用する]をチェックし、[既定の接続設定を使用する]を選択すれば、デフォルトのサーバー(mt.services.sdl.com)に接続できるはずです。この状態でセグメントを開くと、

Tra2007101016autotrans1

このように、機械翻訳の訳文が翻訳サーバーから取得されます(マッチ率=1% )。このときサーバーからのレスポンスを待つディレイはほとんど感じられません(この例のような1行だけでなく、4~5行分の長さでも)。その点はたいしたものだと思いますが、精度については、まあ上のサンプルからだいたいご推察ください。

ところで、1つ目のスクリーンショットには、"Your license for this feature will expire in 168 days."と書かれています。これが何かというと、SDL Trados 2007 における自動翻訳の機能はあくまでもベータ版であり、ライセンスには1年間という期限が付いているのでした。

ライセンスマネージャを開いてみると、そのことが判ります。

Tra2007101016autotrans3

つまり、2007 で提供される自動翻訳の機能はあくまでもオマケであり、1年経過した後も使いたいときは Studio 2009 上で使ってね、ということのようです(この制限に関する記述を、以前はどこかで見かけたような気がするのですが、今探しても見つかりませんでした)。

私の環境でも実は、2009+2007 をいち早くインストールしたマシンではもうこのライセンスが切れています。

であれば、Studio 2009 でこの機能を使うための情報がきちんと欲しいわけですが......

08:19 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.10.01

タグを一括削除する Word マクロ

★★
Trados 翻訳する文書には、タグがつきものです。

タグの数が妥当であればそのまま作業できますが、ファイルによっては邪魔あるいは無意味なタグがやたらと多くて、原文を読むのさえ不自由なことがあります(FrameMaker ベースの RTF ファイルとか、Word から出力した HTML ファイルとか)。たとえば、こんな感じ。

Tra101001

そんなときは、原文をすべて訳文フィールドにコピーし、タグをぜんぶ削除してから作業すると楽なのですが、Trados の標準コマンドに、「タグを一括削除」というコマンドはありません(Idiom Workbench にはあります)。

そこで、簡単な Word マクロで実現しています(Word 2003)。

Tra1010012

こんな風に訳文をコピーしてから、訳文の範囲をすべて選択して「タグの一括削除」マクロを実行します。マクロはこんな感じです。

Sub Trados_DeleteAllTags()
  With Selection.Find
   .Text = "\<*\>"
   .Replacement.Text = ""
   .Forward = True
    .Wrap = wdFindStop
    .Format = False
    .MatchCase = False
    .MatchWholeWord = False
    .MatchByte = False
    .MatchAllWordForms = False
    .MatchSoundsLike = False
    .MatchFuzzy = False
    .MatchWildcards = True
  End With
  Selection.Find.Execute Replace:=wdReplaceAll
End Sub

False になっている検索条件のところは、なくてもいいものがあるのですが、削除すると True ということになり、True の条件が衝突する場合があるみたいなので、面倒なのですべて明示的に指定してあるだけです。重要なのは、以下のポイント。

- \<*\> というワイルドカード指定文字列(タグを表す)
- .MatchWildcards = True(ワイルドカードを使う)
- .Wrap = wdFindStop(置換を選択範囲だけで終わらせる)

なんてエラそうに書いていますが、実際にはマクロをゼロから書いたわけではなく、操作を記録してから若干編集しただけ。

ちなみに、上のスクリーンショットでは、原文をコピーした部分(黄色の範囲)が元のフォントと違っています。これも、フォントを引きずらないようにコピーする、というマクロを使っているため。

11:10 午前 Trados 機能, 関連ツール | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2010.09.30

MultiTerm - 用語集の作成 - MultiTerm 5.5 から

★★
これまで、MultiTerm のことはほとんど書いたことがありませんでした。理由は単純、自分があまり使わないからです。クライアントから支給される用語集は、今でも Excel ファイルなどのほうが多く、MultiTerm 形式で支給されるケースは稀です(あくまでも私の場合です)。

支給ファイルから変換してわざわざ自分で MultiTerm 形式の用語集を作る必要性もさほど感じていないのですが、手順だけは紹介しておこうと思います。

バージョンは、MultiTerm 2009 を使用します。2007 でも MultiTerm 自体の見かけはほぼ同じですが、変換のプロセスが若干違います。最近であれば、Studio 2009 を購入すると 2007 も付いてきますが、MultiTerm は 2009 のライセンスになると思います。

最初は、MultiTerm 5.5 以前のファイル形式(*.mtw)から 2009 形式の用語集を作成する手順です。ちなみに、MultiTerm のデータフォーマットは、5.5 を境に大きく変わりました。

おおまかに言うと、旧ファイルから 2009 形式の用語集を作成するには、

1. MultiTerm Convert で、インポートファイル(*.xml)を作成する
2. MultiTerm で用語ベース(*.sdltb)を作成する
3. 用語ベースに *.xml ファイルをインポートする

という手順をとります。まず、この点をおさえておきましょう。手順の 2 と 3 は、別のファイル形式から作成するときでも共通です。

  1. Windows の[スタート]メニューから、[プログラム]→[SDL]→[SDL MultiTerm 2009]→[SDL MultiTerm 2009 Convert]を選択して SDL MultiTerm 2009 Convert を起動します。

  2. 初期画面の次の[変換セッション(2/7)]ダイアログはデフォルト設定で OK なので、そのまま[次へ]。

  3. [変換オプション(3/7)]ダイアログで、変換オプションとして[MultiTerm 5 形式]を選択します。[次へ]。

    Mtremconv5501


  4. [ファイルの指定(4/10)]ダイアログで、[入力ファイル]に 5.5 形式の *.mtw ファイルを指定します。他のフィールドには自動的に値が指定されますが、そのままだと *.mtw ファイルと同じ階層にファイルが作成されます。下の図では、*.mtw のあるディレクトリの下位にフォルダを作ろうとしています。

    Mtremconv5502_2


  5. [次へ]をクリックします。変換元の *.mtw にパスワードが設定されている場合には、[User ID]/[Password]を指定する必要があります。だいたい、super/super(小文字)で通ります。

    Mtremconv5504

    元ファイルが「評価」され、次のダイアログに進みます。

    Mtremconv5505


  6. [ロケールの割り当て(5/10)]ダイアログ。ソース言語とターゲット言語は「インデックスフィールド」として設定されています。[使用可能なインデックス フィールド]で「English」を選択し、右の[ロケール]フィールドから適切な言語を選択します(ここでは[English (United States)])。

    Mtremconv55061

    「Japanese」のロケールは、たぶんデフォルトで[Japanese]になっています。

    Mtremconv55062


  7. [エントリ構造をカスタマイズ]を選択していない限り、[次へ]をクリックするとサマリー画面になって、ステップはいきなり「8/10」に飛びます。サマリーを確認すると、[変換(9/10)]ダイアログに進んで変換が始まります。

    Mtremconv5507

ここまでで、SDL MultiTerm 2009 Convert による変換が終わり、インポートファイル(*.xml)が作成されます。次は、MultiTerm 本体での操作に移ります。

  1. [プログラム]→[SDL]→[SDL MultiTerm 2009]→[SDL MultiTerm 2009]で MultiTerm 2009 を起動し、[用語ベース]から[用語ベースを作成]を選択します。

  2. 用語ベースウィザードのステップ 1/5、[用語ベースの定義]で、[既存の用語ベース定義ファイルを読み込む]を選択し、[参照]をクリックしてファイルを選択します。ここで選択するのは、上記の手順で xml ファイルと同じ場所に作成される *..xdt ファイルです。

    Mtremconv5508


  3. ステップ 2/5、[用語ベース名]では、[表示名]のみ必須です。

    Mtremconv5509


  4. ステップ 3/5、[インデックス フィールド]では右側のウィンドウに「EN-US」と「JA」がもう設定されていると思います。そのまま[次へ]。

    Mtremconv5510


  5. ステップ 4/5 と 5/5 はどちらもそのままで OK(私も完全には理解していません)。ここまでで用語ベースが完成した状態になります。

    Mtremconv5513

最後は、今作った用語ベースに用語ファイル(*.xml)をインポートするステップです。

  1. MultiTerm 2009 の左ペイン下で、[カタログ]ボタンを押します(MultiTerm 2007 までは、[用語ベース]メニューにインポート機能があったかと思います)。

    Mtremconv55132


  2. 左ペイン上のツリーで[Import]を右クリックし、[実行]を選択します。

    Mtremconv5514


  3. インポートウィザードのステップ 2/8、[全般設定]で、*.xml ファイル(MultiTerm Convert で作成したファイル)を選択します。

    Mtremconv5515


  4. ステップ 3/8、[検証の設定]で、無効なエントリを記録するファイルを適当に指定します。各オプションはとあえずデフォルトのまま[次へ]。

    Mtremconv5516


  5. インポートが開始されます。このステップはちょっと時間がかかります。コーヒーでもどうぞ。

    Mtremconv5517


  6. これで用語集が完成し、MultiTerm のインターフェースで使えるようになります。

    Mtremconv5518

    「Module」や「Category」のフィールドが文字化けしているのは、変換元の *.mtw の文字コードが UTF ではなかったせいかもしれません。

作成した用語ベースを開くには、[用語ベース]→[用語ベースを開く]を選択して sdltb を選択します。

Mtremconv5519

リストの先頭にチェックボックスが付いていることで判るように、用語ベースは複数を同時に開くことが可能です。これも、5.5 までの MultiTerm と大きく違う点のひとつです。

06:38 午後 Trados 機能 | | コメント (5) | トラックバック (0)

はてなブックマークに追加

2010.06.29

翻訳後のチェック - TagEditor の場合 - 検証機能

★★
TagEditor の検証機能は、しばらく前のバージョンから実装されていましたが、使い勝手が今ひとつだったため、あまり使わず、確認もしたことがありませんでした。2007、2007 Suite ではそれなりに使えるようになった面もあるので、ご紹介しておきます。

※検証機能と、検証のためのプラグインについては、『TRANSLATOR’S WORKBENCH ユーザーガイド』にもある程度情報が載っています。Trados は、日本語化されているマニュアルが多くありませんが、数少ない日本語版です。

TagEditor の[ツール]→[プラグイン]を選択すると、こんなウィンドウが開きます。

Tageditorplugin1

検証に使う各機能が、このようにプラグインという形で追加されている、ということになっています。

それぞれのプラグインを選択して[プロパティ...]をクリックすると、チェックを細かく設定できるようになっています。

以下、前エントリの omiso.dot のチェック機能に対応するように並べてみました。

SDL TRADOS QA Checker
SDL TRADOS QA Checker 2.0

この 2 つは、名前から判るとおり機能の一部が重複しています。2007 SP2 で 2.0 が追加されましたが、本当はその時点で番号なしバージョンのほうが削除されるはずだったんだろうと思います。なぜか私の環境では両方が存在します。

このプラグインに、omiso.dot 相当として以下のチェック機能があります。

・訳抜けチェック
・数字の不一致
・原文と訳文で極端に長さの異なるセグメント
・原文と訳文が同一の場合のチェック

また、omiso.dot にない機能もいろいろと揃っています。

・チェックから除外するセグメントの指定
・訳文の長さチェック
・句読点(原文と訳文で句読点が同じ、等)や、不要なスペースのチェック
・同じ原文に対して訳の異なるセグメントのチェック
・商標使用のチェック
・原文または訳文における正規表現パターンの検出
・原文と訳文で正規表現のペアの検出
・指定した正誤のチェック

正規表現のチェックが 2 種類あって煩雑ですが、最初のほうは単に原文または訳文、あるいはその両方に、指定した正規表現パターンが出現するかどうかをチェックするだけです。それに対して後者、「正規表現のペアの検出」というのは、「原文に○▲というパターンがあり、訳文に△○というパターンがある」というペアを検出できます。

この「正規表現のペア」を使えば、たとえば TagEditor で UI を翻訳するとき(そういう案件は多くありませんが)、「原文に三点リーダーがあったら訳文でも三点リーダーを使う」とか、「原文に $s という変数があったら訳文にも同じ変数が必要」という UI 翻訳固有のルールをチェックすることができます。

また、これらの項目は設定をリストとしてエクスポート/ロードできるので、案件ごとにプロファイルを変更して対応することもできるのですが、残念なことにエクスポート/ロードのファイル形式が XML なので、タブ区切りみたいな単純なリストを読み込むことができません。この辺の小回りの悪さは典型的。


SDL TRADOS Generic Tag Verifier

omiso.dot と同じく、原文と訳文でタグの一致を検証します。ただ、TagEditor の場合には順次翻訳するときにもタグがチェックされているので、誤ってタグを削除してしまうことはほとんどありません。


SDL TRADOS Terminology Verifier

用語チェック機能ですが、これがいちばん使いものになりません。まず、チェックに使う用語集が、omiso.dot のように単純なタブ区切りファイルではなく、MultiTerm 形式の用語ベースです。その時点でもう、この機能を使うしきいがいきなり高い。しかも当然、リストに正規表現は使えません。

そして何より、このプラグインの実行結果には False Positive が多すぎるという重大な欠点があります。用語の出現個数までチェックしているのかどうか、結果を見てもよく判らないのですが、エラーと思えないセグメントがエラーと認識されることがほとんどで、実効性がありません。

以上に紹介した以外にも、ファイル形式別も含めていろいろなプラグインがあり、それぞれで細かい設定が可能な場合もあるのですが、必要がないので試していません。「それなりに使えるようになった」と冒頭に書きましたが、それが当てはまるのは、QA Checker くらいかもしれません。

12:14 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.06.28

翻訳後のチェック - Word の場合 - omiso.dot

★★
今までばらばらに話題にしてきましたが、Trados 翻訳後のチェックツールについてまとめておきます。TagEditor の検証機能がある程度使いものになってきた、というのが理由のひとつでもあります。

最初に、Workbench + Word を使用する場合。omiso.dot という Word テンプレートを使いますが、入手は困難になってしまいました。Word 上で直接使える形式で同等の機能を持つツールは、今のところ確認できていません。

※omiso.dot を開発なさった方に直接連絡をとることはできませんでしたが、間接的に「自由に配布していい」という許可をいただきました。引き続き、ご希望の方は私までメールでご連絡ください。

訳終了後の doc ファイルや rtf ファイルに対して、次のようなチェック機能があります。

「英日比較」
以下のチェックオプションを設定でき、ログを Excel 形式とテキスト形式で出力できます。

・タグの不一致1
・数字の不一致
・原文と訳文で極端に長さの異なるセグメント

Omiso_2

注意1: タグは原文と訳文で完全一致していないとエラーとして出力されるので、タグの属性値(たとえば alt 属性の値)を訳出していると、エラーとみなされます。

注意2: 数字も完全一致が検証されるので、たとえば原文で one、訳文で 1 だったりするとエラーとみなされます。


「訳抜けチェック」
文字通り、訳抜けをチェックします。

注意3: 数字のみのように、Trados で通常はセグメントにならないため原文として残るような箇所もエラーとみなされます。

注意4: こちらはログを出力するのではなく、該当箇所があるたびに画面に警告ウィンドウが表示されます。しかも、いちど停止して再度実行すると、またファイルの先頭からチェックを始めてしまいますので、使い方にはちょっと工夫が必要です。


「ルールチェック」
スタイル違反などをリストにしておき(○ヘッダー、×ヘッダ)など、訳文に該当する違反があったら警告します。ログの出力形式は Excel。

注意5: 正規表現には対応していないため、リストでの指定に限界があります。


「用語チェック」
英和対応の用語集リストを作成しておき、その用語が使われているかどうかをチェックします。ログの出力形式は Excel。

注意6: こちらも正規表現に対応していないため、リストでの指定に限界があります。


--------------------
上の注意でも書いたように、「ルールチェック」と「用語チェック」は正規表現対応していないため、よほどうまくリストを作らないと実用性がありません。私も、使っているのは主に「英日比較」の機能だけで、ほかは独自の Perl スクリプトに頼っています。

11:03 午後 Trados 機能 | | コメント (3) | トラックバック (0)

はてなブックマークに追加

2010.04.02

メモリのメンテナンス - 訳ヌケあり

★★
Trados などの翻訳メモリについて「メンテナンス」というと、無駄なデータや重複を整理したりするデータベース整備のことを指す場合もありますが、今回の話は、Workbench の[ファイル]→[メンテナンス]→[翻訳メモリのメンテナンス]で使える機能のことです。

この機能を使うと、条件を指定して特定の原文-訳文ペアだけを削除したり、用語を一括置換したり、作成者や更新日などデータベース情報を書き換えたりすることができます。

これが[翻訳メモリのメンテナンス]ウィンドウ。

Maint1

今回は、特定の[作成者]を指定して、その既訳だけを削除してみます。メモリに、何種類かのソースから採用された既訳があり、特定の作成者による既訳は信頼できないので参照しないようにしたい、というケースを想定しています。

[翻訳メモリのメンテナンス]ウィンドウで[フィルタ]を選択します。[作成者]をダブルクリックし、絞り込みのキーワードを[条件]フィールドに入力します。キーワードの前後にワイルドカード文字「*」も使用できます。ただし、このフィールドに入力できる文字数は、ワイルドカードも含めて 36 文字まで。これは 1 バイト文字でも 2 バイト文字でも同じ字数。

Maint2

[OK]をクリックして[翻訳メモリのメンテナンス]に戻り、[検索開始]をクリックすると、条件に一致した既訳だけが表示されます。

Maint3

個別にいろいろと編集したい場合は国旗を右クリックして[翻訳単位を編集]を開きます。一括置換したい場合は[検索と置換]です。ここでは一致した既訳を削除するので、[削除]をクリックします。

削除には、[現在のリスト内の翻訳単位]と[すべての翻訳単位]の 2 つのオプションがあって、前者だと今ウィンドウに表示されている既訳のみ削除します。後者は「すべて」と書いてありますが、もちろんメモリのすべての既訳ということではなく、フィルタに一致したすべての既訳を削除します。

.......のはずなのですが、[すべての翻訳単位]を選ぶと、こんな警告が出てちょっと、いや、かなり驚きます。

Maint5

しかも取り消し不可とか言ってるし。そんなはずはないと思って、念のためにインターフェースを英語にしてみました。

Maint6

すると、またまたローカライズ段階での翻訳の不備が見つかったという次第。英語のダイアログにはちゃんと、

all the matching translation units in the current translation memory

と書いてあります。matching というこの 1 単語が抜けてしまったばっかりに、日本語インターフェースはかなり危険なことになってしまいました。

自戒、自戒。

あ、もちろん、警告ダイアログはショッキングですが、こちらを選択しても全メモリがなくなってしまうことはありません。フィルタで絞り込んだ対象だけが削除されます。

03:34 午後 Trados 機能 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2010.03.12

タグプロテクション - TagEditor の場合

★★
先日、Word 上で操作するときの「タグプロテクション」機能について書きました(side TRADOS: タグプロテクションの落とし穴)。

タグプロテクションに関しては、Word より TagEditor 上で操作するほうが確実です。通常であれば、Word 上のようにタグを壊してしまったり、そのあげくにセグメントが閉じなくなったりすることはまずありません。また、セグメントを開いたときにも原文は保護されていますから、原文の一部を削除してしまう心配もありません。

ただし、1 点だけ注意の必要な例外がありました。

まず、TagEditor でのタグプロテクションの設定画面から。[ツール]→[オプション]→[プロテクション]タブを選択します。

Tageditorprotection

[タグを保護する]のオプションは通常、このように[外部タグのみ]に設定しておきます。そうしないと、内部タグの移動もできなくなるからです。残りのオプションは、このショットのようにすべてオンで OK。

これで普通は、文書のどこも壊れない設定になります。原文の保護はもちろん、セグメント外では文字列の挿入も削除もできなくなります......のはずなのですが、1 点だけ死角があります。

Tageditorprotection2

このようにセグメントの直後だけは、なぜかタグを挿入できてしまいます。タグではない文字も、ときどき挿入できてしまうようです。

切り取って貼り付けたのであれば、セグメントを閉じるとき「タグの数が合わない」というエラーが出ますが、コピーした場合、セグメント内のつじつまは合っていて、セグメント外にタグが増えてしまうことになります。ご注意ください。

10:21 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

TagEditor のタグ表示


翻訳インターフェースが TagEditor の場合には、タグの表示形式を

・最小表示
・名前のみ
・フル表示

の 3 タイプから選ぶことができます。ツールバーにあるこのボタンを使うのがお手軽。

Tageditortbtag

最小(ツールバーでは左のボタン)にすると、「そこにタグがあると判る」だけになります。

Tageditortagmin

名前のみ表示(中央のボタン)にすると、head とか a とかだけになり、フル表紙(右のボタン)にすると、属性とその値も含めたすべての情報が表示されます。

Tageditortagmax

IT 翻訳ではタグの内容も考慮しなければならないことが多いので、普通はフル表示で使いますが、ファイルによってはフル表示が邪魔になることがあります。

Tageditorui1

これ、PowerPoint ファイルを TagEditor で作業しているところです。タグがセンテンスの前にあるんだか後ろにあるんだか見にくくてしかたがないうえに、カーソルの移動も不自由になることがあります。こういうときは、「名前のみ」の表示が適切です。

Tageditortag4

ただし タグとか タグの場合は、属性の内容も重要なので、この表示のまま作業すると、タグの位置が正しくなくなってしまう恐れがあります。十分注意が必要。

※TagEditor には、タグの位置や順番が原文と変わってしまったとき警告を表示する機能がありますが、原文と同じタグ順が訳文でも正しいとは限りません。

08:16 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.03.06

タグプロテクションの落とし穴

★★
2007 Suite(以前)の環境で、翻訳インターフェースとして Word を使用する場合の話です。

先日も書いたように発注側が Studio 2009 に移行する気配はまだほとんどないうえ、2007 環境でも TagEditor ではなく Word ベースで進む案件がいっこうに絶えない様子ですので、Word 上の動作についての注意はまだまだ有効だと考えます。

タグプロテクションとは、

Tp3_2

このようにセグメントの前後と、原文-訳文の間に追加される {0> - <}100{> - <0} というマーキング文字列を保護する機能です。このセグメントマークは、tw4winMark というスタイルで、フォントは「紫色、下付き文字」という設定です。このマーキングが少しでも壊れてしまうとセグメントが正しく認識されなくなるため、Word 上ではこの部分を保護して削除などできないようにしてあるわけです。

が、この機能にも意外と落とし穴があります。

まず、これがヘルプでの「タグプロテクション」の説明。

Tp2_3


1. セグメントマーキングを壊してしまえるケース

削除や切り取りができないようになっている、と書いてありますが、例外があります。いちどセグメントを閉じて、次のような状態になったとき、

Tp4_2

カーソル(I ビーム)をセグメント末尾のマーキングの直前、つまり <0} の < の直前に置いて [Delete]キーを使うと、あっさり < が削除されてしまいます。

Tp5_2

こうなってしまったセグメントはもう正常に開かず、こんなメッセージが出て怒られてしまいます。

Tp6_2

このようにセグメントマーキングを壊してしまうと、[文書の修正]でも元に戻らないことがあります。しかも、壊れていることに気づかずにセグメントの開閉を試みた場合には、その分のマクロのステップが実行されてしまいますから、Undo で正常な状態まで戻るのもなかなか難しいことになっています。

また、削除や切り取りができないだけで、マーキングの中に文字入力はできてしまいます。もちろん、こうなった場合もエラーになります。
Tp7_2


2. セグメントマーキング直後での編集

また、セグメントマーキングの部分は前述のスタイルを持っているので、その直後に文字を入力しようとすると、当然そのスタイルを引きずってしまいます(セグメントを開かない状態で編集するのは例外的ですが、珍しいことではありません)。

Tp8_2

また、この位置にはペーストもできません。


3. タグプロテクション状態の表示がない

[Trados]メニューで[タグプロテクションの切り替え]を使うと、タグプロテクションは無効にすることもできます。ところが、これもバージョン 2.0 の頃から一貫してとうとう実装されることのなかった点なのですが、プロテクションのオン/オフ状態を示すアイコンのような機能はどこにもありません。なので、今オンなのかオフなのかは、保護されている文字列を削除してみなければ判りません。

まあ、保護をオフにするというのはほとんどないケースだから、今までリクエストがなかっのかもしれません(かなり初期のときに私はリクエストしたことがあるんですが)。

04:12 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.02.18

WinAlign の文字化け - 進歩なし

★★
WinAlign のことを詳しく書くのは初めてです。WinAlign とは、

原文ファイルと訳文ファイルが別々に存在するとき、そのペアから翻訳メモリーを作成する

という、SDL Trados スイートの中ではサポート的な役割を果たすアプリケーションです。フリーランス版にも含まれていますが、どちらかというと翻訳会社で使うことのほうが多いのではないと思います。つまり、今まで翻訳メモリーを使っていなかったお客さんが過去の原文と訳文ファイルをもらって、まずそこからメモリーを作成して新版の翻訳に入る、というフローです。

とは言え、私も旧版の原文と訳文を別々に渡された場合には、ときによってこれを使うことがあります。

SDL Trados 2007 にバージョンアップしてから使ったことはなかったのですが、今回初めて使ってみました。基本機能はまったく進歩がありませんでした。

マウスホイールに非対応

WinAlignt とは、こんなツールです。

Trawinalign

これを見てもわかるように、左右を結ぶラインを引いたりして使う GUI なので、マウスカーソルはウィンドウ内にあるままホイールぐりぐりでスクロールしたいわけですが、それに対応していません。


生成したメモリーに文字化けがある

これも以前から有名な不具合のはずですが、そのまんまでした。私が把握している範囲では、以下の文字化けがあります。

ソ → \'83\'5c
ボ → \'83\'7b
マ → \'83\'7d
閲 → \'89\'7b
急 → \'8b\'7d
構 → \'8d\'5c
施 → \'8e\'7b
十 → \'8f\'5c
申 → \'90\'5c
須 → \'90\'7b
図 → \'90\'7d
能 → \'94\'5c
表 → \'95\'5c
本 → \'96\'7b
予 → \'97\'5c
抑 → \'97\'7d
倍 → \'94\'7b
挿 → \'91\'7d
凡 → \'96\'7d
貼 → \'93\'5c
府 → \'95\'7b

たとえば「マスク」は「\'83\'7dスク」、「ボールド」は「 \'83\'7bールド」、そんな風になってしまいます。

しかたがないので、秀丸エディタで簡単なマクロを作って一括置換しています。すべてのパターンを確認できているわけではないので、そのマクロを実行した後で、

\'[0-9]

という正規表現の文字列で検索すると、新しい文字化けパターンが見つかることがあります。

11:32 午後 Trados 機能 | | コメント (16) | トラックバック (0)

はてなブックマークに追加

2010.01.28

TagEditor での日本語入力

★★★
以前 side A で書いたように(side A: # Dさんの日本語じゃなきゃイヤン)、TagEditor を使っているとすぐ日本語入力がオフになってしまうという重大な欠点があります。

最近、2007 の TagEditor のオプションダイアログを見ていたら、こんなチェック項目があることに気づきました。

Tageditorkeyboardsetting


ヘルプには、こう書いてあります。

[キーボード配列自動変換]を選択すると、現在の翻訳メモリの訳文言語に基づいて、TagEditor が自動的にキーボード配列の設定を調整します。この機能は、Windows のコントロール パネルを使用して、該当する言語対応のキーボード サポートをインストールしてある場合にのみ有効です。たとえば、翻訳メモリの訳文言語がロシア語で、ロシア語のキーボードがインストールされている場合、訳文分節を開く際に、TagEditor が自動的にキーボードをロシア語に切り替えます。

この説明を読む限り、「これこそ日本語入力を常時オンにするための設定項目、ようやく追加されたのね」と思えるのですが、少なくとも私の環境では(メイン、サブ)とも、これをオンにしても何も変わりませんでした。ATOK だからダメなのかと思って MS-IME Standard に戻してみたり、「詳細なテキストサービス」に関するオプションを変えてみたりしましたが、それでも変わりませんでした。

前回書いた WYSIWYG 設定と同様に、どうも実装が完全でない機能のひとつなのかもしれません。
(それとも、この機能の解釈を私が完全に間違っているのか...?)

11:59 午前 Trados 機能 | | コメント (4) | トラックバック (0)

はてなブックマークに追加

2010.01.24

TagEditor における見かけの書式 - その3(回避策)

★★★
前エントリで書いたように、ようやく探したオプションを有効にしても WYSIWYG の鬱陶しい状況を完全に改善することはできませんでした。特にいまいましいのが、

Select <em> Options </em> from the main menu. Then, find the settings you need to change...

のようになっているとき、<em> はとっくに閉じられているのに、さらにその後に続く 2 文目(以降)にまで書式がかかってしまうこと。

その回避策が何とか見つかりました。

普通に訳文を入力すると書式が引きずられてしまう場合は、

1. いったん[原文をコピー]コマンドを実行して訳文フィールドに原文をコピーする。

2. コピーされた原文を上書きするように訳文を入力する。
  ※フィールドの冒頭から挿入で入力すると、まだ書式が引きずられる。

という手順にすれば大丈夫。再利用できる既訳がある場合には、そのまま取得すると書式がかかってしまうので、一度この手順でフィールドをキレイにしてから訳文を[取得]ではなくコピーします。

別に、生成物に影響はないんだから、こんな手間をかける必要はないのですが、まあ、見かけも気になる方はどうぞ。

04:05 午後 Trados 機能 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

TagEditor における見かけの書式 - その2(ヘルプの不備)

★★★
このエントリの続きになります。
禿頭帽子屋の独語妄言 side TRADOS: TagEditor における見かけの書式 - その1

今扱っている ttx ファイル、元の HTML ファイルも目を背けたくなるような汚さなのですが、TagEditor で翻訳していると、<em>タグに引きずられてイタリックが続いてしまうことがあります。前にも書いたように、生成物には何も問題ないのですが、和文のイタリックって、単に見にくいだけでなく、直後のスペースの有無などがけっこう判りにくくなるので、実質的に邪魔です。

こんな感じになる、というサンプル ;(

2007 で実装されたのか以前からあったのか未確認ですが、どうやらこの WYSIWYG 表示を無効にするオプションらしきものを見つけました。

ところが、この情報にたどりつくためには日本語版のヘルプだけでは足りず、英語版のヘルプも調べる必要があったという、例によってお粗末な話です。

まず、日本語版ヘルプで見つけたのがこのページ。

Tageditorwysiwyg1

ところが、ここに書かれている[<FONT>タグの書式を無効にする]オプションというのが、どうやっても見つかりません。

ふと思いついて、インターフェースを英語に切り替えて英語版のヘルプを表示してみると、同じページが見つりました(TagEditor の[表示]→[ユーザー インターフェイスの言語]で選択)。

Tageditorwysiwyg3

ところが、よく見ると英語版には日本語版にない「Related Topics」のリンクがあるわけでした。で、このリンクをたどると、ちゃんとこういうページにたどり着きます。

Tageditorwysiwyg4

なんと、単なる[オプション]ではなく、[タグ設定...]→[プロパティ...]→[要素]タブ→[詳細...]などという深~いところにある設定項目でした。

Tageditorwysiwyg2

ちなみに、このオプションを選択して邪魔な WYSIWYG の状況が改善されるかというと、「ちょっとマシになる」くらいで、完全ではないようです。さらにトホホです。

そういえば、つい先日 tratool-jp メーリングリストに河野弘毅さんが投稿なさっていたネタによれば、

海外では Trados より Wordfast のほうがユーザー比率が高い

かもしれないとか。

03:14 午後 Trados 機能 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2009.10.26

翻訳前後の処理 - その2「翻訳」

★★
ログファイルの説明が終わったところで、翻訳前後の処理の 2 番目、「翻訳」です。翻訳といっても自動翻訳をするわけではなく、動作はこんな感じです。

1. 翻訳メモリーを検索する。
2. 指定したマッチ率以上の既訳があればセグメントを作って訳文を埋め込む。
3. 既訳がない場合、原文-訳文のセグメントを作るかどうかはオプションで選択できる。
4. 既訳がない場合に、用語集の対訳だけを埋め込むオプションも選択できる

[解析](アナライズ)

[ツール]→[解析]を選択し、各オプションを指定、ファイルを選択して実行します。

Tratranslate01

以下、オプションの使い方です。

[% 以上の一致精度]
通常は、デフォルトの「100%」で使います。つまり、「完全一致の既訳だけ訳文を埋め込む」ということです。

Tra100embeddedrtf
このように原文-訳文のセグメントが作られ、100%一致の既訳が埋め込まれます。

ここの数値フィールドを変える状況は、いくつか考えられるのですが、今回は省略します。


[識別できない文を分節化]
このオプションをオフにしておくと、上記の埋め込みが行われない、つまり既訳のない箇所は原文のままになります。オンにすると、下の図のように既訳のない箇所も「原文-原文」の形でセグメントが作られます。

Tra100embeddedsegmentedrtf

このオプションの使い方は、ファイルやメモリーの状況によって異なります。たとえば、100 既訳率が圧倒的に高く作業対象がごくわずか、という場合にはこれをオンにすれば、マッチ率を示す「0」を検索すれば済みます。また、IT 翻訳ではよくあることですが、原文の文字列を訳文中でも使うことが多いような場合は、やはりオンのほうがいいかもしれません。

私の個人的な趣味でいえば、状況にかかわらずオフのほうが好きです。Word の場合は埋め込まれたフォントを引きずってしまいますし、この状態ではセグメントの拡張/縮小に手間がかかるからです。なにより、作業中に確定した訳をそれ以降で再利用するとき、いちいち[取得]する手間が増えます。


[変更された翻訳を更新]
これは、まっさらの原文ファイルではなく翻訳途中のファイルに対して[翻訳]処理を実行するときに意味を持つオプションです。なんらかの理由で、ファイル上の訳文とメモリー内の対訳が一致しない状況があります(たとえば、ファイル上だけで用語を一括置換し、その変更をメモリーに登録していない場合など)。

このようなとき、ファイルの内容をイキにしてメモリーを更新する場合は[TMを更新]、ファイルのほうを更新する(メモリーの訳に戻す)場合は[文書を更新]を選択します。デフォルトは[無視]で、変更箇所については何も処理されません。


[既知の用語を翻訳]
埋め込みできる既訳がないときに用語集の訳語を埋め込む機能です。実はこの機能、今まで自分では使ったことがなく、フォーラム勉強会のために使ってみました。SimplyTerms にこれと似た機能があるので、案の定フォーラムではこの機能を紹介する場面がありました。

当然ながら、この機能を使うには、対応するバージョンで作成された MultiTerm 辞書が必要です。デフォルトは[無視]、つまり用語の埋め込みを行いません。

[置換]を選択すると、用語集にある対訳が埋め込まれます。

Traembeddedglosrtf
このように、セグメントの訳文部分に対訳が青字で埋め込まれます。このような英和混在の形が見やすいかどうか、フォーラムでも意見が分かれていたようです。

[挿入]を選択すると、用語集が上記のように混在で埋め込まれるのではなく、Word のコメントとして挿入されます……が……

Tracommentedglosrtf
……実用できるとは、とても思えません。

実は、この[挿入]よりもっと笑える結果もあることが、今回やってみて初めてわかりました。

[置換]を選択すると、「セグメントの訳文部分に対訳が青字で埋め込まれる」と書きましたが、つまりこの機能を使うときには必ず前述の[識別できない文を分節化]もオンにしておかなければならない、ということです。

Traembeddedglosngrtf
[識別できない文を分節化]をオンにせず、[既知の用語を翻訳]で[置換]を選択すると、こんな風にセグメントを作らず、原文上でいきなり対訳だけを置換してしまいます。これでは、原文がオリジナル状態ではなくなってしまうので、通常の Trados 作業には使えません。

※「Trados を使用せず Word ファイルを上書き翻訳するが、用語集の用語だけは埋め込む」という場面があれば使えるのかもしれませんけど。

こういうときは、[置換]を選択すると[識別できない文を分節化]も自動的にオンになる、というのが親切設計だと思うのですが、インターフェース設計にそこまで気が回っていないところが、やっぱり Trados というところでしょう。

01:01 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

翻訳前後の処理 - その1.5「ログファイルについて」

★★
「翻訳前後の処理」の話を先に進めようと思いましたが、この処理に共通するログファイルについて、ちょっと触れておいたほうがいいかもしれません。

翻訳前後の処理、つまり[ツール]から選択する[解析]、[翻訳]、[訳文の生成]の各コマンドでは、いずれもログファイルが生成されます。処理のたびにファイル名を指定しないかぎり、ログファイルのフィールドは前回使ったファイル名のままになっています。

ログファイルとしては、*.csv と *.log の 2 種類のファイルが生成されます。

*.log は人の目で見やすいテキストファイル形式、*.csv は Excel で使えるカンマ区切りファイルです(余談ですが、むかしの Trados では *.csv という拡張子を付けておきながらカンマではなくセミコロン区切りでした)。

ファイル名を変えない場合、*.log ファイルはすべての処理が累積で記録されていきますが、*.csv は処理のたびに上書きされる(つまり最新の記録しか残らない)ので注意してください。

Tralog
これが *.log ファイル。

Tralogcsv
こちらが *.csv ファイル。Excel で開けば見やすくなります。

11:55 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2009.10.18

Workbench の設定 - [設定]-[分節規則]

★★
前エントリで書いた[ファイル]→[設定]ダイアログのうち、[分節規則]タブについて説明します。

以前にも書きましたが、日本語文法用語の「文節」ではなく「分節」です。原語は Segmentation。

※余談ですが、Workbench は[表示]→[ユーザー インターフェイスの言語]機能を使えばアプリケーションの表示自体(ヘルプも含めて)を切り替えられるので、けっこう便利です。どのアプリケーションもこうなっていてほしいと思います(ただし、フリーランス版の場合はインストール時に指定する 5 言語に限定されます)。

【2009/10/28 加筆】

[設定]ダイアログ-[分節規則]タブ

Trados は、主に原文の punctuation 記号を手がかりにして翻訳単位(=分節)を区切っています。たとえば原文が欧文の場合、デフォルトでは次の記号や単位で分節として認識されます。
・ピリオド
・タブ
・コロン
・疑問符、感嘆符
・段落
ただ、これだけでは不十分で、たとえばピリオドは小数点の区切りにも使われるので、「ピリオドの後には空白文字が続いている」などの細かい条件も追加されています(したがって、原文でピリオドの後にスペースがないと複数文がつながって分節になります)。

ほとんどの場合はデフォルト設定で対応できるのですが、原文の状況によってはときどき、区切り方が不都合なことがあります。チャーリーさんからご質問があったように、文末が数字で終わっているときも、その文だけで分節とならず、次の文が続いてしまいます。

Tradoswbsegmentation_1

これは、「数字の後にピリオドが続く場合、そのピリオドでは分節として区切らない」という設定がデフォルトになっているためです。次のスクリーンショットのように、デフォルトでは[数字に続く]オプションがオフです。

Tradoswbsegmentation2


ではこれをオンにすればいいかというと、そうするとこの規則は「数字に続くときだけピリオドで区切る」という意味になってしまい、逆に本来区切られるべきセンテンスがつながってしまいます。なんというか、設定メカニズムとして非常に不親切です。

ところが、このオプションにはオン/オフのほかにグレーアウトされた状態というのがあって(オン状態から 2 回、またはオフ状態から 1 回チェックボックスをクリック)、

Tradoswbsegmentation3

こうすると、「ピリオドの前に数字が来るかどうかは考慮しない」状態になるのだそうです。試してみましたが、この状態にすれば、本来のセンテンスも区切られ、年号などの数字の後も区切られるようになりました(これ以外の場面で数字が出現したときの動作は未確認です)。

Tradoswbsegmentation4

チャーリーさん、いかがでしょうか。

【以下、2009/10/28 加筆】
その後、「U.S. のような略語で文が終わるとき、セグメントが区切られるようにしたい」というご要望をいただきました。

関係するのは、[略語と推定される文字に続く]オプションです。

Tradoswbsegmentation5

結論から言うと、これもオンやオフではなくグレー状態にしておくといいようです。

オフ(デフォルト)にすると、U.S. のようなピリオド付き略語で文が終わるとき、そこでセグメントになりません(ただし、U.S. の後にスペースが 2 つ以上あると区切られます。

オンにすると、ピリオド付き略語の後は区切られるようになりましたが、おもしろいことにスペースが 2 つ以上あると逆に区切られなくなりました。

グレー状態にすると、後ろのスペース数にかかわらず区切られます。

01:38 午後 Trados 機能 | | コメント (8) | トラックバック (0)

はてなブックマークに追加

Workbench の設定 - [設定]ダイアログ

★★
それでは本論。
第 1 回は、翻訳メモリーの基本設定である Workbench の[ファイル]→[設定]ダイアログの各機能です。

メモリーごとの設定なので、メモリーを開いていないときはグレーアウトされています。また、セグメントを開いているときは変更できません。

[設定]ダイアログ

[全般]タブ
メモリーを新規作成するときに指定した情報を変更できます。ただし、一部の設定は read-only です。特に、「複数の訳文を許可」は変更できないので、新規作成するときに決めておく必要があります。


[フィールド]タブ
あまり使う機会はないかもしれませんが、[テキスト フィールド]を追加すれば、メモリーに登録する原文-訳文ペアに任意のテキスト情報を追加できます(たとえば、訳文に関する注意書きとか)。

[属性フィールド]と[属性値]を組み合わせると、登録するペアについて属性を設定し、その属性をペナルティ計算に組み入れることができます。たとえば「翻訳者」という属性フィールドを設定し、「AAA」という翻訳者名を属性値に設定しておいて、AAA さんの訳文だけペナルティを高くしておく、つまり AAA さんの既訳を流用するときだけ一致率が下がるようにする......なんて使い方をしている翻訳ベンダーがあるかも。


[フォント]タブ
原文と訳文を表示するデフォルトのフォントを設定しますが、Trados 使用の翻訳案件では、納品ファイル上でのフォントは問題にならないことも多いので、たいていはデフォルトのままのようです。

特に Word と組み合わせて使用する場合には、ここでのフォント設定と Word 上の既定フォントが違っていると見た目がけっこう汚くなるとか、まあフォントがらみではいろいろと問題が絶えないようです。


[置換]タブ
数字などの自動置換をオン/オフします。たとえば、"3000 USD" という原文を「3000米ドル」と訳して登録すると、次に "4000 USD" が出現したときには数字部分だけ置換して 100% 一致します。自動置換が邪魔になるプロジェクトもあるので、オフにするよう指定されることもあります。


[分節規則]タブ
チャーリーさんからご質問のあった機能が、このタブに関係します。ちょっとややこしいので、これだけはエントリを改めることにします。


[翻訳しない文字列]タブ
文字スタイルに基づいて、翻訳対象外とする箇所を指定できます。ファイルをあらかじめ指定されていることが多いので、私は使ったことがありません。


[アクセス権]タブ
これは同じメモリーを共用するときの機能なので割愛します。

12:42 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

Workbench の設定 - 設定の適用範囲

★★
翻訳フォーラムやほんやく互学会でご一緒することの多い金融翻訳者のチャーリーさんから、Trados Workbench の設定についてご質問をいただきました。

コメント元エントリ: 禿頭帽子屋の独語妄言 side A: # side Trados 更新情報(10/7)

「翻訳前後の処理」シリーズとあわせて、少しずつ説明してみたいと思います。

本論に入る前に、Workbench の設定がどの範囲に及ぶのか、ということを整理しておきます。

[ファイル]→[設定]
このダイアログでの設定は、メモリーごとに適用されます。ダイアログのタイトルも
...<*.tmw> の設定
となっています。


[環境]→[プロジェクトとフィルタの設定]
このダイアログの設定も、適用範囲はメモリーごとです。


[環境]→[翻訳しない段落]
メモリーごとの設定です。


[環境]→[ユーザーID]
Workbench グローバルの設定です。したがって、メモリーを開いているときは変更できません。

フリーランスの場合、いちど設定すれば変更する機会はあまりないと思いますが、ここで指定した ID は「作成者」や「更新者」としてデータベース情報に残りますので、人前に出せないような名前は付けないほうが吉です。


[オプション]メニューの各設定
すべて Workbench グローバルの設定です。
なかには、グローバルでないほうがいい設定もあると思うのですが、詳しいことはまたいずれ書きます。


以上の適用範囲はいちおう理解しておくべきです。クライアントや翻訳ベンダーによってメモリー設定の指定は異なることが多いので、グローバル設定(特に[ペナルティ])には注意する必要があります。

11:59 午前 Trados 機能 | | コメント (3) | トラックバック (0)

はてなブックマークに追加

2009.10.07

翻訳前後の処理 - その1「解析」

★★
9/30 翻訳フォーラムの勉強会では、時間制限もあって実際の Trados 操作はごく一部しか紹介できませんでした。フォローの意味で、ここで少しずつ説明してみようと思います。

まず、翻訳前後に行う処理として「解析」、「翻訳」、「訳文の生成」について説明します。

[解析](アナライズ)

翻訳対象の原文ファイルが、メモリーとどのくらい一致しているか(マッチ率)を解析する機能。翻訳ベンダーから受注した Trados 指定ジョブの場合、あらかじめ解析ログも支給されるのが普通ですが、途中で残りの作業量を知りたいときとか、自分でも使う場面はけっこうあります。

★Trados 指定ジョブの場合、ワード単価はマッチ率に応じたスライド制になっているのが一般的です。たとえば、新規箇所が 10円/word なら 85-94% は 5円/word みたいな感じ。

[ツール]→[解析]を選択して、ファイルを指定するだけですが、「ログファイル」で指定されているファイルが存在しないと叱られます(前回のログファイルを削除したりしているとよく叱られる)。

Traanalyze

解析する対象のファイルは、オリジナルのまま(html、xml、doc、ppt など)でも、TagEditor 形式(*.ttx)でも、S-Tagger などで変換した rtf でもかまいません。

オプションについても一部説明しておきます。

[頻出分節をエクスポート]
「繰り返し」としてカウントされたセグメントをエクスポートします(出現回数はボックスで指定可能)。たとえば、大きいドキュメントを複数の翻訳者に分けて進めるとき、同じセグメントの訳を統一するために、翻訳ベンダーのほうで先行翻訳してから社外に割り振る、なんていう使い方も考えられますが、実際にはうまくいった試しがありませんでした。なぜなら、「繰り返し」だからといって定型訳が可能とは限らず、けっきょく前後の文脈を見なくてはならないからです。

[プロジェクト用TMの作成」]
これ、フリーランス版では使えないので省略。

[解析済み翻訳メモリを使用]
名前がちょっと判りにくいですが、状況によってはけっこう使い途のある機能です。
たとえば、ある翻訳プロジェクトで、参考用として旧版の原文ファイルが支給されたとします。ただし、その内容は今回使用するメモリーには含まれておらず、旧版がどのくらい流用できるのかも判りません。こういう場合に、

1. 旧版の原文ファイルを対象に「解析」を実行します。
2. 「解析済み翻訳メモリを使用」オプションをオンにします。
  ※つまり、1. のときはオフでないとだめです。
3. 今回の翻訳対象を「解析」します。

こうすると、旧版の原文ファイルについて計算したマッチ率を保持しておき(=解析済み翻訳メモリ)、それを元に今回のファイルのマッチ率を計算します。つまり、旧版と新版がどのくらい一致するかが判るということです。この結果がそれなりに高ければ旧版は参照する意味がありますが、低ければあまり参照しなくてよい、という判断の材料になります(もちろん、ファイル形式とかいろいろな制約で状況は変わりますが)。


--------------------
解析のログは、.csv 形式と .txt ファイルの両方が生成されますが、ここでもちょっと注意が必要です。

ログのファイル名を変えずに解析を何回か実行した場合、
 - テキストファイルの内容は累積される
 - csv ファイルは毎回上書きされる
という違いがあります。

解析結果をざっと見るときはテキストファイルが便利ですが、細かいデータを検討したいときは、csv ファイルを Excel で開いたほうが確かです。

11:40 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2009.09.16

TagEditor と Word の違い、訂正

(オリジナル投稿 2009/8/25)★★

昨日のエントリにさっそく、めぐりさんからコメントをいただきました。

2006 → 2007 のバージョンアップではほとんど変わりがない、とタカをくくってちゃんと確認しなかった私の怠慢でした。いつも正確な記述をモットーにしているのに、お恥ずかしい限り。

念のために手元の 2007 で確認しましたが、「2. 検索機能の違い」についてはめぐりさんのご指摘どおり。それ以外は 2007 でも変わっていませんでした。

2. 検索機能の違い - 訂正版

TagEditor の名誉のために、2007 バージョンの検索ウィンドウはこれ。

Tageditor2007search

[訳文のみを検索する]オプションが増えたほか、[ワイルドカードを使用する]というオプションも追加されています。使えるのは ? (任意の1文字)と * (任意の複数文字)だけですが、ないよりマシでしょう。[訳文のみを検索する]はもちろん置換機能にもあるので、訳文だけの置換も可能になっています。

そしてもうひとつ。[タグの内容を検索する]も追加されたことに注目。やっぱり、この機能の要望はあったようなのでした。

10:31 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

TagEditor と Word の違い - その2

(オリジナル投稿 2009/8/24)★★★

続きです。

TagEditor と Word の違いといってもいろいろあるはずなのですが、ここでは私が不便に感じていることばかり書いています。

3. 訳語検索するときの挙動

訳語検索(コンコーダンス)、つまりメモリ内検索を実行すると、Word では検索語がクリップボードに格納されますが(つまりマクロの 1 ステップとして文字列をコピーしてるんですね)、TagEditor ではコピーされません。

訳語検索でヒットしなかったら別の用語集ファイルを検索したい --- こういう場面はよくあることだと思うのですが、Word だとクリップボードに検索語があるので、次の検索行動にすぐ移ることができます(秀丸エディタ上であれば、クリップボードの内容を即検索/grep できるマクロも組んであるので)。

しかし TagEditor では検索語がコピーされていないので、別の検索を行うには改めて TagEditor 上で Ctrl + C しなればならず、腱鞘炎持ちには辛いことになるわけでした。


4. コピー&ペーストの挙動

これも、単語を検索したいときにつきまとう問題。文字列をコピーしたときの挙動は、どちらにもそれぞれ困った問題があります。

Word では、段落に箇条書きが設定されていると、コピーした内容をそのまま辞書などで検索できない、という問題があります。

Wordcopy

こんなとき、文頭の単語(Flexibility とか「パラメータ」)をコピーして貼り付けると、こうなって ---

Wordcopy2

当然すんなりと検索はできません。

TagEditor でも似たような、ただし Word のときよりなかなか気づきにくい現象に遭遇します。たとえば次のようにセグメントを開いた状態で、

Tageditorcopy

この Designation をコピーし、たとえば Jamming の検索ウィンドウに貼り付けても、なぜか検索結果がゼロの場合があります。これも実は見かけだけでは判らない症状。今コピーしたばかりの内容を、そのまま Word 上に貼り付けてみると、実はこんな風になっているのでした。

Tageditorcopy2

なんと、Designation の前に {0> という邪魔な文字列が入っています。これ、Word 上で Trados を使っている方なら見慣れていると思いますが、セグメントの単位を区切る隠し文字なんですね。TagEditor 上ではまったく目に見えませんが、実はセグメントを開いたときには Word のときと同じ隠し文字が存在しているらしいのでした。

--------------------
その 1、その 2 と続けましたが、私が困っているのはだいたい検索に関係してくる機能や動作が多いわけでした。こういった不便さが、はたして Studio 2009 ではぜんぶ解消するのでしょうか。

10:30 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

TagEditor と Word の違い - その1

(オリジナル投稿 2009/8/24)★★

Studio 2009 のレポートはちょっとお休み。世間の需要はまだまだ 2007 までが主流でしょうということで、実際の Trados 翻訳作業で、TagEditor を使うときと MS Word を使うときにどんな違いがあるか --- つまりは、その違いのせいで困ることが多いということですけど --- ということを書きとめておきます。

まず説明が必要かもしれませんが、TagEditor を使うか Word を使うかという選択は、翻訳者が決めるということは稀で、クライアントや翻訳会社から送られてくる作業ファイルがどんなファイル形式かで一方的に決められてしまうほうが多いようです。

つまり、FrameMaker ベースの場合は、Trados のツールで変換した rtf ファイルを Word 上で作業することになるし、HTML/XML ベースの場合は TagEditor を使うことになります(HTML/XML を直接開くこともあれば、バイリンガル形式の中間ファイルである ttx が支給されることもある)。

1. タグデータの違い

Trados 翻訳につきものと言えるのがタグ。Word 上では、タグは特殊なスタイルが設定されているだけの通常の文字列です。たとえば、

Wordtag

このように文中に出現する赤いタグ(内部タグ、などと呼ぶ)の場合は tw4winInternal というスタイル設定で、文字色は赤。Word をお使いなら想像できると思いますが、このタグの直後に訳を入力しようとすると、直前のスタイルを受け継いでしまうので、入力した文字列は訳文ではなくタグの一部としてメモリに登録されてしまい、よろしくありません。ここんところは、たぶん Trados を使い始めて最初の頃に注意するよう指示されると思います。

通常の文字列なので、削除もできてしまうという危険性があります。

これに対して、TagEditor のほうは Trados 専用ツールだけあって、タグが特殊処理されていて、書式を引きずってしまうことも、削除してしまうこともありません。

Tageditortag

そんなわけで、タグ付き文書を扱うには TagEditor のほうが便利なのですが、逆に TagEditor では文字列でないためにタグ自体を検索することができない、という欠点があります(イタリック指定のタグだけ検索したいとか、そういうことがあるのです)。


2. 検索機能の違い

TagEditor の検索/置換機能がいかに使いものにならないかということは、以前すでに書きました。
リンク: # TRADOS - TagEditor の検索/置換機能

今回はもっと笑える話。

たとえば、原文では "KB" という単位が使ってあり、訳文ではこれを「KB」ではなく「キロバイト」と表記しなければならない規則になっている。そこで、訳文に「KB」が使われていないことを検索したい、とします。

こんなとき、Word 上では原文が隠し文字、訳文は通常文字になっているので、検索ウィンドウで書式オプションを指定すれば、訳文の中に「KB」がないかどうか、すぐに確認できます。ところが TagEditor ではそんな区別ができないので、検索しようとするといちいち原文中の「KB」も引っかかってしまう。

さて、TagEditor のウィンドウ下部にはこんなタブがあって、実は「原文のみ表示」と「訳文のみ表示」を切り替えることができます。それなら、「訳文のみ表示」した状態で「KB」を検索すればいい、と普通は考えるわけですが、これを実行するとどうなるか。なんと、

表示は訳文だけになっていても、見えない状態で存在しているらしい原文の該当箇所にヒットする

のです。判りにくいですが、上の例で言えば、訳文の中に「KB」が使われていなくても検索で該当なしとならず、見えない原文にヒットすることになり、この場合の目的には使えないわけです。Trados をお持ちの方はお試しください。

その 1 はここまで。

10:29 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

Studio 2009 レポート - エディタ上の検索機能

(オリジナル投稿 2009/6/30)★

TRADOS 社が満を持して、というか相当の覚悟をもってアーキテクチャを刷新しただけあって、実際に操作してみると、今までのインターフェースで不満だった点が随所で改善されていることが判ってきました。

ただし、今はまだファーストインプレッションの段階であり、それが実際に使いものになるかどうかは、もう少し様子を見る必要があります。

まず気づいたのは、エディタ上の「検索/置換」機能です。

機能改善 - 検索/置換

Editorsearch

このショットの[検索と置換]ダイアログを見れば一目瞭然ですが、TagEditor 上より数段向上しています(つーか、今まではショボすぎたわけですが)。Word の検索機能と同レベルとは言いませんが、[使用]というオプションをオンにすると、[ワイルドカード]と[正規表現]が両方使えるということになっています。正規表現では、具体的にどんなパターン表現が使えるのか、ヘルプ(英文)を見てもよく判らないのですが、基本的なパターンは使えました。

ところで、このダイアログで誤訳発見です。

[ファイルの場所]と書いてあるので、てっきりgrepが可能なのかと思ったのですが、ヘルプを見てみると原語は "Look in" らしく、つまりは「検索範囲」のことなんですね。ここで[選択]を選ぶと選択範囲のみから検索できるというオプションです。

ヒットした箇所のハイライト表示もかなり見やすい。

10:27 午前 Trados 機能, バージョン - Studio 2009 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

Studio 2009 レポート - てはじめに - その2

(オリジナル投稿 2009/6/30)★★

ファーストステップの続きです。

プロジェクトの完成

これまでの手順でプロジェクトの設定が終わると、メインの画面にこんな風に表示されます。
Project

インターフェースの好みは人それぞれですが、「未翻訳」と「翻訳済み」のバー表示とか、見やすさに工夫があることは一定度評価できるかと。

このメイン画面で、ファイルを選択して実際に翻訳する場合は左ペインの[ファイル]ボタンをクリックし、開いているファイルの編集に戻る場合は[エディタ]をクリックします。で、メモリーを操作する場合は[翻訳メモリ]をクリック、というように機能ごとに画面を切り替える、まあ、ありがちな統合インターフェースではあります。

ファイルリストはこんな感じですが、
Filelist

このような概要表示だけでなく、解析結果とか進捗ステータスとか、いろいろと「プロジェクト管理」的な発想で表示を切り替えられるようになっています(翻訳者として使える機能かどうかは別)。

ファイルをエディタ上で実際に開いたところは......えーと。今回は、私の実際のジョブファイルをプロジェクトにしてみたので、ちょっとエディタ画面はお見せできないんでした。アハハ。

「てはじめ」は、ひとまずここまで。

10:26 午前 Trados 機能, バージョン - Studio 2009 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

Studio 2009 レポート - てはじめに - その1

(オリジナル投稿 2009/6/30)★★

詳細レポートの第 2 弾、実質的なファーストステップです。

アーキテクチャもインターフェースも一新となった今回のバージョンアップ。いちばん気になるのは、「今までとどう違うのか、従来のプロセスをどう変える必要があるのか」という点だろうと思います。そこでまず、私の手元にある、今までと同じジョブのセットを Studio 2009 で「プロジェクト」としてスタートする手順を示してみました。

セット内容は、メモリー 2 つと、作業対象の rtf です。用語集は含まれていません。

プロジェクトの新規作成

「プロジェクト」という考え方は今回が最初ではなく、2007 Suite から始まっています。要は、ターゲットファイル + メモリー + 用語集という複数のファイルを 1 つのセットにまとめ、その設定情報を XML 形式で保存しておく、ついでにプロジェクトの進捗(既訳と未訳の量)なども管理してしまう、という発想です。

従来のように、ファイルとメモリーを別々に開いて作業することも可能かもしれませんが、まずは「プロジェクト」を新規作成してみました。

[ファイル]→[新規作成]→[プロジェクト]

を選択して、ウィザードに沿って進みます。1)プロジェクト名やパスの設定、2)ソース/ターゲットの言語設定、3)ターゲットファイルの選択(ファイル単位/フォルダ単位)、あたりまでは特に問題なく進められます。その次がメモリーの設定になりますが、既存のジョブを 2009 環境に移行する場合は、ここが最初のポイントになります。

Projmem

Studio 2009 からはメモリーが、*.sdltm というファイル形式に変わりますが、このステップで[追加]ボタンを押せば、従来形式(*.tmw またはエクスポートした *.tmx)のメモリーを変換して追加することができます。ただし、私の環境では直接 *.tmw を選択するとエラーになってしまい、*.tmx しか受け付けてくれませんでした。

メモリーを旧形式から変換するときは細かいオプション設定も可能ですが、ひとまずデフォルト設定で問題なく変換されました(tmx ファイルは、あらかじめ 2007 上でエクスポートしておきました。形式は「tmx 1.4」を選択したので、それ以外の形式が正常に変換されるかどうかは未検証です)。

新機能 - 1 つのプロジェクトで複数のメモリーを指定可能

上記の過程で、メモリーは複数指定することができるようになりました。今回は 2 つ指定したので、こんな風になります。
Projmem2

このショットのチェックボックスでも判るように、各メモリーを検索対象にするかしないかを指定できるほか、メモリーごとにペナルティも設定できるので、複数メモリーの優先度をここで調整できることになります。

新機能 - 事前プロセスの一括処理

プロジェクトの設定が終わると、指定したメモリーとターゲットファイルを使って、事前処理が始まります。以前は個別に行っていた、解析→翻訳(既訳の埋め込み)という一連の作業を一括で処理できます。
Pre

このプロセス周りについても、けっこう細かい設定が可能になりました。
たとえば、このステップでは、
Pre04_2

些細な追加ですが、解析結果を示す数値範囲を変更できるようになっています。

プロジェクトの完成

これまでの手順でプロジェクトの設定が終わると、メインの画面にこんな風に表示されます。
Project

インターフェースの好みは人それぞれですが、「未翻訳」と「翻訳済み」のバー表示とか、見やすさに工夫があることは一定度評価できるかと。

このメイン画面で、ファイルを選択して実際に翻訳する場合は左ペインの[ファイル]ボタンをクリックし、開いているファイルの編集に戻る場合は[エディタ]をクリックします。で、メモリーを操作する場合は[翻訳メモリ]をクリック、というように機能ごとに画面を切り替える、まあ、ありがちな統合インターフェースではあります。

ファイルリストはこんな感じですが、
Filelist

このような概要表示だけでなく、解析結果とか進捗ステータスとか、いろいろと「プロジェクト管理」的な発想で表示を切り替えられるようになっています(翻訳者として使える機能かどうかは別)。

ファイルをエディタ上で実際に開いたところは......えーと。今回は、私の実際のジョブファイルをプロジェクトにしてみたので、ちょっとエディタ画面はお見せできないんでした。アハハ。

「てはじめ」としては、ひとまずここまで。

10:24 午前 Trados 機能, バージョン - Studio 2009 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

Workbench の「訳語検索」、さすがにこれはヒドイ

(オリジナル投稿 2008/12/27)★★

Trados Workbench の「訳語検索」(通称、コンコーダンス検索)機能が使い物にならないという話を何度か書きましたが、たとえばこんな具合です。

Workbench_lookup

たまたまアポストロフィを含む単語を検索しようとしたら、

's の部分だけ

検索してくれました(画像は一部のみ切り出しましたが、98 ヒットのうちほとんどがこれ)。どうにかなんないんでしょうかねー。

10:09 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

TagEditor の検索/置換機能

(オリジナル投稿 2008/10/8)★★

何度か書いているように、Trados には Workbench と組み合わせて使う標準エディタとして TagEditor というツールがあります。

Edition 3 の頃にはまだまだ使いものにならない、「ちょっと作ってみましたけど」程度のアプリケーションでしたが、最近はようやくまともに動くようになりました。それでも、まだまだ商用アプリとしてどーなの、というような不備が多々あります。以前に書いた、入力モードがすぐ英数字になってしまう(日本語 IME がオフになる)こともそのひとつですが、検索/置換という、もっと実用的な部分にも「使えねー」的な不備があります。

まず検索。

検索ダイアログを閉じた状態で順次検索ができない --- この話はいずれまたします --- という Internet Explorer 的な不便さは当たり前のように踏襲されていますが、それだけでなく [単語単位で探す] や [大文字と小文字を区別する] のオプションが、ダイアログを閉じるたびにオフになります。これはかなり頭わるい部類でしょう。

次に置換。これはもっと頭わるい。

まず、[文書を保護] オプションが有効な状態では置換が機能しません(調べてみましたが、このことはヘルプやマニュアルに記述が見当たりません)。次に、置換は原文と訳文を区別せずに機能します。

つまり、

原文と訳文に同じ文字列があって、訳文のほうだけ一括置換することはできない

とゆーことになるのです。そんなケースがあるのかいと思われるかもしれませんが、少なくとも IT 翻訳では、たとえば <table_name> という変数表記を、訳文でだけ <テーブル名> にしたい場合だってあるわけです。

同じような不便は Word 上でもありうるのですが、Trados + Word を使用する場合は、原文と訳文に異なる書式が設定されるので、それを指定すれば訳文のみでの置換は可能なんでした。

--------------------
TagEditor がこんなにお馬鹿なので、実際には ttx ファイルをテキストエディタで直接開いて編集するほうが置換処理などは楽です。

ただし、上記のように原文と訳文で同じ文字列の場合は、普通に置換したのではやはりどちらも変更されてしまいます。その場合、たとえば秀丸エディタであれば、正規表現で「前方一致」を使い、そこに <Tuv Lang="JA"> を指定するという方法が考えられます。

<Tuv Lang="JA"> というのは、ttx 上で訳文文字列の開始を識別するタグです。ただし、その後にフォント指定のタグがあったりして、一筋縄ではいかないのですが。

10:04 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

解析機能 - Word と比較して

(オリジナル投稿 2008/10/3、改題)★★★

今回もまた、Buckeye さんのエントリに便乗。

リンク: Buckeye the Translator: ワード数のカウント

Buckeye さんは Word のワードカウント機能を調べていらっしゃるので、私としてはやはり Trados における同機能(「解析」)について報告しておねばならないでしょう :)

・Electrical/Electronic architecture → 2ワード(3ワードにならない)
・partnering (who/when/how) to design → 4ワード(6ワードにならない)
・The XXX includes a battery-backed time-of-day module → 7ワード(10ワードにならない)
・With microcomputer-controlled kilowatt-hour meters → 4ワード(6ワードにならない)
・a you-can't-get-fired-for-saying-no attitude might prevail → 5ワード(11ワードにならない)

要するに Word 上では、単語とは「スペースで区切られた文字の連続」としか判定されていないということです。

ついでに言うと、カンマやピリオド、疑問符のような punctuation でさえ単語の区切りとして認識されません。

 This is a sentence, is it?

という文は 6 ワードとカウントされますが、これはカンマの後に "たまたま" スペースが空いているからそこで区切られたにすぎません。したがって、

 This is a sentence,is it?

のようにカンマの後にスペースがなければ、このセンテンスは 5 ワードとカウントされます(カンマやピリオドの後にスペースが落ちている原文って、けっこうよく遭遇しますよね)。

さて、上記の 5 つのセンテンスを Trados の「解析」にかけてみたところ、すべてカッコ内のようにカウントされました。つまり、ハイフンやスラッシュも単語の区切りとして機能しています。

さらに確認しましたが、脚注やテキストボックス内の文字も正しくカウントされました。

まあ、Word のおまけ機能と違って、Trados の場合は正確な解析もウリのひとつなわけですから、このくらいはできてもらわないと困るわけですけどね。

【10/5 追記】
アンダースコアで結ばれた単語(INDEX_TABLE のような形)のカウントは、さすがに 1 ワードでした。

--------------------
ところで、翻訳作業量の算定方法としては、

- 原文のワード単価
- 訳文の原稿用紙(400字)単価

の 2 つがあるのですが、私はもっぱら前者でしか仕事をしていないので、自分のスループットを原稿用紙に換算するのが苦手です。聞いたことのある範囲でも、換算式としては

120ワード = 400 字
148ワード = 400 字

などなどけっこうな幅があるようです。

09:48 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

TagEditor における見かけの書式 - その1

(オリジナル投稿 2008/8/17)★★

ここしばらく TagEtitor + Workbench を使うプロジェクトが続いていて、以前から不思議だったことをちょこっとメモしておきます。

それは、TagEditor 上の「見かけの書式」が意外とキタナくなるということです。いろいろと検索してもあまりヒットしないところを見ると、普通はあまり気にならないのかもしれませんが......

TagEditor は、その名のとおり HTML とか XML とか、タグ構造を持つファイルを扱うのがもっぱらのお仕事です(その他のファイルも扱えますが)が、WYSIWYG 表示というのがウリのひとつらしく、タグで指定されている書式がそのままエディタウィンドウ上に反映されることになっています。

つまり、<b>~</b> で囲まれている部分は画面で実際にボールド表示されるというわけです。

ところが、この機能の実装に何らかのバグがあるらしく(SDL Trados 2006)、書式属性を持つタグペアが閉じた後の文字列にも前の部分の書式が適用されしまう、いわゆる「書式を引きずる」という現象がたびたび発生します。たとえば、

  詳細については、<リンクタグ>XXXXX</リンクタグ>を参照してください。

こうなるべき箇所が、

  詳細については、<リンクタグ>XXXXX</リンクタグ>を参照してください。

こんな風になってしまうわけです。

これは TagEditor 上の見かけの問題だけなので、最終的に生成されるターゲットファイルには何の影響もないのですが、それでも一応の翻訳成果物の見栄えとしては気に入らない。何とかならないものかと以前から思っていました。

そして、この動作を回避することはできないまでも、最終的に正常化する方法は見つかりました。手間は増えますが、

一度閉じたセグメントをもう一度開いて、100% で登録されている訳文を再取得

すればいいのです。つまり、見かけは変でもメモリに格納された書式情報は正常だということなんですね。

これ、新しいバージョン(2007)ではどうなってるんでしょう。

09:46 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

Word についてほとんど書かれないこと

(オリジナル投稿 2008/8/4、改題)★★

『稼げる実務翻訳ガイド』という定番ムックで「×文節、○分節」という誤字があるという話を先日のエントリで書きましたが、ほかにも気になる記述がありました。

Wordをそのままま使えるということは、多機能な検索や、技術に強い方であればVBA(マクロ)も自由に動かすことができるということを意味しています。

Trados 紹介の記事では、Word をフロントエンドとして使用することがこのようにメリットとして書かれることも少なくありませんが、そこに落とし穴もあるということはなかなか語られないようです。

Trados + Word という環境については、このムックに限らず今までの多くの紹介記事でもほとんど触れられていない重要な点があります。それは、

Word 上の Trados 機能はマクロで組まれている

ということです。Trados をインストールした Word で[ツール]→[マクロ]を見てみると、"tw4win" という文字列で始まるマクロがたくさんあります。Word 上の Trados 機能は、実はこのマクロ群で実現されているに過ぎません("TRADOS7.dot" 等の名前のテンプレートが追加されている)。

Word 上で訳文を処理するときは、これらのマクロが 1 ステップずつ実行されています。何らかのセグメント操作後に[編集]メニューで UNDO 履歴を見てみれば、「ブックマークの編集」とか見たことのない VBA とかが並んでいるはずです。ファイルを破棄してもかまわなければ、Ctrl + Z を何回も繰り返してみると、画面上で面白い動作を見ることもできます。

で、これの何が問題かというと、マクロを構成する複数ステップの途中で処理が止まってしまうと、セグメントの処理がおかしくなって進退きわまることさえあるということなのです。「複数ステップの途中で処理が止まる」などということは普通なさそうなのですが、訳文の処理中にたとえば Ctrl + Z を使うことはあるわけで、不用意にそうした操作をすると、「セグメントが壊れた状態になる」ことが実はしばしばあります。

Trados もそのことは判っているらしく、メニューには[文書の修正]という機能があるのですが、これで修正できないこともたびたびあります。

Trados を使い始めた人がこのトラブルに陥ることはけっこうありそうに思うのですが、この点は一向に大きく扱われていないようです(ヘルプやマニュアルにも見当たりません)。

私自身が人に Trados の使い方を教えるときは、もちろん早々にこの点を伝えるようにしていました。

09:37 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

タグをめぐる話

(オリジナル投稿 2008/7/19)☆

Trados を使うと少なくとも処理が簡単になる点として、タグの処理を挙げることができます。HTML や XML などのいわゆるマークアップ言語系ファイルをネイティブに扱う場合には、たとえばテキストファイルのまま扱うより、タグを壊してしまう危険性がはるかに少なくなります。

もっとも、この恩恵を受けるのも結局はローカライズや IT 翻訳が中心になるわけで、それ以外の分野には特にありがたみのない機能だとも言えます(IT 以外の分野でも FrameMaker マニュアルは人気があるようで、それをコンバートした STF(RTF)ファイルというのも Trados が得意とするファイル形式のはずなのですが、これについてはまたいろいろと問題点があるので、その話はまたいずれ)。

ここで書きたいのは、そのタグ処理機能のことではなく、ある翻訳者さんとのマークアップ言語ファイルをめぐるやりとりについてです。

初めにお断りです。ときには意外と狭い業界だったりもするので、もし以下の話にお心当たりのある方がいらっしゃいましたら、もう時効ということでご容赦いただきたいと思います。

私が翻訳会社に勤務していた頃の話です。あるとき非常に優秀な翻訳者さんの応募があり、もちろん即採用となってさっそくジョブを打診したのですが、初回からいきなり断られてしまいました。

依頼内容は HTML 形式ヘルプの翻訳だったのですが、「タグ処理その他、翻訳に直接関係のない "作業" が多すぎる。私は翻訳者なので、純粋に文章の翻訳なら引き受けるが、それ以外は引き受けられない」というのが、受注不可の趣旨でした。

私も社内の PM もこの反応に最初は驚いたのですが、よく考えてみれば、翻訳の腕に自負があってそれなりの実績も残している人なら、こういう方針を貫くのも当然といえば当然なのでした(と同時に、ローカライズ業務というものの認知度の低さを感じる出来事でもありましたが)。

★HTML や XML のタグを理解したうえで、その処理も翻訳者が行う★

のかどうか、実はローカライズベンダーの中でもその方針は分かれているようです。翻訳者にはタグをすべて削除したファイルを渡して翻訳だけしてもらい、戻ってきた内容を社内でマークアップファイルに戻すというベンダーもあれば、タグ処理を原則的にすべて翻訳者に委ねるというベンダーもあります。比率としてどちらが多いのか、私は知りません。

私が在籍していた会社はたまたま後者だったので、タグ処理(や関連の検証作業)を翻訳者が行うのは当たり前と思っていましたし、私はそういった作業が嫌いではなかったのですが、ローカライズ以外の翻訳者さんから見れば、「そんなのは翻訳者の仕事じゃない」というのも、しごく当然の意見だろうと思います。

ローカライズというのがそれくらい特殊な世界であって、Trados が現在もっとも真価を発揮しているのがその特殊な業界である、ということは承知しておくべきでしょう。

09:35 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

お節介な機能

(オリジナル投稿 2007/9/4)★★

Trados Workbench には、数字や単位、日付だけが異なる場合にはその部分を自動置換するという機能があります。

つまり、たとえば "512MB RAM" というセグメントを「512MB の RAM」と訳せば、その次に "1GB RAM" が出てきたときには「1GB の RAM」という訳に置き換えて 100% 一致と見なしてくれるわけです。便利そうでしょ。

ところが、実はこれが要らぬお節介であって邪魔になるだけというケースもあるので注意が必要です。

数字や単位の変換は、[ファイル]→[設定]→[置換]タブで設定します。

Trados_0709042_2

このように、置換する対象にチェックを入れておきます。ところが、この置換が中途半端な場合があります。

Trados_0709041

つまり、2007/9/4 のような単純形式を「2007 年 9 月 4 日」と訳したのであれば別の日付も正しく置換してくれるのですが、この例のような dd, yyyy 形式には上記の置換設定では対応できないわけです(別のオプションを組み合わせればこの形式に対応できるはず)。

しかも、それでいて 100% 一致してしまうので、この誤置換は見逃してしまう危険性があります。翻訳会社によってはこの機能をオフにするよう指定してくるところもあるくらいです。

09:04 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加