« 2009年9月 | トップページ | 2009年11月 »

2009.10.31

「読み」入力の省力化(たぶん、ローカライズ限定ネタ)

★★★
いわゆる IT 翻訳のなかでも、おそらくローカライズ分野に限定されると思うのですが、索引とか用語集の見出しを翻訳するとき、その「読み」を入力しなければならない場合があります。原典はアルファベット順ですが、日本語版では五十音順にソートする必要があるからです。

FrameMaker ベースの場合、読みは タグで指定されているので、次のようにその内容をカタカナやひらがなで入力します。

トリガーの作成
トリガーのさくせい

ところが、この「読み」を手作業で入力するのはけっこう面倒。入力モードを切り替えるのも面倒ですが、たとえば「サクセイ」とカタカナ変換すると、その後で変換候補の最初がカタカナになってしまうからです。こういう作業は、やはりツールの力を借りて省力化したいところです。

ほかにも方法はあるかもしれませんが、今回は Excel の PHONETIC 関数を使う方法をご紹介します(こんな話がどれだけの人に役立つか判りませんけど)。

たとえば、こんな風にします。

1. A 列に索引項目を入力します。上の例では「トリガーの作成」。
2. B 列に関数を設定します。=PHONETIC(A1)

これで、B 列に「トリガーノサクセイ」と表示されるので、セルごとコピーして(セル内コピーではダメ)目的のファイルに貼り付けます。ここんところの作業は原始的ですが、対象ファイルがテキストベースなら、もうちょっと発展的な使い方は考えられそうです。

この手順だけだと読みはカタカナです。ひらがなにしたいときは、次の設定を追加します。

3. A 列全体を選択した状態で[書式]→[ふりがな]→[設定]を選択し、[ひらがな]のラジオボタンを選択します。

中黒とかカギカッコなど特定の文字を読みから除外したいときは、B 列の PHONETIC 関数に SUBSTITUTE 関数をかぶせます。指定できる文字は 1 つだけなので、いくつかの文字を削除する場合は SUBSTITUTE を複数ネストします(もっとスマートな方法がありそうですけど)

=SUBSTITUTE(PHONETIC(A1), "<削除したい文字>", "")

何らかのマーキングを前 and/or 後に追加するときは、さらに CONCATENATE 関数で文字列を連結します。

=CONCATENATE("★",SUBSTITUTE(PHONETIC(A1),"<削除したい文字>",""),"★")

【入力するときの注意事項】
★IME に単語登録している語を入力するときはちょっと注意が必要です。アルファベットやカタカナ、ひらがなは読みが正しく反映されますが、漢字は入力どおりに反映されます。たとえば「あふり」=「アプリケーション」と登録している場合、「あふり」と入力しても読みはちゃんと「アプリケーション」になります。しかし、「こかよ」=「高可用性」と登録している場合に、いつもどおり「こかよ」と入力すると、読みも「コカヨ」となります。

★他のファイルから Excel にコピーするときも注意してください。たとえば Word 上で入力した「トリガーの作成」を Excel の A 列にコピーすると、「トリガーの」までは正しく「トリガーノ」という読みが表示されますが、「作成」は「作成」のままになってしまいます。

以上、ローカライズ限定としか思えない Tips でしたが、PHONETICSUBSTITUTECONCATENATE の関数は、もしかしたら何かの役に立つことがあるかもしれないと考え、エントリにしてみました。

07:42 午後 関連ツール | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2009.10.26

翻訳前後の処理 - その2「翻訳」

★★
ログファイルの説明が終わったところで、翻訳前後の処理の 2 番目、「翻訳」です。翻訳といっても自動翻訳をするわけではなく、動作はこんな感じです。

1. 翻訳メモリーを検索する。
2. 指定したマッチ率以上の既訳があればセグメントを作って訳文を埋め込む。
3. 既訳がない場合、原文-訳文のセグメントを作るかどうかはオプションで選択できる。
4. 既訳がない場合に、用語集の対訳だけを埋め込むオプションも選択できる

[解析](アナライズ)

[ツール]→[解析]を選択し、各オプションを指定、ファイルを選択して実行します。

Tratranslate01

以下、オプションの使い方です。

[% 以上の一致精度]
通常は、デフォルトの「100%」で使います。つまり、「完全一致の既訳だけ訳文を埋め込む」ということです。

Tra100embeddedrtf
このように原文-訳文のセグメントが作られ、100%一致の既訳が埋め込まれます。

ここの数値フィールドを変える状況は、いくつか考えられるのですが、今回は省略します。


[識別できない文を分節化]
このオプションをオフにしておくと、上記の埋め込みが行われない、つまり既訳のない箇所は原文のままになります。オンにすると、下の図のように既訳のない箇所も「原文-原文」の形でセグメントが作られます。

Tra100embeddedsegmentedrtf

このオプションの使い方は、ファイルやメモリーの状況によって異なります。たとえば、100 既訳率が圧倒的に高く作業対象がごくわずか、という場合にはこれをオンにすれば、マッチ率を示す「0」を検索すれば済みます。また、IT 翻訳ではよくあることですが、原文の文字列を訳文中でも使うことが多いような場合は、やはりオンのほうがいいかもしれません。

私の個人的な趣味でいえば、状況にかかわらずオフのほうが好きです。Word の場合は埋め込まれたフォントを引きずってしまいますし、この状態ではセグメントの拡張/縮小に手間がかかるからです。なにより、作業中に確定した訳をそれ以降で再利用するとき、いちいち[取得]する手間が増えます。


[変更された翻訳を更新]
これは、まっさらの原文ファイルではなく翻訳途中のファイルに対して[翻訳]処理を実行するときに意味を持つオプションです。なんらかの理由で、ファイル上の訳文とメモリー内の対訳が一致しない状況があります(たとえば、ファイル上だけで用語を一括置換し、その変更をメモリーに登録していない場合など)。

このようなとき、ファイルの内容をイキにしてメモリーを更新する場合は[TMを更新]、ファイルのほうを更新する(メモリーの訳に戻す)場合は[文書を更新]を選択します。デフォルトは[無視]で、変更箇所については何も処理されません。


[既知の用語を翻訳]
埋め込みできる既訳がないときに用語集の訳語を埋め込む機能です。実はこの機能、今まで自分では使ったことがなく、フォーラム勉強会のために使ってみました。SimplyTerms にこれと似た機能があるので、案の定フォーラムではこの機能を紹介する場面がありました。

当然ながら、この機能を使うには、対応するバージョンで作成された MultiTerm 辞書が必要です。デフォルトは[無視]、つまり用語の埋め込みを行いません。

[置換]を選択すると、用語集にある対訳が埋め込まれます。

Traembeddedglosrtf
このように、セグメントの訳文部分に対訳が青字で埋め込まれます。このような英和混在の形が見やすいかどうか、フォーラムでも意見が分かれていたようです。

[挿入]を選択すると、用語集が上記のように混在で埋め込まれるのではなく、Word のコメントとして挿入されます……が……

Tracommentedglosrtf
……実用できるとは、とても思えません。

実は、この[挿入]よりもっと笑える結果もあることが、今回やってみて初めてわかりました。

[置換]を選択すると、「セグメントの訳文部分に対訳が青字で埋め込まれる」と書きましたが、つまりこの機能を使うときには必ず前述の[識別できない文を分節化]もオンにしておかなければならない、ということです。

Traembeddedglosngrtf
[識別できない文を分節化]をオンにせず、[既知の用語を翻訳]で[置換]を選択すると、こんな風にセグメントを作らず、原文上でいきなり対訳だけを置換してしまいます。これでは、原文がオリジナル状態ではなくなってしまうので、通常の Trados 作業には使えません。

※「Trados を使用せず Word ファイルを上書き翻訳するが、用語集の用語だけは埋め込む」という場面があれば使えるのかもしれませんけど。

こういうときは、[置換]を選択すると[識別できない文を分節化]も自動的にオンになる、というのが親切設計だと思うのですが、インターフェース設計にそこまで気が回っていないところが、やっぱり Trados というところでしょう。

01:01 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

翻訳前後の処理 - その1.5「ログファイルについて」

★★
「翻訳前後の処理」の話を先に進めようと思いましたが、この処理に共通するログファイルについて、ちょっと触れておいたほうがいいかもしれません。

翻訳前後の処理、つまり[ツール]から選択する[解析]、[翻訳]、[訳文の生成]の各コマンドでは、いずれもログファイルが生成されます。処理のたびにファイル名を指定しないかぎり、ログファイルのフィールドは前回使ったファイル名のままになっています。

ログファイルとしては、*.csv と *.log の 2 種類のファイルが生成されます。

*.log は人の目で見やすいテキストファイル形式、*.csv は Excel で使えるカンマ区切りファイルです(余談ですが、むかしの Trados では *.csv という拡張子を付けておきながらカンマではなくセミコロン区切りでした)。

ファイル名を変えない場合、*.log ファイルはすべての処理が累積で記録されていきますが、*.csv は処理のたびに上書きされる(つまり最新の記録しか残らない)ので注意してください。

Tralog
これが *.log ファイル。

Tralogcsv
こちらが *.csv ファイル。Excel で開けば見やすくなります。

11:55 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2009.10.20

SDL Trados Studio 2009 - SP1 をインストール


まだ 2009 を満足に使いこなしていない状態なのですが、早くも Service Pack 1 が公開されたので、とりあえずインストールしてみました。

といっても実質的なご報告は何もできなくて、ただインストールのときちょっと(気になった|笑えた)ダイアログがあったもので。

まずは Studio 2009 本体の SP1。インストーラを起動してステップが進んでいくと、

Trados2009sp1

ボタンが見え~ん

呆れたことに、ウィンドウのサイズを変えても、最大化してもダメでした。念のために書いておくと、4 つ並んだボタンは、

いちばん左   …… Print(ライセンス文面の印刷)
左から 2 番目 …… Back(戻る)
右から 2 番目 …… Next(進む) ※たぶんこれがデフォルト
いちばん右   …… Cancel (キャンセル)

となっています。

続いて MultiTerm 2009 のインストール途中。

Trados2009mtsp1

あはは。おんなじ。

この症状、私の環境だけなのかどうか不明ですが、なんというかインターフェースまわりのこーゆー点のいいかげんさは、自前のサイトの翻訳がヒドいことと無関係ではないように思います。

10:18 午後 Trados 全般, バージョン - Studio 2009 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2009.10.18

Workbench の設定 - [設定]-[分節規則]

★★
前エントリで書いた[ファイル]→[設定]ダイアログのうち、[分節規則]タブについて説明します。

以前にも書きましたが、日本語文法用語の「文節」ではなく「分節」です。原語は Segmentation。

※余談ですが、Workbench は[表示]→[ユーザー インターフェイスの言語]機能を使えばアプリケーションの表示自体(ヘルプも含めて)を切り替えられるので、けっこう便利です。どのアプリケーションもこうなっていてほしいと思います(ただし、フリーランス版の場合はインストール時に指定する 5 言語に限定されます)。

【2009/10/28 加筆】

[設定]ダイアログ-[分節規則]タブ

Trados は、主に原文の punctuation 記号を手がかりにして翻訳単位(=分節)を区切っています。たとえば原文が欧文の場合、デフォルトでは次の記号や単位で分節として認識されます。
・ピリオド
・タブ
・コロン
・疑問符、感嘆符
・段落
ただ、これだけでは不十分で、たとえばピリオドは小数点の区切りにも使われるので、「ピリオドの後には空白文字が続いている」などの細かい条件も追加されています(したがって、原文でピリオドの後にスペースがないと複数文がつながって分節になります)。

ほとんどの場合はデフォルト設定で対応できるのですが、原文の状況によってはときどき、区切り方が不都合なことがあります。チャーリーさんからご質問があったように、文末が数字で終わっているときも、その文だけで分節とならず、次の文が続いてしまいます。

Tradoswbsegmentation_1

これは、「数字の後にピリオドが続く場合、そのピリオドでは分節として区切らない」という設定がデフォルトになっているためです。次のスクリーンショットのように、デフォルトでは[数字に続く]オプションがオフです。

Tradoswbsegmentation2


ではこれをオンにすればいいかというと、そうするとこの規則は「数字に続くときだけピリオドで区切る」という意味になってしまい、逆に本来区切られるべきセンテンスがつながってしまいます。なんというか、設定メカニズムとして非常に不親切です。

ところが、このオプションにはオン/オフのほかにグレーアウトされた状態というのがあって(オン状態から 2 回、またはオフ状態から 1 回チェックボックスをクリック)、

Tradoswbsegmentation3

こうすると、「ピリオドの前に数字が来るかどうかは考慮しない」状態になるのだそうです。試してみましたが、この状態にすれば、本来のセンテンスも区切られ、年号などの数字の後も区切られるようになりました(これ以外の場面で数字が出現したときの動作は未確認です)。

Tradoswbsegmentation4

チャーリーさん、いかがでしょうか。

【以下、2009/10/28 加筆】
その後、「U.S. のような略語で文が終わるとき、セグメントが区切られるようにしたい」というご要望をいただきました。

関係するのは、[略語と推定される文字に続く]オプションです。

Tradoswbsegmentation5

結論から言うと、これもオンやオフではなくグレー状態にしておくといいようです。

オフ(デフォルト)にすると、U.S. のようなピリオド付き略語で文が終わるとき、そこでセグメントになりません(ただし、U.S. の後にスペースが 2 つ以上あると区切られます。

オンにすると、ピリオド付き略語の後は区切られるようになりましたが、おもしろいことにスペースが 2 つ以上あると逆に区切られなくなりました。

グレー状態にすると、後ろのスペース数にかかわらず区切られます。

01:38 午後 Trados 機能 | | コメント (8) | トラックバック (0)

はてなブックマークに追加

Workbench の設定 - [設定]ダイアログ

★★
それでは本論。
第 1 回は、翻訳メモリーの基本設定である Workbench の[ファイル]→[設定]ダイアログの各機能です。

メモリーごとの設定なので、メモリーを開いていないときはグレーアウトされています。また、セグメントを開いているときは変更できません。

[設定]ダイアログ

[全般]タブ
メモリーを新規作成するときに指定した情報を変更できます。ただし、一部の設定は read-only です。特に、「複数の訳文を許可」は変更できないので、新規作成するときに決めておく必要があります。


[フィールド]タブ
あまり使う機会はないかもしれませんが、[テキスト フィールド]を追加すれば、メモリーに登録する原文-訳文ペアに任意のテキスト情報を追加できます(たとえば、訳文に関する注意書きとか)。

[属性フィールド]と[属性値]を組み合わせると、登録するペアについて属性を設定し、その属性をペナルティ計算に組み入れることができます。たとえば「翻訳者」という属性フィールドを設定し、「AAA」という翻訳者名を属性値に設定しておいて、AAA さんの訳文だけペナルティを高くしておく、つまり AAA さんの既訳を流用するときだけ一致率が下がるようにする......なんて使い方をしている翻訳ベンダーがあるかも。


[フォント]タブ
原文と訳文を表示するデフォルトのフォントを設定しますが、Trados 使用の翻訳案件では、納品ファイル上でのフォントは問題にならないことも多いので、たいていはデフォルトのままのようです。

特に Word と組み合わせて使用する場合には、ここでのフォント設定と Word 上の既定フォントが違っていると見た目がけっこう汚くなるとか、まあフォントがらみではいろいろと問題が絶えないようです。


[置換]タブ
数字などの自動置換をオン/オフします。たとえば、"3000 USD" という原文を「3000米ドル」と訳して登録すると、次に "4000 USD" が出現したときには数字部分だけ置換して 100% 一致します。自動置換が邪魔になるプロジェクトもあるので、オフにするよう指定されることもあります。


[分節規則]タブ
チャーリーさんからご質問のあった機能が、このタブに関係します。ちょっとややこしいので、これだけはエントリを改めることにします。


[翻訳しない文字列]タブ
文字スタイルに基づいて、翻訳対象外とする箇所を指定できます。ファイルをあらかじめ指定されていることが多いので、私は使ったことがありません。


[アクセス権]タブ
これは同じメモリーを共用するときの機能なので割愛します。

12:42 午後 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

Workbench の設定 - 設定の適用範囲

★★
翻訳フォーラムやほんやく互学会でご一緒することの多い金融翻訳者のチャーリーさんから、Trados Workbench の設定についてご質問をいただきました。

コメント元エントリ: 禿頭帽子屋の独語妄言 side A: # side Trados 更新情報(10/7)

「翻訳前後の処理」シリーズとあわせて、少しずつ説明してみたいと思います。

本論に入る前に、Workbench の設定がどの範囲に及ぶのか、ということを整理しておきます。

[ファイル]→[設定]
このダイアログでの設定は、メモリーごとに適用されます。ダイアログのタイトルも
...<*.tmw> の設定
となっています。


[環境]→[プロジェクトとフィルタの設定]
このダイアログの設定も、適用範囲はメモリーごとです。


[環境]→[翻訳しない段落]
メモリーごとの設定です。


[環境]→[ユーザーID]
Workbench グローバルの設定です。したがって、メモリーを開いているときは変更できません。

フリーランスの場合、いちど設定すれば変更する機会はあまりないと思いますが、ここで指定した ID は「作成者」や「更新者」としてデータベース情報に残りますので、人前に出せないような名前は付けないほうが吉です。


[オプション]メニューの各設定
すべて Workbench グローバルの設定です。
なかには、グローバルでないほうがいい設定もあると思うのですが、詳しいことはまたいずれ書きます。


以上の適用範囲はいちおう理解しておくべきです。クライアントや翻訳ベンダーによってメモリー設定の指定は異なることが多いので、グローバル設定(特に[ペナルティ])には注意する必要があります。

11:59 午前 Trados 機能 | | コメント (3) | トラックバック (0)

はてなブックマークに追加

2009.10.16

SDL Trados Studio 2009 SP1公開


早くも、という感じである一方、当初の出来具合から考えて当然とも言えるかもしれない Service Pack 1 が公開されました。

どんな機能が改善/追加されたのか、そもそも製品自体をまだ使い込んでいないのでわかりませんが、ひとまず告知だけ。

10:06 午前 Trados 全般, バージョン - Studio 2009 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2009.10.07

翻訳前後の処理 - その1「解析」

★★
9/30 翻訳フォーラムの勉強会では、時間制限もあって実際の Trados 操作はごく一部しか紹介できませんでした。フォローの意味で、ここで少しずつ説明してみようと思います。

まず、翻訳前後に行う処理として「解析」、「翻訳」、「訳文の生成」について説明します。

[解析](アナライズ)

翻訳対象の原文ファイルが、メモリーとどのくらい一致しているか(マッチ率)を解析する機能。翻訳ベンダーから受注した Trados 指定ジョブの場合、あらかじめ解析ログも支給されるのが普通ですが、途中で残りの作業量を知りたいときとか、自分でも使う場面はけっこうあります。

★Trados 指定ジョブの場合、ワード単価はマッチ率に応じたスライド制になっているのが一般的です。たとえば、新規箇所が 10円/word なら 85-94% は 5円/word みたいな感じ。

[ツール]→[解析]を選択して、ファイルを指定するだけですが、「ログファイル」で指定されているファイルが存在しないと叱られます(前回のログファイルを削除したりしているとよく叱られる)。

Traanalyze

解析する対象のファイルは、オリジナルのまま(html、xml、doc、ppt など)でも、TagEditor 形式(*.ttx)でも、S-Tagger などで変換した rtf でもかまいません。

オプションについても一部説明しておきます。

[頻出分節をエクスポート]
「繰り返し」としてカウントされたセグメントをエクスポートします(出現回数はボックスで指定可能)。たとえば、大きいドキュメントを複数の翻訳者に分けて進めるとき、同じセグメントの訳を統一するために、翻訳ベンダーのほうで先行翻訳してから社外に割り振る、なんていう使い方も考えられますが、実際にはうまくいった試しがありませんでした。なぜなら、「繰り返し」だからといって定型訳が可能とは限らず、けっきょく前後の文脈を見なくてはならないからです。

[プロジェクト用TMの作成」]
これ、フリーランス版では使えないので省略。

[解析済み翻訳メモリを使用]
名前がちょっと判りにくいですが、状況によってはけっこう使い途のある機能です。
たとえば、ある翻訳プロジェクトで、参考用として旧版の原文ファイルが支給されたとします。ただし、その内容は今回使用するメモリーには含まれておらず、旧版がどのくらい流用できるのかも判りません。こういう場合に、

1. 旧版の原文ファイルを対象に「解析」を実行します。
2. 「解析済み翻訳メモリを使用」オプションをオンにします。
  ※つまり、1. のときはオフでないとだめです。
3. 今回の翻訳対象を「解析」します。

こうすると、旧版の原文ファイルについて計算したマッチ率を保持しておき(=解析済み翻訳メモリ)、それを元に今回のファイルのマッチ率を計算します。つまり、旧版と新版がどのくらい一致するかが判るということです。この結果がそれなりに高ければ旧版は参照する意味がありますが、低ければあまり参照しなくてよい、という判断の材料になります(もちろん、ファイル形式とかいろいろな制約で状況は変わりますが)。


--------------------
解析のログは、.csv 形式と .txt ファイルの両方が生成されますが、ここでもちょっと注意が必要です。

ログのファイル名を変えずに解析を何回か実行した場合、
 - テキストファイルの内容は累積される
 - csv ファイルは毎回上書きされる
という違いがあります。

解析結果をざっと見るときはテキストファイルが便利ですが、細かいデータを検討したいときは、csv ファイルを Excel で開いたほうが確かです。

11:40 午前 Trados 機能 | | コメント (0) | トラックバック (0)

はてなブックマークに追加