2015.04.23

パッチワーク翻訳について考える


マニュアルやヘルプのように部分改訂されたドキュメントのうち、変わっていない部分はそのまま手を着けず、更新された部分だけ翻訳することを、業界では俗に「パッチワーク翻訳」と呼んでいます。

更新のない部分、つまり100%完全一致箇所について、新規箇所の10%くらい翻訳料を払うというのはまだ良心的なほうで、まったく翻訳料を払わないというのも珍しくありません。


ちょっと考えただけでも、翻訳する側としては「とびとびなんて訳しにくい」というのが当たり前の反応ですが、発注する側としては「翻訳しない箇所なんだから払わない」と考えるわけで、こちらも向こうにしてみれば当たり前ということなのでしょう。

両社の認識には深くて大きいギャップがあります。

この大きいギャップの原因はそもそもどこにあるかというと、

翻訳とは原文を訳文に置き換える作業なのかどうか

という認識の差なのかもしれません。


言うまでもありませんが、翻訳するためには原文を読んで理解しなきゃいけません(そのほかにも、膨大な調査とか、いろいろな作業も付随しますが、そこは条件が同じなので今回は考慮しないことにします)。

でも、世間一般の常識としても、「読む」という作業に対する報酬は発生しません。例外はリーディングぐらいでしょうか。


読んで、理解して、でも最終的にターゲット言語に置き換えないかぎり「翻訳料」ということにはならない。


ふつうは、それでも特に疑問には思いません。たとえば総額10,000円のお仕事なら、読んで理解して文字を打って、と全部ひっくるめての報酬とそれなりに納得しています。


じゃあ、原文30,000ワード以上あるドキュメントのうち7,500ワード(4分の1)だけ改訂翻訳、ということになったらどうなるか。しかも、何章かまるまる追加になってその部分を翻訳というまとまった内容ならまだしも、たいていはとびとびの内容、つまり「パッチワークのような翻訳」です。

5つ並んだ手順のうち2つだけとか、機能説明の一部変更とか、旧版の英語を単に言い換えただけみたいな意味のない更新とか。


そんなときでも、文脈、あるいは前後の文体とか形式を把握するために、ある程度は読まなきゃ訳せません。しかも、原文だけではなく旧版の該当箇所(翻訳支援ツールを使っているのであれば、前後のセグメント)も確認しなきゃいけない。

要するに、作業ボリュームが7,500ワードと言われたって、その7,500ワードに当たる部分だけ見てればいいってことにはならないわけです。

でも、発注する側はそんなこと微塵も考えない。料金を払うのはあくまでも「翻訳」に対してだけ、つまりソース言語からターゲット言語への置き換えが発生した部分だけ。


もっと言えば、全体のボリュームに対する作業負荷というだけでなく、セグメントの中だって本当は同じことでしょう。たとえば、原文10ワードのうち3ワードが変わっただけだから、支払いは70%。だけど、翻訳者は当然その10ワードを全部読んだうえで3ワードの違いを訳文に反映させるのであって、その手間が30%相当とはまったく限らない。

そういう発想はまったく抜きにして成立しているのがパッチワーク翻訳であり、それを支えている翻訳支援ツールであり、その上で習慣化しているマッチ率ごとの逆スライドという報酬体系です。


もちろん、こちらが前後をどう確認しようと、その部分を数値にするのはほとんど不可能でしょう。が、少なくとも

100%一致は翻訳料いっさいなし

というのだけはやめたほうがいい。

かといって、半端に10%くらい付けたうえで、「気になった箇所は修正してください」と平気で言ってこられるのも、なんだかなぁという感じです。


もちろん、ソースクライアントの支払い体系がそうなんだから、翻訳会社さんとしてはどうにもならないという事情は承知しています。


ですから、せめて、打診の段階でパッチワーク翻訳であることをはっきり教えていただけないかな、と思います。そしたら、その時点でお断りすることもできるので。

08:03 午前 ローカリゼーション, 関連ツール | | コメント (3) | トラックバック (0)

はてなブックマークに追加

2012.04.06

翻訳依頼はPDFにする前のファイル形式でお願いします


山本ゆうじさんがFacebookにアップ。

120406_honyakukougaku

私もはげしく賛同します。

06:03 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.08.27

Idiom プロジェクトファイルの中身を参照する


Idiom Desktop Workbench は、私の知る限り最悪の翻訳環境です。インターフェースの操作性も劣悪ですが、それ以上にメモリーや用語の参照性、再利用効率が悪いという、アーキテクチャとして致命的な欠陥を持っています。

それでも、今でもときどき亡霊のように、これを使う案件が飛び込んできたりするので、自分用のメモも兼ねて、せめてもの Tips を紹介しておきます。

Idiom 環境のプロジェクトは、*.xlz または *.wpz(サブプロジェクト)という拡張子のファイルで、この中に翻訳対象もメモリーも用語集も含まれています。どちの形式も、実は圧縮ファイルなので、

拡張子を zip に変えて解凍

すれば、中身を直接参照することができます(XML ファイルです)。

Idiom では、Trados などのコンコーダンス検索(に当たる機能)を実行しても必要な情報を得られることはほとんどありませんが、この方法でプロジェクトファイルを直接参照すると、既訳などの情報を拾えることがけっこうあります。XML ファイルの構造をもう少し解析すれば、その情報のあり方まで判ると思うのですが、そこまで付き合う気はないので、話はこんだけなのですけど。

03:48 午前 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.08.06

翻訳支援ツールのインターフェース


翻訳支援ツールのインターフェースは、大きく言って、

1108061

このように原文と訳文が縦に並ぶパターンと、

1108062

こんな風に原文と訳文が横に並ぶパターンがあります(色付けに特に意味はありません)。ここでは、前者を「V 型」、後者を「H 型」と呼ぶことにします。

すでにご存じのように、Trados の場合は 2007 までずっと V 型でしたが、Studio 2009 から H 型に移行しました。SDLX は昔から H 型です。

これって、どっらが使いやすいんでしょうか。私個人は --- 慣れの問題かもしれませんけど---、V 型のほうが原文と訳文を見比べやすいし、語句レベルの見落としなども減ると感じているのですが。

V 型と H 型のどちらを採用するか。これは当然、Trados や SDLX のような市販アプリケーションだけでなく、Omega-T のようなフリーウェア系でも、あるいは大手 IT クライアントが社内で使っている --- 表立って名前を言うこともふつうは御法度とされている --- 専用ツールでもつきまとう問題です。

好みによって V 型/H 型を選べたら話は簡単だと思うのですが、そういうツールはまだひとつも出てきていないようです。と言っても、翻訳支援ツールって実はもうたくさんあって、私が知っているのはそのごく一部にすぎません。もし V/H 選択可能なツールがあったら、ご紹介ください。

以下、私が直接知っている支援ツールの一部を挙げておきます。

Trados
2007 までは V 型。Studio 2009 から H 型。


SDLX
H 型。


Idiom Desktop Workbench
H 型。


A 社のツール
変則型。
このツール、10 年以上前にちょっと使ったことがあっただけでしたが、最近また動かす機会がありました。記憶の中では V 型だったのですが、実際には違ってました。原文と訳文が別々のフィールドになっているのではなく、一見するとただのエディタ上で、アクティブなセグメントだけが編集可能になり、メモリーを参照しながら上書きするという形式です。私にはイマイチ使いにくいのですが、ふつうに上書き翻訳している感覚に近いのかな。よくわかりません。


B 社のツール
V/H 併用型。
同じインターフェースの中に、原文と訳文を示すテーブル形式のセクション(H 型)と、原文と訳文が縦に並ぶ編集セクション(V 型)が同時に表示される形式。

1108063

前後関係がテーブルで見やすくなっている一方、実際の翻訳作業は V 型部分で行えるので、個人的にはけっこう気に入っています。しかもこのツールの場合、中間ファイル(バイリンガル形式でこのアプリケーションが使うファイル形式)が XML ファイルなのですが、xliff などよりずっと見やすい形になっていて、加工操作なども簡単。こういうシンプルなアーキテクチャって好感が持てます。

ただし、このツールで扱えるターゲットはやはりこの会社独自のファイル形式に限られるようで、一般のファイルに対する汎用性はあまりなさそうです。


C 社のツール
V/H 混在型。

B 社のように V 型と H 型が同時に表示されるのではなく、最初は H 型のグリッド表示になっており、セグメントを選択すると別の編集ウィンドウが開き、その編集ウィンドウは V 型になっている。混在型というより混乱型と言いたくなるような困りもののインターフェースです。しかも、メモリーからの候補は編集ウィンドウで別タブに切り替えなければなりません。

こいつについては、そのほかにも文句はたくさんあるのですが、詳しく書くとマズいかもしれないのでいちおう自粛しておきますw

IT 業界の大手各社が翻訳支援ツールを自社開発してしまうというのは、発想としてはよくわかります。発端はおそらく、ドキュメントの翻訳ではなくソフトウェアリソース、つまり UI 翻訳の必要性にあったのだろうと推察されます。

よく言われるように、UI をそれだけで訳すのはなかなか大変です(文脈がないので)。どうしたって、翻訳後にはそれを実際のアプリケーション画面に表示してみて、適切かどうか検証するプロセスが必要になります。となれば、翻訳後のファイル形式なども自社アプリケーションのリソースとして使いやすいほうがいいに決まっています。ファイル形式でも文字列操作でも、市販製品をカスタマイズするより自分ちで開発しちゃったほうが早いし小回りもきく、そう考えたのだと思います。

でも、大手として開発力があればあるほど、翻訳者の発想とはかけ離れたツールが出来上がってしまう、そんな気がします。翻訳者の視点 --- まあそれも個人差があるでしょうけど --- で考えればありえない、そんな作りや動作があまりにも多いですから。

そんなわけで、世に言う「翻訳支援ツール」はけっして「翻訳」を支援してくれるものではなく、単に翻訳工程の効率化 --- しかもたいていは開発側にとっての効率 --- とコストダウンを図るための、「翻訳作業支援ツール」にすぎず、まして社内専用ツールとなれば、その度合いはますます強くなる、ということのようです。

「翻訳作業」ばっかりやってて「翻訳」ができなくならないように、くれぐれも注意しなければなりませんね。自戒自戒。

Omega-T とか MemoQ とか、実は試してみなければならない支援ツールがまだまだたくさんあります。それらは、もしかするともう少し「翻訳支援」になっているのでしょうか。実際に使っている方のご意見を聞いてみたいところです。

06:02 午前 ローカリゼーション, 関連ツール | | コメント (6) | トラックバック (0)

はてなブックマークに追加

2010.12.01

Microsoft HTML Help Workshop - ヘルプのデコンパイル

★★
Microsoft のオンラインヘルプに、*.chm という拡張子の付いた形式があります。

ヘルプのコンテンツを HTML ファイルとして作成し(ファイル数が数千に及ぶのも普通)、目次ファイルや索引ファイルなどと一緒にしてコンパイルしたのが、このファイル形式です。今では、独自形式を別とすれば、Windows アプリケーションのヘルプは大半がこれだと思います。

ちなみに、Windows 3.0 以来かなり長い間、WinHelp という形式(*.hlp)が主流でしたが、こちらはソースが RTF ファイルでした。最近さすがに、あまり見なくなりました。

以前の WinHelp より少しは使いやすくなりましたが、それでもまだ CHM 形式ヘルプは検索がしにくい場合があります。ところが、普通にアプリケーションからヘルプを使うのではなく、翻訳案件でこの形式のファイルが過去訳の参照用などと称して支給されたりすることもあるので、検索性が悪いというのはけっこう致命的。

そんなときは、*.chm ファイルをデコンパイルして、元のソース HTML ファイルを取り出してしまえば、簡単に grep 検索できるようになります。

そのためのツールが、Microsoft HTML Help Workshop です。

- ソース HTML ファイルから *.chm ファイルをコンパイルする
- *.chm ファイルをデコンパイルしてソース HTML ファイルを取り出す

の両方が可能です。といっても、翻訳者が前者の機能を使うことはまずありません(翻訳会社が翻訳後のコンパイルまで請け負った場合にはよくやる作業です)。

リンク: HTML Help Workshop

Microsoft のこちらのサイトから無料でダウンロードできます。

インストール後の使い方も簡単。GUI ツールを起動し、[File]→[Decompile]を選択し、

Mshhws2

このダイアログで取り出す HTML ファイルの格納フォルダ(Destination folder:)と、対象の *.chm ファイル(Compiled help file:)を指定するだけです。

03:54 午後 関連ツール | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2010.11.24

秀丸エディタ - あいまい検索 - UI 辞書の検索に

何度か書いているように、私は Trados の MultiTerm をあまり使いません。

Trados 5.5 まではそれでも多少使っていましたが(特に会社にいた頃は)、インターフェースが大きく変わってからは、入力フォーカスを Tab キーで移動できなかったりして、とことん私の好みではないからですが、それでもあいまい検索(複数形や、余分な文字があってもヒットする)などの機能があるので、便利な面もあるかもしれません。

今、「余分な文字」と書きましたが、その最たるものがニーモニック文字(アクセラレータキーの指定に使われる特殊文字。通常は &)。

&Apply

みたいな形であれば Apply を検索してもヒットしますが、

A&pply

こんな風に単語中に割り込んでいると、普通の検索ではヒットしません。クライアントさんや翻訳会社の担当者さんが親切なら、こういう不要情報は削除してからデータを支給してくれるのですが、どうもそうではないケースも珍しくありません。

私は、支給される辞書データがどんな形式でも(xls、xml、mdb など)、テキストにして 検索/grep することにしていますが、こういう不要な文字をよけたいとき、秀丸エディタなら「あいまい検索」を使用します。

101124hide1

検索ダイアログで[あいまい検索]を選ぶと、デフォルトですでにいろいろな項目が設定されていますが、ここでは[特定文字を無視する]に文字を指定します。

101124hide2

[特定文字を無視する]フィールドに指定するだけではなく、あいまい検索の定義ファイルを作っておけば、その下にある[カスタム1]以下で指定できます。

UI 辞書を検索するときであれば、アンパサンド(&)のほか、半角スペースとか s なども指定しておけば、原典でブレている UI をだいたい拾うことができるので、この辺のセットを、あいまい検索定義として保存しておくといいかもしれません。

と書いておきながら、実はアンパサンド(&)については検索時にいちいちこのように指定するのではなく、支給された時点で一括削除してしまいます。秀丸エディタや Perl の正規表現ならこんな風に指定して一括置換します。

訳文中のニーモニック指定箇所は "\(&[A-Z]\)" → ""
英文中のニーモニック指定箇所は "&([A-Za-z])" → "\1"

04:27 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

秀丸エディタ - カスタムの拡張子セット

(オリジナル投稿 2010/7/15)★

続いての Tip は、秀丸エディタで grep を多用する人向け。

と言っても、これはいろいろな拡張子のファイルを使う場合に有効な小技なので、翻訳者のなかでも IT 系くらいしか用がないかもしれません。むしろ、扱うファイルの種類が多いプログラマーさん向きでしょうか。

秀丸エディタの grep ダイアログはこうなっています。

100715_hide_01

grep するときは対象ファイルを拡張子で指定するので、[検索するファイル]というフィールドがあります。拡張子は、単独でも(*.txt など)複数でも(*.java;*.h)指定できるほか、フィールドの右にある右向き矢印を使えば、システム標準の拡張子(セット)から選択することもできます。

ところが、この拡張子フィールドで保持される履歴は多くて 5~6 個くらいなので、日常的に grep するファイルの種類が多いと、以前 grep 対象にしたファイルの拡張子が履歴からなくなり、また手入力で指定しなければなりません。

※つまり、逆に言えば、日常的に grep するファイルの種類が *.html と *.txt 程度という使い方であればこれでも困らないので、今回の Tip はたいして意味を持たなくなります。

私の場合、常用している翻訳関連ツールの都合があり、また個人的な便宜や必要性もあって(前エントリで書いた色分け表示など)、テキストファイルに付けるカスタムの拡張子がけっこうあります。

*.ttx …… Trados TagEditor のバイリンガル XML ファイル
*.dic …… 用語集ファイル(カスタム)
*.lst …… チェックスクリプト用の用語リスト(カスタム)、などなど......

そうすると、grep 履歴が消えてしまうのはけっこう煩わしい。そこで、[その他]→[動作環境]→[ファイル]で、カスタムの拡張子セットを作ってしまいます。

100715_hide_02

[ファイルの種類の編集]を押すとこんなダイアログが開くので、

100715_hide_03

[追加]をクリックして、頻繁に使う拡張子をセミコロン区切りで指定します。上のダイアログで[AT標準]というのが、私の作成したカスタム拡張子セット。grep ダイアログで、拡張子フィールドの右にある右向き矢印から選べるようになります。

03:48 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

秀丸エディタ - 画面の色分け

(オリジナル投稿 2010/7/14)★

こちら、私がよく使う秀丸エディタ画面のサンプルです。

100713_hide_01

※実際にはタブ表示していますが、ここではわかりやすいように独立ウィンドウにして重ねてあります。

デフォルトのエディタ画面にはもちろん色など付いていませんが、[その他]→[ファイルタイプ別の設定]→[デザイン]の機能を使うと、このようにファイルのバックグラウンドに色を付けることができます。

100713_hide_02

このダイアログで、いちばん上の[~の設定]ドロップダウンリストから対象のファイルタイプを選択し、[背景の色]で任意の色を選択したうえで、[リセット/統一]→[文字色/背景色の統一]を選択します。

しかも、ダイアログの名前が示しているように、このデザイン設定はファイルタイプごとに指定できるので、上のサンプルのようにファイルの用途別に色を付けておくと、視認性がたいへん良くなります(と私は思っている)。

ちなみに上のサンプルは、私の作業環境に合わせて、以下のように色分けしてあります。

クリーム色
案件ごとの翻訳仕様(スタイルガイド)の抜粋。後半は、Perl チェックスクリプト用の用語リストになっています。
*.lst という独自の拡張子を付けたファイルです。

薄いグリーン
案件ごとの用語集。こちらも、*.dic という独自の拡張子を付けています。

薄いグレー
こちらは普通の *.txt ファイルですが、真っ白は味気ないので、この色がデフォルト。

このほかにも私の作業環境では、*.html や *.xml などのタグ付きファイル、grep 結果ファイルなどを色分けしてあります。

--------------------
[ファイルタイプ別の設定]ダイアログでは、このような単純なデザインだけでなく、フォントサイズ、強調表示などいろいろと設定ができるので、使いこなせば、それなりに作業の効率化につながります。

03:46 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

秀丸 - 常駐とクリップボード履歴

(オリジナル投稿 10/03/20)★

いわゆるクリップボード拡張ツール、つまりクリップボード履歴をとっておいて、直前より前のコピー内容もペーストできるようにするツールを、今まで何種類か試してみましたが、実は秀丸エディタにも常駐させておけば同様の機能があります。

[その他]→[常駐機能]で[秀丸エディタの常駐]をオンにし、[クリップボードの履歴を取る]もオンにします。

秀丸エディタを使っているときはもちろんですが、他のアプリケーションを使っているときにも有効です。他の拡張ツールもたいていは常駐タイプなわけで、だったら秀丸を常駐させておいてもメモリー負担は大差ない、ということで最近はもっぱらこの機能を使っています。

ただし --- いちばん書きたいのはここ ---、私の環境では、クリップボード履歴から文字列を取り出すと、その直後に ATOK が「日本語入力OFF」の状態(つまり英数直接入力)になってしまうことがあります。

調べてみたのですが、同じような症状の報告はまだ見つかっていません。サイトーさんちに報告すべきかどうか、まだ迷っているところです(ATOK を最新版に切り替えた後で気づいたし)。

03:43 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

秀丸エディタ - デスクトップ保存

(オリジナル投稿 2009/5/27)★★

今までその機能があるのは知っていたけど使っていなかった、というのはよくあることですが。

今回は、定番中の定番である秀丸エディタの「デスクトップ保存」がそれ([ウィンドウ]メニューにあります)。地味な機能ですが、どうしてなかなか便利なのでした。

翻訳作業にエディタはもちろん欠かせませんが、私の場合、翻訳自体には他のアプリケーションを使っていることが多いので、秀丸のウィンドウはもっぱら検索を目的として常時開いているというのが普通です。

- スタイルガイドの要点をまとめたファイル
- 用語集
- TM のエクスポートテキスト
- 原典 HTML ファイルのうちの 1 ファイル

たとえばこんな感じで複数のウィンドウ(タブ)を開いておき、検索または grep を行います。「デスクトップ保存」の機能を使うと、この状態を記憶してくれるので、PC を終了または再起動した後で作業を再開するとき便利です。

さらに、複数ウィンドウ(タブ)でなく 1 ファイルしか開いていない場合でも役に立つことに気づきました。

私はときどきやってしまうのですが、1つのファイルを開いて grep する → 確認した grep 結果ウィンドウを閉じる → 勢い余って元のファイルも閉じてしまう → 次に grep するにはまたファイルを開かねばならない、ということがあるのですね。これも、1ファイルだけ開いた状態で「デスクトップ保存」しておけば解決です。

ところで、秀丸の標準ではこの機能で 1 種類のデスクトップしか保存/復元できません。マクロで何とかなりそうかな、と思っていたら、同じことを考えた方がすでにいらっしゃいました。

リンク: 秀まるおのホームページ(サイトー企画)-複数デスクトップ保存マクロ hmpro Ver.1.1.0

前回書いたようなテキストファイル群を複数セットで保存/復元できるので、複数のジョブが並行したときなどは、これを使うとさらに便利です。

03:41 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.10.21

Lionbridge - Translation Workspace - インストール時のメモ


MLV の大手 Lionbridge(ライオンブリッジ)には、今までも Logoport という独自の翻訳支援ツールがありました。ただし、これは一般公開されず、同社のお仕事を(間接的にでも)請け負っている翻訳者が使用するという、いわば内輪のツールでした(この手の、社内ツールを非公開で運用しているところはけっこう多い)。

この Logoport を、SaaS の形で一般公開したのが Translation Workspace です。

リンク: 翻訳メモリ管理 | Lionbridge の Translation Workspace™

1か月間は試用できますが、その後は個人使用のミニマムでも「5,000wds 当たり 10 ドル/月」の課金になります。クラウドコンピューティングベースなので、Web 上に確保される専用の「ワークスペース」にメモリーを保持して利用します。もちろん、1つのワークスペースやメモリーを複数の作業者が共有できます。

実際の翻訳作業には、Word アドインと、XLIFF エディタという 2 つのクライアントを使います。

101021_tw_1
こちらが Word アドインのツールバー。

101021_tw_2
こちらが XLIFF エディタ。嬉しいことに原文-訳文が縦並びです。

Web 上のメモリーにアクセスするという点を除けば、クライアント上での操作体系は Trados に似ています。

ところが、これをインストールするとき dll ファイルに関するトラブルがあり、その情報がどこにも見当たらなかったので、こちらにメモを残しておこうと思います。日本語の情報としてはたぶん一番乗り :)


手順としては、Lionbridge の GeoWorks サイト(https://www.geoworkz.com/)にアクセスし、ユーザー登録してからクライアントをダウンロードすることになります。ダウンロードするインストーラは

TranslationWorkspace.exe
TranslationWorkspaceXliffEditor.exe

の 2 つですが、インストールでトラブルが発生したのは前者、つまり Word アドインのほうです。

インストール自体は正常に終わりますが、デフォルトのインストール先が、なぜかヘルプの記述とは異なります。

101021_tw_3

ヘルプでは、このように Prgram Files 以下にインストールされることになっていますが、実際のインストーラでは、

101021_tw_4

このようにユーザープロファイルの Documents and Settings 以下にインストールされてしまいます。今回のトラブルに直接の関係はありませんでしたが、気持ち悪いので、いちおうヘルプのように Program Files 以下に変更しておきます。インストール後、システムの再起動は要求されませんでした。

で、Word を起動してみると、こんな VBA エラーが出ます。logoport.dll がない、って。

101021_tw_5

探してみると、こいつのことのようです。インストールディレクトリにあります。

101021_tw_6_2

あまり深く考えずに、この logoport.dll を Windows\system32 フォルダにコピーしてみると、ちゃんと動作するようになりました。

でも実は、インストール後にシステムの再起動は要求されませんが、どうもちゃんと再起動すれば、この DLL がインストールディレクトリにあるままでも正しく認識されるみたいです。

02:48 午後 関連ツール | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2010.10.17

ATOKの使いこなし - 単語登録など


続いて、単語登録と、それに関連するお話です。

単語登録 - [Ctrl]+[F7]

単語登録するときは、登録したい語句を反転選択した状態で[Ctrl]+[F7]のショートカットが使える、というのは、まあ常識ですね。登録のとき、「名詞サ変」とか「名詞形動」とかの[品詞]設定はけっこう重要です。


[辞書メンテナンス]→[辞書ユーティリティ]

[辞書ユーティリティ]を開いてみると判りますが、実は ATOK では、ユーザーが明示的に単語登録しなくても、「学習」の機能によって驚くほどたくさんの語句が登録されていて、これが「自動登録単語」としてリストされます。

別のマシンにユーザー辞書を移動/コピーするときなどは、この[辞書ユーティリティ]で[ツール]→[単語・用例の一覧出力]機能を使いますが、

101017_atok6

デフォルトのままでは、この「自動登録単語」まで含めて出力されてしまいます。「自動登録単語」のほとんどはあまり有用ではないと思うので、ユーザー辞書をエクスポートするときは、このチェックを外しましょう。


[Ctrl]+[Delete]

で、学習機能によって自動登録された単語が、変換のたびに候補に出てきて邪魔なこともあります。そんなときは、変換キーを押してその不要な候補が表示された時点で[Ctrl]+[Delete] を押してみてください。

101017_atok7_2

こんな風に削除することができます。

08:55 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

ATOKの使いこなし - 辞書/辞典の追加


【10/22加筆修正しました】

10/5 に、side A で ATOK の話を少し書きました(side A: # ATOK と英字入力)。あちらはただの雑談でしたので、もう少し実用的な話をこちらにまとめてみます。

まずは、辞書や電子辞典の追加に関するお話......なのですが、ATOK で使われる辞書/辞典やそれに類するデータには 4 種類もあるので、以下の話に使う用語を整理しておきます。


- 漢字変換辞書
漢字変換に使われる、単なる「読み-単語」の対応データです。用法上の注意などが表示されることもありますが、語義や用例は含まれません。これを増やすと、たとえば「こばやしたきじ」→「小林多喜二」と一発で変換できるようになります。後続の 1. で説明します。


-連想変換辞書
「連想変換」とは、類義語や言い換え表現などを変換候補として表示するという、いわば通常の漢字変換の拡張機能です。たとえば、「うてん」と入力して連想変換のキーを押すと、「降雨」とか「お湿り」のような類語を一覧できます。データとしては、類語の説明が載っている場合もあるので、次に上げる「電子辞典」の性質も帯びてきます。後続の 2. で説明します。


- 電子辞典
いわゆる電子辞書、つまり『広辞苑』とか『ロングマン』のような辞書の電子版を ATOK に組み込んで使うという形態。当然ながら、語義や解説などが表示されます。たとえば「さかもとりょうま」と入力すると、漢字変換とは別に、電子辞典の解説が変換候補ウィンドウの横に表示されます。後続の 3. で説明します。


- 省入力データ
何文字か入力すると後に続く候補が表示されるという「省入力」機能のためのデータです。「辞書」のカテゴリとはちょっと違うのですが、ATOK で漢字変換に利用されるので、ここにまとめます。たとえば、「こうきょうし」まで入力して[Tab]キーを押すと、「公共職業安定所」とか「交響詩篇エウレカセブン」が出てきます。後続の 4. で説明します。

1. [プロパティ(環境設定)]→[辞書・学習]タブ

Buckeye さんがご紹介なさっていた「共同通信社 記者ハンドブック辞書」を私も入れてみました(今まで書籍しか持ってなかったし)。

ATOK でオプションの辞書を追加するときは、追加する辞書セットを指定できます。私は「記者ハンドブック辞書」を[標準辞書セット]に追加しましたが、こうすると通常の変換操作(スペースバー)で、追加した辞書も参照されます。

101017_atok_1

通常の変換操作でハンドブックの候補や注意書きがいつも表示されてしまうのが煩わしい、という場合には、辞書を追加する「辞書セット」を変更すれば、[F2]など別のキーで呼び出すようにできます。

たとえば、私の環境には以下のような辞書セットが入っています。

101017_atok_2
[F2]で変換する、人名関係の辞書セット。「トレンド辞書」というのは ATOK で公開されている無料(登録ユーザーであれば)のオプション辞書ですが、私の知らない芸能関係の名前とかぽんぽん出てきます。

101017_atok_3
こちらは[オプション辞書セット]。「はてなキーワード変換辞書」は、予想以上に役に立ちます(こちら無料のオプション辞書)。


2. [プロパティ(環境設定)]→[入力・変換]タブ →[連想変換]

「連想変換」に使う辞書はここで設定します。

101017_atok_4

上のスクリーンショットに並んでいる「連想変換辞書」のうち、下の 4 つはたぶん ATOK 標準ですが、いちばん上の「角川類語新辞典」だけは有料オプションで追加したものです。
リンク: 角川類語新辞典 for ATOK

別途、類語辞典ももちろん使っていますが、訳語に困るときなどにはこの機能もけっこう重宝しています。


3. [プロパティ(環境設定)]→[電子辞典検索]タブ

ジャストシステムからは、『明鏡国語辞典』とか、『ジーニアス英和/和英』、『広辞苑』とか、それなりのラインアップがオプションとして販売されているのですが、私は ATOK 上で辞書をひくことはほとんどありません。

101017_atok_5

よって、標準以外に追加されているのは、「はてなキーワード電子辞典」だけ。これも、「はてなキーワード変換辞書」と同様、けっこう役に立ちます。


4. [プロパティ(環境設定)]→[入力・変換]タブ →[省入力データ]

101017_atok8

私の場合、IT 文脈に出てくる単語はほとんど自前で単語登録していますが、それ以外は、この機能をうまく使うと文字通りキーボード入力の省力化を図ることができます。「コンピューター・インターネット用語データ」、「経済・ビジネス用語データ」、「はてなキーワード省入力データ」など、実用から趣味までけっこうな量のデータがジャストシステムで公開されていて、製品登録したユーザーは無料で使えます。

08:10 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.10.01

タグを一括削除する Word マクロ

★★
Trados 翻訳する文書には、タグがつきものです。

タグの数が妥当であればそのまま作業できますが、ファイルによっては邪魔あるいは無意味なタグがやたらと多くて、原文を読むのさえ不自由なことがあります(FrameMaker ベースの RTF ファイルとか、Word から出力した HTML ファイルとか)。たとえば、こんな感じ。

Tra101001

そんなときは、原文をすべて訳文フィールドにコピーし、タグをぜんぶ削除してから作業すると楽なのですが、Trados の標準コマンドに、「タグを一括削除」というコマンドはありません(Idiom Workbench にはあります)。

そこで、簡単な Word マクロで実現しています(Word 2003)。

Tra1010012

こんな風に訳文をコピーしてから、訳文の範囲をすべて選択して「タグの一括削除」マクロを実行します。マクロはこんな感じです。

Sub Trados_DeleteAllTags()
  With Selection.Find
   .Text = "\<*\>"
   .Replacement.Text = ""
   .Forward = True
    .Wrap = wdFindStop
    .Format = False
    .MatchCase = False
    .MatchWholeWord = False
    .MatchByte = False
    .MatchAllWordForms = False
    .MatchSoundsLike = False
    .MatchFuzzy = False
    .MatchWildcards = True
  End With
  Selection.Find.Execute Replace:=wdReplaceAll
End Sub

False になっている検索条件のところは、なくてもいいものがあるのですが、削除すると True ということになり、True の条件が衝突する場合があるみたいなので、面倒なのですべて明示的に指定してあるだけです。重要なのは、以下のポイント。

- \<*\> というワイルドカード指定文字列(タグを表す)
- .MatchWildcards = True(ワイルドカードを使う)
- .Wrap = wdFindStop(置換を選択範囲だけで終わらせる)

なんてエラそうに書いていますが、実際にはマクロをゼロから書いたわけではなく、操作を記録してから若干編集しただけ。

ちなみに、上のスクリーンショットでは、原文をコピーした部分(黄色の範囲)が元のフォントと違っています。これも、フォントを引きずらないようにコピーする、というマクロを使っているため。

11:10 午前 Trados 機能, 関連ツール | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2010.09.30

Word ファイルのプロパティにも注意


別のことを書こうとしていたのですが、その過程で Word ファイルの[プロパティ]が厄介であることに、今さらですが気づきました。以下、Office 2003 を前提にした話ですので、最近のバージョンでどうなっているかはわかりません。

Tips - パス名にもご注意」や、「メモリーに残される情報 - Studio 2009」に書いたように、ファイルにはいろいろな情報が残るものですが、それは Word や Excel などの Office ファイルでも同様です。

そのような情報が書き込まれないように設定するオプションは、いちおう用意されています。Word / Excel で、[ツール]→[オプション]→[セキュリティ]タブを開くと、[保存時にファイルのプロパティから個人情報を削除する]というチェック・ボックスがあります。このオプションのことは、わりとよく知られているので、チェックを外しておくよう推奨しているページもよく見かけます。

100930_word_2

ところが、[ファイル]→[プロパティ]で表示される情報のうち、[タイトル]や[テンプレート]に設定される情報はこのオプションの対象外だったようです。

100930_word_1

たとえば、、会社名などの入ったテンプレートファイル(.dot)をベースにして文書を作成すると、[タイトル]フィールドにも、いちばん下の[テンプレート]にも、その .dot のファイル名が残ってしまうようです。

[タイトル]のほうはこの[プロパティ]画面で削除して文書を上書き保存すれば消えてくれます。やっかいなのは、[テンプレート]という情報。この画面では編集できないようになっています。

どうするかというと、Word の[ツール]→[テンプレートとアドイン]を操作するのですが、ここからはちょっと話がややこしくなります。また、以下の内容はあくまでも私が試した操作の結果であり、正式な手順かどうか裏はとっていませんのであしからず。

100930_word_3

上に書いたように、テンプレートファイルをベースにして文書を作成した場合には、このダイアログの[文書の作成に使用するテンプレート]というフィールドに、そのテンプレートファイルの名前が入っています。これを変えればいいと想像はつくのですが、テンプレートを変えれば当然、文書内のスタイルなども変わってしまいます。それを回避するには、[文書のスタイルを自動的に更新する]のチェックボックスをオフにします。こうすれば、テンプレートを変えても今の文書のスタイルは維持される......はずなのですが。

使用したテンプレートファイルが同じマシン上に存在しない場合には、この方法で OK でした。上のダイアログの[添付...]ボタンをクリックして、たとえば Normal.dot などを選択し、[文書のスタイルを自動的に更新する]のチェックを外して保存すれば、文書のスタイルも維持され、[プロパティ]のテンプレート情報も更新されました。

ところが、使用したテンプレートファイルが同じマシン上に存在すると、[文書のスタイルを自動的に更新する]のチェックを外していても、このダイアログを閉じるだけでスタイルが変わってしまいます。どういう理屈でそうなるのか、まったく不明。

この場合どうするかというと、作成時に使ったテンプレートファイルを別の名前でコピーし、[添付...]でそのコピーを指定するしかありません。これなら、名前は変わってもテンプレートとしての情報が同じだから文書のスタイルが維持されるということです。

いつもながらではありますが、Office の摩訶不思議な仕様のおかげで、今日は半分もつぶれてしまいましたとさ。

03:00 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.07.01

単語登録のコツ - その2 - ATOK のコメント機能


6/21 のエントリで書き忘れた、ATOK の便利機能を追記しておきます(MS-IME の単語登録でもできるのかな)。

Mac のきれいなフォント、あるいは Windows でも Meiryo フォントであれば大丈夫なのかもしれませんけど、それ以前の Windows 環境では、カタカナの濁音(テンテン)と半濁音(マル)が見分けにくい、ということがよく言われます。

IT 翻訳で頻出する用語でもそれは同様で、

パスとバス
パッチとバッチ

がフォントサイズによってはほとんど区別できません(こうやって並べればまだ判りやすい。ちなみに、上の例では前が半濁音です)。

そこで、こういう単語も ATOK に単語登録してしまい、しかもコメントで半濁音なんだか濁音なんだか判るようにしておきます。そうすると、変換候補ウィンドウに

Atok_comment

こんな風に表示されるので、入力ミスや選択ミスを回避することができます。

インタフェース/インターフェイス/インターフェース

のように表記が複数ある単語も、同じ読みで登録し、コメント欄にクライアント名等を入力しておく、という利用の仕方が考えられます。

10:05 午後 関連ツール | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.06.27

Trados 使用時の辞書との連携

★★★
翻訳作業中の辞書検索をいかに省力化するかということも、効率化と品質向上、そして腱鞘炎予防に欠かせない大きなテーマです。おおまかに言うと 3 つの段階があって、

× …… 辞書(検索ソフト)の検索ウィンドウで綴りを手入力する
△ …… 原文の単語をコピーし、検索ウィンドウに貼り付けて検索する
○ …… 原文の単語を指定してキーを押すだけで検索できる

Workbench + Word を使っているときは、Word の VBA を使ってこの最終形を実現できます(翻訳フォーラムで Buckeye さんが紹介なさっています)。辞書検索だけでなく、Google 検索などにも応用できます。

ところが、Workbench + TagEditor という作業環境では、独自のマクロを組むことができませんし、API が公開されていないので独自のアドインを作成することもできず、このような連携ができません。

しかも、以前書いたように(禿頭帽子屋の独語妄言 side TRADOS: TagEditor と Word の違い - その2)、セグメント先頭の単語をコピーすると、非表示属性のセグメントタグ {0> まで取得されてしまうため、Jamming の検索ウィンドウに貼り付けると検索できない、という重大な問題点があります。

TagEditor と Jamming を併用している人って、きっと一定数いると思うんですが、みなさんこの不便を感じたことはないんでしょうか。Jamming の後継ツールである Logophile も、インストールはしてみましたが、辞書を移行できていない状況です。

しかたがないので、TagEditor → Jamming の間に秀丸エディタのマクロをかませてみることにしました。

翻訳作業中、私はほとんどの場合、テキスト形式の用語集ファイルを開いています。クライアントから支給される用語集は、たいてい Excel か MultiTerm 形式なのですが、すべてテキストファイルにし、かつ *.dic という任意の拡張子を付けています。特定の拡張子にしておくと、秀丸エディタ上でファイル形式別の設定(ウィンドウの背景色とか)を適用でき、また grep もしやすいからです。

で、翻訳時にはこの *.dic ファイルを grep するわけですが、grep ももちろん最小限の捜査で済むようにマクロ化してあります。そこで、この用語集ファイルを grep するとき、同時に Jamming にも検索語を渡して検索するようにしました(Buckeye さん作の秀丸マクロを借用し、語形変化に対応するルーチンをすべて削除)。

これで、{0> タグが邪魔になるのは、ひとまず回避できるようになりました。

01:27 午後 Trados Tips, 関連ツール | | コメント (8) | トラックバック (0)

はてなブックマークに追加

2010.06.21

単語登録のコツ


先日の翻訳環境研究会で、作業効率を上げる単純で効果的な方法として、単語登録のことを話題にしたところ、前エントリへのコメントも含めて、何人かの方から「単語登録のコツは何か」というご質問をいただきました。

たいしたことはしてないつもりですが、もしかしたら何かのヒントくらいにはなるかもしれないので、私がふだんやっている単語登録のことをご紹介しておきます。

研究会では、登録数が 1,500 件を超えているとお話ししましたが、後で確かめたら、すでに 2,000 件を超えていました。私が IT 翻訳に携わるようになってから蓄積してきた、これがいちばんの財産かもしれません。少なくとも、私の仕事環境で今いちばんなくなって困るデータは、まちがいなくこのカスタム変換辞書です(ちなみに、オンサイトのジョブに出かけるときは、辞書データを USB メモリーに入れて持参し、作業用 PC に読み込むことを許可してもらっています)。

ほかの分野はともかく、IT 翻訳で単語登録が有効なのは、ご存じのようにカタカナ用語の比率が高いからです。IT 分野で頻出する主なカタカナ用語が、たとえば元の文字数の 1/2 くらいの長さの読みで単語登録してあれば、それだけで入力作業は大幅に楽になります。楽になるだけでなく、カタカナ語の入力ミス防止にもなります。


ただし、あらかじめお断りしておかねばならない前提条件が 2 つあります。

・IME は ATOK です(単語登録については MS-IME でも大差ありませんが)。
かな入力です(この点は大きな問題かもしれません)。


原則その1: 読みはあまり短くしない
原則その2: 有意な長さにする
原則その3: 読みと単語は一対一対応(後述の例外を除く)

単語登録というと、「あ」と入力して「プリケーション」に変換、みたいな発想になりがちですが、そういう極端に短い読みは付けません。また、「あ」から「プリケーション」にも「ップロード」にも変換されるという一対多対応にもしません。ある程度の長さ、具体的には単語の差異が生じるまでの長さで読みを付け、一対一対応させます。たとえば、こんな感じです(私の実際の辞書より)。

「あふら」→「アプライアンス」
「あふり」→「アプリケーション」
「あふろ」→「アップロード」


原則その4: 読みの付け方に自分のルールを決める

単語登録しても自分で読みを忘れてしまう、という話をよく聞きます。自分なりに読みのルールを決めておくと、おおよその見当で読みを思い出せるようになります。これには、入力方式とか自分の入力のクセとかも影響します。

私の場合はかな入力なので、キーボードで打ちにくいキー入力をできるだけ減らせるように、

・拗音(ゃゅょ)や促音(っ)を省く
・長音を省く
・濁音、半濁音を省く

という点がポイントになります。そうすれば、読みのルールも自ずと決まってきます。

「ゆさ」→「ユーザー」
「さは」→「サーバー」
「ひうし」→「表示」

などは、いずれも上記の原則で省入力を考えた結果です。ローマ字入力の場合には、ローマ字入力に応じた省入力というのがあると思います。私には判りませんけど。


原則その5: 頻出するフレーズもどんどん登録

IT 翻訳には定型表現も少なくないので、その手のフレーズもけっこう登録してあります。ドキュメントの種類によっては、これがかなり効率化に貢献しています。

「をさ」→「を参照してください」
「えらは」→「エラーが発生しました」


原則その6: 仕様への対応

IT 翻訳では、クライアント指定のスタイル(仕様)によって表記がばらばらなので、ある程度は単語登録でも対応します。

「ゆさ」→「ユーザー」、「ユーザ」どちらも登録(一対一にしない例外)
「いんた」→「インタフェース」
「いんたーふ」→「インターフェース」
「いんたふえ」→「インターフェイス」

このとき、ATOK のコメント機能が便利です。単語登録の内容に応じてコメントを追加しておけば変換候補ウィンドウで表示されるので、そこにクライアント名を書いておけば、「インターフェイス」≪マイクロソフト≫のように表示してくれます。


そのほかにも、熟語の場合は構成する漢字の頭をとる(「かよせ」→「可用性」)とか、「じょうたい」と入力して「状態」と「常体」を選ぶのが煩わしいので、あえて「つねたい」→「常体」のような自分勝手な読みを付けてしまうとか、丸括弧やカギカッコのような記号にも読みを付けてしまうとか、いくつか小ワザがあります。

いずれにしても、自分のためのカスタマイズですから、「自分にとっての省入力」にいちばん効果的な方法を考えるということがコツといえばコツでしょうか。あとは、面倒くさがらずに登録すること? 同じ単語を、たとえば 3 回以上入力するようならもう登録しちゃいます。

以上、ご参考になれば幸いです。

09:16 午後 関連ツール | | コメント (4) | トラックバック (1)

はてなブックマークに追加

2010.01.21

膨大な数のファイルを扱うときの Tips

★★★
IT、特にローカライズ分野では、取り扱う HTML ファイルや XML ファイルの数が千の単位にのぼることも、さほど珍しくありません。

ファイル数がそこまで膨大になると、エディタで開いたりブラウザで表示したりするために目的のファイルをフォルダの中から探し出すだけでもひと苦労です。

ローカライズ系の方や PC 使用歴の長い人には常識の範囲かもしれませんが、そんなファイル探索の苦労を避けるための Tips をいくつかご紹介します。

以下いくつかの Tips がありますが、まずは対象となる全ファイルのリストを作成することにします。IT 翻訳などでは、クライアントやベンダーから事前にファイルリストが支給されることもありますが。

ファイルリストの作成

ディレクトリやファイルのリストを作成するためのツールもいくつか公開されていますし、私は FileVisor という歴史の長いファイラの機能を使っていますが、どの環境でもすぐ使えるのがコマンドプロンプトを使う方法です。

コマンドプロンプトの使い方とか、カレントディレクトリへの移動とか、任意の場所を一発でカレントとして開く方法とかは割愛します。ご希望があればメールをくだされば説明します。

目的のディレクトリ階層でコマンドプロンプトのウィンドウを開き、次のコマンドを入力すると、全ファイル(サブディレクトリを含む)のリストが、list.txt という新規ファイルとして作成されます。。

dir /s/b > list.txt

ファイルの種類を限定したいときは、拡張子などで指定できます。

dir /s/b *.html > list.txt

リスト中のファイル名はフルパス(C:\Foo\FooWork\foo20100120.html、とか )で表記されています。


ブラウザのURLフィールドに入力

たとえば翻訳中のファイルが foo20100120.html というファイル名であれば、そのファイル名を上記のリスト中で検索します。

そのフルパス(C:\...)をコピーし、ブラウザの URL ウィンドウに貼り付ければ、内容がそのブラウザで即表示されます。

Windows の場合にはエクスプローラの[アドレス]フィールドや、[ファイル名を指定して実行]の[名前]フィールドに貼り付けても OK です。デフォルトのブラウザで表示されます。


アプリケーションのリンク機能を使う

アプリケーションによっては、ファイル名をダブルクリックするだけでブラウザにジャンプすることが可能です。Word や Excel でもできますが、ここでは定番の秀丸エディタを使います。

まず、秀丸エディタの[その他]→[ファイルタイプ別の設定]→[デザイン]→[表示]を開いて、[ファイル名と思わしき場所のカラー表示]がチェックされていることを確認してください。これが有効であれば、秀丸エディタで開いたテキストファイルで、ファイル名と判定された箇所が色付きで表示されます。

★ただし、パスに空白が含まれていると、この機能はうまく使えません。"Document and Settings" 以下のディレクトリとか避けましょう。それから日本語文字もたぶんダメです。★

先ほど作成したファイルリスト(list.txt)を秀丸エディタで開きます。目的のファイルを見つけたら、そのフルパスをダブルクリックすれば、ブラウザで表示されます。参考までに、目的のフルパスにカーソルを置いた状態で[その他]→[タグジャンプ]を選択すれば、そのファイルを秀丸エディタ上で開くこともできます。

この手の機能、別に秀丸に限ったことではなく、最近ならたいていのテキストエディタに実装されていると思います。翻訳作業で 手抜き 効率化を図りたいなら、テキストエディタとはぜひ仲良しになりましょう。

04:05 午後 関連ツール | | コメント (0) | トラックバック (1)

はてなブックマークに追加

2009.11.20

omiso.dot の Tips

★★★
翻訳フォーラムの勉強会その他で何度か紹介している、Trados 翻訳後のチェック用ツール(Word マクロのテンプレート)、omiso.dot について、ちょっとした Tips です。

※開発者のサイトがなくなってしまい、連絡先もわかりません。もし、開発なさった方がこちらや翻訳フォーラムをご覧になることがあったら、ぜひご連絡いただければと思っています。

テキスト保存したファイルでも使える

omiso.dot の機能は通常、Trados 翻訳が終わった後のバイリンガル状態で実行します(下図)。

Trabilinseg

このとき、Trados 固有のマーキングである、

- セグメント開始を表す {0>
- 原文と訳文の区切り <}100{>
- セグメント終了を表す <0}

のフォントには「下付き」と「隠し文字」の属性が付いています。原文も「隠し文字」です。

さて、omiso.dot はこの状態でないと使えないかというと、そんなことはなくて、このバイリンガルのままテキスト保存したファイルに対しても実行できます。

Tratextseg

これが、いちどテキスト形式で保存したファイルを Word 上で開いたところです。{0> - <}100{> - <0} のマーキングも、原文も訳文もプレーンなテキストになっています。こうなった状態でも omiso.dot はまったく問題なく機能します。


では、これが何の役に立つかというと ---

数字チェックの不完全さを回避できる

「英日比較」の中に、「訳文に原文と同じ数字があるかチェックする」という機能があります。産業翻訳において数字の誤訳は致命的ですから、この機能はけっこうありがたいのですが、実はこの機能にはちょっとしたネックがあります。

- 原文が数字ではなく綴りの場合、訳文が数字だと不一致と見なされる
  (seven - 7、等)
- 文の最後に数字があると、ピリオドが小数点と判断されて不一致と見なされる
  (2000. - 2000年、等)

数字の出現が少なければ、ログを確認するときこういった "擬陽性" を無視するだけで済みますが、数字がたくさん出てくるときには、擬陽性が多すぎて本来の用を足しません。こういうときは、バイリンガルファイルをいちどテキスト形式で保存し、そのテキスト上で

- 綴りの数字をすべてアラビア数字に置換する
- ピリオドをすべて削除する

という処理をしてから omiso.dot でチェックするわけです(納品用の Word ファイルではないので、どんな置換処理をしても問題なし)。


Trados 翻訳以外でも omiso.dot を利用できる

Trados 翻訳したわけではなく、原文と訳文が別ファイルとして存在する場合でも、omiso.dot を利用する方法があります(ただし原文と訳文は原則として 1 対 1 対応している必要があります)。Excel を使います。

1. 原文と訳文をそれぞれテキストファイルとして用意します。
2. A 列に原文を貼り付けます。
3. B 列に訳文を貼り付けます。
4. C 列に以下の関数を入力します。
  =CONCATENATE("{0>",A1,"<}100{>",B1,"<0}")
5. C 列を全選択してテキストファイルに貼り付けます。

こうすれば、見かけ上 Trados 翻訳したのと同じ形のファイルが出来上がるので、omiso.dot を使えます。

かなりまどろっこしいプロセスのように見えますが、慣れればそうでもありません。

11:53 午後 関連ツール | | コメント (3) | トラックバック (1)

はてなブックマークに追加

2009.10.31

「読み」入力の省力化(たぶん、ローカライズ限定ネタ)

★★★
いわゆる IT 翻訳のなかでも、おそらくローカライズ分野に限定されると思うのですが、索引とか用語集の見出しを翻訳するとき、その「読み」を入力しなければならない場合があります。原典はアルファベット順ですが、日本語版では五十音順にソートする必要があるからです。

FrameMaker ベースの場合、読みは タグで指定されているので、次のようにその内容をカタカナやひらがなで入力します。

トリガーの作成
トリガーのさくせい

ところが、この「読み」を手作業で入力するのはけっこう面倒。入力モードを切り替えるのも面倒ですが、たとえば「サクセイ」とカタカナ変換すると、その後で変換候補の最初がカタカナになってしまうからです。こういう作業は、やはりツールの力を借りて省力化したいところです。

ほかにも方法はあるかもしれませんが、今回は Excel の PHONETIC 関数を使う方法をご紹介します(こんな話がどれだけの人に役立つか判りませんけど)。

たとえば、こんな風にします。

1. A 列に索引項目を入力します。上の例では「トリガーの作成」。
2. B 列に関数を設定します。=PHONETIC(A1)

これで、B 列に「トリガーノサクセイ」と表示されるので、セルごとコピーして(セル内コピーではダメ)目的のファイルに貼り付けます。ここんところの作業は原始的ですが、対象ファイルがテキストベースなら、もうちょっと発展的な使い方は考えられそうです。

この手順だけだと読みはカタカナです。ひらがなにしたいときは、次の設定を追加します。

3. A 列全体を選択した状態で[書式]→[ふりがな]→[設定]を選択し、[ひらがな]のラジオボタンを選択します。

中黒とかカギカッコなど特定の文字を読みから除外したいときは、B 列の PHONETIC 関数に SUBSTITUTE 関数をかぶせます。指定できる文字は 1 つだけなので、いくつかの文字を削除する場合は SUBSTITUTE を複数ネストします(もっとスマートな方法がありそうですけど)

=SUBSTITUTE(PHONETIC(A1), "<削除したい文字>", "")

何らかのマーキングを前 and/or 後に追加するときは、さらに CONCATENATE 関数で文字列を連結します。

=CONCATENATE("★",SUBSTITUTE(PHONETIC(A1),"<削除したい文字>",""),"★")

【入力するときの注意事項】
★IME に単語登録している語を入力するときはちょっと注意が必要です。アルファベットやカタカナ、ひらがなは読みが正しく反映されますが、漢字は入力どおりに反映されます。たとえば「あふり」=「アプリケーション」と登録している場合、「あふり」と入力しても読みはちゃんと「アプリケーション」になります。しかし、「こかよ」=「高可用性」と登録している場合に、いつもどおり「こかよ」と入力すると、読みも「コカヨ」となります。

★他のファイルから Excel にコピーするときも注意してください。たとえば Word 上で入力した「トリガーの作成」を Excel の A 列にコピーすると、「トリガーの」までは正しく「トリガーノ」という読みが表示されますが、「作成」は「作成」のままになってしまいます。

以上、ローカライズ限定としか思えない Tips でしたが、PHONETICSUBSTITUTECONCATENATE の関数は、もしかしたら何かの役に立つことがあるかもしれないと考え、エントリにしてみました。

07:42 午後 関連ツール | | コメント (2) | トラックバック (0)

はてなブックマークに追加