2012.10.13

pptxのもっと困ったこと

★★★
前エントリで書いた作業上の不便もさることながら、pptxをttxで翻訳すると実質的にもっと困ることがあります。

それは、翻訳したttxファイルを訳文生成しても、

まともにpptxに戻ったためしがない

ということです(少なくも私のところでは皆無です)。

生成処理の最後に、こんなエラーが発生します。

The target document cannot be created because the tag structure in the TagEditor document is invalid.

ためしに、支給されたttxではなく、オリジナルのpptxファイルからttxを作ってみました。

※pptxファイルをTagEditorで開き、1回でも保存操作を実行すれば、ttxファイルが生成されます。

案の定、このttxはちゃんとpptxに戻りました。つまり、「ttxを作った環境が違うと、pptxに戻らない」ということのようです。Tradosなら、十分その可能性はあります。


支給されたttxと、自前で作成したttxを比較してみました。

1210139

これはAraxis Mergeという差分比較ツールを使って両方のファイルを開いたところです。左ペインが支給ファイル、右ペインが自前で生成したファイルです。ハイライトされているのが差分箇所です。タグの入り方がかなり違うことがわかります。


環境が違うと、同じpptxから作っても出来上がるttxの中身は同じにならないんですね。上のメッセージ(タグ構造が無効)からしても、どうやら原因はここにあるようです。

そんなわけで、前エントリと併せて考えると、pptx由来のttxファイルをTrados 2007で翻訳しろと言われた翻訳者は、

・無意味なタグの山に苦しめられたうえで、

・出来上がりのすらいども確認できない

という、ほとんど両手両足を縛られた状態で作業しなければならないわけです。


発注する翻訳会社の方、ここんとこ、わかってらっしゃいますか?

04:35 午前 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

pptxファイルをWord/TagEditorで処理するのは愚の骨頂


世の中の趨勢か、最近は原典ファイルがdoc、ppt(Office 2003までのファイル形式)ではなく、docx、pptx(Office 2007以降)で支給されることもだいぶ増えてきました。


このpptxファイルには、どうにも困らされます。単なる上書き翻訳で依頼されたのであれば、以前書いたようにSimplyTermsを使っていったん内容を抽出してからTrados処理すればいいのですが、最初からttxに変換された作業ファイルを渡されると、それを使うしかありません。

(SimplyTermsは、最近のバージョンでdocxやpptxにも対応するようになりました、念のため)


ところが、このファイルをTagEditorで開くと、あるいは私のように---もしかしたら私だけかもしれませんが---いったんWordに置き換えてから開くと、本文の随所がとんでもないことになります。


以下、なんの役にも立ちませんが、その話を書いてみました。

まず、PowerPointスライド上の状態を見てください。

1210131

なんでもないただのテキストボックス内の文字列です。この中で赤線を引いた "Set up for copy process" という1文を覚えておいてください。


このファイルをSimplyTermsでテキスト変換すると、こうなります。

1210136

670行目に、テキストボックスを示すタグがあり、672行目に問題の1文が見えています。


では、このファイルをTagEditorで開くとどうなるでしょうか。

1210134

なんだか、文中がタグだらけになっています。<cf>タグですから、フォント書式があちこちに出現したことになります。この画面はフォントが簡略表示モードなので、詳細表示モードに切り替えてみます。

1210135






萎えます

この状態で翻訳をしろと強制されたら、絶対断りますよね。そのための簡易表示モードなのですが、フォントがどう変わったかわからなくては困るので、簡易表示だけでは用が足りません。


これを、私流にWord上で開いているのが次の図です。

1210133

こんな状態ではとても翻訳できないので、以前書いたように(doc/docx ファイルを TagEidor で開くということ)、私はタグを一括削除してから翻訳にかかります。


それにしても、スライド上ではフォントが途中から変わっているようにはとても見えなかったのですが、いったい何が起きているのでしょうか。

以前のPowerPoint形式(ppt)ではここまでひどくなかったので、たぶんこれもpptxになったことが原因のようです。pptxの中身をみてみましょう。

※pptxは、拡張子を .zipに変えて解凍すれば、構成しているXMLファイルを見ることができます。docxも同様です。

12101310

いったいどんな仕様にするとこんなことになるのか、そこは皆目見当もつきませんが、問題の1文がタグによってバラバラになっているのがわかります。

元がこんなだから、ttx(これもXML形式です)に展開すると、上に見たようなグチャグチャな状態になるわけですね。

TagEditorというツールは、前にも書いたように最初っからとんでもなく出来の悪いソフトウェアでした。バージョンを重ねて少しずつマシになりましたが、PowerPointとかExcelにも対応しようとして、いろいろと無理を重ねてきたような気がします。

そこで、ものは試し、同じpptxをStudioアーキテクチャで開いてみました。使ったのは、最新版のStudio 2011 SP2です。

1210132

あらまあ、なんとスッキリ。


ってことは、やはりdocxとかpptx、つまりOffice 207以降のファイル形式は、SDLさんが推奨しているようにStudioで開いたほうがいいということなんでしょうね。

はからずも、Studioアーキテクチャの長所をひとつ発見する結果になりました。かと言って、横並びインターフェースで私が仕事をする気になるかどうかというと、それはまた別問題なわけですが......

04:11 午前 Trados 雑記 | | コメント (4) | トラックバック (0)

はてなブックマークに追加

2012.02.15

doc/docx ファイルを TagEidor で開くということ


かつては、Microsoft Word が Trados 環境の標準インターフェースでしたが、ある時期から(TagEditor が使い物になるようになってから) Word ファイルでも TagEditor が標準あるいは推奨のインターフェースということになりました。

以前から Trados 翻訳の社内フローが確立している翻訳会社であれば、今でも

- オリジナルが Word ファイルの場合は Word を使う(doc、rtf)
- HTML や XML の場合は TagEditor を使う(ttx)

というところも多いのですが、会社によっては、Word ファイルでも TagEditor を使うようにということで ttx を支給してくるところがあります。

でも、ですねー。こんなファイル、作業する気になります?

1202151_2

Word ファイルを ttx として開くと、内部的に指定されているフォント情報がこんな風にすべてタグになって表に出てくるわけですね。で、このタグの作りというのが実に

くっだらねー

わけです。ファイルの別のところでスタイルとしてまとめて指定すりゃいいものを、書式が変わるたびに同じタグを何度も何度も繰り返していて、その頭の悪さにめまいがします。

こういうときは、TagEditor 上でタグ表示の切り替え機能を使うと、だいぶ見やすくなります。

120215te1
これがフル表示。

120215te2
これが簡易表示。

1202152

でも、これだとどれがイタリック指定でどれがボールド指定かわかりませんからね。タグを正確に扱うには不向きです。

こんな環境で翻訳するって、SDL さんは本気で推奨してるんですかね。これでやれって強制されたら、さすがの私でも光速で断りますよ。

もっとも、最近の SDL さんの推奨はこれではなく Studio ですけどね。

ちなみに、私が最近いつもやっているように、ttx の中身をそのまま Word にコピーしても、やはりこんな風になります。

1202153

でも、私の Word 環境には

選択範囲のタグを一括削除する

というマクロが用意してあるので、鬱陶しいタグを瞬殺して

1202154

こうやってから心置きなく編集し、改めてタグを追加します。

でも、こんな苦労をしなきゃいけないのは、わざわざ ttx 形式でファイルが支給されたからで、Word ファイルを最初から Word として開けば、こんな苦労はしなくて済むわけですよね。

1202155

こうやって、Word 上の書式としてふつうに再現されるのを訳文でも反映すればいい。

※ただしこの場合、セグメントを閉じるとフォント情報が維持されないとか、そういうトラブルもあったりしますが。

それからもうひとつ、Word 上のフォント書式をタグとして扱うと、

1202156

こんな風に、日本語で指定されているフォント情報が Trados の TM 内では文字化けしてしまい、マッチ率に微妙に影響するという素敵なおまけもあります。

03:44 午後 Trados 雑記 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2011.09.10

MultiTerm アーキテクチャの考察 --- なんだろね、この無意味なデータサイズは


side A にちらっと書いたように、久しぶりに MultiTerm で用語ベースを作成したら、出力されるログの構成があまりにバカバカしかったわけですが、その後もあまりに阿呆なデータを目撃することになったので、ちょっと記事にしておきます。

実用面で言うと、

サイズの大きい MultiTerm 用データを支給されたとき、それを少しでも軽量化して、たとえばタブ区切りテキストにする

というお話でもあります。

支給されたのは、 約 30 MBの xml ファイル

念のために説明しておくと、MultiTerm で新規の用語ベースを作成してこのxmlファイルをインポートすると、MultiTerm 形式の用語ベースファイル(*.sdltb)が生成されます。

まず、この xml を秀丸エディタで開けません。原因は、xml がすべて 1 行で書かれているためです。XML って悪くない技術だとは思うんですが、テキストベースのまま扱うには向かないことも多いですよね。分割して無理矢理開いてみたら、エントリの XML 構造はこんな風になっていました。

110909_mt2_2

原文では 1 つの論理行ですが、わかりやすいように 1 つのエントリだけ、改行してインデントしてみたところです。

このように、「英語-日本語-コメント-カテゴリ」というたった 4 種類の内容を記録するために、1 つのエントリにこれだけたくさんのタグが必要です。この構造化タグがあるからこそ、テキストベースのデータをいろいろなアプリケーションで使えるというのが XML のメリットではあるのですが、50,000 近いエントリのすべてでこのようなタグ構造が繰り返されているというのは、なんだかマヌケなようにも感じられます。

しかたがないので、このデータから MultiTerm の用語ベースを作成します。できあがる *.sdltb は、サイズが 190 MBにもふくらみます。

次に、MultiTerm からタブ区切りのテキストをエクスポートしてみました。エクスポート定義は、デフォルトのタブ区切り仕様です。エクスポートしたタブ区切りテキストファイルは......それでもまだ 18 MB もありました。いったいどんなファイル? わかりやすいように Excel に貼ってみました。

110909_mt3

なんでしょうね、これは。水色を付けたのが本当に必要なデータ部分です(このほか、コメントとカテゴリの 2 列)が、それ以外に、ユーザー名とタイムスタンプと思われる列が意味もなくたくさん並んでいます。デフォルトの定義を使っただけですが、いったい何がどうなってるんでしょうか。

もちろん、この中から必要な列(4 つ)だけを取り出してタブ区切りで保存します。すると、最終的に出来上がったデータは、たったの 2MB になりました。

たったこれだけの情報を見るために総計 200MB を超えるファイルが必要というのは、なんというかスマートじゃありせんよね。

SDL さんの名誉のために一応付け加えておきたいと思います。MultiTerm 上の用語集は、あいまい検索などにも対応していますし、Workbench と連動していて、作業ファイルにも簡単に挿入できるなど、ちゃんとメリットはあります。特に、Studio 環境では今までより使いやすくなっています。

ファイルサイズが肥大化するというのも、昨今の HD 容量なら無問題なのかもしれません。

06:10 午前 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.05.18

いつの間にかブログができていた件


ニュースメールなどでもまったく告知はなかったように思うのですが、いつの間にか SDL ジャパンのブログが公開されていました。

リンク: SDL ランゲージ・テクノロジー部ブログ - SDL Japan

「Tips 担当のカツ」さんがときどき登場しますが、これは Y 氏かな……などとおもっと見ていたら、左カラムのいちばん下に Author 一覧がありました。ダブル山田さんと、佐藤弦が執筆なさってるんですね。それにしてもいつの間に……

"SDL ブログ" でググると、↓ こんなのがヒットして、SDL 佐藤弦さんの挨拶が見つかるのですが、実際のページに行っても該当の記事はすでに見当たりません。

110518_sdlblog1

遡ってみると、今年の 2 月から不定期にエントリがアップされていたようです。

リンク: SDL blog posts from February 2011

せっかくこんな風にユーザー向けの情報提供を始めんだったら、なんでそれをもっと告知しないんでしょうか。もったいないじゃないですか。

さっそくフィードを登録しようと思いましたが、Firefox の RSS 登録ボタンは反応していません。

110518_sdlblog2

ブログページに並んでいるこのボタンを使う必要があるみたいですね。

110518_sdlblog3

んじゃ、さっそくいちばん下の RSS ボタンをポチっと ---

110518_sdlblog4

--- あららら。英語のコンテンツしか配信してない?

なんでこんなに半端なことしてるんですかー。山田さん、山田さん、佐藤さんw

急いで日本語の RSS を配信してくださーい。

【5分後に追記】
ダメ元で、末尾に rss.xml を入れてみたら、あっさり RSS とれました。

ブログのRSS: SDL Japan


09:10 午後 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2011.03.20

迷惑なマーカータグ

★★★
今のように落ち着かない状況で書くほど緊急性のある話でもないのですが、しばらく前から続いている案件で、あまりに鬱陶しいタグの処理を見かけるので、書きとめておきます。

以前、索引マーカータグ <:imk xx> が笑えるほどたくさん並んでいる例を紹介しました(索引マーカー盛りだくさん)が、似たようなタグとして、<:hmk xx> というのもあります(Word + Workbench の環境ではたいてい、内部タグ)。これはハイパーリンクのためのマーカータグで、これが付いている箇所をクリックすると、指定されたリンク先にジャンプします。

そのハイパーリンクマーカータグをこんな風に処理してある既訳が次々と出現するので、ちょっと辟易しています。

110320_hmk1

過去にここを担当した人は、原文が同じような形になっているということで、忠実にこういう処理をしたんだろうと想像されます。

110320_hmk2

原典 PDF に当たってみると、category という単語全体にハイパーリンクがかかっている(<:cs "Links" 2>~</cs> で囲まれている)ので、<:hmk 667> というマーカー自体はその中のどこにあってもよく、単語の途中にある必要などまったくないのですが、おそらく FrameMaker データ上ではこのように単語に割り込む形でマーカー情報が入っていて、それがそのまま rtf に落ちてくるのだと思います。

したがって、これを翻訳するときには、原典で category の途中にタグがあるからといって、律儀にそれに合わせて

カテ<:hmk 667>ゴリ

などと処理する必要はまったくなく、ちゃんと「カテゴリ」と読めるように、

110320_hmk3

とやっても、最終的な PDF 上の機能としてまったく問題はないはずなのです。

ローカリゼーションというものが単なる翻訳ではない、というのは、たとえばこういうことです。翻訳というより、何かもっと別の特殊技能というところでしょうか。

ちなみに、このタグの位置が少しずれただけでも、Trados 上ではマッチ率に影響します。原典ファイルを作成するメーカーさんは、その辺もう少し考えたほうがいいと思いますよ。まったく意味のない翻訳料金が発生しますから。

11:49 午後 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.05.04

索引マーカーもっと盛りだくさん


前回よりもっと笑えるのがありました。

Traimk2


02:47 午後 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2010.04.14

索引マーカー盛りだくさん


Trados の話ではありますが、ほとんどお笑いネタ。

Traimk

FrameMaker ドキュメントを rtf ファイルに変換すると、索引からジャンプする箇所に <:imk xx> というタグが入りますが、1 か所にここまで 集中しているのは、さすがにめずらしい。

07:57 午後 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2009.09.30

Trados 専用ブログ開設

side A のトップにも告知を載せましたが、そんなわけで、こちらが Trados 専用ブログです。

インデックスなど、もう少し工夫したいと思いますが、よろしくお願いいたします。

10:58 午前 Trados 雑記 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2009.09.16

ツッコミどころ満載、と笑ってばかりもいられない

(オリジナル投稿 2008/12/27)☆

SDL TRADOS からのお知らせメール、あいもかわらず愉快です。

新しい SDL Trados 2007 Suite の年末特別セール!
最近行われた調査によると、翻訳するテキストの 27% は繰り返し出てくるフレーズで構成されています。
翻訳メモリ を使用しないと、1 年で 120,000 語* も余計に翻訳することになります。 SDL Trados ROI 計算ツール をお試しください。翻訳メモリがどれだけ便利なものか実感していただけます。

SDL Trados 2007 Suite、この業界をリードする翻訳メモリ ツールの最新バージョンには、自動翻訳機能** といった新しい機能が追加され、これまでにないスピードでの翻訳を可能にします。

なんの根拠も出典も示さずに、いきなり 27% という数字を出してくる辺りは、実に大胆不敵な手法と思わせます。

その一方、「1 年で 120,000 語も余計に翻訳」というのは、脚注によれば「1日 2,000 語を年間 240 日翻訳する場合」なんだそうですが、
 2,000 x 240 x 0.27 = 129,600
ですから、普通なら「130,000 語」と書くところ。こちらは一転して控えめになります。

なんのことはない。ただ数字の扱い方を知らないだけのようです。

言語ツールを売っている会社とは思えないお粗末な日本語も、もちろんお約束どおり。

"IT 翻訳" の現状と実情が、こんなところにも如実に表れている......のだとは思いたくないんですけどね。

10:08 午前 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

TagEditor が落ちるとき

(オリジナル投稿 2008/10/4)★★

これもただのメモですが......

TagEditor は、Ctrl-Z(つまり操作の Undo)を使うと落ちることがあります。たぶん Windows API との間でコマンドの受け渡しがうまくいっていないからではないかと想像するのですが、常にではありません。

TagEditor を使っているということは同時に Workbench も起動していて、たいていは落ちる前までの訳文がメモリに登録されているので、リカバリが手間ではないところがせめてもの救い。ただし、TagEditor が落ちるときはその少し前から Workbench の動作もおかしくなっている可能性があり、いくつかの文はメモリに登録されていない場合もあるので注意が必要です。

それにしても、Google 検索で自分のブログくらいしかヒットしないときは、ちょっと悲しい。この現象も、ほかに報告例はないみたいです。同じ現象に遭遇したことのある方がもしいらっしゃれば、ぜひご一報ください。

10:02 午前 Trados 雑記 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

ローカライズ業界の話

(オリジナル投稿 2008/7/1)☆

翻訳メモリ(以下、"TM")に関する Buckeye さんのご指摘は、TM をある程度以上使っている人なら深く肯けるものだと思います。

リンク: Buckeye the Translator: 文脈に合わせて訳文を組みたてる

余談ながら、全体の流れを切り捨てることで訳文リサイクルによるコスト効率アップを実現するのが翻訳メモリという考え方だ、と私は考えている。
さらに余談ながら、だから私は翻訳メモリを使いたくないし、力をつけたいなら使わないほうがいいとアドバイスをしている。

この流れで言えば、TM の活用頻度がもっとも高いと思われるローカライズ業界における「翻訳」などは「翻訳」のうちに入らないんだろうなと私も考えます。実際、ローカライズの現場で見られる日常的な作業のかなりの部分は「翻訳」と直接関係のないファイル操作です。

だから、「翻訳(者|家) になりたい」という志望と、ローカライズ業界というのは実はかなり縁が遠いとも言えます。

幸い私の場合は、純粋な翻訳だけでない諸々の作業も性に合っていたので、ローカライズというのは結果的に良い選択だったと思っています。

ローカライズ分野で典型的な、「○○を選択して、△△をクリックします」みたいな定型ばっかりだったら、おそらくかなりの部分を機械翻訳でカバーできるでしょう(実際にその方向を試みているクライアントも多い)。

ところが、たいていのマニュアルはそんな定型句ばかりでなく機能や概念の説明もあるし、さらにはローカライズの枠を越えて IT 系全般ということになれば、Web ページやホワイトペーパー、マーケティング用マテリアルと範囲が広がってきて、そのような素材を同じ翻訳者が訳すと、たちまちボロが出てしまうというケースも実は少なくありません。application が文脈をどんなときにも「アプリケーション」と訳されていたりするのはそんなときです。

この項、続きます。

09:11 午前 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

Workbench が落ちるとき

(オリジナル投稿 2008/6/30)★

ただのメモです。

Trados Workbench と TagEditor(または MS Word)を開いて作業しているとき、タスク切り替えを誤って Workbench のウィンドウがアクティブなときに入力操作をしてしまうと、Workbench が落ちることがある。

※Workbench のバージョンは、7.5.0.756(Build 756)

こんな風に Workbench が落ちたときは、以下の点に注意(他の状況で Workbench が落ちた場合でも、あるいは)。

- 落ちた瞬間よりしばらく前のセグメントから訳文が登録されていないことがある。
 (遡って確認するのが吉)

- にもかかわらず、訳文を登録しようとすると
 "Key already exists in <パス>" というエラーメッセージが表示され、登録できないことがある。

- このエラーが出たときは、メモリーの「最適化」を実行すると直る場合が多い。
 (つまり、落ちた時点でメモリの DB が一部破損しているらしい)

★★ある翻訳メモリーを開いてから一度も Workbench を正常終了したことがない状況で Workbench が落ちた場合は、次に起動すると 1 つ前に開いていたメモリが開かれるので注意(これは Workbench に限らずアプリケーションエラーではよくある話)★★

09:10 午前 Trados 雑記 | | コメント (0) | トラックバック (0)

はてなブックマークに追加