« # どこのゴルゴ13...... | トップページ | # TRADOS - TagEditor が落ちるとき »

2008.10.03

# TRADOS - 解析 - Word と比較して

今回もまた、Buckeye さんのエントリに便乗。

リンク: Buckeye the Translator: ワード数のカウント

Buckeye さんは Word のワードカウント機能を調べていらっしゃるので、私としてはやはり Trados における同機能(「解析」)について報告しておねばならないでしょう :)

・Electrical/Electronic architecture → 2ワード(3ワードにならない)
・partnering (who/when/how) to design → 4ワード(6ワードにならない)
・The XXX includes a battery-backed time-of-day module → 7ワード(10ワードにならない)
・With microcomputer-controlled kilowatt-hour meters → 4ワード(6ワードにならない)
・a you-can't-get-fired-for-saying-no attitude might prevail → 5ワード(11ワードにならない)

要するに Word 上では、単語とは「スペースで区切られた文字の連続」としか判定されていないということです。

ついでに言うと、カンマやピリオド、疑問符のような punctuation でさえ単語の区切りとして認識されません。

 This is a sentence, is it?

という文は 6 ワードとカウントされますが、これはカンマの後に "たまたま" スペースが空いているからそこで区切られたにすぎません。したがって、

 This is a sentence,is it?

のようにカンマの後にスペースがなければ、このセンテンスは 5 ワードとカウントされます(カンマやピリオドの後にスペースが落ちている原文って、けっこうよく遭遇しますよね)。

さて、上記の 5 つのセンテンスを Trados の「解析」にかけてみたところ、すべてカッコ内のようにカウントされました。つまり、ハイフンやスラッシュも単語の区切りとして機能しています。

さらに確認しましたが、脚注やテキストボックス内の文字も正しくカウントされました。

まあ、Word のおまけ機能と違って、Trados の場合は正確な解析もウリのひとつなわけですから、このくらいはできてもらわないと困るわけですけどね。

【10/5 追記】
アンダースコアで結ばれた単語(INDEX_TABLE のような形)のカウントは、さすがに 1 ワードでした。

--------------------
ところで、翻訳作業量の算定方法としては、

- 原文のワード単価
- 訳文の原稿用紙(400字)単価

の 2 つがあるのですが、私はもっぱら前者でしか仕事をしていないので、自分のスループットを原稿用紙に換算するのが苦手です。聞いたことのある範囲でも、換算式としては

120ワード = 400 字
148ワード = 400 字

などなどけっこうな幅があるようです。

11:44 午後 翻訳・英語・ことば TRADOS |

はてなブックマークに追加

« # どこのゴルゴ13...... | トップページ | # TRADOS - TagEditor が落ちるとき »

トラックバック


この記事へのトラックバック一覧です: # TRADOS - 解析 - Word と比較して:

» ♭いろいろな翻訳単価 トラックバック 禿頭帽子屋の独語妄言 side B
side A でワードカウントのことを書きながら、これまでの翻訳経験の中でもいろ [続きを読む]

受信: 2008/10/04 0:24:32

コメント

カンマの後ろにスペースがないケースというのはチェックしてませんでした。SimplyTermsでのカウントがイマイチ、Wordと完全互換にならないときがあるように感じていたんですが、そのあたりの問題なのかもしれません。

英日翻訳における原文と訳文の換算は……
100ワード = 400 字
から
180ワード = 400 字
くらいまであります。

IT系のようにカタカナ語が多いと少ないワード数で400字になりますし、漢字が多くなるものだとワード数多めになります。言葉づかいが丁寧なもの、柔らかいものは訳文が長め(ワード数少なめ)、論文など、堅いものは短め(ワード数少なめ)になります。あと、翻訳が上手な人のほうが訳文が短くなる傾向があります。単純に短ければいいってものではないので、逆は必ずしも真ならず、ですけど。

投稿: Buckeye | 2008/10/04 4:28:22

ぱらぱらっと見てみたら、SimplyTermsでは、ピリオドなどのパンクチュエーションも区切りとして認識していました。というか、発想が逆で、英数字を構成するべき文字の並びがいくつあるかを正規表現でカウントしているの、そうなるのが当たり前なんですが。

Wordのカウントって、要するに、内部で持ってるWordオブジェクトの数なんでしょうね……って、思ったら違うみたい。"abc/def"だと、"abc"と"def"は別なWordオブジェクトになってるようです。でも、"http://www.abc.com/"は全体でひとつのWordオブジェクト。このあたりは人間の感覚にあってますね。せっかくのWordオブジェクトの数を利用しないなんて、いったいどういうカウントをしてるんでしょう。

ほかにもいくつか試してみましたが、たしかに、Word上において、単語とは「スペースで区切られた文字の連続」ということのようです。"abc(def/ghi:jkl)mno"とスペースを入れないと1ワードでした。本来、こういうところにはスペース、入れなきゃいけないものですが、baldhatterさんが言われるとおり、現実には落ちてることが珍しくないわけで……(--;)

投稿: Buckeye | 2008/10/04 4:54:28

(コメント順が逆になりますが)
> 英数字を構成するべき文字の並びがいくつあるかを正規表現でカウントしている

私もその発想のほうが当然と思うのですが、これはもしかしたら非アルファベット圏の人間だからこそかもしれませんね。彼らにしてみれば、ずっと以前から「単語はスペースで区切って書くもの」という意識があるはずなので Word 的な前提は無理からぬものとも言えます。

それでも、コンピュータが非アルファベット言語に対応しなければならなくなってこれだけの時間が経っているのですから、いいかげんその前提の間違いに気づいてほしいと思いますが。

投稿: baldhatter | 2008/10/04 12:35:05

> IT系のようにカタカナ語が多いと少ないワード数で400字になりますし、漢字が多くなるものだとワード数多めになります。言葉づかいが丁寧なもの、柔らかいものは訳文が長め(ワード数少なめ)、論文など、堅いものは短め(ワード数少なめ)になります。

そうなる理屈ですね。
だからこそ、カタカナ語が多い IT 系翻訳で、主なカタカナ語をほとんど単語登録して省力化しておけば、処理量に相当の差が出るということにもなります(たぶん 2~3 割は違ってくる)。

投稿: baldhatter | 2008/10/04 12:42:02

この記事へのコメントは終了しました。