« 用語認識バッチ、公式にも発表 | トップページ | MultiTerm からのエクスポート »

2011.09.10

MultiTerm アーキテクチャの考察 --- なんだろね、この無意味なデータサイズは


side A にちらっと書いたように、久しぶりに MultiTerm で用語ベースを作成したら、出力されるログの構成があまりにバカバカしかったわけですが、その後もあまりに阿呆なデータを目撃することになったので、ちょっと記事にしておきます。

実用面で言うと、

サイズの大きい MultiTerm 用データを支給されたとき、それを少しでも軽量化して、たとえばタブ区切りテキストにする

というお話でもあります。

支給されたのは、 約 30 MBの xml ファイル

念のために説明しておくと、MultiTerm で新規の用語ベースを作成してこのxmlファイルをインポートすると、MultiTerm 形式の用語ベースファイル(*.sdltb)が生成されます。

まず、この xml を秀丸エディタで開けません。原因は、xml がすべて 1 行で書かれているためです。XML って悪くない技術だとは思うんですが、テキストベースのまま扱うには向かないことも多いですよね。分割して無理矢理開いてみたら、エントリの XML 構造はこんな風になっていました。

110909_mt2_2

原文では 1 つの論理行ですが、わかりやすいように 1 つのエントリだけ、改行してインデントしてみたところです。

このように、「英語-日本語-コメント-カテゴリ」というたった 4 種類の内容を記録するために、1 つのエントリにこれだけたくさんのタグが必要です。この構造化タグがあるからこそ、テキストベースのデータをいろいろなアプリケーションで使えるというのが XML のメリットではあるのですが、50,000 近いエントリのすべてでこのようなタグ構造が繰り返されているというのは、なんだかマヌケなようにも感じられます。

しかたがないので、このデータから MultiTerm の用語ベースを作成します。できあがる *.sdltb は、サイズが 190 MBにもふくらみます。

次に、MultiTerm からタブ区切りのテキストをエクスポートしてみました。エクスポート定義は、デフォルトのタブ区切り仕様です。エクスポートしたタブ区切りテキストファイルは......それでもまだ 18 MB もありました。いったいどんなファイル? わかりやすいように Excel に貼ってみました。

110909_mt3

なんでしょうね、これは。水色を付けたのが本当に必要なデータ部分です(このほか、コメントとカテゴリの 2 列)が、それ以外に、ユーザー名とタイムスタンプと思われる列が意味もなくたくさん並んでいます。デフォルトの定義を使っただけですが、いったい何がどうなってるんでしょうか。

もちろん、この中から必要な列(4 つ)だけを取り出してタブ区切りで保存します。すると、最終的に出来上がったデータは、たったの 2MB になりました。

たったこれだけの情報を見るために総計 200MB を超えるファイルが必要というのは、なんというかスマートじゃありせんよね。

SDL さんの名誉のために一応付け加えておきたいと思います。MultiTerm 上の用語集は、あいまい検索などにも対応していますし、Workbench と連動していて、作業ファイルにも簡単に挿入できるなど、ちゃんとメリットはあります。特に、Studio 環境では今までより使いやすくなっています。

ファイルサイズが肥大化するというのも、昨今の HD 容量なら無問題なのかもしれません。

06:10 午前 Trados 雑記 |

はてなブックマークに追加

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/13481/52690669

この記事へのトラックバック一覧です: MultiTerm アーキテクチャの考察 --- なんだろね、この無意味なデータサイズは:

コメント

コメントを書く

## コメントは承認制なので、公開されるまでに時間のかかることがあります。



(必須ではありません)