« 2014年10月 | トップページ | 2015年3月 »

2014.11.16

QA Checker - 「単語リスト」でも正規表現

★★
QA Checker 3.0は、false negativeも多いながら、なかなか便利に使える検証機能です。そのなかでも特に使い途の多いのが、間違った形と正しい形を指定できる「単語リスト」ですが、ヘルプに書いていないと思われる点を見つけました。

1つ前のエントリに、「単語リスト」をヘルプで検索する話を書いたのも、これのためです。


そしてこれは、エラーメッセージに表示される「詳細情報」がめずらしく役に立ったという事例でもあります。


とある案件で、英和翻訳にはめずらしく「和文でも疑問符を使う」という指定がありました。ただし、

疑問符は全角の?

半角の ? はNG

ということなので、じゃあ「単語リスト」を使ってみようと思ったわけです。

1411162_2

このように指定してから、動作確認をしてみたら、こんなエラーメッセージが出ました。

1411163_2

「量指定子」って、正規表現で見かける言葉です。


「単語リスト」で正規表現は使えるの? ってか、使わなきゃいけないの?

ヘルプを調べてみましたが、そんなこと、どこにも書いてありません。

そこで、このエラーダイアログの左下にあるボタン(エラーの詳細の表示)をクリックしてみると、

14111651

こうなって、さらに「+」をクリックして展開すると、

14111652

こんな詳細が表示されました。

ふつう、このエラー詳細情報は何の役にも立たないのですが、今回はStacktraceというツリーの最初のほうに

RegularExpression

という文字列が並んでいて、やはりこれは正規表現に関係するエラーであるらしいとわかりました。


そこで、[単語リスト]に戻って

1411164_2

半角の疑問符をエスケープしてみたら(前に円記号\を付ける)、ちゃんと機能しました。

つまり、半角 ? のように正規表現の式に使う文字を本来の意味で使うためにはエスケープする必要がある。ということは、逆に言うと、ヘルプには何も書かれていませんが

「単語リスト」でも正規表現を使える

ということのようです。


ちなみに、QA Checker 3.0にはずばり[正規表現]という設定項目もありますが、こちらは原文と訳文に出現する文字列の有無を判定するという使い方もできます。

いずれにしても、「単語リスト」のほうでも正規表現を使えるとなると、この2つの設定項目は、名称と機能分担を見直したほうがいいように思います。

07:17 午後 バージョン - Studio 2014 | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2014.11.15

Studio 2014ヘルプのその後


今年5月2日のエントリに対する9月19日時点の追記として

オンラインヘルプの日本語版、いつの間にか、日本語の検索が機能するようになっていました。

と書きましたが、実はいまだに十分には機能していないようです。いまだに、というか、おそらくこのまま変わらないんじゃないかと思います。


ためしに、たとえば「単語リスト」と入力して検索してみてください。

一致する結果は見つかりませんでした。

と言われてしまいます。

今度は、

「単語」だけ、または「リスト」だけ、あるいは「単語 リスト」(スペースを空ける)と入力してみます。

1411161

こうすると、いちおうちゃんと目的の言葉を探すことができます。

同じように、「レポートの生成」---左カラムの目次に見えている項目です---と入れてもダメで、「レポート 生成」と入力すると必要な情報がヒットします。


お気づきかと思いますが、漢字、ひらがな、カタカナという3つの

文字種が混在して連続

していると、機能しないようです。

ということで、十分に機能しないとは言っても実用にはなるレベルなのですが、何とも惜しい。

これ、ローカライゼーションの現場にいた人ならわかると思いますが、要するにヘルプのインデックスの作りが問題なんですね。

ヘルプのインデックス(索引)は、すべて手作業で作られる場合もあります。つまり、ヘルプの内容に応じて、検索されそうな索引項目、たとえば「単語」とか「単語リスト」とか「レポート」とか「レポートの生成」とかを別ファイルとして用意しておく。これなら、指定した言葉がそのまま索引として機能するので、文字種が混在していても大丈夫。

しかし、ご想像のとおり、この作業はかなり大変です。

そこで、インデックスの自動生成機能を持つヘルプ作成ツールというのも出てきました。ヘルプの内容から、キーワードになりそうな単語を適当に抽出してきてインデックスファイルを自動的に生成するわけです。


ところがこの単語抽出というのも、アルファベット圏ならスムーズにいきますが、例によって日本語では一筋縄ではいかない。「単語」という単位を正しく識別するには、助詞や助動詞を切れ目にするために言語解析が必要になって、システムがかなり大がかりになります。

それで、その手間を省いて単語を抽出しようとするとどうなるかというと

単語

リスト

レポート

生成

のように、同じ文字種だけが続く文字列を単語とみなしちゃう。これならかなり簡単。秀丸マクロでだってささっとできちゃうレベルです。

たぶんそのレベルでしか日本語を抽出できないシステムを使っている。「おそらくこのまま変わらないんじゃないか」と書いたのは、そのせいです。


SDLさんは言語を扱う会社なんですから、インデックス生成くらいもう少しちゃんとやってもいいのではないかと思います。それができていないのは、ひょっとすると

日本語がけっこう冷遇されている

からかもしれません。

12:10 午後 バージョン - Studio 2014 | | コメント (0) | トラックバック (0)

はてなブックマークに追加