2017.03.18

# 東京ほんま会、「ワイルドカードVS正規表現セミナー」

5月くらいまでのイベント予定でもお伝えしましたが、東京ほんま会、久しぶりにセミナーを開催します。

リンク:ワイルドなセイキの対決! ワイルドカードVS正規表現セミナー

日時:4月23日(日) 13:00~17:00(懇親会あり)

場所:株式会社翻訳センター

1703181

以前も書きましたが、案内サイトから抜粋します。

・ときどき使ってはみるが、応用まではできていない
・うろ覚えの正規表現は、Microsoft Wordでは使えなかった
・あやふやなワイルドカードが、エディタやTradosで通用しなかった
・WildLightやSimplyTermsなどのツールで、検出パターンを定義したい


今回、ワイルドカードと正規表現を初歩から扱うことはしませんが、どちらか一方を、少しくらいは使っているという方にはおすすめです。


募集開始から2週間ほど経っているため、お席はすでに4分の3ほど埋まっています。いつものペースですと、あと1か月弱で満席~キャンセル待ちになります。

興味のある方はお急ぎください。

ということで、ワイルドカードと正規表現についてのアンケートも実施しています。

・こんな検索や、あんな置換をしてみたい。

・ふだん秀丸エディタでやっている検索を、Wordのワイルドカードではどうやるのか。

そんな質問を募集しています。

04:24 午後 翻訳・英語・ことば, 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2017.02.14

# こそあど、~という、~こと、~ている - WildLightの活用例

Facebookの投稿で見かけたんだと思いますが、こんな記事を見つけました。

リンク:アフィリエイトの外注記事の品質を上げるための文章チェックマーカー(自作ツール紹介) - Webライターとして生きる


「~というもの」「~というのは」「~ということ」

「など」「たり」

「こと」「もの」「それ」「これ」

こういう言葉は、つい多用してしまうので、自分でブラウザベースのチェックツールを作ってみた、という記事です。


たしかに、ついつい使って「こと」だらけになったり、指示語が続いたりすることはよくあります。


この方のツールを使ってもいいのですが、テリーさんのWildLightでも、定義ファイルを作ればもちろん可能です。

実は、私自身も気になって、しばらく前に定義ファイルを作ってみたところです。

サンプルを示します。
ワイルドカードも何も指定しない、ごくシンプルなリストです。

----------サンプル始まり----------
' HColor:色番号,検索語
' 検索語を検索し、色番号で指定された蛍光ペン色を付けます。
' (検索語のみ指定色になる)
' [色番号]:01:緑, 02:明緑, 03:青緑, 04:濃青, 05:青, 06:水, 07:
' 桃, 08:紫, 09:濃い赤, 10:赤, 11:濃黄, 12:黄, 13:白, 14:25%灰,
' 15:50%灰, 16:黒, 17:蛍光ペンなし

WILDCARD:ON
HColor:02,そう
HColor:02,それ
HColor:02,その
HColor:02,そんな
HColor:06,こう
HColor:06,これ
HColor:06,この
HColor:06,こんな
HColor:07,こと
HColor:07,もの
HColor:12,という
HColor:14,てい
HColor:14,ており
----------サンプル終わり----------

指示語のうち、入れてあるのは「こ」系と「そ」系だけ。「あ」系と「ど」系は自分の翻訳であまり使うことがないため。「こ」系・「そ」系でも「ここ、そこ」「こっち、そっち」を入れていないのも、同じ理由。

上のサンプルをテキストファイルに貼って保存し、WildLightが参照するフォルダに入れてやれば、ほーら、あなたもWildLightユーザーの仲間入り :)

自分のクセと思える言葉を追加していけば、カスタム辞書ができあがります。


ちなみに、ワイルドカードを使えば、「の」の複数連続、みたいな箇所も検索できるようになります。

06:09 午後 翻訳・英語・ことば, 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2017.01.15

# フィッシングメールのサンプル数々

たまには、セキュリティの話もしましょう。

私が、Niftyのメールを2種類使っていることを、ご存じの方はご存じだろうと思います。ひとつは完全に業務用で、名刺には刷ってありますが、オンラインではほぼ公開していません。もうひとつは、このブログのプロフィール欄でも公開しているプライベート用です(「公開しているプライベート用」って、なんか変ですけどw)。

Niftyメールは、サーバー側で迷惑メールの設定ができるのですが、設定に大きく言って2種類あります。

1. 迷惑メールを自動的に識別して迷惑フォルダーに移動
2. キーワードを設定して受信を拒否する

業務用のほうは、大切なメールをまんいち迷惑メールに振り分けられてしまうと困るので 2. のみ設定。プライベート用は、1.と2.を両方設定しています。

昨日、プライベートアドレスのほうの迷惑フォルダーを見てみたら、フィッシングメールが大量に届いていました。最近はやってる「不正アクセスさせたみたいだから、アカウントを確認してね」パターンが多く、そのほか、例のレイバンとか、エッチ系もあるようです。

17011501

せっかくなので、どんなパターンのメールが届くか、紹介してみます。

まずは、マルウェアが添付されているパターン。

17011502

canonを名乗っていますが、天下のキヤノンさんがnifty.comを使うわけがないw

本文はなく、docmという拡張子のファイルが添付されています。[ウイルスチェックをする]を実行すると、

17011503

やはり、「ウイルスが検出されました」と表示されます。


次は、iCloudを騙っているようですが、「i.Cloud」という妙な表記。

17011504

やはり本文はありませんが、タイトルを見ると「アカウントがロックされました。詳細はこちら……」ということで、やはりファイルが添付されています。

17011505

ただし、これは単なるhtmlファイルのようで、「ウイルスは検出されませんでした」と出ます。いきなりウイルスにやられることはありませんが、添付されているページを開くと、そこがフィッシング用のサイトになっていて、うっかり情報を入力りしてしまうと、個人情報を持っていかれたりします。


次は、本文付きのパターン。

17011506

こちらは架空請求系のようです。添付されているのは zipファイル。危ないですね。

17011507

やはり、ウイルスが検出されます。

添付ファイルのうち、*.zip などの圧縮ファイル、*.doc、*.docx、*.xls、*.xlsx、*.pdf などの文書ファイル、*.jpg などの画像ファイル、*.mov などの動画ファイルは、特に危険です。まちがっても開いてはいけません。


次は、Apple を騙るメール。

17011508

IDが一時停止されている、んだそうです。やはり、フィッシングサイトに誘導するパターン。

最近は、このように、大手ベンダーの名前でアカウント警告を送ってくるやつが実に多い。


17011509

これは、PayPal だそうです。ただし、表記は「Pay.pal」


17011510

これも、ダシにされているのはApple IDですが、今度はFaceTimeを持ち出しています。


17011511

お次はAmazonですが、表記もアドレスもおかしい。


17011513

こちらは、最近かなり被害が出ているらしい、LINEがらみのつもりでしょうか。


17011515

当然、Facebookを騙るパターンも出てきました。

かつては、たとえば「ナイジェリアの手紙」詐欺(「419詐欺」とも言います)とか、エッチ系とか、安売り系とか、「こんなんで引っかかるヤツがおるんかー」というような詐欺メールが主流でしたが、最近はこんな風に、

PCに詳しいから逆に引っかかってしまう

ようなパターンもかなり増えています。


ここに挙げたサンプルを見て、詐欺メールの特徴を確認しておいてください。

・大手ベンダー等を名乗るが、表記がおかしい

・アドレスがおかしい

・本文の文章が変

といった傾向があります。

くれぐれもご用心を。

06:09 午後 翻訳者のPCスキル | | コメント (2)

はてなブックマークに追加

2016.12.18

# PCスキルを上げるたったひとつのコツ

※ありがちな記事タイトルにしてみました :)


PCスキルを上げるために必要なことは、具体的に挙げていけば、いくらでも出てきます。


が、心構えとして必要なのは、ひとつだけ。それは、

不便を放置しないこと

です。

新しいPCを買ってきて、あるいは新しいアプリケーションをインストールして、初期設定のまま使い始めてみると、なにかと不便を感じるものです。

そのとき、「こんなものかな」とあきらめるのではなく、自分の感じている不便を解消できないか、と考えてみます。

解消するためのノウハウが、最初はわからないかもしれません。そんなときは、Google先生に聞けば、たいていのことは見つかります。

たとえば……


ダブルクリック操作がしにくい。ファイルを選ぼうとしても、すぐファイル名がハイライトされた状態になってしまう。そんなときは、

[コントロール パネル]→[マウス]で、この設定をいじってみます。

1612181

[ダブルクリックの速度]で、自分のダブルクリックの速度に合わせてみましょう。


あるいは、キーボードで同じキーを押し続けようとしたとき---実際には、カーソルキーを動かすときが多いはず---、反応が遅いと思ったことはありませんか(デフォルトでは、0.5秒くらいかかる感じ)。

そんなときは、[コントロール パネル]→[キーボード]で、[文字の入力]→[表示までの待ち時間]を変えてみてください。私はいちぱん右に設定しています。[表示の間隔]は、同じキーを繰り返すときの間隔です。私はここも最速。

1612182


こういう設定があることさえ、知らない人が多いかもしれません。

なんで知らないかというと、PC操作で不便を感じても、それを当たり前に思ってあきらめているからです。


ハードウェアでもソフトウェアでも、とにかく

自分の使いやすいようにできないか

と考えてみる。そして、その方法を調べて自力で解決する。

それを繰り返していれば、PCスキルはいやでも上がっていくはずです。

10:16 午前 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2016.02.11

# ATOKの辞書環境 ~イミクルで注目度アップ

ジャストシステムの日本語入力システム「ATOK」は、翻訳者のあいだでも以前から定評があります。

いろいろな辞書アドインを連携する機能は以前からあったのですが、この2月に発売された新バージョン「ATOK 2016」に、イミクルという機能が追加されたのを機に、少なくとも私のまわりでは、ちょっとした話題になっています。


簡単に言うと、従来はあくまでもATOKの補助機能だったので、入力中や変換中に辞書を参照することもできる、というくらいの扱いでした。

一方、新しいイミクルだと、

範囲選択して任意に引ける

ようになった。この1点がかなり大きいのかもしれません。


この新機能のおかげで、初めて(もしくは、久しぶりに)ATOKを入れてみる、という方もちらほら。


ただし、ATOKにおける辞書の設定や動きはちょっとわかりにくいかもしれません。そこで、いつものように自分の整理も兼ねて、ATOKの辞書についてまとめてみました。

【追記】

翻訳者であり勉強会「十人十色」の代表でもある井口富美子さんが、ほとんど同じタイミングでATOKの記事をアップしていらっしゃいました。そちらのほうが丁寧に説明してある点も多いので、ぜひ併せてご覧ください。

リンク:ATOK2016新機能とATOKのおさらい | It's a Wonderful Life



通常の変換中

まず、スペースバーを押してふつうに変換するとき、候補ウィンドウが出てきて、ちょっと遅れてその右に辞書ウィンドウが開きます。

1602111_3

候補ウィンドウで、右向き > が表示されている候補には、なんらかの辞書情報があります。辞書が複数ある場合にはタブ表示され、Ctrl+Endキーでウィンドウを切り替えることができます。

※右向き矢印が何種類かありますね。この違いは、今のところ私にもわかりません。

※スペースバーを何回押すと候補ウィンドウが表示されるかは、[プロパティ(環境設定)]→[ATOKのプロパティ]→[設定項目]→[候補ウィンドウ]と進み、[候補ウィンドウ表示までに必要な変換回数]で設定できます。辞書ウィンドウが開くまでの待ち時間設定はないようです。


特定の辞書で変換

上のスクリーンショットは「こんめい」を変換したところですが、漢字候補のほか、いちばん下には confusion という英訳の候補も出ています。これはジーニアスが変換辞書として機能しているからです。

いわば、「辞書を引きながら変換する」という感じでしょうか。

ふつうに変換するとこうやってずらって出てきますが、特定の---たとえば、「こんめい → confusion」のような---和英変換をいきなり引くという使い方もできます。

たとえば、同じく「こんめい」と入力して[F4]キーを押すと、こうなります。

1602112_2

さらに[F4]キーを押すと、

1602113

こうやって辞書の内容も出てきます。つまり、ふだんのスペースバーではなく、別のキーで変換候補を出すということです。

※[F4]キーというのは、たまたま私の環境でそうなってるだけです。

1602114

これが私の環境での設定画面です。


イミクルで引く

これが今回いちばんの売りですね。単語を選択してCtrlキー2回を押すと、登録されている辞書をすべて検索できます。

1602113_2

起動キーは変更できるのですが、Ctrl x 2のほかも、Alt x 2か Shift x 2だけしか選択肢がないので、ここはちょっと変わるといいかもしれません(AHKで変えるという手はありそう)。

それから、変換中に辞書が出てきたときは、Ctrl+End で辞書を切り替えられたのですが、イミクルの場合は、同じショートカットがきかず、マウスでクリックするしかありません。Ctrl+Endすると、文章の最後に移動してしまいます。

これは、イミクルを使っても、フォーカスは元のアプリケーションから移動しないので、たぶんそのせいだと思います。

なお、今回はATOK 2016プレミアム版などに付属する『精選版 日本国語大辞典』と『ジーニアス医英和辞典 第5版』が話題になっていますが、これまでジャストシステムからATOK用に発売されていた辞書はどれも、イミクルに対応しています。

ややこしいのですが、上記のような辞書機能のほか、ATOKには「連想変換」という機能もあります。こちらは、類語辞典のような機能です。

1602116

「日本語使いさばき辞典」と「文章表現辞典」は、もともと組み込まれている標準辞書、「角川類語」はオプションで追加した辞書です。

横長にしか広がらないという、ちょっとがっかりなインターフェースですが、類語をさっと確認したいときには便利です。

11:29 午前 翻訳者のPCスキル, 辞典・事典 | | コメント (0)

はてなブックマークに追加

2016.02.07

# 「ATOK 2016 プレミアム」と、G5の新語

昨年のうちにちょっと話題になりましたが、今回のプレミアム版には、G5と『精選版日本国語辞典』が付きます。

定価は12,000円ですが、ジャストシステムの会員だと10,000円弱です。


前エントリで書いたように、LogoVistaのG5が到着したばかり。ダブってしまいましたが、LogoVistaブラウザを立ち上げずに引けるというのは便利かもしれません。範囲選択してCtrlキー2回でも引けます。


ということで、新語の採用状況や訳語の変化を調べてみるために、「私家版英語辞典@帽子屋」に載せている単語を、Ctrl x 2 で、片っ端から引いてみました。


backronym

バクロニム《元は頭字語でない単語の各文字に後から語を当ててある意味を持つ頭字語化した語;SOS (Save our ships.)など》


decision making

(集団・組織などの重要な件に関する)意思決定


digital native

デジタルネイティブ《幼い頃からインターネットや IT 技術に慣れ親しんで育った世代》.


hacktivism
hacktivistとして追加されています。

【hacker+activist】 《略式》[コンピュータ]政治的ハッカー


initiative
訳語と構成がかなり変わって、こうなりました。かなり整理されたと思います。

1 〔…のための/…する〕新構想, 新規計画, 新しい試み〔for / to do〕
2 (人の指示を待たず)自ら決定[行動]する力, 自発性
3 [the ~] 〔…する/…における〕主導権, イニシアチブ〔to do / in〕
4 《米》[法](国民の)発議権

G4ではこうでした。
1 自発性, 企業心, 独創力, 進取的精神
2 (事態改善への新規の)構想, 計画, 新しい試み, 戦略
3 [通例 the / one's ~] 手始め, 開始, 首唱;[the ~] 主導, 主導権, イニシアチブ, 〔法〕 (国民の)発議権


leverage
語義が追加されています。

1 …を(巧みに)活用[利用]する.


pluto
動詞の語義が追加されました。語源については何の説明もありませんが、2006年に冥王星が準惑星に格下げされてしまったことから来ています。

1 …を降格させる;…の価値を下げる(demote)2(特定のグループなどから)…を除外する, 外す(remove)


spear phishing

[名] スピア[ねらい撃ち]フィッシング《特定の人物やグループに対して知人などを装ったメールを送るフィッシング詐欺》


virality
は載っていませんが、viral に語義が追加されました。

2 (インターネットなどを介して)拡散する, 有名になる


wikiality

ウィキアリティ《客観的な事実ではなく, 多くの人がそうだと思うことによって真実だとみなされていること》


wonk
これも訳語が追加されています。

2 (細部にまでこだわる)政策通


ご覧のとおり、新しい単語や語義がかなり追加されいることがわかります。さすが、電子編集をいち早くとりいれた辞書だけのことはあります。


こういう語をこれまで取り上げていた自分にも、ちょっと感心 ^^


01:56 午後 翻訳者のPCスキル, 辞典・事典 | | コメント (0)

はてなブックマークに追加

2015.04.03

# 漢字-ひらがな-カタカナの比率をチェックするマクロ

分野や文章の種類、用途によってかなり違ってくるので一律には語れませんが、漢字の比率で、文章の硬さはかなり変わってきます。漢字が一定の比率を超えると、ぱっと見た感じで原稿が黒っぽい感じになる。

おおざっぱですが、20~30パーセントの範囲が「読みやすい」目安なんだそうです。

文字数と漢字使用率を同時にチェック|WEBライティング用ツール

このサイトには

新聞の社説(約50%)>マニュアル(約40%)>教科書(約30%)>雑誌(約30%)>WEB(約25%)です

と書いてあります。裏はとっていません。


MS Wordには、文章校正の一環として「読みやすさ」という項目があって、そこで漢字/ひらがな/カタカナの比率を表示できるようになっています。

設定が必要です。


[ファイル]→[オプション]→[文章校正]を開いて、[文章の読みやすさを評価する]をチェックしておきます。

1504031
(私の環境では他のオプションをオフにしてあるのでグレイアウトされていますが、これでも機能します)

チェックするファイルを開いたら、[校閲]リボンで[表記ゆれチェック]を実行すると、最後にこんなダイアログが表示されます([スペルチェックと文章校正]を実行しても最後には表示されるのかな、未確認です)。

1504032_2


ちなみに、冒頭にあげたリンク先には、文章をペーストすると同じような文字種バランスをチェックしてくれる機能もあるのですが、つい一昨日のエントリで、翻訳内容の漏洩事件を取りあげたばかりです。お仕事の内容をこういうところにむやみにペーストしちゃうのは考えものです(プライベートな文章ならかまわないと思います)。ペーストされた内容の保持などについて、何も解説がないので、念のため避けましょう。


Wordを使えば、上に書いたような機能が使える……はずなのですが、どういうわけか、私の環境ではなぜかこの機能が使えないファイルもあったりします。

そういうツールがあってもよさそうだな、と思ってちょっと調べてみましたが、案外ないもんですねー。

ということで、秀丸マクロを作ってみました。

秀丸マクロファイル
「CheckReadability.mac」をダウンロード
(右クリックで保存してください)


Windowsの再描画を一時的に停止するので、マクロを実行すると、秀丸のウィンドウが少し崩れることがありますが、問題ありません。

文字数の計算方法には、Wordと秀丸でそれぞれクセがあるので、完全には一致しないこともありますが、あくまでも「目安」なので、その目的くらいには使えると思います。


07:31 午前 翻訳・英語・ことば, 翻訳者のPCスキル, パソコン・インターネット | | コメント (0)

はてなブックマークに追加

2014.09.18

# Googleの言語オプション

今さらという気もしますが、AHKのネタも関連付けて、Googleの言語オプションについてまとめておきます。

「言語オプション」と言っても、

・インターフェースの表示に使う言語

・検索結果の表示を絞り込む言語

の違いがあるという話です。


……などとエラそうに書き始めましたが、私も設定がちゃんとしていなかったことに改めて気づいた、という話でもあります。


言うまでもなく、これはGoogleの設定なので、ChromeとかFirefoxの設定オプションではありません。

https://www.google.co.jp/ または
https://www.google.com

を開いてからお読みください。

※実際には、日本国内では(ロケールが日本に設定されていれば)google.comを指定してもgoogle.co.jpにリダイレクトされてしまうと思います。


ページ下部のバー、右端にこういうリンクがあります。

1409181

この中の[設定]をクリックするとメニューが開きますが、検索に関係するっぽい項目は2つあります。

1409182_2

まず、上のほうの[検索設定]を開き、左端に並んでいるメニューから[言語]を選ぶと、言語名がリストされ、現在の設定に●が付いています。

1409183

ここで、たとえば[英語]を選択して(あるいは、今[英語]の場合は[日本語]にして)[保存]を押してみるとわかりますが、こちらはインターフェースの表示に関する設定です。

ただし、このせいでますます話がややこしくなるのですが、この設定を変えただけでも、検索結果は違ってきます。言語切り替えなども、後述するオプションとは違ってきたりして、たぶんロケールと設定言語の組み合わせで勝手に判断されているようでもあります。


次に、(Googleの最初のページに戻ってから)[検索オプション]を開きます。

1409184

[検索結果の絞り込み][言語]を開いたとき、何になっていますか。どの言語の検索結果が表示されるかは、ここで決まります。ロケールが日本だと、デフォルトでは[日本語]になっているのかもしれません。そして、


実はここからが問題です。


このオプションが[日本語]に設定してあっても、検索結果が表示されたとき、言語を切り替えるオプションが上部のメニューにありますよね。[日本語のページを検索]というオプションがあり(もし表示されていなければ、右上の[検索ツール]を押せば表示されます)、下向き▼をクリックすると[すべての言語]が表示されます。

1409186

何か英語の語句を検索してから、この[すべての言語]に切り替えると、一見して英語の検索結果が(上位に)表示されるように見えます。が、これは文字どおり[すべての言語]が対象なので、実は

[英語のページを検索]した結果とは違う

のです。以下の3つの結果をご覧ください(画像クリックで大きくなります)。

最初は、[日本語のページを検索]
1409187


次は、[すべての言語]
1409188


最後が、[英語のページを検索]
1409189


これでわかるように、[すべての言語]にすると、日本語も含めたランキングで表示されるわけです。

ただ、実は私はここんところが疑問なのですが、しばらく前までは[すべての言語]に切り替えると、もっと英語ページのほうが上位に来ていた。こんな風に日本語ページが上に来ることはなかったように思います。検索語によっては、[すべての言語]にてしも日本語ばかり並ぶ場合もあります。Googleさんがまた何かロジックを変えたんでしょうか。


そういうわけで、翻訳者的なGoogleの使い方として、「日本語の検索結果と英語の検索結果を見たい」場合には、[日本語のページを検索]と[すべての言語]の切り替えだけでは用が足らないことになります。

しかたがないので、私は前述した[検索オプション]→[検索結果の絞り込み]で[言語]を[すべての言語]に設定し、日本語のページ、英語のページに限定したいときは

&lr=lang_en

&lr=lang_ja

の検索オプションをそれぞれ使うことにしています。


もちろん、検索するたびにこの文字列を入力するのは面倒なので、AHKのコマンドに組み込んでいます。

選択範囲の文字列をフレーズ検索する

Run,https://www.google.co.jp/search?q=\"%Clipboard%\"

の後に上のオプションを付けて

Run,https://www.google.co.jp/search?q=\"%Clipboard%\"&lr=lang_en

Run,https://www.google.co.jp/search?q=\"%Clipboard%\"&lr=lang_ja

とします。


ただし、言語を指定するとヒット数は表示されません。これはちょっと(けっこう)残念。

05:07 午前 翻訳・英語・ことば, 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.09.16

# Word 2010の特殊文字と検索オプション

先日の「改行をしないスペース」を記事にした後、Wordの[挿入]から入力できる「特殊文字」と検索オプションの「特殊文字」の関係を整理してみました。

Wordのバージョンごとにちょっとずつ仕様が変わっているようですが、確認したのはWord 2010のみです。


ファイル:Word 2010の特殊文字一覧
※クリックではなく、右クリックで保存してください

このファイルを開くと、

・[挿入]から入力できる特殊文字のリストと解説

・検索オプションの[特殊文字]のリストと解説

・検索オプション、[ワイルドカード]オンのときの[特殊文字]のリストと解説

があります。

また、解説されている検索オプションをすべてこのファイルの中で実際に確認できるようになっています。

いくつか不明点などもあるので、修正点などご指摘いただければ幸いです。



この一覧を作りながら、初めて知ったこと。

1. グラフィックスも検索できるが、ただしレイアウトとして

[行内]

に設定されている画像しか検索できないらしいということ。なんだ、その中途半端な仕様は?


2. フィールドも検索できるが、フィールドコード表示になっていないといけない。つまり、
{HYPERLINK "https://www.google.co.jp/"}
のような形になっていれば検索できるが、URL(https://www.google.co.jp/)として表示されているとヒットしない。


3. また、[ワイルドカード]オンでもオフでも ^g で指定できることになっているが、少なくとも私の環境では[ワイルドカード]オンのとき ^g は機能しない。

そして、疑問点もひとつあります。検索オプションとして

[省略記号]

というのと、

[3点リーダー]

とがあるわけですが、これ、どちらも「…」(全角1文字)にヒットするので、違いがわかりません。

10:57 午前 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.09.14

# Word上の「改行をしないスペース」

※side TRADOSに掲載しましたが、side Aの「翻訳者のPCスキル」に載せるべき記事なので、こちらに移しました。

Word上には、改行または「改行っぽい」制御記号がいろいろとあるという話を、以前side Aに書きました。

side A: # 段落記号、行区切り、改行 --- Word の不思議

禿頭帽子屋の独語妄言 side A: # 改行の検索 --- Word の不思議その2


そのほか、Wordには「改行をしないハイフン」とか「改行をしないスペース」ってなものがあって、知らないと頭を抱えてしまうことになります。

「改行をしないスペース」というのは、欧文のファイルで見かけることが多いかと思いますが、スペースがあるべき場所に、半濁点のマルにも見える記号が入っていることがある、あれです。

1409144

この例だと、ピリオドと二重引用符の間に変なマルが見えている、これが「改行をしないスペース」です。

Wordの[挿入]→[記号と特殊文字]→[その他の記号]を選択して[特殊文字]タブを開くと、この手の特殊記号を確認できます。

1409143

これです。

固有名詞の途中などで改行されないように、というのが本来の使い方なのですが、最近、これが意味もなく多用されているファイルをよく見かけます。[Ctrl + Shift + Space]で簡単に入力できるから?

ちなみに、これをファイル内で検索したいときは、検索ダイアログで[ワイルドカード]をオンにして、[特殊文字]から[改行をしないスペース]を選択すればOKです。検索文字列は、

^s

※カレットと小文字のs。大文字のSではダメなので注意。

SDL Trados 2007(まで)では、ピリオドの後にこの「改行をしないスペース」が入っていると、本来切れるはずの位置でセグメントが切れません。そのため、セグメントを開いたとき

1409141_2

こうなります。念のために確かめたら、SDL Trados Studio 2014では、同じ箇所が正しく区切られました。

1409142

それ以前のStudioは確認していませんが、こういうところ、地道に改善されています。

10:40 午前 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.08.29

# ファイル保存などのダイアログを移動するときのTips

これって、あまり見かけない気がするのですが、誰でも知ってる常識なのか、それともそんな需要はないのでしょうか。


[名前を付けて保存]とか

[ファイルを開く]

などのダイアログで、

目的のフォルダまで移動する

のって、けっこう面倒くさいですよね?


なんでもかんでも[My Documents]に保存してればそんなこと感じないかもしれませんが、一定以上PCで仕事してれば、たいていは整理のためにいろんなフォルダ階層があるわけで。

ダイアログの左には[最近表示した場所]というオプションもありますが、そこを探すのもそれなりに手間です。


で、私はたいてい、ダイアログ上部にあるパスフィールド(ナビゲーションフィールド? 正式には何と呼ぶのかな)を利用しています。

1408291


上のような[名前を付けて保存]ダイアログでの操作を説明しますが、条件として、エクスプローラも併用します。ふだんからあまりエクスプローラでファイル操作しない人もいらっしゃると思うので、その場合は以下の話もピンと来ないかもしれません。


エクスプローラを常用していると――私の場合は、FileVisorというシェアウェアですが――、これからファイルを保存したいとか、ファイルを開きたいときというのは、たいてい、エクスプローラでその周辺を開いているものです。

そこで、[名前を付けて保存]ダイアログや[ファイルを開く]ダイアログは開いたまま、以下のように操作します。

  1. エクスプローラで、目的の場所(保存先など)を開きます。
  2. ダイアログ上部のナビゲーションフィールドにフルパスが表示されているはずなので(オプションによっては表示されなかったりしますか? そこはちょっとわからない)、そのフィールドをクリックします。
  3. 1408292

  4. コピーできる状態になるので、パスをコピーします。
  5. 1408293

  6. [名前を付けて保存]ダイアログ(など)に戻り、同じフィールドに貼り付けて、右にある緑の矢印ボタンを押すと、目的の場所に移動します。
  7. 1408294

これ、私としてはディレクトリ移動がけっこう楽になった発見なんですけど、どうでしょう?


なお、アプリケーションによっては、ダイアログの形式が古く、上のようなナビゲーションフィールドが出てこない場合もあります。

その場合は、[ファイル名]フィールドにパスを貼り付け、さらに

円記号 + ファイル名

を入力しても同じことができます。

1408295


ちなみに、上のスクリーンショットは秀丸エディタのダイアログですが、秀丸の場合は設定を変えればダイアログのタイプも変更できます。

1408296

04:35 午前 翻訳者のPCスキル, パソコン・インターネット | | コメント (2)

はてなブックマークに追加

2014.08.27

# 「翻訳者のためのプログラミング入門」、10/19開催

イベントや講座の案内ばっかりで恐縮ですが......

東京ほんま会の勉強会として、「翻訳者のためのプログラミング入門」というのを開催します。

リンク:東京勉強会詳細 - 翻訳者のためのマクロ勉強会

【9/14更新】東京ほんま会のサイトが新しくなったので、そちらへのリンクに変更しました。

Facebookアカウントをお持ちの方は、FBのイベントも告知されています。
https://www.facebook.com/events/543149019147533/?ref_dashboard_filter=upcoming

講師には、はるばる大阪から、しんハムさんこと小林晋也さんをお招きします。


ちなみに、この講座は東京ほんま会(大阪ほんま会の、東京の分家みたいなもんです^^)によるイベントです。9月にあるAutoHotKey講座は、十人十色のイベントです。メンバーもかなりオーバーラップしてるし、ちょっとややこしいですが――なにより、私自身がときどき混乱します――、通翻クラスタ周辺の活動がそれだけ盛んになってきたという証だろうと思います。


さて、「翻訳者のためのプログラミング入門」は、サイトの案内文にも書かれているとおり、単なるプログラミング入門ではありません。プログラミングの概要をある程度まで理解しつつ、それをIT系の翻訳に活かすというのが趣旨です。

そもそものきっかけは、6月に開催した東京ほんま会の秀丸マクロ勉強会のとき、どなたかが「IT翻訳してても、プログラミングの基本は勉強していないのでけっこう難しい」みたいな話をしていたことでした。

それで、「プログラミングの初歩を説明したうえで、同時にプログラミング関連の翻訳勉強会にもしてみたらどうだろう」と軽く言ったら、いつの間にかそれがイベントになったという経緯。

であれば、プログラミングについて私よりずっと詳しいしんハムさんをお呼びするしかない! そのしんハムさんが、ブログでこの勉強会の下準備になる連続記事をお書きになっています。ちょうど、「ブログでは過去記事を参照しにくい」ということで、固定の目次ページもできたところです。

リンク:翻訳者のためのプログラミング講座 基礎編 目次  | TRA Café

ぜひこちらもお読みください。


10/19当日は、基本的に

・特定のプログラミング言語には限定しない

・とは言っても、説明は特定のプログラミング言語に拠るかもしれないが、できる限り汎用的な説明にする

・プログラミングに関連する翻訳課題(英日)がある

という方向で進める予定です。


会場の都合で定員が多くはありませんので、ご注意ください。

ツールのハウツーでも、単なる翻訳勉強会でもない、通翻クラスタでも初めての試みです。乞うご期待!

01:03 午後 翻訳・英語・ことば, 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.06.26

# プログラミングの基本 - 短期講座第8回(了) -

前回コピーした、または手入力したシンプルなマクロの内容を説明します。

秀丸マクロも、当たり前ですがプログラムの一種です。これから説明する内容は、いろいろなプログラミングに応用できる基本中の基本。ここから学習を発展させていけば、プログラミングを覚えるのはそんなに難しくない...かも。

この説明で、今回の短期集中講座はひとまずおしまいにしたいと思います。


最近、実は秀丸エディタにもマクロ入門みたいなヘルプが付くようになっています。このエントリの後は、そちらを読むといいかもしれません。[ヘルプ]→[マクロヘルプ]を選んで、[マクロを初めて作成する方はこちらへ]のリンクをクリックしてください。


//一発検索マクロ ver1.0
//作成: 2014/06/26 最終更新: 2014/06/26
//コピーした文字列を一発で検索するマクロ

gofiletop;

beginclipboardread;
$sr = getclipboard;

hilightfound 1;
searchdown $sr;


■コメント文

どんなプログラミング言語でも、プログラミングに直接関係ない(=プログラムとしては実行されない)内容を書いておきたいものです。これをコメント文と言います。

大規模なプログラミングなら、他のプログラマーが見てもわかるようにという配慮の場合もありますが、個人で作る場合、たいていは自分のためのメモ書きです。内容が複雑になると、いったいどんな処理をしているのか、後から見て自分でもわからなくなったりする。そんなときのためです。

秀丸エディタの場合、コメント文は冒頭にスラッシュを2つ付けます。行頭に//を付ければ1行全体がコメントになり、行の途中に//を書くと、それ以降の行末までがコメントになります。

今回の例では、

1行目……マクロ名とバージョン番号
2行目……作成日と最終更新日
3行目……マクロの簡単な説明

を書いてあります。最低限これくらい書いておくと、マクロの更新管理に便利だからです。


■マクロの書き方

一部を除き、秀丸マクロの各行は半角セミコロン(;)で終わります。言い方を変えると、秀丸はセミコロンまでを命令と見なして実行しようとします。

マクロのコマンド(文)は、頭から順番に実行されます。順序を変えるコマンドがある場合は、それに従います。


■コマンド(文)

コメントが終わって最初に出てくるのは、

gofiletop;

というコマンド。名前から想像できるとおり、「ファイルの先頭に移動してや」という

命令

です。

※秀丸のヘルプでは、コマンドを「文」とも読んでいます。

続く

beginclipboardread;

もコマンドで、「クリップボードからの読み取りを開始せいや」という命令。これがないと、次の行の getclipboard が動いてくれません。

getclipboard;

というコマンドで、実際にクリップボードの内容を読み取ります。

ただし、ここで重要なのは、

getclipboard は読み取るだけ

ということです。どういうことかというと、マクロの中で、この命令は確かに実行された。でも、クリップボードの内容はあくまでも内部的に読み取られただけで、それを

使える形で取り出す

という作業が必要です。


■変数と代入文

そこで、getclipboard の内容を プログラムで使える形にする必要があります。そのために使うのが、「変数」「代入文」です。

$sr というのが変数ですが、頭にドル記号「$」が付いているので、これは文字列変数です。

$sr = getclipboard;

この式は「変数 $sr に getclipboard の内容を格納する」という意味になります。イコールを使ってはいますが、等式とは微妙に違います。


変数には、例外を除いて任意の英数字とアンダースコアを使えますが、あまり短いと自分でもわかりにくくなります。この例では、検索(Search)したい文字列を代入するので、Searchのうち最初の2文字を変数名にしました。


秀丸マクロの場合、変数の内容によって「文字列型変数」「数値型変数」があります。

文字列型変数は、先頭にドル記号「$」を付けます。代入できるのは、「abc」とか「禿頭帽子屋」とか、そういう文字のまとまり。

数値型変数は、先頭にナンバー記号「#」を付けます。

ナンバー記号「#」とは、キーボードで「3」の上にあるやつです。「いげた」とか、英語だとpound signとも呼びます。シャープ記号「♯」とは違います。どのみち、プログラミングで使うのはいつも半角文字です。


「文字列型変数」と「数値型変数」を正しく使わないと、プログラムは動きません。この区別は、秀丸マクロに限らず、とても重要な考え方なので、ぜひ覚えておいてください。


■コマンド(文)、パラメータ付き

hilightfound 1;

もコマンドですが、「1」というパラメータが付いてます。これは強調表示をオンにするということ。パラメータを「0」にすると強調表示がオフになります。

このように、コマンドのなかにも gofiletop のように一律の動作を実行するものと、パラメータ指定によって異なる動作を実行するものがあります。

searchdown $sr;

これが最後のコマンド。パラメータは、さっき文字列を代入した文字列変数 $sr です。

つまり、このコマンドの意味は「文字列変数 $sr の内容を下方向に検索せいや」ということになります。

$sr には、getclipboard が代入されています。つまり、$sr の中身はこれ以前にコピーされている内容ということ。


これで、ごくシンプルながら、秀丸マクロをひとつ作り、その動きも1行ずつ理解できました。


後は、関数制御文を使えるようになれば、かなりのことができるようになります。

「できるようになります」というのは、あくまでもスキル上の話です。プログラミングで大切なのは、プログラミングに至る発想とその実現の段階。

今回作ったマクロの例で言うと、こんな流れだったことになります。


検索って、翻訳中に何度も何度もやるから、少しでも楽をしたいなぁ。

検索したい文字列って、入力することもあるけど、コピーすることも多いな。

コピーした内容は、クリップボードに入ってるはず。

クリップボードの内容を取り出して、それを検索すればいいんじゃね?

ってことは、

1. クリップボードの内容を変数に入れて、
2. その変数をパラメータにして、
3. 検索コマンドを実行

すればいいんじゃないかな。


こういう発想に立って秀丸マクロを書いたことになります。ここで、大切なのは、赤字で書いた部分。こういう発想さえできれば、後はそれを実行できるコマンドを探していけばプログラムは書けます。


今回のように、ひとつでもマクロを書いてみて、その動きを1行ずつ納得できれば、最初の一歩はばっちりのはずです。

11:45 午後 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.06.25

# 最初のマクロ - 短期講座第7回 -

いよいよ、実際にマクロを作ります。

作ったマクロは「マクロ登録」し、「キー割り当て」まで設定します。つまり、前回の復習を兼ねた実習ということです。

ここまでやっておくと、今週末6/29(日)の「ほんま会」で、だいぶ話がわかりやすいのではないかと思います。

1. かんたんなマクロを作る

まず、秀丸エディタで新規ファイルを開き、以下の内容をコピーしてください。内容については、次回詳しく説明します。


<ここから>

//一発検索マクロ ver1.0
//作成: 2014/06/26 最終更新: 2014/06/26
//コピーした文字列を一発で検索するマクロ

gofiletop;

beginclipboardread;
$sr = getclipboard;

hilightfound 1;
searchdown $sr;

<ここまで>


※コピーせず、これを見ながら手で入力してもかまいません。そのほうが勉強になります。

1406262


このファイルを、たとえば

QuickSearch.mac

とか、そんな名前で保存します。保存先は、前回作ったマクロ用のフォルダです。ここで大切なのは拡張子。秀丸マクロの拡張子は

*.mac

です。


2. マクロを登録する

[マクロ]メニューから[マクロ登録...]を選択します。

最初はどのフィールドも空っぽだと思うので、[マクロ 1:]に登録しましょうか。

ダイアログの上のほうに[グループ]というフィールドがありますが、最初はグレーアウトされていると思います。ダイアログ左側にある[対象]で[11~20]以降を選択すると、[グループ]フィールドが使えるようになります。これは、たとえば機能別などでマクロを10個ずつまとめるための機能です。当面は使わないからしれませんが、マクロをがんがん使うようになると、グループ分けしたくなるかもしれません。[対象]の[1~10]は特にグループ内がないので、グループ分けするまでもない基本マクロとか、多用するマクロとか、そんなのを登録します。

[タイトル]に任意の名前、たとえば今回は「クイック検索」と入力します(さっきコピーしたのは、つまりそういう機能のマクロなわけでした)。

[ファイル名]にマクロを指定します。▼を押してドロップダウンリストを開くと、さっき登録したマクロ(QuickSearch.mac)が出てくるはずです。あるいは、[...]をクリックすると、マクロ用のフォルダが参照されるはずです。

【重要】
もし、ここで▼を押しても「QuickSearch.mac」が出てこない、あるいは[...]をクリックしてもマクロ用フォルダが開かない場合には、前回やった「1. マクロ用のフォルダを作って、指定する」の手順がうまくいっていない可能性があります。確認してみてください(このダイアログの下のほう、[マクロファイル用のフォルダ]というラベルの右にマクロ用フォルダが表示されます)。

1406263

登録ができたら、[OK]を押してください。


3. マクロをキーに割り当てる

ファンクションキー(F1~F12)には、デフォルトでいくつかの機能が割り当てられています。デフォルトの割り当てを使っているなら残しますが、そうでなければ、どんどん上書き設定しちゃってかまいません。

F1~F12までほとんどデフォルトの割り当てがありますが、[Ctrl]とか[Shift]などの修飾キーを押すとほとんど空欄です。今回はおとなしく、最初から空いている[F2]キーを使うことにします。

たぶんこの辺は、秀丸エディタをどのくらい使いこんでいるか、あるいは全般的にキーボード多用派かマウス多用派か、といった好みによっても違うと思います。


[その他]→[キー割り当て]を選択します。

ダイアログ左側の[キー]で[F2]を選択します。右側の[コマンド]は、[ファイル系]-[なし]になっていると思います。これが何も選択されていない状態です。

[コマンド]のすぐ下の▼を押すとドロップダウンリストに機能グループが表示されます(ファイル系、カーソル移動系、クリップボード系……)。下のほうに[メニュー/マクロ]があるので、これを選択します。

さっき登録した「マクロ1:クイック検索」というのが出てくるはずなので、それを選択して[OK]を押します。

1406264

これで、今回作ったマクロが[F2]キーに登録されました。


4. マクロを使ってみる

さっそく、「クイック検索」を使ってみます。


何でもいいので、テキストファイルを秀丸エディタで開きます。ここでは、第2回でリンクした

寺田 寅彦『科学者とあたま』より抜粋

を開いてみます。

開いたら、今この記事を読んでいるブラウザに戻って、すぐ上にある 「科学」という文字をコピーしてください。


コピーしたら、秀丸ファイルに戻って[F2]を押してみると......

1406261

こんな風に、該当する箇所がすべてハイライト表示される ...... はずですが、ハイライト表示のされ方は人によってたぶん違います。

このマクロ、機能はいたってシンプルで、

「コピーしてある文字列をファイルの先頭から検索する」

というだけです。

私自身が秀丸エディタを使い始めた最も初期に作ったマクロのひとつであり、今でも多用しているマクロです(ただし、私が実際に使っているバージョンは、もっと機能が増えています)。

検索ダイアログを開く → 検索したい文字列を貼り付ける → [下検索]をクリックする

という3ステップだった動作を

[F2]キーを押す

という1ステップに縮めたことになります。

たいした省力化には思えないかもしれませんが、こういう「些細な省力化」の積み重ねが実は大きな効率化の基礎になっているというのは、新田さんがよくいう「2秒×1000回=30分のなぞ」と同じことです。

今回のマクロを、コピペせずに手で入力した場合、実行するとエラーになったかもしれません。

1406265

たとえばこのエラーは、

beginclipboardread

と打つべきところを、

begincliboardread

とミスタイプしてしまったことが原因です。


このようなミスタイプによるエラーは、プログラミングにつきものです。というより、プログラミングとはこんなエラーとの戦いの繰り返しとも言えます。エラーが出たら、その原因を探って修正する。その過程こそが、実はいちばん勉強になるとすら言えるかもしれせん。


次回は、今回作ったマクロの内容を説明します。

11:38 午後 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.06.18

# 秀丸マクロを使う準備 - 短期講座第6回 -

では、そろそろ秀丸マクロの本題に入ることにしましょう。


秀丸マクロを使うための準備は、大きく言うと、次の3ステップです。

・マクロ用のフォルダを作って、指定する

・「マクロ登録」を覚える

・「キー割り当て」を覚える

1. マクロ用のフォルダを作って、指定する

[その他]→[動作環境]→[環境]を選択すると、[パス]というセクションに、[マクロファイル用のフォルダ]というフィールドがあります。

ここが空欄の場合は、秀丸エディタの本体(Hidemaru.exe)と同じディレクトリ、つまり

<プログラムディレクトリ>\Hidemaru\

にマクロファイルがあるものと判断されます。逆に言えば、このフィールドを空欄にして、秀丸エディタ本体と同じディレクトリにマクロを置いていってもいいのですが、ここにはほかにもいろいろなファイルが入っているので、マクロが増えてくるとごちゃごちゃになります。このフィールドで、明示的にマクロファイルの場所を設定することをおすすめします。

マクロの中で別のマクロを呼び出したりする場合など、このフィールドの設定が意味をもつ場合もあります。書き換えが必要になることもあるかもしれません。


ぜんっぜん違う場所を指定してもいいのですが、私は

1406181

このようにHidemaruディレクトリの直下にフォルダを作って、マクロはすべてここに置いています。(このフォルダの頭の3文字は気にしないように)。このフォルダを指定するには、[マクロファイル用のフォルダ]が次の図のようになります。

1406185


2. 「マクロ登録」を覚える

上の手順で所定の場所に置いたマクロは、

[マクロ]→[マクロ実行]

を選択して

1406182

このダイアログから選んでも実行できますが、こんな手間をかけていたのではマクロを使う意味(=省力化)が半減します。

[マクロ]→[マクロ登録]

を選択して[マクロ登録]ダイアログを開き、名前を付けて登録すれば、[マクロ]メニューの直下に表示され、簡単に実行できるようになります。

1406184_2


3. 「キー割り当て」を覚える

マクロの便利さを十分に活かしたければ、「マクロ登録」だけでなく、「キー割り当て」までぜひ覚えましょう。

[その他]→[キー割り当て]

を選択すると、ファンクションキー(F1、F2、...)や[Shift]、[Ctrl]などの修飾キーに、マクロだけでなく、秀丸のほぼすべての機能を割り当てられることがわかります。

1406186

[キー]を適当に選んだり、[Shift]や[Ctrl]、[Alt]のチェックボックスをオン/オフしてみると、[コマンド]のほうが動いて、現在割り当てられている機能を確認できます。たとえば、[Ctrl]チェックボックスをオンにして[Ctrl+N]のキーを見てみると、[ファイル系]の[新規作成]が割り当てられています。

既存の割り当てがあっても、割り当てを変えれば簡単に上書きできます。キー設定をいろいろ変更してしまっても、[読込み]というボタンを使えばデフォルト設定はいつでも呼び出せます。


今回は以上の説明までにして、次回、実際に簡単なマクロを作り、それを「マクロ登録」して「キー割り当て」までやってみることにします。

02:23 午後 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.06.16

# 文字コード - 短期講座第5回 -

前回ダウンロードしたテキストファイルを使って、文字コードの話に進みます。

文字コードについては、しばらく前にside TRADOSにも記事を書きました。

リンク:禿頭帽子屋の独語妄言 side TRADOS: PCスキル - 文字コードをちょっと意識する

リンク:禿頭帽子屋の独語妄言 side TRADOS: PCスキル - 文字コードをもうちょっと意識する


今回の記事を読んでから、こちらもお読みいただくとよいかもしれません(内容は一部重複します)。


「文字コード」という用語は、前回やった「エンコード」とほぼ同義に使われることもあります。

ここでは一応、

ある文字セット(エンコード)で、各文字に割り当てられているコード

のことを「文字コード」と呼ぶことにしますが、例によってこの辺の用語はユルユルで進めます。


前回ダウンロードしたファイル ASCII.txt を秀丸で開いてください。

なお、前回の記事についてFacebookでコメントをいただきました。「ダウンロードしたファイルはUTF-8」と書きましたが、環境によってはShift-JISファイルとしてダウンロードされることがあるようです。テキストファイルをShift-JISでアップロードすると、ダウンロードしたとき文字化けすることがあるので、わざわざUTF-8に設定してアップロードしたのですが、ダウンロードの時点でエンコードが変わってしまうこともある。この辺が、エンコードのややこしいところでもあります。


カーソルがファイルの先頭にある状態で、[その他]→[コマンド一覧]を選択すると、[ファイル]メニューの近くにこのようなメニューが出現します。

1406161_2

もしかすると、この機能自体ほとんど知られていないかもしれません。表のメニューからは見えない機能が、実はいろいろあるのです。この"裏メニュー"から、さらに

[その他]→[文字コード表示]

を選択すると、カーソル直後にある文字の文字コードを調べることができます。

1406162_2

これが、感嘆符(!)の文字コード。

Shift-JISでは0x21
UTF-8でも0x21

ということがわかります。

同じようにアルファベット大文字のAとZの文字コードを見てみると---

1406163_2

これが、A。

1406164_2

これが、Zです。

0x21、0x41、0x5A...

この表し方についても説明が必要ですね。

21、41、5A

というのは、単なる英数字の並びでもふつうの数字でもなく、16進数です。16進数のことが分からない人は、こちらなどを参照してください。

そして、冒頭にいちいち0xと付いているのは、これが16進数であることの目印です。

今回の短期講座では扱いませんが、PCを知りたいなら、やはり2進数と16進数のことは理解しておいたほうがよさそうです。それがわかると、「1024って、キリがいい数字だね」などというわけのわからない発言の意味もわかるようになります。


前回も書いたように、このファイルにある文字は基本中の基本なので、Shift-JISでもUTF-8でも(そして、上の図で赤線を引いていない他のエンコードでも)、文字コードは同じです。


ファイル:日本語の文字

次に、このファイルをダウンロードして、秀丸で開いてみてください。日本語で使うひらがな、かたかな、常用漢字です。さっきと同じ手順で、「あ」、「ア」、「亜」の文字コードをそれぞれ調べてみてください。

文字コードを調べるとき、いちいちさっきの手順で裏メニューからコマンドを探すのはけっこう面倒くさいですね。そう思ったときこそ、PCスキル向上のチャンスです。秀丸エディタには「キー割り当て」という機能があります。これも近いうちに説明する予定です。

1406165_3

「あ」の文字コード。Shift-JISでは82A0、UTF-8ではE38182

1406166_3

「ア」の文字コード。Shift-JISでは8341、UTF-8ではE382A2

1406167_2

「亜」の文字コード。Shift-JISでは889F、UTF-8ではE4BA9C


最初に見たように、ASCII 文字の文字コードは2桁です。1バイトだから。一方、Shift-JISの文字コードは4桁、つまり2バイトです。さらにUTF-8になると6桁、つまり3バイトということになります。

それから、ASCII 文字とは違い、エンコードごとに文字コードも違うことがわかります。したがって、エンコードをUTF-8からShift-JISに変更してファイルを保存したとき、たとえばカタカナの「ア」は

E38182 → 8341

という風にPC内部では変換されているわけです。この変換がうまくいかないとき、いわゆる文字化けが起きることになります。


最後に、このファイル

ファイル:Shift-JISにない文字

も秀丸エディタで開いて、文字コードを調べてみます。

1406168_2

丸シー、著作権記号は、UTF-8でE292B8ですが、Shift-JISの文字コードは......ありません。

Shift-JISに文字コードが存在しないということは、さっき「ア」でやったような内部処理が通用しないということになります。前回、警告ダイアログが出て、「?」に置き換えられたのは、実はこれが原因だったわけです。


ファイルを保存したりダウンロードしたりしたとき、文字表記がなーんか変だ、というときは、まず文字コードのことを考えてみてください。

06:37 午前 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.06.15

# エンコードの基本 - 短期講座第4回 -

前回(改行の話)、最後のほうで下図のようなオプションを設定しました。

1406129

この設定をしてから、第2回でリンクを貼った寺田寅彦の引用のファイル(こちら)を開くと、

14061210

こう見えたんでした。このタイトルバーに見えている[CR + LF]が改行の種類でしたが、今日はその左に見えている[UTF-8]というやつについて説明します。

いわゆる「エンコード」のお話です。

テキストファイルというのは、

文字のデータだけでできているファイル

だと説明しました。アルファベット文化圏であれば、数字やよく使う記号まで含めても、「文字」の種類はたかが知れています。8ビットで表すことのできる128種類のデータだけでも十分でした。

(注:8ビットなら本当は256種類ですが、ASCII は実際には7ビットなので、種類が半分になります)

ファイル:主なASCII 文字一覧

※クリックではなく、右クリックで保存してください。

このように、一定の範囲で使える文字体系のことを、広義には文字セット、狭義にはエンコードと呼びます。上のリンクに挙げたASCIIというのは、もっともプリミティブな文字セットです。

文字セット、エンコード(エンコーディング)、文字コードという用語は、厳密に使おうとするとかなりややこしいようです。ここはIT専門家のためではなく、翻訳者のための話なので、そういう用語についてはユル~く考えておきましょう。


さて、上のリンクからダウンロードした ASCII.txt を秀丸エディタで開くと、タイトルバーには

[UTF-8][CR + LF]

と書かれているはずです。

これを別名保存してみましょう。[ファイル]→[名前を付けて保存]です。

1406151

ファイル名は適当でかまいませんが、[エンコードの種類]を、上の図のように

[日本語(Shift-JIS)]

に変えてください。

別名保存しても、このファイルにある94文字(英数字と記号)は基本なので、どんなエンコードにしても文字化けが起きたりすることはありません。

Shift-JIS というのは、日本語の文字を表すための文字セットですが、当然、ASCII に当たる欧文文字も含まれています。

ファイル:非ASCII 文字のファイル

※クリックではなく、右クリックで保存してください。

では次に、このファイルをダウンロードして、同じように[日本語(Shift-JIS)]で別名保存してみてください。

1406152

こーゆーダイアログが出て怒られてしまいます。

デフォルトでは[保存せずに変換できない文字へジャンプする]というオプションになっているので、そのまま[OK]してみてください。カーソルが

©

の文字の前にあると思います。この「©」も、後に続く ® も、欧文の特殊文字も、Shift-JIS には定義されていません。

上の警告ダイアログで[変換できなし文字を"?"などに置き換えて保存する]を選択して[OK]を押すと、

© → ?

® → ?

となってしまいました。こういう、エンコードの違いが、いわゆる文字化けの原因です。


テキストファイルを扱うときは、このエンコードをいろんな場面で意識する必要があります。

ASCII 文字セットで使われている英数字と記号が、いわゆる1バイト文字、シングルバイト文字です。

だから、

abc

の3文字だけ打って保存したテキストファイルのサイズは3バイトになります(ちゃんと自分で試すこと)。

ファイルのサイズを確認するには、エクスプローラでファイルを右クリックして[プロパティ]を選択します。

では、

あいう

と3文字打って、[Shift-JIS]で保存したら、ファイルは何バイトになるでしょうか。

そして、同じ「あいう」だけのファイルを[UTF-8]で別名保存したら、何バイトになるでしょう。それぞれ試してみましょう。


1406153

これがアルファベット3文字のテキストファイル。ファイルサイズ=文字数です。


1406154

ひらがな「あいう」を Shift_JIS で保存したファイルです。サイズはちょうど2倍の6バイトになりました。1文字あたりが2バイトずつだからです。


1406155

これは、同じ「あいう」の3文字ですが、UTF-8 で保存したファイルです。UTF-8 では、1文字が3バイトずつで表現されます。


翻訳の終わったWordファイルなどを、いろいろな処理のためにテキスト保存することはよくあると思いますが、そのたびに上のような警告ダイアログが出たり、いつの間にか「?」に置き換わっていることがある。こういうときは、この「エンコード」の話を思い出してください。

Wordファイルをテキスト形式で保存しようとすると、こんなダイアログをよく見かけると思います。

1406156

これも、趣旨は上の秀丸での警告ダイアログと同だったわけです。

09:32 午後 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.06.12

# 改行と論理行について - 短期講座第3回 -

前回のカスタマイズで、行番号の付き方が大きく変わりました。


これは[ファイル別の設定]→[体裁]→[詳細]→[行番号の計算方法]を、

[ワープロ的]

から

[エディタ的]

に変更したためです。

この設定変更に、実は「改行」というものの大切な考え方のヒントがあります。テキストファイルを扱うときは、改行のことをしっかり意識する必要があります。

もう一度、改行番号のオプションダイアログを見てみます。

1406124_2

[ワープロ的]の注として「折り返しも1行とする」、[エディタ的]の注として「改行だけを数える」と書いてあります。


この注の前提として「折り返し」と「改行」は違うということを、まず理解する必要があります。

改行などの記号も表示されるように設定を変えたはずなので、「改行」記号も見えていますね。↓ です。

  私に親しい ~ 聞かせた。↓

  「科学者になるには ~ 少数である。↓

  この一件相反する ~ もちろんである。↓

こんな風に「改行」が入っていて、その「改行」の数に対応して行番号が付いています。このように(明示的に)「改行」した1行のことを「論理行」と呼ぶこともあります。


一方、初期設定の「ワープロ的」というのは、(改行がなくても)右端で「折り返し」たら新しい行としてカウントします。ということは、1行の長さが変われば行番号もどんどん変わっていくということになります。1ページに何行印刷できるかしら... みたいなことを見るにはいいかもしれませんが、ふつうにテキストファイルを扱う場合、このような行の数え方は、ほとんど何の意味もありません。


それで、まず最初のカスタマイズで[エディタ的]に設定を変えたわけです。これからも、秀丸エディタで「改行」と言えばすなわち論理改行のことだと考えてください。

side TRADOSに先日アップしたこの記事、

side TRADOS: Microsoft用語集(tbx)をMultiTerm化

のなかでも「論理行」という言葉を使っています。

さて、「改行」には実は2種類があり、PCの環境によって使われ方が違うということも、テキストを扱うときは知っておいてください。

CR = Carriage Return(キャリッジリターン、復帰)

LF = Line Feed(ラインフィード、行送り)


そして、PC世界では、どういうわけか伝統的に

UNIX、Linux 系 …… LF

Mac OS …… CR

Windows …… CR + LF

ということになっています。


そのため、ファイルの出所によっては、同じようにWindows上で開いても、そして見かけではまったく変わらなくても、改行の種類が違っていることがあります。


秀丸エディタでテキストファイルを開いたとき、改行の種類をすぐに判別できる方法があります。

[その他]→[動作環境]を開いたら、まず[上級者向け設定]のチェックボックスをオンにします。

1406128

次に、[設定の対象]→[ウィンドウ]→[高度なウィンドウ]を選択し、[エンコードの種類]を下の図のようなオプションに設定します。

1406129

こうすると、タイトルバーでファイル名の隣にファイルの文字コードと改行の種類が表示されるようになります。

14061210

以下は余談。

"Carriage Return"と"Line Feed"っていうのは、タイプライターを知ってる世代だとピンとくる用語ですよねー。

タイプライターの動きをまったく知らない人は、YouTubeでタイプライターの動きを見てみてください。


キャリッジというのは、タイプライターを打つと左のほうへ移動していくシリンダー状のパーツです。このキャリッジに紙を巻き付けてあるので、印字位置が左端から右端まで進んでいきます。行末まで進んだ時点で、このキャリッジはいちばん左まで移動しています。次の行に進むときは、したがって、このキャリッジを初期位置に戻す必要があります。

これが、「キャリッジ」の「リターン」(復帰)です。

ところが、キャリッジがリターンしただけでは、厳密にいうと水平移動するだけで、行は進みません。そこで登場するのが「ライン」を「フィード」すること、すなわち「行送り」という垂直方向の移動です。


つまり、タイプライター上の機構を考えると、まず

「キャリッジをリターン」= CR

してから

「ラインをフィード」= LF

するという2段階の動作が「改行」だったということになります。その伝統を、いわば律儀に守っているのがWindowsプラットフォームという感じでしょうか。


「ばかじゃん? キャリッジリターン(CR)したら、同じ行に重ねて打つわけないんだから行送り(LF)だって自動的にやるに決まってるだろ」という発想でCRだけにしたのがMac OS。

「行送り(LF)したら、そのままに位置じゃ右端なんだから左端にリターンする(CR)の当たり前だわい」という発想でLFだけにしたのがUNIX系。

……というわけではないのかもしれませんが、まあそんな感じです。

12:39 午後 翻訳者のPCスキル | | コメント (2)

はてなブックマークに追加

# 秀丸エディタの使い始め - 短期講座第2回 -

これ以降は、基本的に秀丸エディタがお手元にあるという前提で話を進めます。

お持ちでない方は、本家のサイトからダウンロードして、インストールしてみてください。

リンク:秀まるおのホームページ(サイトー企画)-秀丸エディタ

シェアウェアですが、試用段階でも機能制限なく使えます(起動時に余分なダイアログが表示されるだけ)。そのまま使い続けてもかまいませんが、一定以上使いこなせるようになったら、4,320円は安い、と思えるはずです。

今回は、秀丸エディタをインストールしたら、これだけはしておくといいかも、という設定について説明します。


なお、マクロによっては、こういう導入部分の設定までぜんぶやってくれる親切機能も含まれていたりします。ここでは、あくまでも手動で設定します。

インストールしたら、たとえば、次のファイルを秀丸エディタで開いてみます。

ファイル:寺田 寅彦『科学者とあたま』より抜粋

ダブルクリックするとブラウザ上で表示されてしまうかもしれません。右クリックして terada.txt をローカルに保存してから、秀丸エディタで開いてください。

ついでに、開く前に、ダウンロードしたファイルのアイコンも念のために確認。今までのテキストファイルのアイコンではなく、秀丸エディタに関連付けられたアイコンになっているはずです。


あ、そうだ。大切なことを言い忘れました。今回のようなアプリケーション導入でも、マクロやプログラミングの学習でも、いちばん大事なのは必ず

自分でもやってみる

ことです。この記事や書籍を

読んだだけでは身につかない

と心得ましょう。

さて、デフォルトだと、こんな風に見えると思います。

1406121

このデフォルト設定を、自分で使いやすいようにある程度カスタマイズしましょう(どんなアプリケーションでも、使いこなすにはまず設定関係を確認すること。これもスキル向上のコツだと思っています)。


※以下、スクリーンショットはクリックで拡大できます。


秀丸エディタのカスタマイズは、2系統あります。

[その他]メニュー→[動作環境...]……アプリケーション全体の設定

[その他]メニュー→[ファイルタイプ別の設定...]……ファイルタイプごとの設定


[ファイルタイプ別の設定...]の使い方は、ちょっと慣れが必要ですが、ひとまず以下のダイアログのとおりに設定してみてください。

1406122

terada.txtファイルを開いたままであれば、左上のラベルは[.TXTの設定]になっているはずです。ここは、今開いているファイルの拡張子が反映されます。

[共通]と見えているドロップダウンは、開いてみるといろいろなファイルタイプがあります。これを選択すると、ファイルタイプ別に(つまり拡張子ごとに)設定を変えられます。だから、ここは[ファイルタイプ別の設定...]なわけです。ここでは、どのファイルにも共通で設定を変えようとしているので、[共通]のままでOK。

[設定の対象]が[フォント]ツリーであることを確認して、フォントの[サイズ]を適当に選んでください。デフォルトはたしか9ポイントで小さすぎます。


1406123_2

次は、[設定の対象]を[体裁]に移動したところです。上の図のように、[禁則処理]をオンにしてください。和文のいわゆる禁則処理だけでなく、英文のワードラップもこれをオンにしないと機能せず、英文がたいそう見にくくなります。


1406124

[設定の対象]→[体裁]の下の[詳細]に移動しました。[行番号の計算方法]を[ワープロ的]から[エディタ的]に変更します。黄色い枠で囲ったオプションは任意ですが、少し行間を広げたほうが読みやすくなります。


1406125


1406126

上の2つは、どちらも[設定対象]→[デザイン]のオプションです。[改行文字]とか[全角空白]、[半角空白]などは表示しておいたほうがいいので、それぞれオンにします(上図)。

同じオプション欄を下までスクロールしたのが下図です。特に[ホームページURL][ファイル名と思わしく場所]はオンにしておいたほうがいろいろ便利。


最後に、このダイアログ全体の[OK]を押してください。[保存しないで更新]を押すと一時的な設定変更になり、次の*.txtファイルを開いたらデフォルトにもどってしまいます。


以上の設定を変更すると、このように変わると思います。

1406127

何がどう変わったか確認してください。

特に、行番号の付き方が変わったことに注目です。この話が次回に続きます。


アプリケーション全体の[動作環境]は、ひとまずデフォルトのままにしておきましょう。

11:41 午前 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.06.11

# テキストファイルについて - 短期講座第1回 -

6/28(日)のほんま会に向け、秀丸エディタと秀丸マクロについての簡単な予習になりそうな内容を、

翻訳者のPCスキル・短期集中講座

として連載してみようと思います。


第1回は、テキストファイルのお話です。

テキストファイルというものがちゃんとわかると、PCスキルが一段階向上すると思います。


Wikipediaにも項目はありますが(テキストファイル - ikipedia)、私なりにまとめておきます。


ざっくり言うと、テキストファイルというのは、

文字のデータだけでできているファイル

です(ここでいう「文字」は、数字、記号なども含んでいます)。文字データだけなので、原則的には≪ファイルサイズ = 文字のバイト数≫ということになります。


このテキストファイルを、"そのまま"開けるのが「テキストエディタ」と呼ばれるアプリケーションです。商用アプリケーション、フリーウェア、シェアウェアともいろいろ出ていますが、Windows界では秀丸エディタが老舗です。

Windowsにも標準で付属しています。それが、有名な「メモ帳」(英語名はNotepad、ファイルとしてはnotepad.exe)。Windows 1.0の頃(1985年)からあるそうなので、そうとう「枯れた」ソフトウェアということになります。

[すべてのプログラム]→ [アクセサリ]→[メモ帳]

で開きます。


メモ帳に文字を入力して保存するとどうなるか、これはside TRADOSの過去エントリにありますから、そちらも併せてご覧ください。

参照リンク:side TRADOS: PCスキル - 文字コードをもうちょっと意識する

さて、テキストファイルは通常、*.txtという拡張子です。つまり、*.txt ファイルをダブルクリックすれば、標準ならメモ帳が開くし、秀丸エディタをインストールしていれば、たぶん秀丸で開きます。


が、テキストファイルは *.txt だけではありません。ここからが"テキストファイル"の肝です。

自分のPCに、

*.html

*.xml

*.log

のような拡張子のファイルがあったら、片っ端からエディタで開いてみましょう。

と言っても、ダブルクリックではダメです。*.log はたぶんメモ帳で開きますが、上の2つはブラウザで開いてしまいます。エディタの[ファイル]メニューから開くか、エディタのアイコン(ショートカット等)上にドラッグアンドドロップしてください。

*.html というのは、ブラウザで表示するためのいろいろな情報(タグなど)が入ったファイルですが、中身はちゃんとエディタで読めるはずです。*.xml も *.log も同様。

1406111

↑これは、秀丸マクロのひとつ(*.mac)をメモ帳で開いたところです。


では、今度は

*.docx
*.xlsx
*.pdf
*.jpg

など、何でもいいのですが、ふだんそれぞれ専用アプリケーションで開いているはずのファイルをエディタで開いてみてください。ダブルクリックではダメですね。上に書いた方法で。

1406112

これが、*.docxを開いた画面です。部分的には読めますが、基本的にはまったくアウト。


このように、テキストエディタで開いて読めるファイルを「テキストファイル」と言います。

かたや、テキストファイルで開いても意味不明なファイルは「バイナリファイル」です。

バイナリファイルは、専用アプリケーションがないと編集できません。テキストエディタで開いて適当に編集してしまうと、本来のアプリケーションで正しく開かなくなります。

一方、テキストファイルは基本的にテキストエディタで操作が可能です。

PCの扱いに慣れてくるほど、テキストファイルとテキストエディタを頻繁に使うようになる、その理由がまさにここにあります。


具体例を、翻訳者になじみの深い例で説明します。

SDL Trados 2007 まででTagEditorを使ったことのある方は、*.ttxをテキストエディタでひらけることをご存じだったでしょうか。

TagEditorの検索・置換機能はけっして使いやすいものではありません。テキストファイルとしてエディタで開けば、いろいろな操作が可能です(正規表現による細かい検索など。ただし、タグを壊したりすると*.ttx として正しく機能しなくなるので要注意)。


虎使いじゃない方は、たとえばJammingをお使いであれば、Jammingのインストールディレクトリで

初期設定\dicpath

というファイルをさがし、エディタで開いてみてください。登録してある辞書のパスが書いてあります。マシン環境のお引っ越しで、もしJamming辞書データの置き場所が変わっても、ここを編集すれば簡単に移行できます。


つまり、テキストファイルを開ければ、

アプリケーション自体では不可能/不自由な部分をカバーできる

ことが多いわけです。

そして、秀丸マクロというのは、こういう「テキストファイル上のいろいろな操作を限りなく便利にするツール」です。

何でもできるとは言いませんが、

できることの範囲が想像以上に広い

ことは、間違いありません。

その範囲がちゃんと見えてくると、秀丸エディタのシェアウェア料金4,320円というのはまったく高くない、と思えるはずです。

12:05 午後 翻訳者のPCスキル | | コメント (0)

はてなブックマークに追加

2014.06.09

# ほんま会にお邪魔します - 6/29

「翻訳者のためのマクロ勉強会」、通称

ほんま会

をご存じでしょうか。

リンク:HOME - 翻訳者のためのマクロ勉強会

当勉強会は翻訳環境向上のために、秀丸エディタと秀丸マクロ、Word VBA、AutoHotKey等の研究を行う会です。

という趣旨で、大阪の特許翻訳者、糸目慈樹さんが立ち上げた勉強会です。通翻クラスタでは、

Wordマクロなら東の新田さん!

秀丸マクロなら西の糸目さん!

というのが、今ではすっかり定番になりました。


私自身は、今までなかなか都合がつかずに一度も出席できずにいましたが、そうこうしているうちに、次の東京勉強会には私もお邪魔して、手持ちの秀丸マクロを紹介することになりました。

リンク:東京勉強会詳細 - 翻訳者のためのマクロ勉強会


Facebookのイベントページはこちら:
https://www.facebook.com/events/1455012111412652/?ref=2&ref_dashboard_filter=upcoming&source=1


6/29(日)

午前の部・・・ 9:30~12:30
午後の部・・・13:30~16:30
懇親会もあり!


IJET-25の興奮もさめやらぬ、1週間後の日曜日です。


私は午後の部を担当(もちろん午前中から参加していますが)し、

Tradosその他のツールと秀丸マクロの連動

というテーマで、ふだん使っている秀丸マクロをご紹介します。

Trados(Studioを含む)を使う作業をちょっとだけ支援したり、Tradosだけだとなかなかうまく処理できない部分を秀丸マクロで補ったり、まあそんな内容です。

・検索を少しでも楽にしたい

・検索結果を効率的に使いたい

・TradosのConcordance検索がもの足りない

・各種の関連ファイルを見やすくしたい

・タグをぜんぶ消したい

……等々

単にマクロを紹介するだけではなく、どんな経緯でそれを作ったか、どんなロジックで動作するのかなど、これからマクロを自分で作ってみたい人のヒントにもなるようにお話しする予定です。


すでに7割ほどのお席が埋まっているということです。

04:48 午後 翻訳者のPCスキル, パソコン・インターネット | | コメント (3)

はてなブックマークに追加

2013.10.27

# 差分比較ツール、そろそろ必携でしょう

このカテゴリで久しぶりのエントリです。


すでにお使いの方も多いと思いますが、翻訳者は差分ツール(差分比較ツール)を持っていたほうが何かと便利だろうと思います。

分野によって多少の違いはあるかもしれませんが、どんな分野でも用語集が支給されることはありますよね。で、その用語集が更新される、場合によっては次々と更新され続けることもあります。そんなとき、更新情報が提供されればいいですが、そうでないといったい

どこにどんな変更があったのか

確認するのは、けっこうたいへん。そんなとき重宝するのが、差分ツール(差分比較ツール)です。

私自身が使っているのは、Araxis Mergeという有料のアプリケーション。

リンク:Araxis Merge | ファイル比較(diff)/マージツール | 特徴

これ、最低でも20,000円近くするので、個人で買うにはけっこう負担ですが、これを買ったのには理由があります(ちなみに、私が今使っているのは最新版ではありませんが、それで十分足りています)。

Araxis Merge、実は以前の勤務先で導入していて、その頃フリーウェアでは同等の機能のものがなかったんですね。つまり、

・2つのファイルを上下にしか表示できない。
(縦並びの左右表示でないと、直感的には差異を把握しにくい)

・長い行を折り返せない

・行に差異があることはわかるが、どこが違うか示されない

・テキストファイルしか使えない

・空白や空白行を無視する等のオプションがない

・比較結果を出力できない

などなどの欠点があった。逆に言うと、Araxis Mergeではこれが全部できる。まあ、20,000円近くするのですから、そのくらいできなきゃ意味がないわけです。

で、最近ちらっと調べてみたら、フリーウェアでも差分比較ツールもだいぶ進化していることがわかりました。

リンク:無料Diff(ファイル比較)ソフト一覧 - フリーソフト100

このページに紹介されているのが代表的ですが、そのほか、水野麻子さんのとこの「ちゃうちゃう」もまだ公開されています。

リンク:ちゃうちゃう! - 窓の杜ライブラリ


上のページで紹介されているいくつかのツールのうち、解説を読んだだけではわかりにくいものを、実際に軽く使ってみましたので、それをレポートしておこうと思います。


WinMerge

かなり高機能です。フォルダ単位でも比較もできます。

1310271

デフォルトではテキストファイルしか扱えませんが、プラグインを使えば、WordやExcelなどのバイナリファイルにも対応できちゃうみたいです。
リンク:xdocdiff WinMerge Plugin -Word、Excel、PowerPoint、pdfの比較・差分を見る-

これだけの機能があれば、有料アプリケーションに手を出さなくて済みそうです。


DF

これ、私が知ってた頃は上下表示しかできなかったような気がしますが...

1310272

いろいろと進化しています。上の図のように、最初は差分のある行が示されるだけで、その中のどこが違うかはわかりません。右クリックして[行比較]というコマンドを選ぶと、別ウィンドウで

1310273

こう表示されます。昔より多機能になりましたが、対応ファイルはテキストのみです。フォルダ単位の比較にも対応しています。


Rekisa

見せ方が独特です。

1310274

この図ではちょっと見えにくいですが、行内の差異(この例では、「組込」と「組込み」)も示されています。

ただし、行の折り返しはできないようですし、テキストファイルにしか対応していません。また、フォルダ単位の比較にも対応していないようです。


テキスト差分表示ツール

名前では「テキスト」となっていますが、実はWord/Excelファイルに対応しています。デフォルトでこれは珍しい。

1310275

これも、最初は差分のある行が示されるだけで、行内の差異はわかりません。DFと同じように、右クリックでコマンドを選ぶと上のほうのフィールドに行内の差異が表示されるようになっています。メニューをざっと見たところ、[表示行数50000超への挑戦...]なんてコマンドがあったりして、なかなか意欲的です。

フォルダ単位の比較は、別アプリになっています。


CompFile

これは、フォルダ内のファイルの差異を比較するだけで、ファイル自体は比較できません。用途が限定されます。


DiffImg

DiffPDF

Csv Diff

以上は、どれも対象ファイルの種類が限定されており、用途が限られます。ただし翻訳者に限って言えば、PDFを比較する機会は多いかもしれないので、DiffPDFはあると便利です。


このほかにも、ベクターや窓の杜をさがすと、今はかなりいろいろ出ているみたいです。いろい試して、自分の用途と趣味に合うアプリケーションをお選びください。

11:11 午前 翻訳者のPCスキル, パソコン・インターネット | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2013.05.12

# iTunesの「表示オプション」~年代順表示できた

iTunes 11って、やればできる子なのに、そこが表から見えにくくなっているのかも。

表示を切り替えるときは、ウィンドウの上のほうにある

1305125

これらのボタンを使うわけですが、以前から、

「アルバム」表示でも「アーティスト」表示でも、年代順に並べたい

と思ってました。


ちゃんとできるんですね。忘れてましたが、

[表示]→[表示オプション](Ctrl+J)

です。

iTunes 11にアップグレードしたとき、自分でこんな記事を書いてました。

# iTunes 11

このとき、[ジャンル]表示に切り替えて、[アーティスト]表示を選べたように、[年]というオプションもあります。しかも、どの表示かによって、表示オプションも微妙に違うんでした。


[曲]表示のとき(全曲リスト)は、こんな詳しいオプションです。

1305124

ただし、ソート基準は1つしかありません。


[アルバム]表示に切り替えると、

1305123

ソート基準が2つになります。つまり、全アルバム表示にしたうえで、

アーティスト別かつ年代別

という表示が可能。これをやりたかったんですよー。


[アーティスト]表示に切り替えると、

1305122_2

ソート基準は1つだけになりますが、すでにアーティスト別の表示になっているので、ここで[年]を選べばOK。


というわけで、目下順次読み込み中のグールド38枚組も、きれいに並ぶようになりました。

1305121


ただ、当たり前ですが、年代はCDに入っている情報から読み取られるので、必ずしもオリジナルの発行年になっているとは限らない。あとは[プロパティ]で年情報を修正するしかありません。

05:05 午後 翻訳者のPCスキル, 音楽 | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2013.05.09

# 翻訳者のための正規表現~勉強会の解説、その4

前回のお題解説で、最後に

数字の全角/半角置換となると、これはマクロの領域

と書きました。


このシリーズでは、(少なくともまだ)マクロの話まで踏み込むことはしませんが、実は最新の秀丸エディタがこの置換に対応しているので、そのことに少しだけ触れておきます。

全角から半角、または半角から全角という置換をふつうではできない、というのは想像していただけると思います。

[0-9]

[0-9]

という検索はできても、ヒットした箇所について、たとえば

半角の8→全角の8

とか

全角の5→半角の5

という対応を置換だけでは判断できないからです。


マクロには tohankaku とか tozenkaku なんていうコマンドがあるので、わりと簡単に書けてしまいます。それから、秀丸マクロには「変換モジュール」という機能があって---デフォルトのままだとメニューからは選べないかもしれません---、その中に半角置換/全角置換があるので、たとえば文字列を選んでその機能を使うこともできます。

でも、今回やっているような置換ダイアログでは指定できません。いえ、これまではできませんでした


で、前回も書いたように、勉強会の準備をしていたら、Ver.8.20以降でこの置換が可能になっています。

簡単に言うと、上に書いた「変換モジュール」の機能を正規表現の中で呼び出す、という荒技を実装したようです。

詳しくは、秀丸エディタのヘルプを起動して、目次ツリーから

[目次]-[ 検索系コマンド]-[正規表現]-[置換の時の、変換モジュールによる変換の指定 ]

を見てください。


これを使うと、前回のお題は最終的にこうなります。


【検索その5 ~本当の最終形】

 [0-90-9]+\f ?\f[((]\f.+?\f[))]

【置換】

 \(0,ToHankakuAlnum) \(\3\)


【解説】

前回の最終形では、置換文字列が

 \0 \(\3\)

なっていました。\0 指定しているだけなので、ヒットした数字の部分をそのままに引き継ぐだけでした。

その \0 を \(0,ToHankakuAlnum) にします。

ToHankakuAlnum というのが、「すべての数字を全角にする」という意味を持つ部分です。

ただし、これはあくまでも秀丸エディタ独自の正規表現であり、汎用性はありません。

08:47 午前 翻訳者のPCスキル | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2013.04.29

# 翻訳者のための正規表現~勉強会の解説、その3

4/23に開催した「十人十色・正規表現入門セミナー」後半の内容の復習、第3回です。

明日から天気が崩れますが、GW後半はまたいい天気になりそうですね。

お題その4

・数字の全角半角、それに続く丸カッコの全角半角が混在しているとき、
 ぜんぶ一括して「半角数字 + 半スペ + 半角丸カッコ(
この中は任意) + 半スペ」に置換する

【考え方の整理】

 ・全角半角すべての数字
 ・数字の直後はスペースがあったりなかったり
 ・全角半角の開き丸カッコ
 ・カッコの中身は任意の文字の続き
 ・全角半角の閉じ丸カッコ
 ・閉じカッコの直後はスペースがあったりなかったり

【ひとこと】

これはかなり高度な検索/置換になりますので、上の「考え方の整理」にあげたポイントを、順番に作っていくことにしましょう。これを順番に理解していけば、正規表現のマスターもかなりの段階まで進むはずです。


【検索その1】

 [0-90-9]+

 ---> 前半が半角数字、後半が全角数字です。+ を付けて1回以上の出現。

【検索その2】

 [0-90-9] ?+

 ---> もうお分かりですね。「半スペがあったりなかったり」は △? です。

【検索その3】

 [0-90-9] ?+[((] または

 ---> 半スペあり/なしの後に、全角半角の開き丸カッコ。

ここで、今までの内容をちゃんと理解してきた人であれば、[((]の部分に疑問を持った方がいらっしゃるかもしれません。そうです。正規表現を使っているときに半角の丸カッコを指定するには、\( のようにエスケープする必要があったはずですよね。

参照リンク:# 翻訳者のための正規表現~基本その4

はい。その通りです。したがって、上のパターンは

 [0-90-9] ?+[\((] または

と書いても同じ機能になります。ところが、[ ] で囲んだ範囲指定の中では、

 ピリオド(.)
 アスタリスク(*)
 プラス(+)
 クエスチョンマーク(?)
 丸カッコ ( )

はエスケープしなくても、その文字のままとして解釈されるのです。


【検索その4】

 [0-90-9]+ ?[((].+[))]

 ---> 開きカッコ [((]、閉じカッコ [))]、その間にある .+ が任意の文字列です。

さあ、今回最大の難関です。記事のいちばん下に練習用のテキストがあるので、ためしにこのパターンをコピペして検索を実行してみてください。

1304291

こんな風に、数字から、最後の閉じカッコまで一気にヒットしてしまいました。これでは、全体が1回だけ置換されて、とんでもない結果になってしまいます。本当は、

1304292

というようにそれぞれの箇所をヒットさせて、それを置換したいわけです。

どうして、上のスクリーンショットのように広い範囲がヒットしてしまうかというと、その原因は、.+ の部分にあります。このパターンの意味は「任意の1文字を1回以上繰り返す」ということでした。

さて、ここで指定しようと考えているのは、

 全角半角の数字 + 半スペあり/なし + 開きカッコ + 任意の文字列 + 閉じカッコ

というパターンです。たとえば、2013 (平成25) にヒットさせたいわけですから、

 2013 …… [0-90-9]+ でヒット
 △ …… △? でヒット
 ( …… [((] でヒット
 平成25 …… 任意の文字列 .+ でヒット
 ) …… [))] でヒット

するはずと想定したわけですが、.+ という指定が「平成25」でストップせず、

任意の文字にヒットするかぎりずーっと

(=次の条件にヒットするまで)ヒットしてしまうのです。

つまり、この例で言うと「~150」のところまでが .+ でヒットし、その後の全角丸カッコ [))] に当たって、そこでようやく止まったということです。

このように、「任意の文字(の複数回出現)」を指定したとき、別の条件が出てくるまでずーっと当たりになってしまう動作を、

最長一致

と言います。英語では、このような性質を greedy と表します。

ではどうするかというと、「任意の文字(の複数回出現)」が必要最小限の回数だけ当たる、

最短一致

(英語では non-greedy)で動作するよう指定します。

 [0-90-9]+ ?[((].+?[))]

またクエスチョンマークですね。.+ の後に ? を指定すると、上で想定したとおりの動作になります。

これで検索については、すべてのパターンを網羅できました。これに、区切り \f を入れれば完成です。


【検索その5 ~ 最終形】

 [0-90-9]+\f ?\f[((]\f.+?\f[))]

【置換】

 \0 \(\3\)

【解説】

 ・検索パターンについては、上に詳しく説明しました。
 ・区切り \f は4個入っています。説明すると、

  全角半角の数字\f△?\f開きカッコ\f任意の文字列\f閉じカッコ

 となっているはずです。

 ・\0△\(\3\)△ …… 最初の数字 + 半スペ + 半角開きカッコ + 任意の文字列 + 半角閉じカッコ + 半スペ


これで置換してみると ...... うまくいきませんね。スペースと半角カッコの処理はうまくいっているのですが、

全角数字を半角数字に置換

というのは、実は通常の正規表現ではできないのです。[0-9]と範囲指定しているだけですから、ヒットした数字をどの半角数字に置換していいか、までは判断できませんからね。

ということで、実は数字の全角/半角置換となると、これはマクロの領域になってしまいます。


…… というのが、私も佐川さんも共通の見解だったのですが、実は、これがつい最近のバージョンの秀丸エディタ(ver.8.20)からは可能になったのです。

私自身、今回の勉強会の準備をしているとき、初めて知りました。


さすがに長くなったので、これは次回に回します。興味のある方は、秀丸エディタのヘルプで「変換モジュールによる変換の指定」というトピックを調べてみてください。


----------練習用テキスト・始----------

2013 (平成25) 年4月15(現地時間)日、アメリカ北東部・ボストンで開催されていたボストンマラソンのゴール付近で2(あるいは3)回の爆発が起き、100(~150)人以上が死傷する事件が発生した。

----------練習用テキスト・終----------

ふー、疲れた。


でも、こんな風に勉強会の準備をすると、自分でもいい勉強になるんですよね。今回もそれを痛感しました。

03:48 午後 翻訳者のPCスキル | | コメント (0) | トラックバック (0)

はてなブックマークに追加

# 翻訳者のための正規表現~勉強会の解説、その2

4/23に開催した「十人十色・正規表現入門セミナー」後半の内容の復習、第2回いってみます。

お題その3

・和文中の余分なスペースを削除する
例:国内の△農業△生産 → 国内の農業生産


【考え方の整理】

 ・和文文字すべてにヒットするパターンを作る
 ・\f 区切りを使って、半角スペースだけ削除するように置換する

【検索】

 [亜-熙ぁ-んァ-ヶー。、・]\f \f[亜-熙ぁ-んァ-ヶー。、・]

【置換】

 \0\2

【解説】

 ・[亜-熙ぁ-んァ-ヶー。、・] …… 漢字、ひらがな、カタカナ(長音含む)、句読点
 ・\f△\f …… 半角スペースの前後に区切り


これ、使う場面は多いと思います。リクエストで説明いただいたのは、「PDFなどをOCRすると、(原典の改行がスペースに置き換えられる等の理由で)不要な半角スペースが入る、それを削除したい」ということでした。そのほか、ブラウザ上の文字列をコピーしたときにも、同じように不要な半角スペースが入ることがあります。

ひらがなの範囲指定は[ぁ-ん]、1文字目は小さい「ぁ」であることに注意してください。

カタカナの範囲指定[ァ-ヶー]でも、「ァ」と「ヶ」はそれぞれ小さい文字です。

漢字の範囲については、佐川さんと私でちょっと流儀が違いました。佐川さんは、「第1水準と第2水準の漢字」ということで、

[亜-黑]

と指定していましたが、私はいつもこのパターンです。「熙」より後の漢字(シフトJISの文字コードで)は一般的な文章にほとんど出てこないので。ちなみに、秀丸エディタで検索文字に「熙」より後の漢字(「神」や「祥」)を指定すると、ダイアログの右下のほうに「機種依存文字です」という警告メッセージが出ます。詳しくは、秀丸エディタのヘルプで「機種依存文字について 」を参照してください。


お題その4については、失敗例を挙げながら説明するので、かなり長くなります。稿を改めましょう。

----------練習用テキスト・始----------

また、農地集積の推進に関して、「我が国の食と 農林漁業の再生のための基 本方針・行動計画」(平成 23 年 10 月 25 日食と農林漁業の再生推進本部決定)及び「「我が国の食と農林漁 業の再生のための基本方針・行動計画」に関する取組方針」(平成 23 年 12 月 24 日農林水産省)において、①戸別所得補償制度の規模拡大加算、②人・農地プラン(地域農業マスタープラン)に位置付けられた中 心経営体への農地集積に協力する者に対する協力金の交付等の施策により農地集積を加速化し、これによ り、土地利用型農業について、平成 28 年度までに「平地で 20~30ha、中山間地域で 10~20ha の規模の経 営体が大宗を占める構造を目指す」こととされている。

----------練習用テキスト・終----------

01:59 午後 翻訳者のPCスキル | | コメント (0) | トラックバック (1)

はてなブックマークに追加

2013.04.28

# 翻訳者のための正規表現~勉強会の解説、その1

前回は、置換の初回からいきなり難しい話になってしまいましたが、先日(4/23)の勉強会に参加していただいた方には、\f の使い方もだいぶわかっていただけたかもれしません。


今回は、特別編として、先日の勉強会でみなさんからいただいたお題に対する回答を説明しながら、置換の実例をいくつか紹介しようかと思います。勉強会では、回答をスライドでお見せしながら、いくつか実際に試していただきましたが、公開録画では画面が見えないので、録画の説明音声を聞きながら、以下の説明を読んでいただくといいかもしれません。

これ以降、表記は以下のようにします。

・「お題」と【解説】の中では半角スペースを△、全角スペースを□で表します。

・【検索】、【置換】の中では、半角スペースも全角スペースも実際の文字で表しています。

・したがって、「回答」の文字列は、そのままコピペすれば試すことができます。
 (コピペできる範囲は水色を付けてあります)

・【解説】を読む前に、できるだけ検索/置換の意味を自分で考えると練習になります。


お題その1

・Page△12 → 12ページ

【考え方の整理】

 ・数字はそのままにする(複数桁の場合もある)
 ・半角スペースは削除する
 ・"Page" → 「ページ」に置換する
 ・数字と「ページ」の順序を入れ替える

【検索】

 Page \f[0-9]+

【置換】

 \1ページ

【解説】

 Page△ …… 英語の"Page"と半角スペース
 \f …… 区切り文字
 [0-9]+ …… 半角数字が1回以上出現

 \1ページ …… 区切り文字 \f の後の部分(=数字)に、「ページ」を続ける


お題その1の応用

・Page△12 → 12ページ
・Page24 → 24ページ

【考え方の整理】

 ・数字はそのままにする(複数桁の場合もある)
 ・原典がいい加減で、半角スペースがあったりなかったりする
 ・どちらにしても、半角スペースは削除する
 ・"Page" → 「ページ」に置換する
 ・数字と「ページ」の順序を入れ替える

【検索】

 Page ?\f[0-9]+

【置換】

 \1ページ

【解説】

 Page△? …… 英語の"Page"と、半角スペースが0回か1回
 \f …… 区切り文字
 [0-9]+ …… 半角数字が1回以上出現

 \1ページ …… 区切り文字 \f の後の部分(=数字)に、「ページ」を続ける


前回書いたように、\f で区切ったパートを表すとき、1つ目は \0 で始まることに注意してください。したがって、今回の場合、数字に当たる部分は \1 です。

このお題のように、「一部を置換し、順序を入れ替える」というパターンを習得するだけで、正規表現による置換を活用できる場面は大きく広がります。ぜひマスターしましょう。

「応用」で違っているのは、半角スペースの直後のクエスチョンマーク(?)だけです。「ある文字があったりなかったりする」とき、これを使いこなせるとかなり実用性が上がります。


お題その2

・長いカタカナ語を最初の3文字にしたい
 例:「クルーズ・コントロール」を「クルー」に

【考え方の整理】

 ・カタカナすべてを表すパターンは、[ァ-ヶ]
 ・2文字目以降には中黒(・)と長音記号(ー)も出てくる
 ・3文字目まで、とそれ以降を区切る

【検索】

 [ァ-ヶ][ァ-ヶー・]{2}\f[ァ-ヶー・]+

【置換】

 \0

【解説】

 [ァ-ヶ] …… 1文字目はカタカナのみ
 [ァ-ヶー・] …… 2文字目以降は長音記号と中黒もあり
 {2} …… 直前の文字が2回繰り返される
 \f …… 区切り文字
 [ァ-ヶー・]+ …… 任意の数のカタカナ(長音と中黒を含む)が続く

 \0 …… 区切り文字 \f の前の部分(=カタカナ3文字分)


途中で区切り文字 \f を使うことは予想できたと思います。\f より前の部分を

[ァ-ヶー・]{3}

と書いてもよさそうですが、こうすると箇条書きの行頭マークとして中黒が使われている場合にもヒットしてしまうので、1文字目だけパターンを変える必要がありました。

上の説明で使った {2} とか {3} とか、つまり「中括弧でくくった数字」は、基本編で説明していませんでした。

基本編では、「直前の文字を繰り返す」指定として、

アスタリスク(*)…… 0文字以上
プラス(+)…… 1文字以上
クエスチョンマーク(?)……0文字または1文字

を紹介しましたが、中括弧 { } を使うと、繰り返し回数を任意で指定することができます。


{2}、{3} のように数字を1つだけ指定すると(桁数は任意)、その回数の繰り返しになります。

例:

[0-9]{4}
2013 のような年号にヒットします。


{2,5} のように、カンマで区切って数字を2つ指定すると(桁数は任意)、その範囲の繰り返しになります。

例:

[ぁ-ん]{4,8}
4文字以上8文字以下のひらがなにヒットします。


{5,} のように、数字(桁数は任意)とカンマだけ指定すると、その数以上の繰り返しになります。

例:

[亜-熙]{4,}
4文字以上連続する漢字にヒットします。


第1回はここまでですが、以上の内容を練習するためのテキストも以下に貼っておきます。これをテキストファイルにコピペして、上の検索/置換を練習してみてください。


----------練習用テキスト・始----------

Page 1
Page5
Page 234

クルーズ・コントロール
ユーザーインタフェース
・クルーズ・コントロール(冒頭の中黒)

----------練習用テキスト・終----------

11:27 午後 翻訳者のPCスキル | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2013.03.20

# 翻訳者のための正規表現~置換その1

シリーズ、かなり間が空いてしまいました。

前回までで、検索の基本パターンはひととおりご紹介しました。次は、翻訳者にとって実際に活用する場面が多い

置換

に進もうと思っていたのですが、置換の話をどこから始めたらいいか、ずっと悩んでいたというのも間が空いた理由のひとつです。


いきなり難しくなるかもしれませんが、実用本意で始めてみることにします。

基本その2で、実用パターンとしてこれを挙げました。

行な[わいうえおっ]

送りがなに「な」を含む動詞「おこなう」の、すべての活用形を検索するパターンです。


では、このすべての出現箇所について

「な」を削除して、「行わ、行い、行う、行え、行お、行っ」にしたい

場合、どんな置換を指定すればいいのでしょうか。

今までの基本知識を総動員すれば、

1303201

となりそうですが、これは失敗します。自分で試してみてください。


正規表現を使う置換で多くの人がつまずくポイントのひとつは、ここなんではないかな、と実はひそかに思っています。つまり、正規表現の指定パターンが、

検索文字列と置換文字列で同じではない

というその1点です。


上の例で言うと、

行な[わいうえおっ]

のカッコ内は「わ、い、う、え、お、っ」のいずれか、というだけで、つまり順序はありません。だから、置換文字列に

行[わいうえおっ]

と指定しても、順序が決まっていない以上、勝手に置換するわけにはいかないのです。


ではどうするかというと、

検索文字列のなかで、置換する部分と、そのままにしておく部分を切り分ける

という発想をします。つまり、上の例であれば、

行な[わいうえおっ]

のなかで、

行な

の部分は置換するが、送りがなに当たる

[わいうえおっ]

の部分は置換せずそのまま残す、わけです。


そうすると、必要になるのは

検索文字列をパートに切り分け、その各パートを置換文字列のなかでA、B...のように参照する

ことです。わかりにくいと思いますが、続けます。


秀丸エディタの正規表現の場合、パートの切り分けに使うのが

¥f

という記号です(半角の円記号と半角のf)。上の例であれば、

行な¥f[わいうえおっ]

と指定します。これで、検索文字列は 行な [わいうえおっ] の2パートに区切られました。

そして、¥fで区切られた各パートを、置換文字列のなかでは

¥0、¥1、¥2...

で表します(半角の円記号と半角数字)。0で始まるところがちょっとイヤンかもしれませんが、

行な = ¥0
[わいうえおっ] = ¥1

と対応することになります。そこで、

¥0 のパート → だけに置換する
¥1 のパート → そのまま残す

という置換を指定すればいいことになります。実際のダイアログでは、

1303202

こうなります。赤下線のバートが

行な = ¥0 → 行

青下線のパートが

[わいうえおっ] = ¥1 → そのまま

ということになるのですが、わかっていただけたでしょうか。


ただし、今回ご紹介したのは秀丸エディタに固有の指定方法であり、Perl などでも使える汎用性の高い指定方法は別にあります。ただ、この指定方法はわりと直感的かなーと個人的に思っているので、ひとまずそれを紹介しました(というか、しばらく前のバージョンの秀丸エディタでは、これしか使えなかった)。



【今回のまとめ】

●検索文字列と置換文字列で正規表現の指定は同じではない

●[a-z] や (エディタ|エディター) などを検索文字列には指定できない

●検索文字列をパートに区切る記号は ¥f

●¥f で区切った各パートは ¥0、¥1、¥2... で参照する


【すぐに使える実用的なパターン】

検索文字列:[0-9a-zA-Z]\f ¥f [ァ-ヶーぁ-ん亜-熙]
置換文字列:¥0¥2

  ……半角文字と全角文字の間の半角スペースを削除

※解説が必要かもしれません。次回で解説します。

03:22 午前 翻訳者のPCスキル | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2013.01.27

# side Trados 更新情報(1/27)- 文字コードの話

「PCスキル - 文字コードをもうちょっと意識する」

というエントリをこちらのside Aにアップしたのですが、よく見たら前回がside Tradosの記事だったので、そちらに移動しました。

09:24 午後 TRADOS, 翻訳者のPCスキル | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2013.01.02

# 翻訳者のための正規表現~簡単な国文法のおさらい

前回までに「基本」としてまとめた内容を、翻訳のときに実用できそうな例で復習していこうと思いますが、その前に知っていると有利な話をひとつしておこうと思います。それは、中学校レベルの国語文法。具体的に言うと、

動詞と形容詞の活用

の話です。


五段活用動詞

書か-ナイ
書き-マス
書く。
書く -トキ
書け-バ
書け-ヨ
書こ-ウ

(覚えてますか|思い出しましたか)。

このかような活用形すべてにヒットするパターンは、「カ行五段」ですから、

書[かきくけこ]

ですが、実はもうひとつ「音便形」というものを想定しないといけません。つまり、「書い-タ」です。そこで最終的には、

書[かきくけこい]

となります。

走る-ナイ
走り-マス
走る。
走る -トキ
走れ-バ
走れ-ヨ
走ろ-ウ

音便形は、「走っ-タ」なので、すべてにヒットするパターンは、

走[らりるれろっ]

となります。

このように、五段活用の場合は、[かきくけこ]、[たちつてと] のような五段の文字と、音便形を想定します。音便には、「い、っ、ん」の3種類があります(騒い-ダ、終わっ-タ、読ん-ダ)。


上一段活用

起き-ナイ
起き-マス
起きる。
起きる -トキ
起きれ-バ
起き(ろ)-ヨ
走き-ヨウ


下一段活用

食べ-ナイ
食べ-マス
食べる。
食べる -トキ
食べれ-バ
食べ(ろ)-ヨ
食べ-ヨウ

このように、上一段活用と下一段活用の動詞は、「起き」、「食べ」のように指定すればすべての活用形にヒットするので楽です。しかも音便形もないので、さらに話は簡単。


カ行変格活用

来-ナイ
来-マス
来る。
来る -トキ
来れ-バ
来い

これも「来」だけ指定すればOK。ただし、「以来、本来」とか「来年、来日」などと区別するための工夫が別に必要です。


サ行変格活用

さ-セル
せ-ズ
し-ナイ
し-マス
する。
する -トキ
すれ-バ
しろ
せよ

「変格」という名前どおり、けっこうややこしいのですが、パターンとしてまとめると、

[さしすせ]

です。ただし、このパターンだけ指定したらいろんな箇所にヒットしちゃいますし、「トライする、学習する」のように前に熟語やカタカナ語が付くパターンも多いので、実際には使い方はちょっと厄介です。


形容詞

高かろ-ウ
高かっ-タ
高い。
高い-トキ
高けれ-バ

1通りだけなので、語尾のパターンは

[かくいけ]

です。

このほか、助詞のうちでも名詞の格を表す格助詞も知っておくと、さらに有利。

を・に・が・へ・や・の・と・から・で・より

以上、めんどくさそうな話をしましたが、次のエントリで実例をみればもう少しわかりやすいと思います。

10:44 午後 翻訳者のPCスキル | | コメント (5) | トラックバック (0)

はてなブックマークに追加

# 翻訳者のための正規表現~基本その4

おとそ気分で、基本第4回いってみまーす。


前回までの基本でかなり検索できる範囲は広がりました。ここらで、「メタキャラクタ」、「エスケープ文字」、「エスケープシーケンス」という概念を覚えましょう。

今までの基本で、正規表現には以下の文字を使いました。

ピリオド(.)

アスタリスク(*)

プラス(+)

クエスチョンマーク(?)

大カッコ [ ]

丸カッコ ( )

ハイフン(-)

カレット(^)

縦棒(|)


言い換えれば、これらは正規表現の中で一定の機能をもつ特殊文字であり、メタ文字メタキャラクタと呼ぶこともあります。


このほか、秀丸エディタで開いているテキストファイルの中には、やはり特殊な表現を使わないと検索できない部分があります。

1301021

この図に示した、行頭とか行末を検索したい場合です。このようなとき、以下のようなメタキャラクタを使います。

カレット(^)
機能:行頭を表す

ドル記号($)
機能:行末を表す


再登場したカレット(^)は、注意が必要です。

[ ]の先頭で使うときは除外を表しました。行頭を表すのは、[ ]の先頭にないときだけです。たとえば、

[^a-zA-Z]

なら「アルファベット以外」を表しますが、

^[a-zA-Z]

とすると、「行頭にアルファベットがあるもの」にヒットします。

また、タブ改行など(制御文字と言います)を表したいときには、

円記号 + 所定の文字

という表記方法があり、このような表し方をエスケープシーケンスと言います。実際に使用する代表的なエスケープシーケンスは以下のとおり。

\n
機能:改行を表す

\t
機能:タブ文字を表す

\<
機能:英単語の始まり

\>
機能:英単語の終わり

\w
機能:英単語

このような表現、つまりエスケープシーケンスを作るときの円記号をエスケープ文字と言います。

エスケープ文字には、もうひとつ重要な役割があります。それは、上にあげたようなメタキャラクタそのものを検索したいとき、です。

たとえば半角丸カッコを検索したいときには、

だけではなく、

\(

と指定します。

秀丸エディタの場合、検索ダイアログで「正規表現」をオフにすれば、エスケープせずに半角丸カッコを検索することは可能です。しかし、他の正規表現と組み合わせて使う場合には、エスケープしなければなりません。

例:

\([ァ-ヶーぁ-ん亜-熙]

和文の前に半角丸カッコがある場合を検索します。「和文中では丸カッコを全角にしなければならない」というルールのときに使えます。



【今回のまとめ】

●正規表現に使う特殊文字をメタキャラクタ(メタ文字)と言う

アスタリスク(*)、プラス(+)、クエスチョンマーク(?)、大カッコ [ ]、丸カッコ ( )、ハイフン(-)、カレット(^)、縦棒(|)、ドル記号($)などがある

●メタキャラクタのなかには、使い方によって意味の異なるものもある

●円記号(エスケープ文字)を付けた表現をエスケープシーケンスといい、特殊な制御記号などを検索できる

\t、\n、\<、\>、\w などがある


【例】
[^。]\n
  ……改行の前に句点がない箇所にヒット

^"
  ……行頭に二重引用符がある箇所にヒット
  ※Excelからテキストに貼り付けたとき、セル内改行があるセルの先頭には二重引用符が付きます。

\w\t\w
  ……英単語 + タブ + 英単語という箇所にヒット

07:47 午後 翻訳者のPCスキル | | コメント (3) | トラックバック (0)

はてなブックマークに追加

2012.12.17

# 翻訳者のための正規表現~基本その3

ここまで、基本その1~基本その2で説明してきたパターンのルールは、大ざっぱに言うと

・1文字単位のヒット

・いろいろな繰り返しパターン

のバリエーションでした。範囲も指定しましたが、ヒットするのはあくまでもその範囲の1文字、でした。


基本その3では、文字列のかたまりを扱うパターンについて説明します。



論理和(OR)
縦棒(|)
機能:縦棒で区切ってと並べた文字列のいずれかにヒット

論理和などと言うと難しそうに聞こえますが、まあ気にしないでくださいw 縦棒で並べる語句の数は、環境によって制限があったりなかったりします。

例:

日本|イタリア|ドイツ

先の大戦で負けた、いずれかの国名にヒットします。


仁|義|礼|智|忠|信|孝|悌

八犬伝でおなじみの8文字のいずれかにヒットしますが、これが無意味なことはもうおわかりだと思います。すでにやった [仁義礼智忠信孝悌] のパターンを使うべきです。


グループ化
丸カッコ ( )
機能:カッコで囲った文字列をグループとしてひとまとめにする

これを覚えると、指定できるパターンがぐっと広がります。ぜひ、基礎としてここまではマスターしてください。

1文字の繰り返しは、クエスチョンマーク(?)、アスタリスク(*)、プラス(+)のいずれかでしたが、2文字以上を繰り返したいときにはどうすればいいでしょうか。たとえば、「レレレ~」ではなく、「オラオラオラ~!」みたいな場合。

こういうとき、「オラ」を丸カッコでグループ化します。

(オラ)+

こうすると、

オラ、悟空だ」にも「オラオラオラ~!」

にもヒットします。


最初にやった縦棒のORも、実はこの丸カッコと組み合わせるともっと実用性がアップします。

日本|イタリア|ドイツ

のそれぞれに「~軍」と続けるにはどうすればいいか、ちょっと考えてみてください。

日本|イタリア|ドイツ軍

では、「日本、イタリア、ドイツ軍」のいずれかになってしまいます。そこで、

日本|イタリア|ドイツ

のかたまりを丸カッコでくくり、

(日本|イタリア|ドイツ)軍

とすれば、3カ国の軍ぜんぶにヒットします。


accessor(y|ies)

英字でもやってみます。これでaccessoryの単数複数、両方にヒットします。



【今回のまとめ】

●縦棒で区切ると、ORとして機能する

●縦棒で、文字列の「いずれか」にヒットする

●1文字単位にも縦棒は使えるが、あまり意味はない

●丸カッコで文字列をグループ化できる

06:17 午後 翻訳者のPCスキル | | コメント (0) | トラックバック (0)

はてなブックマークに追加

# 翻訳者のための正規表現~基本その2

ちょっと時間が空いてしまいました。基本のその2に入ります。


今回は、複数の文字と、文字の範囲を扱う方法を取り上げます。前回までにすでに使っているルールを詳しく説明するだけですが......



指定した文字のいずれか
大カッコ [ ]
機能:大カッコの中に指定したいずれか1文字にヒット

たとえば、[日米仏独西]と指定すれば、「日」、「米」、「仏」、「独」、「西」のいずれかにヒットします。「日米」という2文字があればそれにもヒットしますが、これは「日米」にヒットしたわけではなく、「日」と「米」に連続してヒットしているだけです。

もちろん、大カッコだけの単独ではなく他の文字列と組み合わせて使うことができるので、出番の多いパターンです。翻訳作業に関連して言えば、たとえば動詞や形容詞の活用形すべてを検索するときなどに活躍します。

例:

行な[わいうえおっ]

動詞の送りがなをチェックするパターンです。「行う = ○、行なう = ×」という仕様はよく見かけますが、このルール違反を探すとき、「行なう」だけ検索していたのではまったくの片手落ち。

行なわ - ナイ
行ない - マス
行なっ - テ
行なう - 。
行なう - トキ
行なえ - バ
行なお - ウ

という活用形すべてを検索しなければなりません。

一方、無精して「行な」だけを検索すると、たとえば「銀行など」のような出現箇所もヒットしてしまいます。中学校で習った現代国語文法の知識を思い出しながら、[ ]の中に活用語尾をすべて指定してください。

五段活用、上一段活用、下一段活用、サ行変格活用…… 覚えてますか? 形容詞の活用はどうですか?

五段活用の場合、「わいうえお」や「まみむめも」のほかに、小さい「っ」や「ん」が必要になる場合もありますね。音便、というやつです。

も[たちつてとっ]

動詞「持つ」を漢字で書かなきゃいけないときのチェックパターンです。ただし、「もたらす」のような部分もヒットしてしまいます。このような

過剰検出

は、どうしても避けられない場合があります。仕様ルールチェックなどの場合は、検出から漏れてしまうケースがあるより、過剰に検出されるほうがいい、というのが原則です。


指定した範囲の文字のいずれか
大カッコ [ ]の中でハイフン(-)
機能:大カッコの中で範囲指定したいずれか1文字にヒット

すでに何回か実際に使いました。問題なのは、

範囲は、文字コードが基準

であることです。0-9、a-z、A-Z のように連続していることが明らかな1バイト文字であれば単純ですが、漢字、ひらがな、カタカナは、範囲の最初と最後を知らなければ指定できません。

それを知るには、たとえばこのようなページを参考にします。

リンク: 全角文字一覧

これを見ると、ひらがな、カタカナ、漢字の全範囲は、それぞれ

[ぁ-ん] ※最初は小さい「ぁ」

[ァ-ヶ] ※最初は小さい「ァ」、最後は小さい「ヶ」

[亜-熙]

であることがわかります。カタカナの場合、長音も含まれるので、実用的には

[ァ-ヶー]

となります。このカタカナのパターンでわかるように、[ ]内では、個々に指定する「いずれか1文字」と、ハイフンで指定する「範囲のいずれか」を並べて書くことができます。

また、複数の範囲をそのまま並べることもできるので、

[0-9a-zA-Z]

とすれば、大小の英字と数字をすべて検索できます。区切りは不要です。


ところで、どうでもいいことですが、漢字の範囲の最後の文字「熙」って、「康煕字典」とかでしか見かけない字ですね。


文字の除外
大カッコ [ ]の先頭でカレット(^)
機能:カレット以降の文字をすべて除外

カレット(^)以降に指定するパターンは、上述した個々の指定でも範囲指定でもOK。これも応用範囲の広いパターンです。

[ ]内の途中にカレットを置いても機能しないので注意してください。

サーバ[^ー]

こうすると、最後に長音が付かない「サーバ」がヒットします。「サーバー = ○、サーバ = ×」という仕様のときチェックに使えるパターンです。

ナビゲート[^さしすせ]

「さしすせ」はサ変動詞の活用語尾で、それを除外しています。つまり、「ナビゲートする」、「ナビゲートして」のようなサ変動詞にヒットします。



【今回のまとめ】

●[ ]の中に文字を羅列すると、そのいずれか1文字にヒットする

●[ ]の中では、ハイフン(-)で文字の範囲を指定できる

●ハイフン(-)による文字の範囲は文字コードに従う

●ハイフン(-)で複数の範囲を並べられる

●[ ]の先頭にカレット(^)を置くと、それ以降がすべて除外される


【すぐに使える実用的なパターン】

[0-9a-zA-Z]
  ……英数字(1バイト)

[0-9a-zA-Z]
  ……全角の英数字すべて

[、。ァ-ヶーぁ-ん亜-熙]
  ……(通常使う)和文の文字すべて。

[ヲ-ン]
  ……半角カタカナすべて

10:27 午前 翻訳者のPCスキル | | コメント (0) | トラックバック (0)

はてなブックマークに追加

2012.11.18

# 翻訳者のための正規表現~基本その1の応用

1つ前のエントリで、

インタフェース、インターフェース、インタフェイス、インターフェイス

という4通りの表記をあげました。


では、このシリーズの前回までに説明した基本ルールを使って、この4通りすべてを検索できるパターンを書くことはできるでしょうか?


「続きを読む」に進む前に、まず自分で試してみましょう。

正規表現のパターンを考えるうえで大切なのは、

・出現するすべてのパターンを想定すること
・パターンの中で共通部分と差異部分を整理すること

だろうと思います。


今回のお題では、出現パターンはすでに示されているので、共通部分と差異を考えます。

インタフェース
インターフェース
インタフェイス
インターフェイス

・最初の「インタ」は共通
・途中の「フェ」も共通
・最後の「ス」も共通
・「インタ」の後は、長音あり/なし
・「フェ」の後は、長音か「イ」

こんなふうに整理できれば、それをルールに当てはめるだけ。つまり、「インタ●フェ▲ス」と書いてみて、●と▲に当たるルールを考えればいいわけです。

●のところは、長音が「あってもなくてもいい」ので、「0回か1回以上の出現」を表すクエスチョンマーク(?)を使うのが常套です。ここではアスタリスク(*)でもOKですが、プラス(+)ではダメ。理由は自分で考えてみてください。

▲のところは長音か「イ」のいずれか、なので、[ ]を使います。


ということで、正解のパターンは

インター?フェ[ーイ]ス

です。

インター?フェ[ーイ]?ス

とすれば、レアだと思いますが「インターフェス」の形にもマッチします。


11:08 午前 翻訳者のPCスキル | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2012.11.11

# 翻訳者のための正規表現~基本その1

それでは、改めて基本からはじめることにします。

第1回でまとめたように、"正規"表現というのは、

パターンを指定して、それに一致するものをすべて検索する

ことでした。

したがって、正規表現を使えるようになるというのは、このいろいろなパターンの指定方法を覚えるということになります。その基本を、何回かに分けて説明します。

なお、前回書いたように、このシリーズの正規表現は秀丸エディタで使えます。秀丸エディタ、あるいはエディタ全般を使ったことがない人は、いい機会ですからダウンロードして使ってみてください。

リンク: 秀まるおのホームページ(サイトー企画)-秀丸エディタ

シェアウェアですが、機能制限も期限もなしに試用できます(起動時にダイアログが表示される)。

それでは、基本ルールです。


任意の1文字
ピリオド(.)
機能:どんな1文字にも一致

伏せ字に使う×みたいなもんですね。複数並べれば、その文字数にマッチします。
※以下、例は背景色を変えていますが、ピリオドはゴミみたいで見落としそうなので、よーく見てくださいね。

例:

1.2
真ん中にどんな1文字があってもマッチします。102、112、1a2、1俺2 など

..省
「○○省」にマッチします。厚労省、文科省など。ただし、「数を省く」などにもマッチすることに注意。

例でもわかるように、マッチする文字のバイト数は関係ありません。でも、たぶんこれだけじゃ、あまり使い途はないですね。


0回以上の繰り返し
アスタリスク(*)
機能:直前のパターンを0回以上繰り返す

例:

レ*
「レレレのレ~」の中の「レレレ」と「レ」にヒットします。「ドレミ」の中の「レ」にもマッチします。

レレ*
「レ」を2つ書いてから * を指定するとどうなるでしょうか。「レレレ」にヒットするのはわかりますが、1文字の「レ」にもマッチしませんか?

実はこれが「0回以上」の秘密です。レ* という指定の意味は「レが0回以上」です。「レ」が0回でいいんなら、どんな文字にでもマッチしそうですが、さすがにそういう仕様にはなっていません。したがって レ* という指定は実質的には「1回以上」です。

ところが レレ* と書くと0回以上が意味を持ってきます。つまり1つ目の「レ」でまず1文字は「レ」がなきゃいけない。ところが2つ目は0回でもいいわけですから、1個で終わっても2個以上終わってもいい。つまり、これも実質的には「レが1回以上」になるのですね。

レレレ*
実質的に「レが2回以上」になりますね。よって、「レレレのレ~」の中の「レレレ」にだけマッチします。

Rerere


このピリオド(.)とアスタリスク(*)を組み合わせれば、「任意の文字を何文字でも」の意味になります。実際、この組み合わせを使う場面はよくあります。

例:

.*
これだけ指定すると、文字どおりすべての文字にマッチします。

To .*:
Toで始まってコロンで終わる箇所をさがすことができます。


1回以上の繰り返し
プラス(+)
機能:直前のパターンを1回以上繰り返す

上記のようにアスタリスクの「0回以上」はちょっと特殊なので、「1個以上ある」ことをはっきりさせたいときにはプラス記号(+)を使います。

例:

レ+
「レレレのレ~」の中の「レレレ」と「レ」と、「ドレミ」の中の「レ」にもマッチします。アスタリスクの場合と変わりません。

レレ+
レレ* の場合と違う結果になります。理由はもうわかりますね。


さて、アスタリスクもプラスも、「文字を繰り返す」ではなく「パターンを繰り返す」と説明されているところに注目してください。つまり、上の例にあげたような文字だけではなく、一定のパターンも指定できるということです。

今回より前にやった [ ] を思い出してください。[0-9]で数字10個を表しました。これを繰り返し記号と組み合わせ、次のようになります。

例:

[0-9]+
何桁でも、数字の連続にマッチします。ただしカンマ区切りがあるとそこで切れてしまいます。

[0-9,]+
こうすれば、カンマ区切りも含んだ数字にマッチします。

[a-zA-Z]+
アルファベットでできた単語にマッチします。

[ァ-ヶー]+・[ァ-ヶー]+
中黒で結ばれたカタカナ用語にマッチします。


0回か1回以上の出現
クエスチョンマーク(?)
機能:直前のパターンを0回または1回繰り返す

アスタリスクとプラスの中間みたいで半端そうですが、たとえばこんな風に使えます。

例:

インター?フェース
こうすると「インタフェース」と「インターフェース」のどちらも検索できます。インター*フェースと指定してもよさそうなのですが、そうすると「インターーフェース」のような誤字もヒットしてしまいます。そういう用途もありそうですが、正しい表記の「インタフェース」か「インターフェース」のいずれかを探したい、ときは ? の出番です。

チェック[ ・]?ボックス
カッコの中は、中黒の前に半角スペースがあることに注意。こうすると、「チェックボックス」も、「チェック・ボックス」も、「チェック ボックス」もマッチします。カタカナ複合語にゆれがあっても、このパターンでぜんぶチェックできることになります。

さて、だいぶ翻訳作業に使えそうになってきたと思いますが、いかがでしょうか。


なお、今回使ったピリオド、アスタリスク、プラスなどを、正規表現ではメタ文字(meta character)と呼んでいます。



【今回のまとめ】

●正規表現で特殊な意味をもつ文字をメタ文字という

●任意の1文字を表すメタ文字はピリオド(.)

●パターンを0回以上繰り返すメタ文字はアスタリスク(*)

●パターンを1回以上繰り返すメタ文字はプラス(+)

●パターンを0回または1回繰り返すメタ文字はクエスチョンマーク(?)



【サンプルテキスト】

秀丸エディタで今回の検索を試してみたい方は、以下の引用部分をコピペしていただくと、試しやすいかも。

レレレのレ~ ドレミの歌

2012年
1,980円

alphabetical order

インタフェース
インターフェース
インターーフェース
インターフェイス
インタフェイス

チェックボックス
チェック・ボックス
チェック ボックス

10:30 午前 翻訳者のPCスキル | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2012.11.08

# 翻訳者のための正規表現~方言の話、その他

正規表現でちょっと困るのは、環境によって表現ルールが違っていることです。

・UNIX経由の、由緒正しいルール
・POSIX規格
・Perl
・秀丸エディタ
・Wordのワイルドカード(この語の本来の意味については、いずれ)

などなど、共通部分もありますが、文法や自由度に差があります。


ちょっとずつ違いがあるのに「正規」なんて、ますますいかんですね、この訳語は。

今回は、少しずつ実用的なパターンを増やしながら、この違いについて簡単に触れておきます。そして、最終的にこのシリーズでは、

秀丸エディタで採用されている文法

を基本とし、必要があれば別のパターンを紹介する、ことにしたいと思います。理由は、私がいちばん慣れているからw

さて、前回使ったパターンは、

[0-9]

という形でした。

●文字の範囲を表すときは、ハイフンで結び、[ ]で囲む●

ルールとまとめておきましょう。

注意:今後このシリーズでは、明記しないかぎりパターンとして入力する文字はすべて半角です。漢字とかカタカナとか、検索対象の文字はもちろん全角もあります。

[0-9] と書けば、10個の数字いずれかにマッチします。

同じように、

[a-z] と書けばアルファベット26文字のいずれかにマッチします。大文字小文字の区別は設定やオプションによって違うのですが、

[a-zA-Z]と書けばその設定やオプションに関係なくアルファベット大小文字の52文字にマッチします。

この例でわかるように、複数の範囲を並べるとき、区切りとか必要ないんですね。


このルールの発展形として、「その範囲は除く」というパターンも簡単に指定できます。ところが、ここで問題になってくるのが、今回のテーマである方言なわけです。

[^0-9a-zA-Z]

これが秀丸エディタでの指定。[ ]の中で、範囲の前に ^ (カレット、キャレット)を付けます。ところが、同じような「除外」を指定する記号が、MS Wordだと感嘆符になり、

[!0-9a-zA-Z]

となります。

このように、方言は少しずつあるのですが、1つの文法体系を覚えてしまえば、別の体系でも十分類推がききます。私が秀丸エディタの文法をこのシリーズで標準とするのも、他の体系への類推が容易だからです(ルールがほぼPerl互換なので)。

ところで、カレットも感嘆符も、除外するのは別に範囲とは限りません。直後にある1文字でも、並べた複数文字でもいい。

[^個]
  …… 「個」の字のみ除外。そんな用途はあんまり考えられませんけど。

[^0-9何]通り
  …… 数字の後以外で「○通り」を見つけます。「以下の通り」をエラーとしたい場合。

ただし、除外の意味をもつのは[ ]の中でだけです。[ ]の外で使うと、別の意味を持ってしまいます。このように、同じ文字が場所によって違う意味をもつことがあるのも、正規表現で難しい点かもしれません。

また、[ ]の中で先頭に置かないと除外の意味になりません。


【今回までのまとめ】

●文字の範囲を表すときは、ハイフンで結び、[ ]で囲む

●除外するときは[ ]の中で最初に、 ^ または ! を付ける


【例】

[0-9a-zA-Z]
  意味: 数字、英字の大文字と小文字にマッチします。

[ァ-ヶーぁ-ん亜-熙]
  意味:日本語の文字種(漢字、かな、カナ)すべてにマッチします。

[ァ-ヶー] [ァ-ヶー]
  意味:カタカナ語の間に半角スペースがある箇所を見つけます。

行な[わいうえおっ]
  意味: 「行なう」という送りがな。動詞の活用形すべてにマッチします。

[個箇カヵヶ]所
  意味:「か所」が正しいという仕様のとき、それ以外の誤表記を見つけます。

[^に]従って
  意味: 接続詞として「従って」が使われている箇所を見つけます。

※範囲指定は、文字コードに依存するので、環境によって指定する文字はこれと違う場合があります。

【追記】
例に間違いがあるのをコメント欄でご指摘いただきましたので、いちぶ修正しました。

06:44 午後 翻訳者のPCスキル | | コメント (2) | トラックバック (0)

はてなブックマークに追加

2012.11.07

# 翻訳者のための正規表現~序章

正規表現のことを、ぽつりぽつりと不定期シリーズで書いてみようかと思い立ちました。


翻訳者にとって、正規表現はかなり強力な武器になるものなのですが、「それはわかっているけど、なかなか手をつけられない」という方が、私の周りにも少なからずいらっしゃいます。正規表現の入門的な内容はネット上にすでにたくさん出回っているのですが、ここでは、私の知っているそんな翻訳者さんたちの顔を思い浮かべながら、私なりの書き方をしてみようと思っています。


まず、「とっつきにくい」と思われている、その障壁をとっぱらう必要があります。その原因は、ひょっとすると「正規表現」という訳語にもあるんじゃないでしょうか。

英語では regular expression

この訳語がいったいいつ定着したのか知りませんが、「正規表現」って、そのはたらきから考えたら立派な誤訳でしょう、という話です。

たとえば研究社英和大で、regular は次のように定義されています。

regular
1 定時の, 定期的な (periodic).
3 規則的に組み立てられた[建てられた, 配列された], 規則的な
5a 法律[規則, 慣例など]に合った; 正規の, 正式の


いっぽう、「正規」を国語辞典でひいてみると……

正式にきめられていること。正式の規定。(広辞苑)
正式に決められた規則。また、規則にかなって正しいこと。(学研国語大)

ですよね。

だから、「正規表現」なんて言ったら、なにか「正式な表し方」みたいなイメージになっちゃって、検索とか置換という操作になかなかむすびつかないわけです。

regular expression の regular は、上の語義で言えば3です。CDOの語義を見ればもっとわかりやすいでしょうか。

arranged in a constant or definite pattern

そう、キーワードは「パターン」なんですよ。つまり regular expression というのは、特定の文字列を検索するのではなく、

パターンを指定して、それに一致するものをすべて検索する

ための表現方法ということなのです。

だから、同じような指定を「パターンマッチング」って言ったりもします。

ひとつだけ例を示して、「パターン検索」であることを実感してみましょう。

手元にある翻訳済みファイルを適当に開き、検索ウィンドウに

[0-9]

と入力し、必要なオプションを設定します。

角カッコは半角。数字とハイフンも半角です。翻訳のとき数字を全角で入力する人は、数字だけ全角にしてください。

たとえば、MS Word ならこうです。

1211071

秀丸エディタなら、こうなります。

1211072

検索を実行すると、[0-9]というパターンが、半角数字(または全角数字)のすべて、にマッチするはずです。


ということで、今さら用語を変えることもできないでしょうから、ここでも「正規表現」という言葉は使いますが、意味として「パターンを指定して、一致するものをすべて見つける」のだということを、まずおさえてください。

どうでしょう。少しはイメージできるようになったでしょうか?

09:13 午後 翻訳者のPCスキル | | コメント (0) | トラックバック (0)

はてなブックマークに追加