« # 改行と論理行について - 短期講座第3回 - | トップページ | # 文字コード - 短期講座第5回 - »

2014.06.15

# エンコードの基本 - 短期講座第4回 -

前回(改行の話)、最後のほうで下図のようなオプションを設定しました。

1406129

この設定をしてから、第2回でリンクを貼った寺田寅彦の引用のファイル(こちら)を開くと、

14061210

こう見えたんでした。このタイトルバーに見えている[CR + LF]が改行の種類でしたが、今日はその左に見えている[UTF-8]というやつについて説明します。

いわゆる「エンコード」のお話です。

テキストファイルというのは、

文字のデータだけでできているファイル

だと説明しました。アルファベット文化圏であれば、数字やよく使う記号まで含めても、「文字」の種類はたかが知れています。8ビットで表すことのできる128種類のデータだけでも十分でした。

(注:8ビットなら本当は256種類ですが、ASCII は実際には7ビットなので、種類が半分になります)

ファイル:主なASCII 文字一覧

※クリックではなく、右クリックで保存してください。

このように、一定の範囲で使える文字体系のことを、広義には文字セット、狭義にはエンコードと呼びます。上のリンクに挙げたASCIIというのは、もっともプリミティブな文字セットです。

文字セット、エンコード(エンコーディング)、文字コードという用語は、厳密に使おうとするとかなりややこしいようです。ここはIT専門家のためではなく、翻訳者のための話なので、そういう用語についてはユル~く考えておきましょう。


さて、上のリンクからダウンロードした ASCII.txt を秀丸エディタで開くと、タイトルバーには

[UTF-8][CR + LF]

と書かれているはずです。

これを別名保存してみましょう。[ファイル]→[名前を付けて保存]です。

1406151

ファイル名は適当でかまいませんが、[エンコードの種類]を、上の図のように

[日本語(Shift-JIS)]

に変えてください。

別名保存しても、このファイルにある94文字(英数字と記号)は基本なので、どんなエンコードにしても文字化けが起きたりすることはありません。

Shift-JIS というのは、日本語の文字を表すための文字セットですが、当然、ASCII に当たる欧文文字も含まれています。

ファイル:非ASCII 文字のファイル

※クリックではなく、右クリックで保存してください。

では次に、このファイルをダウンロードして、同じように[日本語(Shift-JIS)]で別名保存してみてください。

1406152

こーゆーダイアログが出て怒られてしまいます。

デフォルトでは[保存せずに変換できない文字へジャンプする]というオプションになっているので、そのまま[OK]してみてください。カーソルが

©

の文字の前にあると思います。この「©」も、後に続く ® も、欧文の特殊文字も、Shift-JIS には定義されていません。

上の警告ダイアログで[変換できなし文字を"?"などに置き換えて保存する]を選択して[OK]を押すと、

© → ?

® → ?

となってしまいました。こういう、エンコードの違いが、いわゆる文字化けの原因です。


テキストファイルを扱うときは、このエンコードをいろんな場面で意識する必要があります。

ASCII 文字セットで使われている英数字と記号が、いわゆる1バイト文字、シングルバイト文字です。

だから、

abc

の3文字だけ打って保存したテキストファイルのサイズは3バイトになります(ちゃんと自分で試すこと)。

ファイルのサイズを確認するには、エクスプローラでファイルを右クリックして[プロパティ]を選択します。

では、

あいう

と3文字打って、[Shift-JIS]で保存したら、ファイルは何バイトになるでしょうか。

そして、同じ「あいう」だけのファイルを[UTF-8]で別名保存したら、何バイトになるでしょう。それぞれ試してみましょう。


1406153

これがアルファベット3文字のテキストファイル。ファイルサイズ=文字数です。


1406154

ひらがな「あいう」を Shift_JIS で保存したファイルです。サイズはちょうど2倍の6バイトになりました。1文字あたりが2バイトずつだからです。


1406155

これは、同じ「あいう」の3文字ですが、UTF-8 で保存したファイルです。UTF-8 では、1文字が3バイトずつで表現されます。


翻訳の終わったWordファイルなどを、いろいろな処理のためにテキスト保存することはよくあると思いますが、そのたびに上のような警告ダイアログが出たり、いつの間にか「?」に置き換わっていることがある。こういうときは、この「エンコード」の話を思い出してください。

Wordファイルをテキスト形式で保存しようとすると、こんなダイアログをよく見かけると思います。

1406156

これも、趣旨は上の秀丸での警告ダイアログと同だったわけです。

09:32 午後 翻訳者のPCスキル |

はてなブックマークに追加

« # 改行と論理行について - 短期講座第3回 - | トップページ | # 文字コード - 短期講座第5回 - »

コメント

この記事へのコメントは終了しました。