◊ 文字コード ◊ タグの記事

文字化けの訳
2009年2月4日水曜日 | Author: nakamaru

おなじみのワードで 「<title>毎日5分のパソコン教室</title> 」と文字を打って
シフトジス(SJIS)コードで テキストファイルとして保存します。

保存したファイルの中身を16進数で表示してくれるソフトを使って、のぞいてみます。

左側はファイルの中のデータが16進数で表示されています。
一行に16バイト分が表示されています。

右はそのデータをシフトジスの文字コードだとして、対応する文字を表示してくれています。
ちゃんと 打ち込んだ通りの文字が表示されています。

今度は ファイルの中のデータが EUC という文字コードであるとして対応する文字を右側に表示すると
英数字は読めますが、日本語の部分が崩れます。

さらに ファイルの中のデータが ユニコード という文字コードであるとして対応する文字を右側に表示すると
まったく意味不明。

同じデータが入ったファイルでも 扱い方を誤ると こんな格好になります。

メールやホームページなどを見たとき、たまに文字化けが起こるのは、
文字コードの種類の判定をソフトウェアが誤った時に起こります。

なぜ、誤るのか。
文書を作るソフトウェアと 文書を閲覧するソフトウェアとで ルールが完全には一致してないからです。

人のコミュニケーションでも 言葉の解釈が違ってトラブルになるのとよく似ていますね。

ツイートツイート
16進数と文字コードのうんちくを少々
2008年11月7日金曜日 | Author: nakamaru

●昨日の特殊文字の選択時に「16進数」が出てきていましたね。

文字には 番号が振られていて その番号は16進数で表現されます。

●うんちくを少々。
コンピュータの中では オン・オフですべて処理されています。
これをビット情報といい、
これを 0と1で表現します。

8ビットを組み合わせて 1バイト
2バイトを組み合わせて 1ワード と言ったりします。

1ワードをビット列で表現すると 16桁の0または1が並びます。
1111111111111111
桁数が多くてたいへん。
そこで 2桁で区切ると
11 11 11 11 11 11 11 11
それぞれを10進数で使われる文字で表現すると
33333333
半分の桁数で表現できます。
2進数を2桁で区切ると 4まで数えると桁が繰り上がる4進数になります。

もし、3ケタで区切ると(バイト単位で最下位桁から区切ります)
11 111 111 11 111 111
それぞれを10進数で使われる文字で表現すると
377377
さらに桁数短縮。
2進数を3桁で区切ると 8まで数えて桁上がりする8進数になっています。

もし 4桁で区切ると
1111 1111 1111 1111
これを10進数で使われる文字で表現すると 表現できません。
10進数で言うところの10以上を
10→A、11→B、12→C、13→D、14→E、15→F
というふうに 新たな表現を決めると
FFFF
と桁数を少なく表現できます。

●そういうことで コンピュータ上では16進数がよく使われます。
16進数4桁は 0000~FFFF まで、 16^4(16の4乗)=65536 の文字に
番号が割り振れるということになります。4桁以上に拡張されたコード体系も
あるようです。
文字コード体系(文字への番号の振り方)は シフトジス(SHIFT-JIS)や
ユニコード(Unicode)のように数種類あります。

●時間がとれる人は 一度 さーっと読んでみるといいと思います!

ツイートツイート
カテゴリー: コンピュータ知識  | タグ: ,  | Comments off