11
18
19
20
21
22
23
24
25
26
27
28
29
30
   

文字コードと特殊文字

キャプチャ
図1:文字コード「UTF-8」で書かれたブログを「EUC-JP」で表示

日本語で書かれているはずのWebページなどが、図1のように表示されて読めないことがあります。


--うぎゃ~ バグったみょ 壊れているみょ

いえ。壊れているわけではありません。ましてや、バグではありません。以前「日本語が文字化けしたら「日本語文字コード」を疑え」で取り上げたように文字コードが合っていないだけです。

思うに、文字化けをバグと呼ぶのは、ポケモン初期世代で、コンソールモードへの入り口がふさがっていなかったから、バグと呼んで文字化けしているコードを書き換えてレアポケモンやレアアイテムを強制的に出現させていた人々じゃないかと思います。

文字コードが違って文字化けするのは普通の出来事で、決してバグなどではありません。Webブラウザでは簡単に文字コードを変更することができます。

キャプチャ
出所:google chrome エンコード


文字コードよりも古くから文字化けの要因だったのが機種依存文字です。

同じ文字コードを使っていても、規定されていないコードを機種ごとに特定の文字を指定して使っていることでトラブルが発生します。

例えば同じ「Shift-JIS」を使っているWindowsの機種依存文字をMacで読もうとすると文字化けしたり、別の文字を表示したりします。有名なのは丸数字です。

キャプチャ
図2:文字変換時の機種依存文字表示


もっと厄介なのが、半角カタカナです。平仮名や漢字は、英数文字2文字分で表現しています。半角英数文字は1バイト(8ビット、256種類)で表現されていて、平仮名や漢字は2バイト(16ビット、65,536種類)で表現されています。

半角カタカナは1バイトの英数文字の空いているところに割り振っていますので、少し厄介です。文字としてだけではなくて、コントロールコードや命令として割り振られている場合があるのです。場合によってはシステムを壊します。

半角カタカナってのは怖いのです。


また、アプリケーションで定義された特殊文字もあります。

例えばWebページは「HTML(HyperText Markup Language)」で書かれています。

HTMLでは、HTMLタグで文字を装飾したり、画像を指定したりします。HTMLのソースはこんな感じです。

キャプチャ
図3:HTMLソース

HTMLタグは、すべて「<」で始まっています。つまり、HTMLブラウザは「<」があると、HTMLタグじゃないかと思って緊張します。緊張するとそのあとの文字を冷静に表示することは難しくなります。

ちなみに上の「<」は「&lt;」として、HTMLタグの初めの「<」じゃないよって教えてあげています。これだったらHTMLブラウザだってリラックスできます。

「ひよこ投資家™」の「™」もHTMLの特殊文字です。


コンピュータやシステムで何かいつもと違う動きがあったときに、「バグ」とか「ウィルス」とかって言葉を簡単に使ってほしくないのです。

そもそも、エンドユーザーが「バグ」なのか「ウィルス」なのか「仕様」なのか「入力ミス」なのか、簡単に切り分けられるものではありません。

そして、もしも一般に公開しているシステムで「バグ」や「ウィルス」が発生したら、担当者の徹夜がスタートします。解決するまで休みはありません。

エンドユーザーが軽々しく使ってほしくない言葉だったりします。
Secret

プロフィール

もきち♪

Author:もきち♪
個人事業主ですが株式投資のほうが主体になっています。

投資スタイルは逆張りナンピン。チキンになりきれないひよこ投資家™でピヨピヨトレードです。

2007年に投資信託を始めて、2009年に国内株式の個別銘柄投資を始めました。

中小企業診断士(診断業務休止中)でオンライン情報処理技術者です。

ブログでは株式投資とコンピュータの話を中心に書いています。

きほんゆるめに。。。

【FISCOソーシャルレポーター】ってのに公認されました。


キャプチャ
もきち♪への直通メール

スピンオフサイト

ブログ内リンク

全ての記事を表示する
データをダウンロードできるサイト一覧  シーズン2

ブログ内検索

過去の記事

全ての記事一覧

カテゴリ

最新記事

ランキング




経済ニュース













使っている証券会社

スポンサードリンク

おすすめ



カンファレンスバナー

アフィリエイトフレンズ

クラウドソーシング「ランサーズ」

広告