「 文字化けについての基礎知識 」 |
■ 「機種依存文字」編 |
Windows と Macintosh とでは、扱える文字種が一部異なっています
日本においては、ホームページであれば「Shift_JIS」、メールであれば「JIS」というエンコード方式が一般となっていますが、Windows と Macintosh とでは、扱える文字の数や種類が一部異なっているのです
もともとはMS-DOS規定時にMicrosoft 社が規定した文字コードシロモノだったのですが、その規格の中にはメーカー拡張領域と呼ばれる、メーカーが自分の判断で勝手に扱える文字を規定してしまえるという設計が含まれていたために、MS-DOS時代にNECやIBMが独自基準としてに扱える文字を継ぎ足し、それがWindowsにも引き継がれ(=Windows Character Set)、AppleもMS-DOSとは異なる基準で独自にMacintosh上で拡張していった結果(=Mac Japanese)、Windowsで作成した文章の中の文字がMacintosh上では正しく再現出来ずに「文字化け(まったく異なる文字に置き換わってしまう)」「文字抜け(該当文字の部分が『(半角空白)』『?』『□』『・』)になってしまう)」という事態が発生するようになっています(※)
※ 「Netscape 6.0~」では、「Windows」「Macintosh」「Unix」のうちのどのOSによって文章が作成されたのかを判断(改行コードの違いによって検出?)し、機種依存文字が使用されている部分を「Windows機種依存文字→Unicode変換」・「Macintosh機種依存文字→Unicode変換」と、異なる変換テーブルを使い分ける事によってOSを問わず機種依存文字を正しく表示する事を可能にしていますが、このような高度な処理をおこなっているアプリケーションはごく一部のみです
であるので、ネット上でやり取りされる文章を Windows で作成する場合には、通称「機種依存文字」と呼ばれるメーカー拡張文字を使用しないように配慮しなければなりません(※1)(※2)(※3)
※1 こういった事に配慮しないと、『このヒト、他人の事を考えられないジコチュウ(自己中心的)なのね(嘲笑い)』・・・などと周囲のヒトから見られるという事を自覚しておく必要があります
※2 「Unicode」や「文字参照」を使用した場合にはこれらの文字抜けや文字化けは起こりませんが、Macintosh の標準状態では扱える「Mac Japanese」では「Windows Character Set」とくらべて収録文字数が少ないため、
該当文字にルビを振る 該当文字の後ろにふりがなを振る ・・・などの配慮が必要になります
※3 このページ上の機種依存文字は、Mac OS X では完全に表示出来ます
(基本的にはWindows ユーザーが注意を払うべき事なので、Mac OS ~9.x ではディフォルトとしてはUnicodeにおける第3・第4水準漢字文字集合対応フォントが導入されていないため一部文字抜けしますが、この場合にはとりたてて問題は無いでしょう・・・)
「機種依存文字」一覧表
Shift_JIS(JIS X 0208)/JIS(iso-2022-jp)/EUC(euc-jp)エンコード文章上における機種依存文字を、
Windows でご覧になっている方のために擬似的に再現しています「Windows 」
で記述・表示した機種依存文字左側の文字列をごくごく普通に
「Macintosh」 にて表示すると、
基本的には下記のように見えます「JIS2000(JIS X 0213:2000 附属書1~3)
準拠エンコード対応フォント」
で表示した状態※ Windows/Macintosh/UNIX にて、
いずれも共通丸付き/囲み文字 ①
②
③
④
⑤
⑥
⑦
⑧
⑨
⑩
⑪
⑫
⑬
⑭
⑮
⑯
⑰
⑱
⑲
⑳㈪
㈫
㈬
㈭
㈮
㈯
㈰
㉀
㈷
㉂
㉃
㈹ ※
㈺
㈱ ※
㈾
㈴
㈲ ※
㈻
㈶
㈳※ : 「㈹」「㈱」「㈲」以外の文字は Windows 95/~NT4.0SP3 では該当フォントが導入されていません
①
②
③
④
⑤
⑥
⑦
⑧
⑨
⑩
⑪
⑫
⑬
⑭
⑮
⑯
⑰
⑱
⑲
⑳ローマ数字 Ⅰ
Ⅱ
Ⅲ
Ⅳ
Ⅴ
Ⅵ
Ⅶ
Ⅷ
Ⅸ
Ⅹ
ⅰ
ⅱ
ⅲ
ⅳ
ⅴ
ⅵ
ⅶ
ⅷ
ⅸ
ⅹ□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
Ⅰ
Ⅱ
Ⅲ
Ⅳ
Ⅴ
Ⅵ
Ⅶ
Ⅷ
Ⅸ
Ⅹ
鄯
鄱
鄴
鄽
酈
酛
醃
醞
醬
醱
単位記号 ㍉
㌔
㌢
㍍
㌘
㌧
㌃
㌶
㍑
㍗
㌍
㌦
㌣
㌫
㍊
㌻
㎜
㎝
㎞
㎎
㎏
㏄
㎡□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□
□㍉
㌔
㌢
㍍
㌘
㌧
㌃
㌶
㍑
㍗
㌍
㌦
㌣
㌫
㍊
㌻
㎜
㎝
㎞
㎎
㎏
㏄
㎡省略記号・元号 №
㏍
℡
㊤
㊥
㊦
㊧
㊨
㈱
㈲
㈹
㍾
㍽
㍼
㍻□
□
□
□
□
□
□
□
□
□
□
□
□
□
□№
㏍
℡
㊤
㊥
㊦
㊧
㊨
㈱
㈲
㈹
㍾
㍽
㍼
㍻数学記号・かっこ・てん ≒
≡
∫
∮
∑ ※
√
⊥
∠
∟
⊿
∵
∩
∪
〝
〟
¬
¦
'
"≒
≡
∫
㊤
㊥
√
⊥
∠
∟
㊩
㊖
∩
∪
□
□
¬
¦
'
"
≒
≡
∫
∮
〓 ※
√
⊥
∠
∟
⊿
∵
∩
∪
〝
〟
¬
釗
釻
釤
※ : 非漢字+第1~第4水準実装外文字
※ : 「シグマ」については、数学記号としての「∑」では文字化けを起こしますが、ギリシア文字としての「Σ」は正しく表示されます トランプ記号
(Macintosh)「文字化け」します (「IBM拡張文字」実装外文字)
♠
♡
♢
♣
♤
♥
♦
♧「文字化け」します (「Apple拡張文字」と「JIS2000(JIS X 0213:2000 附属書1~3)準拠エンコード」とでは、同一の区画に別の割り当て方をしている)
トランプ記号
(JIS2000(JIS X 0213:2000 附属書1~3))・
・
・
・
・
・
・
・・
・
・
・
・
・
・
・♠
♡
♢
♣
♤
♥
♦
♧通貨単位「円」
(半角の場合)\ 半角の「¥」
\ 半角の「¥」
\ 半角の「¥」が「バックスラッシュ」(半角の「\」)として扱われる
通貨単位「€」
(ユーロ表記記号)・ ・ € 上記外の「メーカー拡張漢字」 正常に表示されます (当たり前)
「文字抜け」します (該当フォントが導入されていない)
「文字化け」します (「IBM拡張文字」「Apple拡張文字」と「JIS2000(JIS X 0213:2000 附属書1~3)準拠エンコード」とでは、同一の区画に別の割り当て方をしている)
なお、上記枠内の文字は Unix の場合、基本的には表示出来ないと考えて下さい(※) 「euc-jp-3」「EUC-JPX0213」「Unicode」「文字参照」であれば扱う事は出来ますが、通常の手法では文字化けします
なお、「 弓道辞書 」使用中に上記の文字を入力しようとすると警告として、漢字変換候補の語尾に「【機種依存文字】」と文字列が付随されてるよう、「 弓道辞書 」 version1.00 から豪華特別付録として(?)「機種依存文字辞書」を組み込みました!!!(※1)(※2)
※1 Windowsアーキテクチャと、Unicode記述のみのサポート
※2 当然の事ながら、「機種依存文字辞書」の分も収録単語数としてカウントしてあります・・・
例 : 「いち」「まちいち」「まる1」「まる1」「1」「1」と入力して漢字変換すると、漢字変換候補の中に「①《機種依存文字》」というモノが含まれるようになります(※3)
※3 ATOK 14 の仕様と同じです・・・
■ 小山弓具の「直心」の種類の表記について |
小山弓具の「グラス・カーボン弓」の商品紹介ページを見ていただければ判ると思いますが、小山弓具では、「直心Ⅰ」「直心Ⅱ」「直心Ⅲ」という名称の弓を製造販売しています
小山弓具では Windows を使用しているでしょうから、ホームページ上でもローマ数字を何の疑問も無く扱っているのでしょうが、上記の表でも書いたとおり、Macintosh や Unix ではこれらのローマ数字は通常では表示出来ません(※)
※ 書く側が「Unicode」や「文字参照」を使用したり、見る側が「Netscape 6.0~」を使用していれば正しく表示出来ますが、普通は文字抜けします
まぁ、小山弓具はPCシェア20~25%ほど(※1)しかない Macintosh のユーザー相手や、「ごくごく普通のパソコン」では無い Unix をあえて使用している特殊ユーザーには商売をするつもりが無いのでしょうが、様々なPC環境のヒトが利用しているネット上ではこういった事に配慮すべきです(※2)
※1 「 弓道辞書 」におけるダウンロード比率では、Macintosh 対応版は全体の20~25%ほどとなっています
(PC出荷シェアでは Macintosh は10%弱しかありませんが、これは法人用途PCのほぼすべてはWindowsPCである事が影響しているのであって、実際に個人が自由に扱えるPCのうちの1/5~1/4ほどは Macintosh であるようです)※2 こういった事に配慮しないと、『このヒト、他人の事を考えられないジコチュウ(自己中心的)なのね(嘲笑い)』・・・などと周囲のヒトから見られるという事を自覚しておく必要があります
■ 「半角カタカナ」編 |
『「半角カタカナ」は文字化けするから使用しないように』という文字列を目にされる事が良くあるかと思いますが、その明確な理由について論理的に記述している事はほとんど無いので、ついでにここで書いておきます
「UNIX」では文章における標準エンコード方式として「euc-jp」を採用していますが、この「euc-jp」には「半角カタカナ」の区画そのものが存在していないので、「半角カタカナ」を扱う事が出来ません(※)
※ 「euc-jp-3」と「EUC-JPX0213」には「半角カタカナ」の区画が割り当てられていますので「半角カタカナ」を扱う事が出来ます
で、現在のネット上にて、「ホームページ」のサーバーやメールサーバー、掲示板CGIを管理するサーバーやチャットサーバーなど、「サーバー用途PC」のほとんどは「UNIX」で構築されています
また、大学で配備されているPCも、大半が「UNIX」でしょう
最近の「UNIX」では、大部分が「euc-jp-3」をサポートしている(※)ので「半角カタカナ」を扱う事が出来るようになってきてはいますが、「euc-jp」しかサポートしていない「UNIX」のPCも少数とは言えない割合でまだまだ存在しています
※ OSとアプリケーションの両方が、という事
この「euc-jp」しかサポートしていない「UNIX」のPCが、伝送経路や端末の一部にでも存在していたら「半角カタカナ」は文字化けしてしまうのです(※)
※ 携帯電話のメールで「半角カタカナ」が文字化けしないのは、伝送経路の各種サーバーに「euc-jp」しかサポートしていない「UNIX」のPCが存在しない設計としてあるため
であるので、PCにおけるネット上では「半角カタカナ」を使用しないように配慮した方が良いのです(※)
※ こういった事に配慮しないと、『このヒト、他人の事を考えられないジコチュウ(自己中心的)なのね(嘲笑い)』・・・などと周囲のヒトから見られるという事を自覚しておく必要があります