背景
明度調整

00/15

01/15

02/15

03/15

04/15

05/15

06/15

07/15

08/15

09/15

10/15

11/15

12/15

13/15

14/15

15/15
文字
明度調整

00/15

01/15

02/15

03/15

04/15

05/15

06/15

07/15

08/15

09/15

10/15

11/15

12/15

13/15

14/15

15/15

 

 

「 第3・第4水準漢字の基礎知識 」

 

 

日本工業規格(JIS)が定めている「第1水準漢字」「第2水準漢字」については、とくに難しい事を考えなくともPCやネット上で扱う事が出来ますが、「第3水準漢字」「第4水準漢字」「第1〜4水準実装外漢字」を扱うためには、下記の「文字集合」「エンコード」「フォント」の3つの要素によってPCやネット上の文章が成り立っているという事を認識しておく必要があります

 

 ● 「文字集合」   扱う事の出来る文字の種類とその文字数を制定したモノ

Adobe Solutions Network Technical Notes - Fonts

 


「Adobe Japan1-5」(※)文字集合(「AGPS(Apple Publishing Glyph Set)(仮)」+国語審議会「表外漢字字体表」新規制定文字+その他)=20317文字)

「Adobe GB1-4」(※)文字集合(Unicode 3.0 UCS文字集合の漢字部分の全て=29064文字)

Adobe Solutions Network Technical Notes - Fonts


↑:「Unicode対応アプリケーション」や「Unicode UCS 文字集合対応フォント」を別途インストールする事で、扱う事が出来る文字集合をさらに拡張させる事が出来ます

  • 「Unicode 2.1 UCS」(38887文字)
    「Unicode 3.0 UCS」(49194文字)
    「Unicode 3.1 UCS」(70195文字)
    「Unicode 3.2 UCS」(71216文字)
    「Unicode 4.0 UCS」(72442文字)・・・など

なお、「UCS」とは国際符号化文字集合(Universal Multiple-Octet Coded Character Set)の意味です

 

 ● 「エンコード」 PCやネット上で文章を扱うための電子符号化方法

≫ 扱える文字集合=非漢字+第1・第2水準漢字 (+機種依存文字)6879文字 (+α)

≫ 扱える文字集合=「Unicode 〜3.0 対応アプリケーション」(最大49194文字)
「Unicode 3.1〜対応アプリケーション」(70195文字〜)(インストールされているフォントが「Unicode 3.2〜 UCS」であれば、その対応文字集合が上限)

≫ 扱える文字集合=非漢字+第1・第2水準漢字 (+機種依存文字)6879文字 (+α)

≫ 扱える文字集合=半角カタカナを除く非漢字+第1・第2水準漢字=6879文字 (−α)

≫ 扱える文字集合=非漢字+第1・第2水準漢字+補助漢字=12934文字

・・・など

 

 

  ● 「フォント」 電子符号化された文章をディスプレイやプリンタで
表示するために必要な「文字字形データ」を収録した
データ集合ファイル

Windows 95 ではWindows Character Set」(非漢字+第1・第2水準漢字+IBM拡張文字=6879文字+α)を実装

Windows 98/Me (Microsoft Word 98〜をインストールしたWindows 95 を含む)Windows NT4.0SP4/2000/xp では「Windows Extension Character Set」=「JIS X 0208:1997+JIS X 0212:1990」文字集合(非漢字+第1・第2水準漢字+補助漢字=12934文字以上)(※)をUnicode実装

※ 上記フォントのバージョンが上がるにつれ、「その他」の部分の文字数がより多く実装されているようです

 

≫ 「Mac Japanese」文字集合(非漢字+第1・第2水準漢字+Apple拡張文字=6879文字+α以上(※)を実装

※ 上記フォントのバージョンが上がるにつれ、「その他」の部分の文字数がより多く実装されているようです

≫ Mac OS X 10.0 では「Adobe Japan1-4」文字集合(=PostScript実装15444文字字形、Unicode実装9772文字)を実装

≫ Mac OS X 10.1 では「AGPS(Apple Publishing Glyph Set)(仮)」文字集合(=PostScript実装20298文字字形、Unicode実装約13600文字)を実装

≫ Mac OS X 10.2 では、

ヒラギノProフォントは「Adobe Japan1-5」文字集合(=PostScript実装20317文字字形、Unicode実装約13600文字)を実装

簡体中文フォントは「Adobe GB1-4」文字集合(29064文字)を実装・・・ 「华文细黑(STHeiti Light)」 「华文黑体(STHeiti Regular)」 「华文宋体(STSong Regular)」 「华文楷体(STKaiti Regular)」 「华文仿宋(STFangsong Regular)
(↑:Unicode 3.0 の範囲内での日本語表示に完全対応しています)

 

 

■ 第3水準漢字・第4水準漢字とは?

 

2000年(平成12年)1月、日本工業規格 JIS X 0213:2000『7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合』 が官報告示されました

これは従来の JIS漢字規格(JIS X 0208:1997)『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』(非漢字524文字、第1水準漢字2965文字、第2水準漢字3390文字の計6879文字)に、第3水準漢字(記号類661文字含む)1908文字、第4水準漢字2436文字という形で4344文字を追加し、計11223文字へと拡張したシロモノです

教科書調査を始めとする他分野にわたる用字調査、一般からの意見を募った公開レビューなどを経て完成させられた規格だけに、今後の活躍が期待されます

・・・というシロモノで、上記の「教科書調査を始めとする他分野」「一般からの意見」の中身は以下のようなものとなっています
(下記の全てが採用された訳では無い)

JCS WG2 1998-12-06

新JIS漢字典拠一覧

資料 異なり 独自 諸橋に無し UCSに無し
日本電信電話株式会社電話帳(1997.2.14現在・日本電信電話株式会社御提供) 3242 964 786 876
1万分の一地図(1995・国土地理院御提供) 13 3 7 5
2万5千分の一地図(1995・国土地理院御提供) 136 23 38 35
町字ファイル書換え字(国土地理協会御提供) 180 60 88 85
国土地理協会メインフレーム外字 52 0 7 4
神社名・祭神名(神社本廳御提供) 54 1 10 10
新潮文庫(新潮社御提供) 589 41 27 33
青空文庫外字 (←:リンク切れ。「青空文庫登録作品に現れた外字」「文学作品に現れたJIS X 0208にない文字」へ分割移動。また「青空文庫 派生プロジェクト あさっての向かい風」「外字注記一覧」では、Unicode(UTF-8)による文字データが提供されています) 53 0 5 2
雑誌「群像」(講談社御提供) 4 0 0 1
歌舞伎番附(東京大学国文学研究室御提供) 39 1 6 5
酒造講本(日本醸造協会・第5版) 5 1 1 2
文部省学術用語集 6 0 1 1
現行法律・勅令・政令(1998.3.31現在・総務庁御提供) 7 1 1 1
弓道 4 0 0 0
国宝名 9 0 1 1
宋本玉篇部首 153 95 1 100
熟語対応、切韻(鉅宋広韻)韻目、韻鏡三十六字母等 24 4 2 2
日本内経医学会 481 87 11 107
全日本鍼灸学会(1998) 131 6 2 5
日本東洋医学会(1998) 156 4 2 15
国立国会図書館(1998) 1433 252 137 297
日本書籍出版協会書籍総合目録(1998) 286 8 39 33
共同通信社の記事用例(同社御提供) 14 0 0 0
朝日新聞社の記事用例(同社御提供) 409 110 146 126
毎日新聞社の記事用例(同社御提供) 91 0 15 5
共同通信社外字表(K-JIS) 366 0 48 41
大辞林第2版(三省堂御提供) 1218 42 69 96
日本国語大辞典(小学館御提供) 6678 3375 1237 1737
小・中・高の教科書全冊(1997・1998年度) (←:リンク切れ) 891 153 149 112
メインフレーム(IBM/JEF/JIPS/KEIS)外字(異なり) 6066 1977 1570 1343
  • 「異なり」とは、(JIS X 0208:1997に準拠した6879文字に含まれていない)同一の漢字が複数回現れても一つと数えた時の漢字の数

  • 「独自」とは、(JIS X 0208:1997に準拠した6879文字や上記での他の出典元に含まれていない)そのソースだけによって確認される漢字

  • (「諸橋大漢和辞典」とは諸橋大漢和辞典の漢字番号に準拠した50305文字の文字集合)

  • (「UCS」とは、Unicode Verision 2.1 UCSに実装されている38887文字の文字集合)


「通産省工業技術院」依託、「日本規格化協会」傘下、「符号化文字集合調査研究委員会」第2分科会(JCS WorkGroup 2) 公開レビュー資料 (1998-12-06) 」転記(※)

※ 現在ではサーバーから削除され閲覧不可能な状態であるために転記しました
世間一般に公開する事が目的の公的資料や官報告示であるので転記には問題など発生しないハズ・・・

 

なお、

などと一部の人間が呼ぶ事もあるようですが、

「 弓道辞書 」では、

というような表記に統一します

 

 

■ 第3水準漢字・第4水準漢字を扱う手法について

 

PCやネット上において、コンシューマーレベルで「第1・第2水準実装外漢字」を扱う手立て(※)として、

  • Unicodeエンコード」を採用する

  • JIS2000(JIS X 0213:2000 附属書13)準拠エンコードのShift_JIS(Shft_JISX0213)」「JIS(iso-2022-jp-3)」「EUC-JP(EUC-JPX0213)を採用する

  • HTML2.0(RFC1866)」で定義されている「文字参照(character references)規定を導入する

・・・という3つの方法があります

 

※ ごくごく普通のヒトがごくごく普通のPCを使って扱う事が出来得る方法・・・、という意味合い

 


 

 

 「Unicodeエンコード」とは・・・



従来の言語切り替え型エンコード方式(日本語では「Shift_JIS」「EUC(euc-jp)」「JIS(iso-2022-jp)」)で記述した文章というのは、自国言語以外の言語圏(※)では文字化けしてしまうという問題があり、ネットによる情報の国際化・共有化を妨げる要因の一つとなっていました

※英語圏を除く

例えば、検索エンジンの老舗的存在である、

・・・というように、従来から利用されている言語切り替え型エンコード方式を採用しているため、これらの検索エンジンでは日本語と英語のホームページしか検索出来ません

 

この問題を克服するため、世界中の文字を一つのエンコード上で扱う事が出来るように新しく制定されたエンコード方式が「Unicode」です

後発の検索エンジンであるGoogle 日本では、「Unicode(UTF-8)」エンコードを採用したため、

  • 世界中の言語のホームページを一括して検索する事が可能

  • 一つの検索結果のページ上に、世界中の情報を混在させて多漢字・多ヶ国語文章として表示させる事が可能

・・・という特徴があり、老舗の検索エンジンの存在を脅かすほどの高い支持を得ています(※)

NHK が「検索エンジンを使用しているPCの画面」を放送する場合には、以前は必ずと言っていいほどYAHOO! JAPANでしたが、2002年度初頭くらいからGoogle 日本に変更されています・・・

 

「Unicodeエンコード」であれば、日本で一般的ではない漢字であっても、中国(大陸)・香港・台湾・韓国/朝鮮などで用いられている漢字もそのまま利用出来るため、いま現在PCで浸透している「Shift_JIS」「EUC(euc-jp)」「JIS(iso-2022-jp)」では扱えなかった第1・第2水準実装外の漢字を扱う事が出来ます(※)

※ 「フォント」の文字集合に該当文字が実装されていれば正しく表示出来ますが、含まれていない場合にはPC内部では正しく処理出来ていてもディスプレイ上では表示は出来ません (「文字抜け」します)

しかし、「Unicode UCS」対応フォントが導入されていない古いPC環境を使用している場合でも、

・・・などをする事で、「Unicode」対応アプリケーション上で「Unicodeエンコードによる多漢字・多ヶ国語文章」を表示する事が出来るようになります

 

また、世界的な流れとして従来の言語切り替え型エンコード方式から「Unicode」への移行が始っています(※1)(※2)ので、「第3水準漢字」「第4水準漢字」などを扱う手法としても、一般的には「Unicode」として扱うのが基本です

※1 欧州統一通貨の単位である「€(EURO)」は、日本工業規格(JIS)では「第3水準漢字」として定義されています

しかし、国際的な通貨の表記を必要とするグローバルなデータを、日本国内でしか通用しない「言語切り替え型エンコード方式」の拡張方式(=「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」)や、「言語切り替え型エンコード方式」の外字として扱っても意味を持たないため、「€(EURO)」を扱うデータは全て「Unicode」である必要があります

 

※2 2002年(平成14年)8月から運用開始された、総務省の「住基ネット(住民基本台帳ネットワーク)」では、「Unicode」をベースとしたエンコードが採用されています

さらに、「住基ネット」をベースとして官公庁をネットワーク化するという「電子政府」構想でも、「住基ネット」でのエンコード方式がそのまま使用される事になりますので、官公庁とやりとりをする必要があるデータなどについても「Unicode」への移行が求められる事になります

 


 

 

 「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」とは・・・



一般的なパソコン(=「Windows」「Macintosh」)での標準として文章作成時のエンコードとして用いられているShift_JIS(※)では、いわゆる「メーカー拡張文字(=機種依存文字)領域」と「外字領域」と呼ばれている、『あまり使われていない領域』が存在しています

※ Shiift_JISエンコードでは、94×94区画の実装面が2面規定されており、

  • 非漢字+第一水準漢字が実装されている「第1実装領域」
  • 第2水準漢字が実装されている「第2実装領域」
  • 将来の拡張用として残されていた「第3実装領域」(メーカー拡張文字が実装されてしまった)

の3つの領域が『第1面』、

ユーザーが独自に利用出来る領域として規定されていた「第4実装領域」(=外字領域)が『第2面』、として規定されています

この『あまり使われていない領域』に入っている「メーカー拡張文字」と「外字」を使えないようにして、そこ(=「第3実装領域」と「第4実装領域」)へ新しく第1・第2水準実装外の文字を入れてしまって「JIS X 0208:1997」を拡張しましょう

・・・というのが規格制定時の発想で、そこから「第3・第4水準漢字文字集合」が誕生しました

 

しかし、発想の元となった「JIS X 0213:2000」に準拠したエンコードの、実際に出来上がったシロモノというのは、

 

● 「Shift_JIS」(Shift_JISX0213)

規格の枠組みは一切変わっていません

しかし、規格制定時の予定から拡張して「第3実装領域」と「第4実装領域」以外の区画(※1)(※2) にも第3水準漢字を割り当ててしまったため、致命的な問題 (※3) が発生し、このエンコード手法そのものの将来性を見限った形での制定とせざるを得ませんでした

※1 「第1実装領域」と「第2実装領域」の隙間

※2 制定段階の途中から「Shift_JISX0213」の互換性については断念し、実装文字数の増加に重点を置いていたためにこのような結果となりました

※3 3・第4水準漢字の扱い方 「JIS2000(JIS X 0213:2000 附属書13)準拠エンコード」編 の「致命的な問題<その1>」を参照の事

 

● 「EUC」(EUC-JISX0213)

1990年に制定されていた「補助漢字(JIS X 0212:1990)」対応エンコード方式の「euc-jp-3」を拡張した、「EUC-JISX0213」が参考情報として制定される事になりました

「補助漢字(JIS X 0212:1990)」を割り当てられている第3面(3バイト文字領域)の空き区画へ第4水準漢字を実装し、従来JIS X 0208が割り当てられていた第2面(2バイト文字領域)に、Shift_JIS第1面と同様の方法で第3水準漢字を割り当てられる形となっています

であるので、「euc-jp-3」対応アプリケーション上において「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」対応フォントにて表示されば、すぐさま第3・第4水準漢字が扱えます

また、「euc-jp-3」非対応アプリケーションの場合においては、「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」対応フォントにて表示さればすぐさま非漢字+第1〜第3水準漢字文字集合を利用する事が出来ますが、第4水準漢字については「文字化け」します

 

● 「JIS」(iso-2022-jp-3)

いままでのJIS X 0208:1997対応の「iso-2022-jp」や、JIS X 0212:1990対応の「iso-2022-jp-2」(3ヶ国語対応:簡体字中国語・韓国語・日本語)・「iso-2022-jp-1」(日本語専用)とは全く互換性の無い「iso-2022-jp-3」というエンコード方式が参考情報として制定される事になりました

しかし、「iso-2022-jp-3」に対応したメールソフトはほとんどありませんし、将来に渡って増える見込みもほとんどありません
(後述の「致命的な問題<その2>」参照の事)

ただ、従来からの「JISエンコード文章対応アプリケーション」(メールソフトなど)(※1)でも表示フォントを「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」対応フォントにさえすれば(※2)、すぐさま非漢字+第1〜第3水準漢字文字集合については扱える(※3)ようになりますが、第4水準漢字については文字化けします

※1 3・第4水準漢字の扱い方 「JIS2000(JIS X 0213:2000 附属書13)準拠エンコード」編 の「致命的な問題<その1>」を参照の事

※2 通称「iso-2022-jp-3-compatible」と呼ばれます

 

・・・というシロモノに仕上がったため、日本工業規格の正式な規格として制定する事が出来ませんでした(※)

※ 「JIS X 0213:2000」に準拠した「Shift_JIS」「iso-2022-jp」「euc-jp」エンコードは、JIS X 0213:2000『7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合』-「附属書1:Shift_JISX0213」「附属書2:iso-2022-jp-3」「附属書3:EUC-JPX0213」として、「JIS X 0213:2000」に附属する『参考情報』としての扱いとなっていますので、これらはJISにおける「規格」ではありません

その結果、OSやアプリケーションのカーネル(内部構造)のUnicode化を推進するMicrosoftやApple、大手ソフトメーカーなどでは「JIS X 0213:2000 附属書1〜3」に準拠したエンコードは採用せず、Unicode 3.2エンコード上で「非漢字+第1〜第4水準漢字文字集合」を扱う事に決定しました

そして、「JIS X 0213:2000 附属書1〜3」に準拠したエンコードは、日の目を見る事無くその役目を終えました・・・

 

なお、「JIS X 0213:2000 附属書1〜3」に準拠したエンコードは通称「JIS2000」と呼ばれる事が多かったようですが、「 弓道辞書 」では「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」という表記に統一します

 


 

 

「文字参照(character references)」とは・・・

 

「HTML2.0(RFC1866)」で定義されているHTML文法の一つで、「文字参照(character references)」の「&○○○○;」記述にて、フォントのコードポイントをダイレクトに文字指定するというモノです

この「文字参照」の規定は、「Unicode」エンコードが扱えないアプリケーションを使っている場合であっても、ごくごく一般的な「Shift_JIS」「EUC-JP」「JIS」エンコード(=非漢字+第1・第2水準漢字+αしか扱えない)HTML文章上に、「第3・第4水準漢字」「第1〜第4水準実装外漢字」などを組み込んだホームページやリッチテキスト(HTML)形式メール(※)を作成出来る事を目的として定義されました

<重要> リッチテキスト(HTML)形式対応メールソフト自体が持つセキュリティ面の問題については、「 インターネットにおけるセキュリティ問題について 」 をご覧下さい

ごくごく一般的な「Shift_JIS」エンコード(=非漢字+第1・第2水準漢字)のホームページを既に作成されている方にとっては、ほんの少し手を加えるだけで「第1・第2水準実装外漢字」を表示させる事が出来るようになり、なおかつ「文字参照」非対応のブラウザソフトやメールソフト上でも「非漢字+第1・第2水準漢字」の部分は文字化けする事無く表示可能なため、大変に便利な存在でしょう(※)

※ 「フォント」の文字集合に該当文字が実装されていれば正しく表示出来ますが、含まれていない場合にはPC内部では正しく処理出来ていてもディスプレイ上では表示は出来ません (「文字抜け」します)

しかし、「Unicode UCS」対応フォントが導入されていない古いPC環境を使用している場合でも、

・・・などをする事で、「文字参照」対応のブラウザソフトやメールソフト上で「文字参照による多漢字・多ヶ国語文章」を表示する事が出来るようになります

 

なお、この「 弓道辞書 」READMEでも「第1・第2水準実装外漢字」を扱っていますが、そのほとんどは「Shift_JIS」エンコード上での「文字参照(character references)」を使用しています(※)

※「 豪華特別付録!!! 」 で、「Encoded by Unicode(UTF-8)」と書かれているページのみ「Unicodeエンコード」を使用しています

 


 

なお、WindowsやMac OS 〜9.xでは、「Unicode」エンコードや「文字参照」で表示出来る「Unicode UCS」文字集合対応フォントによって表示出来るのは「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」文章での「非漢字+第1・第2水準漢字」のみです

また、WindowsやMac OS 〜9.x/Mac OS Xでは、「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」対応フォントによって表示出来るのは「Unicode」エンコードや「文字参照」文章での「非漢字+第1・第2水準漢字」のみです

 

 

 

■ PCにおける多漢字・多言語ソリューションの流れ

 

1990年 非漢字+第1水準漢字+第2水準漢字の6879文字しか扱えない電子符号化文章(JIS X 0208:1983)の状況を改善すべく、日本工業規格(JIS)では非漢字+第1・第2水準漢字文字集合実装外である新たな文字集合「補助漢字(JIS X 0212:1990文字集合)」(非漢字254文字+漢字5801文字) と、「補助漢字(JIS X 0212:1990)」準拠エンコード(「iso-2022-jp-2」「iso-2022-jp-1」「euc-jp-3」)を制定

※しかし、「補助漢字(JIS X 0212:1990)」文字集合はごくごく普通のPCにおけるディファクトスタンダードである「Shift_JIS」では扱えなかったために、しばらくのあいだは「非漢字+第1・第2水準漢字文字集合の6879文字」以外の文字が普及する事はありませんでした

1993年 The Unicode Consortium と ISO(国際標準化機構)/IEC(国際電気標準会議) 10646 は、全世界の主要言語のエンコードを統合した一つのなエンコード方式「Unicode 1.1」(実装領域「第00面」のみ:最大収録文字数65536文字) と、全世界の主要な文字を含んだ単一の文字集合「UCS(国際符号化文字集合 : Universal Multiple-Octet Coded Character Set)」(30000文字強)を制定しました

「Unicode」の漢字文化圏文字集合部分は中国・台湾・韓国・日本で統合(似た文字は一つの文字として見倣して統合実装する)されていて「CJK統合漢字」(※)と呼ばれます

※ 狭義の「CJK統合漢字」:China(中国のGB規格:GB2313と台湾のTCA規格:Big5)、Japan(日本工業規格:JIS X 0208:1990+JIS X 0212:1990)、Korea(韓国のKS規格:ks_c_5601-1987)の文字コード規格を統合した、Unicode区画:0X4E00〜0X9FFFの20902文字(非漢字698文字含む)

※ Unicode 〜2.1 UCS における広義の「CJK統合漢字」では、

・・・の漢字と、

・・・の記号類非漢字が含まれますが、HiraganaKatakanaなどの非漢字は「CJK統合漢字」には含まれません

※ 実装領域「第00面」の事を、「BMP(Basic Multilingual Plane)」「基本多言語面」とも呼びます

1995年 日本工業規格(JIS)では、「Unicode 1.1」「Unicode 1.1 UCS」を日本標準として取り入れ「JIS X 0221:1995」として制定

≫ つまり、

  • 「Unicode 1.1」エンコード=「JIS X 0221:1995」エンコード
  • 「Unicode 1.1 UCS」=「JIS X 0221:1995」文字集合

・・・という事

1996年 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 2.0」(実装領域「第00面」のみ」) を制定する(※)と同時に、文字集合「UCS」を改定して38885文字に拡張しました

※韓国の一方的な要求によって、韓国語領域が従来の「Unicode 1.1」とは互換性の全く無いベツモノになってしまい、韓国が世界中から非難を受ける結果となりました

1990年代後半 日本工業規格(JIS)は、いつまでたっても「非漢字+第1水準漢字+第2水準漢字の6879文字」以外の文字が『ごくごく普通のPC上で、ごくごく普通のヒト』には扱えるようにならないことに(ごう)を煮やし、コンシューマーベースで普及している「Shuft_JIS」対応アプリケーション上でそのまま扱える事を目標(※)とした、JIS X 0208の拡張方式である「JIS X 0213」の文字集合とエンコード方式の制定に着手

※ 結局、目標倒れに終わりました

1998年 The Unicode Consortium と ISO/IEC 10646 は、Unicode 2.1(実装領域「第00面」のみ」) を制定る(※)と同時に、文字集合「UCS」を改定して 38887文字に拡張しましたす
1998年 Microsoft は、「Unicode 2.1」準拠のワープロソフト「Word 98」をリリース

添付されている 「MS ゴシック」「MS Pゴシック」「MS UI Gothic」「MS 明朝」「MS P明朝」フォントが「補助漢字(JIS X 0212:1990)」文字集合に対応(「Unicode 2.1」準拠)

※ これによって、コンシューマーベースで「非漢字+第1水準漢字+第2水準漢字の6879文字」+「機種依存文字」以外の文字を、Unicode文章として始めて利用出来るようになりました

1998年 Microsoft は Windows 98/NT4.0 SP4 にて「MS ゴシック」「MS Pゴシック」「MS UI Gothic」「MS 明朝」「MS P明朝」を「補助漢字(JIS X 0212)」文字集合に対応させてリリース(「Unicode 2.1」準拠)
1999年9月 The Unicode Consortium と ISO/IEC 10646 は、Unicode 3.0(実装領域「第00面」のみ) を制定と同時に、文字集合「UCS」を改定して49194文字に拡張しました

「Unicode 2.0」制定時、韓国が「Unicode 1.1」実装領域から勝手に別の場所へと変更した結果、旧「Unicode 1.1」韓国語実装領域が空き領域となったため、ここやその他の空白域をCJK Unified Ideographs Extension A(U+3400U+4DBF、6591文字)などとして再定義し直し、CJK統合漢字は20204文字(非漢字含まず)から27484文字へ増量されました

CJK Unified Ideographs Extension Aでは、「第3・第4水準漢字集合」の中から164の漢字が新規実装されています

それから、漢文表示用記号も制定されました

また、漢字部首の統合処理が見直され「Kangxi Radicals」 が制定されましたが、従来の「CJK Compatibility Ideographs Supplement」(漢字部首-CJK統合)と「Kangxi Radicals」 (漢字部首-CJK非統合)とが併用されるという苦し紛れの処理が施されました(※)

※ 「Kangxi Radicals」の中には「CJK Compatibility Ideographs Supplement」の部首がすべて含まれており、コードポイントが重複して与えられています

2000年1月 中国(中華人民共和国)では、PCのOSやアプリケーション、PDAや携帯電話などの、全ての情報通信機器への「GB18030-2000」エンコード方式(※1)の採用を義務付けました(※2)

※1 従来の「GB2312」と上位互換をもった、最大1565668文字の文字集合を実装する事が可能な、中国の新しい国家標準エンコード方式

※2 2001年9月からは、「GB18030-2000」を導入出来無い情報通信機器の販売が禁止となり、Windows 95/98/Me や Mac OS 〜9.x などの販売が停止されました

2000年1月 JIS X 0213:2000 告示
  • 「非漢字+第3・第4水準漢字文字集合」については、日本工業規格(JIS)における正式な規格として制定
  • 「JIS2000(JIS X 0213:2000 附属書1〜3)準拠エンコード」については、日本工業規格(JIS)の参考情報の扱いとして制定

なお、「第3・第4水準漢字文字集合」は、10年前に制定された「補助漢字(JIS X 0212:1990文字集合)」と大部分が重複しており、「補助漢字(JIS X 0212:1990文字集合)」の中に含まれていない「非漢字+第3・第4水準漢字」は約400文字だけです

2001年3月 Apple は、「Mac OS X」から15444文字の文字集合を備えたOpenType Font(※1)「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴシック Pro W3」「ヒラギノ角ゴシック Pro W6」「ヒラギノ丸ゴシック Pro W4」version 7.0 (「大日本スクリーン製造株式会社」製) を導入し、「Unicode 2.1/3.0対応アプリケーション上で「Adobe Japan1-4(※2)文字集合」のUnicode実装9772文字やAdobe InDesign 1.0/2.0/CSAdobe Illustlator CS」「Canon EDICOLOR 7.0」などのPostScriptカーネルアプリケーション上で「Adobe Japan1-4(※2)文字集合」PostScript実装15444文字字形を扱う形態を取っています

※1 OpenType Font は、Adobe と Microsoft が共同開発したフォント規格で、「Windows2000/xpWindows Server 2003」と「Mac OS X」にて同一のフォントファイルを双方で相互に利用出来ます(※3)
(ライセンス的に相互利用を許諾しているかどうかは別として、技術的には利用可能)

Adobe - OpenType ユーザガイド - PDFファイル : 1.3MB

Adobe - OpenType フォント「よく尋ねられる質問」

大日本スクリーン製造株式会社 - ヒラギノOpenTypeに関するよくあるご質問と回答集(FAQ)

※2 Adobe Solutions Network Technical Notes - Fonts

※3 Adobe Type Maneger light(Win/Mac用フリーソフト)をインストールすると、Windows 95/98/Me/NT4.0 や Mac OS 〜9.x でもOpenType Font をいちおう扱う事が出来るようになりますが、「Windows2000/xpWindows Server 2003」や「Mac OS X」と同等に扱える訳ではありません

2001年3月 The Unicode Consortium と ISO/IEC 10646 は、Unicode 3.1(実装領域「第00面」〜「第16面」:最大収録文字数1114112文字)を制定

「Unicode 3.x」による特徴として、実装領域「第01面」〜「第16面」:(※)が新しく制定され、実装領域「第02面」の中の「U+20000U+2A6D6」(計42711区画)に設けられた「CJK Unified Ideographs Extension B」へは42711文字のCJK漢字が登録されました

※ 実装領域「第01面」〜「第16面」の事を、「サブサロゲート」もしくは「サロゲートペア」、あるいは単に「サロゲート」などと呼びますが、「 弓道辞書 」では『実装領域「第01面」〜「第16面」』という表記に統一します

CJK Unified Ideographs Extension Bでは、「第3・第4水準漢字集合」の中から302の漢字が新規実装されています

また、「CJK Compatibility Ideographs」に補足される形で、実装領域「第00面」へ「CJK Compatibility Ideographs Supplement」が付け加えられました

 

これによって、CJK統合漢字(非漢字含まず)が「Unicode 3.0」までの27484文字と合わせて70195文字に増量され、日本採用枠部分では「J3」(JIS X 0213:2000, level 3=第3水準漢字文字集合のうちの純粋に漢字のみ)と「J4」(JIS X 0213:2000, level 4=第4水準漢字文字集合)が追加収録されました

2001年4月 日本工業規格(JIS)では、「Unicode 3.x」準拠の実装領域「第00面」〜「第16面」の符号化体系と、「Unicode 3.0」準拠の実装領域「第00面」文字集合(UCS)を、日本標準として取り入れ、「JIS X 0221-1:2001」として35040文字の文字集合と符号化を制定

≫ つまり、

  • 「Unicode 3.1〜」エンコード=「JIS X 0221-1:2001」エンコード
  • 「Unicode 3.0 UCS」(Near Equal)「JIS X 0221-1:2001」文字集合

・・・という事

なお、「JIS X 0221」系列は廃止され、「JIS X 0221-1」に改められました

2001年6月 Microsoft は、

にて、「Unicode 3.1」に対応させました(※2)

※1 「簡」の中国での簡字体漢字(第1〜第4水準実装外漢字)(Unicode 2.1 実装文字)

※2 アプリケーションとして、実装領域「第00面」〜「第16面」に対応し、フォントも「Unicode 3.1 UCS」対応の「Simsun(Founder Extended)」が附属しています

また、日本語版「Officexp」でも、アプリケーションとして実装領域「第00面」〜「第16面」に対応しましたが、肝心の「Unicode 3.1 UCS」文字集合対応フォントは附属していません

しかし、Microsoft Global IME for Officexp (Simplified Chinese)- with Language Pack をダウンロードしてインストールすれば、「Simsun(Founder Extended)」が組み込まれるようです

2001年9月 Apple (と、フォントベンダーである「大日本スクリーン製造株式会社」)は、「Mac OS X 10.1」で「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴシック Pro W3」「ヒラギノ角ゴシック Pro W6」「ヒラギノ丸ゴシック Pro W4version 7.0 を導入、実装文字数を拡張し、「AGPS(Apple Publishing Glyph Set)(仮)」(※)文字集合(PostScript実装20317文字字形、Unicode実装約13600文字)としました

※ 「AGPS(仮)」では、Windows 98〜(Microsoft Word 98〜をインストールしたWindows 95を含む)や、一部のUnix で採用されている「JIS X 0212:1990」(補助漢字文字集合)(非漢字254文字+漢字5801文字)のうちの約1/3は欠落しています

「AGPS(仮)」文字集合は、「JIS X 0212:1990」(補助漢字文字集合)の約2/3の文字は包括しているとはいうものの、他のOSとの多漢字文章を確実にやり取りするには、

  • Mac OS X Language Support Updates: Software Download をインストールして「Unicode 3.2 UCS」対応環境にする
  • Unicode UCS対応フォント」をダウンロードして「Unicode 2.1 UCS」対応環境にする
  • 「Mac OS X 10.2」にアップデートする
    (「Mac OS X 10.2」に標準で入っている簡体中文フォントの 「华文细黑(STHeiti Light)」 「华文黑体(STHeiti Regular)」 「华文宋体(STSong Regular)」 「华文楷体(STKaiti Regular)」 「华文仿宋(STFangsong Regular)」 は、Unicode 3.0 の範囲内での日本語表示に完全対応しています)

・・・などの必要があります

また、「非漢字+第1〜第4水準漢字文字集合」にて独立した文字として制定されているにも関わらず「Unicode 3.2 UCS」文字集合上で独立した文字としては制定されない事が決まったアイヌ語表記用「セ゚(半濁音付きのセ)」「ツ゚(半濁音付きのツ)」「ト゚(半濁音付きのト)」「ㇷ゚(小文字)(半濁音付きの小文字フ)」については、Unicode実装されていないものの、「Mac OS X 10.1〜」での「AGPS(Apple Publishing Glyph Set)(仮)」文字集合上での独立した文字字形としてPostScript実装されています

「Unicode 3.2 UCS」文字集合上で独立した文字としては制定されない文字については、代わりに制定されたアイヌ語表記/鼻濁音のが行・ガ行の発音表記文字(半濁音付きのか行・カ行)表記用半濁音記号「゙(U+3099)」(の記号表示位置が枠内の右上になっている半濁音記号)と「セ」「ツ」「ト」「ㇷ(小文字フ)」の2文字の文字データが順番に並んだ状態になると、Mac OS X 10.1〜などのUnicode 3.2完全対応OSにて自動的に合成されて独立した文字の状態で表示されます

そして、Mac OS X 10.1データシートでは、

ことえり3  

「JIS X 0213:2000」の
フルサポート
  • ヒラギノが新しくサポートした「JIS X 0213:2000」をフルにサポートしました。
    Unicodeに対応したアプリケーションに対して、通常のかな漢字変換および文字パレットから、「JIS X 0213:2000」の文字を入力・編集する事ができます。
    また、「JIS X 0213:2000」の文字が必要な地名、人名等をあらかじめ辞書に登録してあります。

文字パレットの拡張
  • 「部首引き漢字表」は「JIS X 0213:2000」に対応すると共に、厳密には正しい部首でなくても引けるように強化しました。
    画数表示も行いますので、今まで以上に検索が簡単になります。
    「漢字以外の文字表」も、分類を見直すと共に「JIS X 0213:2000」への対応を強化しました。
    その他、「新JIS面区点表」や「ユニコード(※1)表」にも拡張が計られています。
   
ヒラギノフォント  

「JIS X 0213:2000」 の
サポート
  • JIS(日本工業規格)の新しい漢字集合規格「JIS X 0213:2000」をフルにサポートしており、Unicode(※1)に対応したアプリケーション等から使用することができます。
    業界標準規格をベースとしていますので、「JIS X 0213:2000」を採用するシステム間であれば、インターネットを介した情報交換も可能です。

・・・と表記されています

※1 社団法人 日本印刷技術協会(JAGAT)のページの、Apple担当者の話で「Unicode 3.2」に先行対応との事(※2)

※2 Apple は The Unicode Consortium のメンバーであるので、規格制定前に対応させる事も出来て当然・・・

なお、『「JIS X 0213:2000」のフルサポート』というのは、

  • Unicode の実装領域「第00面」〜「第16面」対応アプリケーション上で「非漢字+第1〜第4水準漢字文字集合」をフルにサポート
  • Adobe InDesign 2.0/CSAdobe Illustlator CS」「Canon EDICOLOR 7.0」などの 「AGPS(Apple Publishing Glyph Set)(仮)」対応PostScriptカーネルアプリケーション上で、「非漢字+第1〜第4水準漢字文字集合」をフルにサポート

・・・という点で「JIS X 0213:2000」でのJIS規格として制定された文字集合としてフルにサポートされていてます

2001年11月 Microsoft は、「Windowsxp」にて、「OS」や「標準添付アプリケーション」の多くは実装領域「第00面」〜「第16面」に対応しましたが、「Unicode 3.x UCS」対応フォントは附属していません
2002年1月 Microsoft は、「Office v.X」(for Mac OS X 10.1〜)にて、「Unicode 3.2」に対応させました(※)

※ 「Unicode 3.2 UCS」文字集合対応フォントは附属していません

※ Microsoft は The Unicode Consortium のメンバーであるので、規格制定前に対応させる事も出来て当然・・・

2002年3月 The Unicode Consortium と ISO/IEC 10646 は、「Unicode 3.2」を制定し、実装領域「第00面」や、「第02面」の中の「CJK Unified Ideographs Extension B」は8文字追加され42,719文字(U+20000〜U+2A6DF)になるなど、「Unicode 3.2 UCS」は1016文字(※1)が追加され71216文字となりましたました

※1 フィリピン採用枠として「Tagalog」「Hanunoo」「Buhid」「Tagbanwa」が取り入れられた他、既存領域でも若干の追加がおこなわれ、日本採用枠部分では、前回収録が見送られた「第3水準漢字文字集合のうちの非漢字部分」(※2)が追加され、「非漢字+第1〜第4水準漢字文字集合」にほぼ完全対応しました

※2 Mathematical Operators(各種専門記号類)「Dental Symbols」(JIS X 0213:2000「けい線素片」) のほか、日本語版OS上でしか存在しなかった 半角カタカナや全角英数、全角欧文記号といった概念 などのEast Asian Width(East Asian Legacy character sets) も追加されましたが、アイヌ語表記用「セ゚(半濁音付きのセ)」「ツ゚(半濁音付きのツ)」「ト゚(半濁音付きのト)」「ㇷ゚(小文字)(半濁音付きの小文字フ)」については独立した文字としては制定されず、代わりに制定されたアイヌ語表記/鼻濁音のが行・ガ行の発音表記文字(半濁音付きのか行・カ行)表記用半濁音記号「゙(U+3099)」(の記号表示位置が枠内の右上になっている半濁音記号)と「セ」「ツ」「ト」「ㇷ(小文字フ)」との2文字の文字データを、Mac OS X 10.1〜などのUnicode 3.2完全対応OSによって自動的に組み合わされた状態で表示させる事に決まりました

2002年6月 Appleは、「Mac OS X 10.1.5〜」にて、 Mac OS X Language Support Updates: Software Download をインストールする事によって「Unicode 3.2 UCS」文字集合へ対応出来るようにしています
2002年8月

総務省の「住基ネット(住民基本台帳ネットワーク)」が運用開始され、「Unicode」をベースとしたエンコード(※)が採用されました

正確には、「非漢字+第1〜第4水準漢字文字集合」や「各自治体のShift_JIS外字セットの文字字形の集合体」などのうち、

  • 「Unicode」の実装領域「第00面」に割り当てられている文字については「Unicode」互換

  • 「Unicode 3.1〜」の実装領域「第01面」〜「第16面」に割り当てられている文字については「Unicode」非互換
    (実装領域「第00面」の非漢字領域へ、総務省独自の割り当て)

・・・というように、「Unicode 3.0」とは一部に非互換性を持つエンコードのようです

2002年8月 Appleは、「Mac OS X 10.2」にて、 新「ことえり3」での「ことえりパレット」は「Glyph Input Protocol」をサポートし、実装領域「第00面」+「第01面」〜「第16面」対応アプリケーション上で、Unicode実装の文字だけでなくPostScript実装の文字字形すべてを扱う事が出来るようになりました

※ 「Mac OS X 10.1」での、 旧「ことえり3」の「ことえりパレット」では、「AGPS(Apple Publishing Glyph Set)(仮)」のPostScript実装20298文字字形、Unicode実装約13600文字の中から、「非漢字+第1〜第4水準漢字文字集合」の11223文字しかサポートしていませんでした

また、Adobe と Apple は、「AGPS(Apple Publishing Glyph Set)(仮)」を拡張し、「国語審議会「表外漢字字体表」新規制定文字+その他」を追加して、PostScript実装20317文字字形、Unicode実装約13600文字の「Adobe Japan1-5」(※)文字集合を定義し、「Mac OS X 10.2」付属の「ヒラギノ明朝 Pro W3」「ヒラギノ明朝 Pro W6」「ヒラギノ角ゴシック Pro W3」「ヒラギノ角ゴシック Pro W6」「ヒラギノ丸ゴシック Pro W4version 7.1にて実装しました

Adobe Solutions Network Technical Notes - Fonts

それから、簡体中文フォント「华文细黑(STHeiti Light)」 「华文黑体(STHeiti Regular)」 「华文宋体(STSong Regular)」 「华文楷体(STKaiti Regular)」 「华文仿宋(STFangsong Regular)」 は「Adobe GB1-4」(29063文字) をサポートしており、「Unicode 3.0 UCS」文字集合の漢字部分がフルに実装されています(Hangul領域は実装されていません)

2002年9月 大日本スクリーン製造株式会社は、ヒラギノOpenTypeフォント45書体を925日に発売しました

これで「Windows」でも、「Mac OS X 10.2」で導入されているヒラギノOpenTypeフォント Proと同じ「Adobe Japan1-5」のPostScript実装20298文字字形、Unicode実装約13600文字を実装したフォント(※)を利用出来るようになります

※ StdフォントはPostScript実装9354文字字形、Unicode実装8175文字が、Proフォントversion7.1ではPostScript実装20298文字字形、Unicode実装約13600文字が実装されています

2003年4月 The Unicode Consortium と ISO/IEC 10646 は、Unicode 4.0を制定し、1226文字が新規実装されて「Unicode 4.0 UCS」は72442文字となりましたました
2003年10月 Appleは、「Mac OS X 10.3」にて、「ことえり4」で新設された「アイヌ語入力モード」において、第3水準漢字のアイヌ語表記用小文字カタカナ「U+31F0〜U+31FF」「セ゚(半濁音付きのセ)」「ツ゚(半濁音付きのツ)」「ト゚(半濁音付きのト)」「ㇷ゚(小文字)(半濁音付きの小文字フ)」を含むアイヌ語カタカナ表記のローマ字入力をサポートしました
2003年11月 JUSTSYSTEM は、「Adobe Japan1-5」(※)文字集合のPostScript実装20298文字字形、Unicode実装約13600文字にフルに対応し、第3・第4水準漢字辞書も標準搭載した「ATOK 16 for Mac OS X 10.1〜」を11月21日に発売しました

Adobe Solutions Network Technical Notes - Fonts

今後の予定 The Unicode Consortium と ISO/IEC 10646 は、「CJK Unified Ideographs Extension C block」の制定作業に取り掛かっており、Unicode 4.0以降のバージョン(=4.1?)にて実装されるようです

http://www.unicode.org/versions/beta.html

「CJK Unified Ideographs Extension C」へは4〜5万程度の漢字が新規に割り当てられる見込みで、従来からの採用枠に加えてシンガポール、北朝鮮、マカオなどからも収録され、近い将来のバージョンのUnicodeにて実装領域「第01面」〜「第16面」の中へまず「CJK Unified Ideographs Extension C1」という形で約26000文字が実装され、さらにその先のバージョンで「CJK Unified Ideographs Extension C2」・・・と、徐々に実装されていくようです

今後の予定 Microsoft は、2005年後半にリリースが予定されている「Windowsxp の後継OS」にて、Mac OS X 10.1〜と同様のUnicodeによる「非漢字+第1〜第4水準漢字」文字集合を採用するようです

Windows 98/Me (Microsoft Word 98〜をインストールしたWindows 95 を含む)Windows NT4.0SP4/2000/xpWindows Server 2003 採用している「非漢字+第1・第2水準漢字+補助漢字」文字集合へ、「第3・第4水準漢字」を加えた文字集合になると思われます

 

 

 

 

return to back

return to toppage