背景
明度調整

00/15

01/15

02/15

03/15

04/15

05/15

06/15

07/15

08/15

09/15

10/15

11/15

12/15

13/15

14/15

15/15
文字
明度調整

00/15

01/15

02/15

03/15

04/15

05/15

06/15

07/15

08/15

09/15

10/15

11/15

12/15

13/15

14/15

15/15

 

 

第3・第4水準漢字の扱い方
「Unicode」編

 

 

Windows 95」「Mac OS 〜9.x」「一部の Unix」のような古いPC環境では、素の状態(PCを購入したまま)であれば第3・第4水準漢字などを含むフォント(※)は入っていません

※ Mac OS 8.5〜9.xの場合には、OSのCD-ROMなどから別途追加インストールする必要があります

Mac OS 8.59.xを使用されている方はこちらのページをご覧下さい

第3・第4水準漢字などを含むフォントが入っていない古い環境では、第3・第4水準漢字などは文字抜け(半角の空白などに置き換わる)してしまうので読解不能な文章となってしまいます

「第1・第2水準実装外漢字」をネット上で扱う場合には、

・・・などの配慮を必ずして下さい(※1)

※1 「 弓道辞書 」によって漢字変換された「第1・第2水準実装外漢字」については、強制的にふりがなが付与されるようにしてあります(※2)

※2 ふりがなが振られなかった弓道用語の漢字については、「第1水準漢字」もしくは「第2水準漢字」のいずれかであるという事です

 

しかし、上記のような古いPC環境であっても、Microsoft や Apple などが Unicodeにおける第3・第4水準漢字などを含むフォント(※1)を無償配布していますので、それらをダウンロードしてくる(※2)事で、第1・第2水準実装外漢字が扱えるようになります

※1 第3・第4水準漢字だけではなく、世界中の主要言語の文字の包括した数万文字の文字集合を実装していますので、最新のPC環境を使用している方も、ぜひダウンロードしておきましょう

※2 「Unicode UCS 文字集合対応フォント」の入手方法についてはこちらのページをご覧下さい

 

 

Unicode の種類について

 

現在、おおまかに分類して4種類(と、その亜種が数種類)が制定されていますが、一般的に広く使用されているUnicodeエンコード方式は2種類だけです

 

UTF-7(7bit可変長code)

「Unicode 〜2.x」までしかサポートしておらず、もともと英語圏でのパソコン通信伝送路用に設定された特殊方式であるので、日本で用いられる事はまずありません

メールの場合については「半角英数がJIS(iso-2022-jp)互換のUTF-7の方が良いのでは?」と思われる方もいるかも知れませんが、Mac OS X の標準装備メールソフト(Mail.app)では「第1・第2水準実装外漢字」を含んだメール文章は自動的に「UTF-8」として処理され、「Netscape Mail & Newsgroups 7.x」でも「アクティブな文字コード」から「UTF-7」はディフォルト状態で除外されており、安易に「UTF-7」が使用されないようになっています

UTF-8(8bit(1オクテット)可変長code)

ホームページやメールでは、「Unicode(UTF-8)」を用います

半角英数はShift_JIS互換の8bit(1オクテット)、英語以外の欧州系文字などは16bit(2オクテット)、その他(ひらがな・カタカナ・漢字など)は24bit(3オクテット)で処理

・・・の2種類が存在しています

 

UTF-16(16bit(2オクテット)可変長code)

Windows、Mac OS 〜9.x/Mac OS X ともにOS標準として採用しており、PC上で扱うUnicodeテキストファイルは、基本的に「Unicode(UTF-16)」を用います
(ただ単に「Unicode」と表記されている場合には、それは「Unicode(UTF-16)」を指します)

半角英数も、ひらがな・カタカナ・漢字も、基本的には16bit(2オクテット)の実装水準「第00面」で処理、後から拡張された「使用頻度が低い記号類・漢字」や「少数民族文字」などは32bit(4オクテット)の実装水準「第01面」〜「第16面」で処理

UTF-32(32bit(4オクテット)固定長codec)

現時点では Sun Microsystems の「Solaris」のみがOS標準として採用しています
(「Solaris」以外のOSではほとんど用いられる事はありません)

・・・の2種類が存在しています

 

 

■ 対応「日本語入力かな漢字変換辞書」

 

「第1・第2水準実装外漢字」を「 弓道辞書 」の力によって Unicodeエンコード文章上へダイレクトに変換出来る「日本語入力かな漢字変換辞書システム」は下記の種類に限られます

Microsoft IME ATOK ことえり
97・98 2000 2002 Windows Macintosh Linux 1・2 3・4
「通常版」での
インストール時
「エキスパート版」での
インストール時
11 12〜15 16
× × (※1) (※2) (※1) × (※1) (※3) (※1) × (※3)

※1 Unicodeの実装領域「第00面」のみ対応

※2 辞書データに登録されている漢字の変換についてはUnicodeの実装領域「第00面」〜「第16面」に対応していますが、ツールの「IMEパッド」の表示は実装領域「第00面」のみです

※3 Unicodeの実装領域「第00面」〜「第16面」に対応

 

なお、次期版の「 弓道辞書 」version 1.30 では、Microsoft IME 98/2000 対応版での「第1・第2水準実装外漢字」漢字変換に完全対応します
(Unicodeの実装領域「第00面」のみ対応)

 


 

また、「日本語入力かな漢字変換辞書システム」での漢字変換候補表示に用いられるフォントに第1・第2水準実装外漢字が含まれていなければ、漢字変換候補文字列の第1・第2水準実装外漢字は「・」「□」などと表示されます

<Microsoft IME 〜98 の場合>

<Microsoft IME 2000〜 の場合>

<ATOK の場合>

≫ ATOK 12 for Windows の場合では、JUSTSYSTEMサポートやATOKのHelpファイル(「ATOKメニュー」にてを選択)、ATOKの取扱説明書などを参考にして「拡張漢字設定ツール」を追加インストールし、「拡張漢字設定ツール」窓にて、

タブ選択→通常表示フォントを選択→→通常表示フォントには含まれない漢字を表示するための「割付書体」を選択→

・・・といった具合になっているようなので、その他のバージョンでもこれに準じた方法で「第1・第2水準実装外漢字」が表示出来るよう設定して下さい

JUSTSYSTEM サポート 日本語入力 ATOK10 for Windows
ATOK11 for Windows
ATOK12 for Windows
ATOK13 for Windows
ATOK14 for Windows
ATOK15 for Windows
ATOK16 for Windows
Macintosh製品 ATOK13 for Macintosh
ATOK14 for Macintosh
ATOK15 for Mac OS X
ATOK16 for Mac OS X >

  • (Unicodeの実装領域「第00面」〜「第16面」に対応し、「第3・第4水準漢字辞書」が標準搭載されています)
Java・Linux製品 ATOK X for Linux  

 

 

■ 対応「アプリケーション」・・・その1

 

第1・第2水準実装外漢字を扱うには、Unicode対応アプリケーションソフトにて「Unicode(UTF-8)エンコードモード」や「Unicode テキストドキュメントモード」(=UTF-16)などとなっている状態でなければ扱う事が出来ません

なお、 「Unicode」として「第3水準漢字」「第4水準漢字」を完全に扱うには、対応フォントがインストールされているだけで無く、OSとアプリケーションの両方がUnicodeの実装領域「第00面」〜「第16面」にそれぞれ対応している必要があります

≫ Unicodeの実装領域「第00面」のみでは、「第3水準漢字」「第4水準漢字」のうちのUnicodeの実装領域「第02面」に実装されている「第3水準漢字」19文字と「第4水準漢字」283文字は扱う事が出来ません

≫ 「Unicode 3.1」対応フォントでは、Unicode 3.2で定義された「第3水準漢字のうちの一部非漢字部分」の、Unicodeの実装領域「第00面」に実装されている数十文字は入っていません

「第3水準漢字のうちの一部非漢字部分」を完全に扱うには、「Mac OS X 10.1〜」に標準添付されている
「ヒラギノ Pro OpenType Fontや、「Habian2000u TrueType Font」といった「Unicode 3.2」対応フォントである必要があります

OSについては、
  • Windows 2000/xpWindows Server 2003
  • 「Mac OS X」
  • 「カーネルの新しいバージョンのUnix」

・・・は、Unicodeの実装領域「第00面」〜「第16面」対応OSとなっています

Windows NT4.0」はディフォルト状態では扱う事が不可能ですが、Windows 2000 Surrogate Update(1333KB) をインストールする事で、実装領域「第01面」〜「第16面」 を扱う事が可能となります

また、「Windows 2000」にて扱う事が出来無くなっている場合には、Windows 2000 Surrogate Update(1333KB) をインストールする事で不具合が解消されます

  • Windows 95/98/Me
  • 「Mac OS 〜 9.x」
  • 「カーネルの古いバージョンのUnix」

・・・は、Unicodeの実装領域「第00面」しか対応していません


アプリケーションについては、

  • WindowsxpWindows Server 2003 のOS標準添付アプリケーション
  • 「Mac OS X 10.1〜」 のOS標準添付アプリケーション

や、

  • Microsoft Officexp/Office 2003 Editions
  • Microsoft Office v.X」(for Mac OS X 10.1〜)

・・・は、Unicodeの実装領域「第00面」〜「第16面」対応アプリケーションとなっています

  • 上記より以前のバージョンの Microsoft や Apple の「Unicode」対応アプリケーション
  • Microsoft や Apple 以外のメーカーの「Unicode」対応アプリケーション

・・・は、 Unicodeの実装領域「第00面」にのみ対応となっている製品が多いようです

 


 

ブラウザソフトでは、

・・・では、Unicodeの実装領域「第00面」のみ対応

 

・・・では、Unicodeの実装領域「第00面」〜「第16面」に対応

 

※1 Windows 95/98/Me 上の「Internet Explorer 4.0〜」では、基本的には Unicode 3.0 UCS文字集合 の文字しか表示出来ません

Unicodeの実装領域「第00面」の文字であっても、Unicode 3.2で規定されたアイヌ語表記用小文字カタカナ「U+31F0〜U+31FF」アイヌ語表記/鼻濁音のが行・ガ行の発音表記文字(半濁音付きのか行・カ行)表記用半濁音記号「U+309A」は表示出来ますが、同じくUnicode 3.2で規定された歯科記号「U+23BE〜U+23CC」では表示が「□」となります

 

※2 「Netscape Navigator 4.x」では、などの「フォーム」パーツ上に「第1・第2水準実装外漢字」を表示させる事は出来ません
(表示が「?」(半角のQestion Mark)となります)

 

※3 ごくごく普通のホームページが全て縦書きで表示されるルビ表示対応ブラウザソフト
(Unicode(UTF-8)は対応、Unicode(UTF-16)については非対応)

「Windows版」と「Unix版」がありますが、Javaに対応する全てのOS上で作動します
(中に入っている「kagetaka-browser.jar」をダブルクリック)

 

※4 Windows 2000/xpWindows Server 2003 上のInternet Explorer 6.0〜」(for Windows)にて、実装領域「第01面」〜「第16面」の文字をディスプレイ上で表示出来るフォントは、基本的にはレジストリ(PCの設定情報データベース)に登録されている一種類のみです

Windows 2000/xpWindows Server 2003 上のInternet Explorer 6.0〜」(for Windows)の初期状態では、「Simsun (Founder Extended)」が設定されているため、「Simsun (Founder Extended)」以外の実装領域「第01面」〜「第16面」の文字を実装したフォントがPCにインストールされていても、実装領域「第01面」〜「第16面」の文字は表示が「・」となります

実装領域「第01面」〜「第16面」の文字の表示フォントの設定変更方法

 


 

ただし、Unicode対応アプリケーション上で「 弓道辞書 」を使用していても、

  • アプリケーションの一部にShiht_JISに依存する部分のある古い設計のアプリケーションでは、「第1・第2水準実装外漢字」を変換しようとしても「?」(半角のQestion Mark)と出力されます

  • Microsoft「Office v.X」(for Mac OS X 10.1〜) (「Word for Mac」「Excel for Mac」)の仕様上、 ことえり3やATOK14〜などの日本語入力かな漢字変換辞書システムからは「Unicode 2.1 UCS」文字集合に実装さている文字しか正常に出力出来ず、CJK Unified Ideographs Extension ACJK Unified Ideographs Extension Bを出力しようとしても文字化けします
    (既存ファイルからの読み込みでは、「CJK Unified Ideographs Extension ACJK Unified Ideographs Extension Bが正常に表示出来ます)

・・・などのアプリケーション固有の仕様/制約により「第1・第2水準実装外漢字」を「 弓道辞書 」の力によって出力出来ない場合もありますし、

  • Unicode(UTF-8)カーネル(※1アプリケーション)の場合は、「Windows 95/98/Me」「Mac OS 9.x」にてUnicodeで日本語を表記する場合、「第00面」実装境域においては「日本語入力かな漢字変換辞書システム」ではUnicode(UTF-16)カーネル(※1)のため『16ビット(2オクテット)』として処理・出力されるのに対し、Unicode(UTF-8)カーネル(※1アプリケーションでは『24ビット(3オクテット)』としてデータ処理されますが、「Windows 95/98/Me」「Mac OS 〜9.x」の場合には、OSネイティブで『16ビット(2オクテットのエンコードデータ)』と『24ビット(3オクテット)エンコードデータ)』との変換テーブルを持たず、OSカーネルの「Shift_JIS」が変換の中間に介在する構造となっているおり、「Shift_JIS」で扱えないデータは欠落するため「?」(半角のQestion Mark)と出力されます

・・・などのOS固有の仕様/制約により「第1・第2水準実装外漢字」を「 弓道辞書 」の力によって出力出来ない場合もあります

 

※1 「Micorosoft Internet Explorer」「Netscape 6.0〜」など、Unicode対応のブラウザソフトなどのHTML関連の多くはUnicode(UTF-8)カーネル

「Microsoft Word 98〜」「JUSTSYSTEM 一太郎」Sun Microsystems StarSuite 7.x(※)OpenOffice.org 1.x(※2)などのUnicode対応ワープロソフトのほとんどがUnicode(UTF-16)カーネル

≫ 「Windows NT4.0SP4~/2000/xp」「Windows Server 2003Mac OS X」では、『16ビット(2オクテットのエンコードデータ)』と『24ビット(3オクテット)エンコードデータ)』との変換テーブルが存在するため、比較的新しいUnicode(UTF-16)/Unicode(UTF-8)のカーネルの違いに関係無くダイレクトに変換する事が出来ます

※2 Sun Microsystems StarSuite 6.x/7.x(Windows版、Linux/Intel版、Solaris/SPARC版)
  OpenOffice.org 1.x(Windows版、Linux/Intel版、Linux/PowerPC版、Solaris/SPARC版、Solaris/Intel版、FreeBSD版、Debian版、Mac OS X X11版(X11 for MacOS X などの FreeBSD X11カーネルのインストールが必要)、Mac OS X Java派生版)

・・・は、Sun Microsystemsを中核としたオープンソースプロジェクトによる高性能統合Officeアプリケーションです(Unicodeの実装領域「第00面」のみ対応)

これらは「Microsoft Office ドキュメントファイル」と非常に高精度なファイル互換性を持ち、多機能(一太郎ファイルコンバータ/豊富なテンプレート/Unicode 2.1 UCS文字集合実装フォントなどが付属)版のSun Microsystems StarSuite 7.x5台までのPCへインストール可能で9800円で販売OpenOffice.org 1.xは付加機能やメーカーサポートなどが無い代わりに無償配布されています

また、「ワープロソフト」や「表計算ソフト」だけで無く、「Microsoft Office Personal」には入っていない「ホームページ作成支援ソフト」「数式エディタソフト」「ドローソフト」までセットになっているだけで無く、Sun Microsystems StarSuite 7.0OpenOffice.org 1.1.0からは「PDF形式(Acobe Acrobat)ファイルへのエクスポート」(※)や、ドローソフトやプレゼンテーションソフトでの「swf形式(Macromedia Flash)ファイルへのエクスポート」などもサポートしています

※ フォントの埋め込みが出来るのは、「932(932 JIS/Japan もしくは 932 JIS/Japan Windows OEM Character Set)CodePage値が組み込まれているTrueType Font(.ttf/.ttc)のみです

「Microsoft Font properties extension」(Windows用フリーソフト)をインストールする事によって、TrueType Font(.ttf/.ttc)やOpenType Font(.otf)に組み込まれているCodePage値を見る事が出来ます

「932CodePage値が組み込まれていないTrueType Font(.ttf/.ttc)を埋め込むと、PDF表示アプリケーションにて文字化けします

≫ OpenType Font(.otf)ではフォントの埋め込み処理が正常に処理出来ないため、PDF表示アプリケーションにて描画エラーが発生します


入手したオンラインダウンロードソフトのファイルは「圧縮」されているため、「解凍ソフト」と呼ばれるソフトによる伸展プロセスをおこなう必要があります(詳しくは、「オンラインダウンロードソフトの基礎知識」 をご覧下さい)

≫ インストール時のセットアップウィザードにて、JavaがPCにインストールされているかチェックされます

Javaがインストールされていないためにセットアップウィザードを先に進めない場合には、Sun Microsystems の「Java TM 2 SDK Standard Edition (J2SE)」-「Java TM 2 Runtime Environment」(JRE) をインストールする必要があります

OpenOffice.org 日本ユーザー会」「しっぷすIT活用創出部会」「OOoWiki」などが非常に詳細なサポートページを用意していますので目を通しておく必要があるでしょう

なお、「Unicode」テキストとして保存するには、「名前を付けて保存」窓にて、

  • 『ファイルの種類(T):』を選択してをクリックすると「ASCIIフィルタオプション」窓が開き、を選択すると「Unicode(UTF-16)」となり、第1・第2水準実装外漢字をそのまま保存出来ます

  • 『ファイルの種類(T):』を選択してをクリックすると「ASCIIフィルタオプション」窓が開き、を選択すると「Unicode(UTF-8)」となり、第1・第2水準実装外漢字をそのまま保存出来ます


現在のバージョンのOpenOffice.org 1.1.0では、データサイズが大きいHTMLファイルを読み込むと文字化けしやすいようです

データサイズの大きいHTMLファイルを編集する場合にはOpenOffice.org 1.1.0の使用は諦めて、市販のホームページ作成支援専用ソフトやNetscape 6.0〜」「Netscape Composer」(Netscapeに標準装備のホームページ作成支援機能)などを利用しましょう・・・

「Unicode」HTML文章として保存するには下記のような設定を事前にしてから、「名前を付けて保存」窓にて、『ファイルの種類(T):』を選択してをクリックすると「Unicode(UTF-8)」となり、第1・第2水準実装外漢字をそのまま保存出来ます

  • ツールバーのをクリック→をクリックして「オプション」窓を起動→「オプション」窓の左列2番目の「読み取りと保存」をクリック→「HTML 互換性」をクリック→「オプション」窓の右側「エクスポート」欄の「文字コードセット(A) 」を選択


ワープロ文章としてとして保存するには、「名前を付けて保存」窓にて、『ファイルの種類(T):』の中からのどれか一つを選択してをクリックすると「独自形式ファイル」「Word形式ファイル」「RTF形式ファイル」などとなり、第1・第2水準実装外漢字をそのまま保存出来ます

 

また、「Unicode対応」と謳っているフリーソフトの中には、Shift_JISカーネルの設計のため、Unicodeエンコードファイルを開く事は出来ても「非漢字+第1・第2水準漢字文字集合」+「機種依存文字」の範囲の文字しか表示する事が出来ず、「第1・第2水準実装外漢字」については「?」(半角のQestion Mark)としてしか表示出来ない誇大広告なシロモノが非常に多いため、注意が必要です
(その一方で、Unicodeに関して何ら説明の無いフリーソフトであっても、Unicodeの実装領域「第00面」〜「第16面」にフルに対応しているシロモノもあったりします)

 

 

 

■ 対応「アプリケーション」・・・その2

 

Windows の場合には、台湾の研究機関が開発した「文字字形自動生成テキストエディタ」や「Internet Explorer用文字字形自動生成プラグイン」を使用すると、Unicode UCS文字集合」対応フォントがインストールされていないPCでも、「Unicode 3.2 UCS文字集合+α」の83232文字以上が扱えるようになります

 

■ 「易符動態組字編輯器 eForth Composite Glyph Editor1.01
  (文字字形自動生成テキストエディタ)

Windows 98/Me/NT4.0SP4~/2000/xp」「Windows Server 2003」対応フリーソフト(無償配布)

補足
  • Windows 98/Me/NT4.0SP4~/2000」の場合には、「gdiplus.dll」(GDI+ DLL)のzip 形式圧縮ファイル(gdiplus.zip)もダウンロード・解凍し、「易符動態組字編輯器 eForth Composite Glyph Editor」 の本体である「efeditor.exe」と同じフォルダの中へ「gdiplus.dll」を入れておく必要があります

≫ インストールする前にこのページを参照して「拡張子」が表示されるよう、システムの設定を変更しておきましょう

  • Windows 98/Me」でもUnicodeの実装領域「第02面」の「CJK Unified Ideographs Extension B」の文字をフルに扱えます
  • 「ひらがな」は自動生成出来無い(カタカナは自動生成されますが、ひらがなのデータは入っていない)ため、Unicode 2.1 UCS文字集合全体に対して日本語対応のTrueType FontやOpenType Fontによるフォント表示設定をする必要があります
  • テキストエディタを起動した直後の状態では日本語入力に難があります(インライン変換不可・改行不可)が、既存のテキストファイル(※)を読み込んだ状態にすると、問題無く日本語入力出来るようになります

※ 読み込む事の出来るファイルは、「Unicode(UTF-16)テキストファイル」「Unicode(UTF-16BE)テキストファイル」「Unicode(UTF-8)テキストファイル」のみです

ダウンロードファイル
データ量
1.39MB(zip 形式圧縮・・・解凍ソフトが別途必要です)

※ 入手したオンラインダウンロードソフトのファイルの多くの場合は「圧縮」されているため、「解凍ソフト」と呼ばれるソフトによる伸展プロセスをおこなう必要があります(詳しくは、「オンラインダウンロードソフトの基礎知識」 をご覧下さい)

作者 易符智慧科技 eForth tecnology
入手先 http://www.eforth.com.tw/efeditor/

 

 

■ 「易符 IE 工具列元件」(eForth Bar)
  
(Internet Explorer用文字字形自動生成プラグイン)

Windows NT4.0SP4~/2000/xp」「Windows Server 2003」対応フリーソフト(無償配布)
(Windows 95/98/Me ではインストール出来ません)

補足
  • Internet Explorer上で、Unicodeエンコードなどのページの「CJK Unified Ideographs Extension A」や「CJK Unified Ideographs Extension B」の文字がある位置へ、該当する文字字形を自動生成したBMP形式画像で自動的に置き換えて表示してくれます

≫ TrueType Font(.ttf)やOpenType Font(.otf)による表示時のような、「CJK Unified Ideographs Extension B」の文字を表示させるためのレジストリ(PCの設定情報データベース)の設定変更は必要ありません

  • ダウンロードしたzipファイルを解凍して出来たフォルダの中へ、上記の「易符動態組字編輯器 eForth Composite Glyph Editor」 の中に入っている「ccg.dll」と「single.eff」を、インストールする前にコピーしておく必要があります

≫ インストールする前にこのページを参照して「拡張子」が表示されるよう、システムの設定を変更しておきましょう

  • インストールは、Internet Explorerが起動していない状態で「install.bat」をダブルクリック→Internet Explorerを起動→ツールバーのをクリック→をクリック→をクリックしてチェックを付けると、Internet ExplorerにeForth Barが表示されます

≫ インストール後に、ダウンロードしたzipファイルを解凍して出来たフォルダを移動させたりフォルダ名を変更した場合には、再度インストールし直す必要があります

≫ 現在のバージョンでは、eForth Barが表示されている状態でInternet Explorerの挙動がやや不安定になる場合もあるため、必要が無い場合にはツールバーのをクリック→をクリック→をクリックしてチェックを外し、eForth Barが表示されない状態にしておいた方が無難でしょう

ダウンロードファイル
データ量
263KB(zip 形式圧縮・・・解凍ソフトが別途必要です)

※ 入手したオンラインダウンロードソフトのファイルの多くの場合は「圧縮」されているため、「解凍ソフト」と呼ばれるソフトによる伸展プロセスをおこなう必要があります(詳しくは、「オンラインダウンロードソフトの基礎知識」 をご覧下さい)

作者 易符智慧科技 eForth tecnology
入手先 http://www.eforth.com.tw/efeditor/

 

 

 

クリップボードを介在させての文字のコピーについて

 

Unicodeで日本語を表記する場合、「第00面」実装境域においては「UTF-16では16ビット(2オクテット)」「UTF-8では24ビット(3オクテット)」となるため、Windows 95/98/Me の場合にはフォントデータ的には同一の文字ではあっても、PC内部での文字符号データ的には「別物」として扱われ、クリップボードによって第1・第2水準実装外の漢字のUnicodeカーネルアプリケーション同士で移植しようとしても、第1・第2水準実装外漢字が「?」(半角のQestion Mark)に置き換わる」であるとか「半角英数文字のみ正常に表示、それ以外は文字化け」などとなる場合(※1)も多々発生します

≫ その場合には、一度「Outlook Expless」(※2)や「Netscape Composer」(※)の「Unicode(UTF-8)エンコードモード」設定時(下記参照)での「新規メッセージ」本文入力欄に貼り付けてから、再度クリップボードでコピー→ペーストし直すという工程を取ると、第1・第2水準実装外漢字も正常にコピーされます

<重要> リッチテキスト(HTML)形式対応メールソフト自体が持つセキュリティ面の問題については、「 インターネットにおけるセキュリティ問題について 」 をご覧下さい

≫ 「Windows NT4.0SP4~/2000/xp」「Windows Server 2003Mac OS X」では、『16ビット(2オクテットのエンコードデータ)』と『24ビット(3オクテット)エンコードデータ)』との変換テーブルが存在するため、比較的新しいUnicode(UTF-16)/Unicode(UTF-8)のカーネルの違いに関係無くクリップボードを介在させて第1・第2水準実装外漢字をコピーさせる事が出来ます

≫ いわゆる「クリップボード履歴」「クリップボード拡張」アプリケーションについては、

  • 「CLISM」for Windows
    Unicode対応
    (Windows 95/98/Me の場合には、コピーすると「CLISM」上では「第1・第2水準実装外漢字」は「?」(半角のQestion Mark)として表示されますが、貼り付けの際には「第1・第2水準実装外漢字」が出力されます)

  • 「CLCL」for Windows
    バイナリデータとしてUnicodeを処理します
    (コピーすると「CLCL」上では「第1・第2水準実装外漢字」はテキストデータとして表示されませんが、貼り付けの際には「第1・第2水準実装外漢字」が出力されます)

  • 「Maclip」for Windows
    リッチテキスト(rtf)データとしてのみ「第1・第2水準実装外漢字」を処理します
    (コピーすると、「Maclip」上では「?」(半角のQestion Mark)として表示され、通常のテキストデータとしては「第1・第2水準実装外漢字」を処理出来ませんが、リッチテキスト(rtf)対応アプリケーション上へ貼り付けると「第1・第2水準実装外漢字」が出力されます)

・・・が「第1・第2水準実装外漢字」に対応している事を確認しています
(ただし、Windows 95/98/Me の場合にはコピー元と張り付け先のアプリケーションのカーネルの違いなどにより、出力が「?」(半角のQestion Mark)となるケースもあります)

 

 

Windows に標準で装備されているUnicode対応アプリケーションソフトでの使用例

 

■ 「メモ帳」(NotePad)
  • Windows 95/98/Me のメモ帳はUnicode非対応

  • Windows NT4.0/2000 のメモ帳はUnicodeの実装領域「第00面」のみ対応

  • WindowsxpWindows Server 2003 のメモ帳はUnicodeの実装領域「第00面」〜「第16面」に対応

  1. 「メモ帳」を起動させます

    基本的に「Unicode テキストドキュメントモード」(UTF-16)モードとなっています

    第1・第2水準実装外漢字が入力出来る状態になっています

  2. 保存するときは、

  • 『文字コード(E):』(※)を選択すると日本語OS上では「Shift_JIS」(JIS X 0208)として保存されるため、第1・第2水準実装外漢字の部分は「?」(半角のQestion Mark)となります

※ ANSI(American National Standards Institute)

  • 『文字コード(E):』を選択すると「Unicode(UTF-16)」となり、第1・第2水準実装外漢字をそのまま保存出来ます

  • 『文字コード(E):』を選択すると「Unicode(UTF-8)」となり、第1・第2水準実装外漢字をそのまま保存出来ます

 

■ 「ワードパッド」(WordPad)
  • Windows 95 のワードパッドはUnicode非対応

  • 素の状態での Windows 98/NT4.0 のワードパッドは Unicode 2.1 UCS文字集合しか対応していませんが、Microsoft IME 2000〜 がインストールされるとUnicodeの実装領域「第00面」対応となります

ディフォルト状態での Windows 98/NT4.0 のワードパッドを制御している「riched32.dll」(Windows 95/NT Rich Text Edit Control 4.0)は、Unicode 2.1 UCS文字集合しか対応出来ず、Unicodeの実装領域「第00面」の文字であっても、Unicode 3.0で規定された「CJK Unified Ideographs Extension A」や、Unicode 3.2で規定された歯科記号「U+23BE〜U+23CC」では表示が「・」となります
(Unicode 3.2で規定された
アイヌ語表記用小文字カタカナ「U+31F0〜U+31FF」アイヌ語表記/鼻濁音のが行・ガ行の発音表記文字(半濁音付きのか行・カ行)表記用半濁音記号「U+309A」では、ディフォルト状態での Windows 98/NT4.0 のワードパッドでも、もしかしたら表示可能かも)

≫ Microsoft IME 2000 は、「日本語入力かな漢字変換辞書システム」の他に「riched20.dll」(Microsoft Rich Text Edit Control, v3.0 5.30.23.1200)も含んでおり、「riched20.dll」が制御するワードパッドでは、Unicodeの実装領域「第00面」対応となります
(
「Microsoft IME 2000 Service Release 1 アップデート プログラム」「Microsoft IME 2000 Service Release 1 Global IME 問題修正プログラム アップデート」のインストールを推奨)

  • Windows Me/2000 のワードパッドはUnicodeの実装領域「第00面」のみ対応

Windows Me/2000 は、標準で Microsoft IME 2000 が入っています
(
「Microsoft IME 2000 Service Release 1 アップデート プログラム」「Microsoft IME 2000 Service Release 1 Global IME 問題修正プログラム アップデート」のインストールを推奨)

  • WindowsxpWindows Server 2003 のワードパッドはUnicodeの実装領域「第00面」〜「第16面」に対応

WindowsxpWindows Server 2003 の「riched32.dll」は「Wrapper Dll for Richedit 1.0」となり、OSの中枢部分である「user32.dll」(Windows XP/2003 USER API Client DLL)によってワードパッドも制御する方法を採用しています

  1. 「ワードパッド」を起動させます

    基本的に、第1・第2水準実装外漢字が入力出来る状態になっています

    Windows 98/Me で既存の「Unicode(UTF-16)テキストドキュメント」を開こうとする場合には、「Unicode(UTF-16)テキストドキュメント」として保存した64KB以下のテキストファイルのアイコンをダブルクリックしても正常に読み込めません

    ワードパッドや「Microsoft Word 98〜」などのUnicode対応アプリケーションにて、ツールバーのをクリック→をクリックして「開く」窓を開いて「Unicode(UTF-16)テキストドキュメント」を読み込む必要があります
    (「Unicode(UTF-8)テキストドキュメント」は非対応)

  2. 保存するときは、

  • 『ファイルの種類(T):』を選択すると「SHift_JIS」(JIS X 0208)テキストファイルとして保存されるため、第1・第2水準実装外漢字の部分は「?」(半角のQestion Mark)となります

  • 『ファイルの種類(T):』を選択すると「Unicode(UTF-16)テキストファイル」となり、第1・第2水準実装外漢字をそのまま保存出来ます
    (Windows NT4.0 のワードパッドにはこの選択肢はありません)

  • 『ファイルの種類(T):』を選択すると「リッチテキスト(RTF)形式ファイル」や「古いバージョンのWord形式ファイル」などとなり、第1・第2水準実装外漢字をそのまま保存出来ます

 

■ 「Outlook Express

<重要> リッチテキスト(HTML)形式対応メールソフト自体が持つセキュリティ面の問題については、「 インターネットにおけるセキュリティ問題について 」をご覧下さい

  1. 「新しいメール」を作成します ( ←:この文字列をクリックすると、「Outlook Express」の「メッセージの作成」が開きます・・・参考まで)

  2. :「メッセージの作成」にて、ツールバーの をクリック→をクリック→をクリック→をクリック

これでUnicode(UTF-8)エンコードモードになりました

第1・第2水準実装外漢字が入力出来る状態になっています(※)

Windows 95/98/Me 上の「Outlook Express」では、基本的には Unicode 3.0 UCS文字集合 の文字しか扱えません

Unicodeの実装領域「第00面」の文字であっても、Unicode 3.2で規定されたアイヌ語表記用小文字カタカナ「U+31F0〜U+31FF」アイヌ語表記/鼻濁音のが行・ガ行の発音表記文字(半濁音付きのか行・カ行)表記用半濁音記号「U+309A」は扱う事が出来ますが、同じくUnicode 3.2で規定された歯科記号「U+23BE〜U+23CC」では表示が「・」となります

あとは通常通りの操作でメールを送信しましょう

< 注 意 事 項 >

メールの日本語標準エンコード方式は「JIS(iso-2022-jp)」となっています
受信側の方が「Unicode(UTF-8)対応メールソフト」を使用していなければ、メール文章は文字化けしてしまいます

先方のメールソフトの対応エンコード方式を事前に確認しておきましょう

 

<主な「Unicode(UTF-8)対応メールソフト」>

・・・などでは、Unicodeの実装領域「第00面」対応

 

・・・などでは、Unicodeの実装領域「第00面」〜「第16面」に対応

 

<主な「Unicode(UTF-8)非対応対応メールソフト」>

  • 「PostPet(1.x/2.x)」(PostPet V3は不明)

  • 「Microsoft Internet Mail」(「Internet Explorer 3.x」付属)

  • 「Netscape Communicator 〜3.x」(「Netscape Navigator 〜3.x」付属)

  • 携帯電話のメール機能

 

送信されてきたメールの差出人が使用している
メールソフトの種類の確認方法

送信されてきたメールの「ヘッダ」(メールソフトとメールサーバーとがやり取りする情報)には、メールの差出人が使用しているメールソフトの種類が基本的には記入されていますので、メールソフトで「ヘッダ」を表示して、先方のメールソフトが「Unicode(UTF-8)エンコードメール」に対応しているかどうか事前に確認しておきましょう

 

  1. メールソフト上で、「ヘッダ」を確認したいメール文章を表示させます

  2. 「ヘッダ」を表示させます

    ツールバーのをクリック→をクリック→プロパティ窓にてタブをクリック

    • 「Netscape Messenger 4.x」の場合

    ツールバーのをクリック→をクリック

    ツールバーのをクリック→をクリック

    • 「Opera」の場合

    メール画面の真ん中の水平線(「送信者」「宛先」「件名」「日付」表示欄)の右端にある「すべてのヘッダを表示」の文字列をクリック

    (その他のメールソフトでも、大概のメールソフトでは似たような方法で「ヘッダ」が表示されます)

  3. すると、

・・・というような感じで「ヘッダ」の中身が表示されます

この中の「X-Mailer」項目が、メールの差出人が使用しているメールソフトの種類となります

ここに記入されているメールソフトが「Unicode(UTF-8)対応メールソフト」であれば、その相手には「Unicode(UTF-8)エンコードメール」を送信して大丈夫です

 

 

 

■ 「ホームページ」での Unicode エンコードについて

 

ホームページ作成支援ソフトがUnicode対応(※1)、かつ文字コード選択をUnicode(UTF-8)とすれば、Unicode(UTF-8)エンコードのHTML文章を作成出来ます

※1 有名処では・・・

<Unicode非対応>

  • 「Macromedia Dreamweaver 〜4.0」

<Unicode対応(実装領域「第00面」対応)>

  • 「Adobe Golive 5.0/6.0/CS」
    (実装領域「第01面」〜「第16面」については不明)

  • 「Microsoft FrontPage 98/2000」
    (実装領域「第01面」〜「第16面」非対応)

  • 「IBM Homepage Builder 2001(5.0)/6.0/7.0」
    (実装領域「第01面」〜「第16面」については不明)

  • 「Netscape Navigator 4.x」の「Netscape Composer」(Netscape Navigatorに標準装備のホームページ作成支援機能)
    (実装領域「第01面」〜「第16面」非対応)

  • Netscape 6.x」・「Netscape 7.0〜」(for Mac OS 9.x/Linux)「Netscape Composer」(Netscapeに標準装備のホームページ作成支援機能)
    (実装領域「第01面」〜「第16面」非対応)

<Unicode対応(実装領域「第00面」〜「第16面」対応)>

<不明>

  • 「Macromedia Dreamweaver MX/MX2004」

  • 「Macromedia Contribute」

 

しかし、見ていただく方が利用されているブラウザソフトの種類やバージョンによっては、

・Unicode(UTF-8)エンコードの自動選択機能が正しく機能しない(「Netscape Navigator 4.0〜4.5x」)

・Unicode(UTF-8)エンコードに対応していない(「Internet Explorer 〜3.x」や「Netscape Navigator 〜3.x」、モバイル端末搭載ブラウザなどは非対応)

と、いう理由によって文字化けを起こす可能性を考慮する必要があります

そのため、トップページをPC/携帯電話兼用のシンプルな「Shift_JISエンコード」ページとして、PC向けの「Unicode(UTF-8)エンコード」ページと携帯電話向けのシンプルな「Shift_JISエンコード」ページの両方を用意し、トップページに『古いバージョンのブラウザソフトで表示した場合には、PC向けページが文字化けする事があります。文字化けする場合には携帯電話向けページをご覧下さい』などと注意書きを加えておく・・・、などの配慮が必要でしょう

≫ 携帯電話向けページの仕様については、3・第4水準漢字の扱い方 「文字参照」編の冒頭部分にリンクを設けてあります

 

 

■ 「ブラウザソフト」と「フォント」の多言語処理方法について

 

■ 「Internet Explorer/Outlook Express(for Windows) の場合

 

「Microsoft Font properties extension」(Windows用フリーソフト)をインストールする事によって、TrueType Font(.ttf/.ttc)やOpenType Font(.otf)に組み込まれているCodePage値を見る事が出来ます

Windows 2000/xpWindows Server 2003」の場合には、Font Link機能を利用して「第1・第2水準実装外漢字に対応したフォント」を「MS ゴシック」「MS Pゴシック」や「MS 明朝」「MS P明朝」などのTrueType Font(.ttf/.ttc)にリンクさせると、リンクさせたTrueType Fontフォントとしてシームレスに、「932CodePage値が組み込まれていないるTrueType Font(.ttf/.ttc)であっても「第1・第2水準実装外漢字に対応したTrueType Font」に実装された「Unicode UCS」文字集合が表示されるようになります
(リンク元のフォントでコードポイントが空白となっている部分に、リンク先の
TrueType Font(.ttf/.ttc)で実装されているコードポイントの文字が代用される形となります)

 

 

HTML文章でfontタグとかCSS(スタイルシート)によってfont-famiryとして「第1・第2水準実装外漢字に対応したOpenType Font」の種類を指定しても、「CJK Unified Ideographs Extension A」の文字は空白となります

「Internet Explorer/Outlook Express for Windows」の「インターネットオプション」窓のフォント設定では設定項目に OpenType Font(.otf) のフォント名は出てきません

Windows 2000/xpWindows Server 2003」のFont Link機能機能するのはTrueType Font(.ttf/.ttc)同士の組み合わせの場合のみで、TrueType Font(.ttf/.ttc)とOpenType Font(.otf)の組み合わせの場合やOpenType Font(.otf)同士の組み合わせの場合には機能しません

例えば、「ヒラギノ角ゴシック Pro W3 OpenTypeフォント」で「CJK Unified Ideographs Extension A」の文字を表示させる場合には、「メモ帳」などで

という内容のテキスト文章を作成し、保存するときにで「名前を付けて保存」窓を開き、「名前を付けて保存」窓にて適当な場所(「デスクトップ」とか「My Document」など)に『ファイル名(N):』・『ファイルの種類(T):』→で「regファイル」を作成して、その「(適当なファイル名).reg」をダブルクリック→「レジストリエディタ」確認窓にてをクリックするすると、「CJK Unified Ideographs Extension A」だけで無く半角英数以外の実装領域「第00面」の文字「ヒラギノ角ゴシック Pro W3 OpenTypeフォント」で表示されるようになります

≫ 事前にこのページを参照して「拡張子」が表示されるよう、システムの設定を変更しておきましょう

≫ この表示フォント設定から初期状態に戻す場合には、初期状態に戻す場合には、上記のの部分をに変更した「regファイル」を作成して、その「regファイル」をダブルクリック→確認窓にてをクリックすると元に戻ります
(「Internet Explorer/Outlook Express for Windows」の「インターネットオプション」窓のフォント設定→日本語フォント設定でも設定出来ます)

 

ちなみに、Windows 2000/xpWindows Server 2003 上のInternet Explorer 6.0〜」(for Windows)素の状態(PCを購入したまま)であれば

・・・と登録されているため、「Simsun (Founder Extended)」以外の実装領域「第01面」〜「第16面」の文字を実装したフォントがPCにインストールされていても、実装領域「第01面」〜「第16面」の文字は表示が「・」となります

例えば「ヒラギノ角ゴシック Pro W3 OpenTypeフォント」CJK Unified Ideographs Extension B領域に実装されている文字を表示させたい場合には、「メモ帳」などで

という内容のテキスト文章を作成し、保存するときにで「名前を付けて保存」窓を開き、「名前を付けて保存」窓にて適当な場所(「デスクトップ」とか「My Document」など)に『ファイル名(N):』・『ファイルの種類(T):』→で「regファイル」を作成して、その「(適当なファイル名).reg」をダブルクリック→「レジストリエディタ」確認窓にてをクリックすると、実装領域「第01面」〜「第16面」の文字だけ「ヒラギノ角ゴシック Pro W3 OpenTypeフォント」へ変更出来ます(※)

≫ 事前にこのページを参照して「拡張子」が表示されるよう、システムの設定を変更しておきましょう

≫ この表示フォント設定から初期状態に戻す場合には、初期状態に戻す場合には、上記のの部分をに変更した「regファイル」を作成して、その「regファイル」をダブルクリック→確認窓にてをクリックすると元に戻ります

この方法では、実装領域「第00面」の文字については「ヒラギノ角ゴシック Pro W3 OpenTypeフォント」へ変更されませんが、先述した『「ヒラギノ角ゴシック Pro W3 OpenTypeフォント」で「CJK Unified Ideographs Extension A」の文字を表示させる場合』を併用させると、半角英数以外の全ての文字が「ヒラギノ角ゴシック Pro W3 OpenTypeフォント」へ変更されます

 

 

■ 「Netscape 6.0〜」や「Opera 7.1〜」の場合

 

表示すべき第1・第2水準実装外漢字が表示設定フォントに実装されていない場合、表示させるPCの側に「第1・第2水準実装外漢字に対応したTrueType Font(※)フォント」が何か一つでも入っていれば、表示すべき第1・第2水準実装外漢字の部分だけブラウザソフトが自動的に表示すべき第1・第2水準実装外漢字を実装したフォント(※)に置き換えて表示してくれます

「Windows版Netscape 〜7.0.x」では、OpenType Font(.otf) には置き換えてくれません
(「Netscape 7.1」から不具合が訂正されています)

「Windows版Netscape 〜7.0.x」の場合、 OpenType Font(.otf) を用いて正常に表示させる事が出来ません
(OpenType Font(.otf) では半角英数文字以外の表示が部分的に文字化けする場合があります)
(「Netscape 7.1」から不具合が訂正されています)

 

 

■ 「Netscape Navigator 4.x」や「Opera 6.x/7.07.03」の場合

 

表示すべき第1・第2水準実装外漢字が表示設定フォントに実装されていない場合でも、ブラウザソフトが自動的に表示すべき第1・第2水準実装外漢字を実装したフォントに置き換えて表示するという機能はありません

そのため、

Netscape Navigator 4.xの場合、フォント指定は「半角英数文字だけのフォント名」のモノしか適用されません
(全角文字を含むフォント名のフォントは無視されます)

≫ 「Opera」の場合もフォント指定が確実に働くとは言い難い状況ですが、何が原因でフォント指定の実行の有効・無効を決めるのか、かなり不可解です・・・

・・・などの手間を掛ける必要があります

 

しかし、「CJK Unified Ideographs Extension A」を実装している TrueType Font(.ttf/.ttc) や OpenType Font であれば、Unicodeエンコードページの「CJK Unified Ideographs Extension A」の漢字を表示させる事が出来ます

フォント指定が無視される場合であっても、ブラウザソフトの『設定』にて「CJK Unified Ideographs Extension A」を実装しているフォントに手動で切り替えれば表示する事が出来ます

 

 

■ 「Microsoft Word 98/2000」での 「HTML形式保存ファイル」について

 

「Microsoft Word 98〜」にて文章を保存する際、Unicode(UTF-8)エンコードのHTML形式で保存(=)すると、「第1・第2水準実装外漢字」を扱う事が出来ます

しかし、「Microsoft Word 98/2000」でのHTML形式保存というものは、ネット上にホームページとして公開するためのHTML文章作成を目的としたモノでは無く、HTML形式を使用しながらWord形式(.doc)での文章と出来る限り同一のように再現する事を目的としているため、文字の一つ一つにまで文字属性やレイアウトの詳細なデータが付与されています

よって、ホームページ作成支援ソフトによって作成されるHTML文章ファイルの数倍〜数十倍ものデータサイズに肥大するため、「Microsoft Word 98/2000」でのHTML形式保存によって作成したHTML文章をネット上にホームページとして公開するのは好ましくありません、・・・というか迷惑です!

であるので、Microsoft が無償配布している「HTML Filter 2.1 for Office 2000」「HTML TIDY」- (日本語版・GUIフロントエンド)などを利用しましょう

「HTML Filter 2.1 for Office 2000」ページからの引用

Office HTML Filter は、HTML (Hypertext Markup Language) 形式で保存した Office 2000 文書に埋め込まれている Office 固有のマークアップ タグを削除するためのツールです。Office 2000 で HTML 文書を作成すると、Office 固有のマークアップ タグが埋め込まれます。これらのタグがあると、編集の「ラウンドトリップ」をすることができます。たとえば、Word 2000 で作成した文書を HTML 形式で保存した場合に、これらのタグが埋め込まれていると、その文書を Word 2000 で再度開いたときに文書を作成したときと同じ書式設定、編集状態などが再現されます。

Office HTML Filter を使用すると、Word 2000 または Excel 2000 で HTML 文書の編集を完了した後で、最終的な HTML 文書から Office 固有のマークアップ タグを削除できます。タグを削除すると文書のサイズが小さくなるので、Web サーバー上の格納領域が少なくなり、ページのダウンロードにかかる時間も短くなります。 Office 固有のマークアップ タグを削除した場合のメリットとデメリットに関する詳細については、「Office HTML Filter を使用して短時間でダウンロードできる Web ページを作成する」を参照してください。

メモ  Office HTML Filter では、シングル バイト エンコード形式で保存されたすべてのファイルを処理できます。マルチ バイト エンコードも処理できますが、Unicode、UnicodeFFFE、および UTF-7 には対応しません。ただし、Unicode のうち Web ページで最もよく使われる UTF-8 はサポートされます。

なお、「Microsoft Word version 2002/Microsoft Office Word 2003」では、を選択→「ファイルの種類」窓で「Web ページ」を選択すると文字の一つ一つにまで文字属性やレイアウトの詳細なデータが付与されたHTMLファイルとして保存され、を選択→「ファイルの種類」窓で「Web ページ (フィルタ後)」 を選択すると、ホームページ用途に最適なHTMLファイルが保存出来るようになっています

もしくは、「Microsoft Word 〜2000」は使用しないで、「Netscape 6.0〜」「Netscape Composer」(Netscapeに標準装備のホームページ作成支援機能)や、「市販のホームページ作成支援ソフト」を利用してホームページを作っておいたほうが、後になってラクなのでは無いかと思われます・・・

 

 

■ 既存のホームページを「Unicodeエンコード」へ変換するには

 

Shift_JISなどの既存のHTML文章を「Unicode(UTF-8)」に変換するには、下記のようなエンコード相互変換ソフトを使用すると非常に効率的です

 

■ 「MultiTextConverterVersion 2.0.5 for Windows
  「MultiTextConverterVersion 3.2.0 for Mac OS 9.x/Mac OS X

 

対応改行コード
(取扱説明書から抜粋)

改行コード 説明
CR (Mac OS) Mac OSで標準的に使用されている改行コードです。
LF (UNIX) UNIXLinuxで標準的に使用されている改行コードです。
CR+LF (Windows) WindowsDOSで標準的に使用されている改行コードです。
対応エンコード
(取扱説明書から抜粋)

文字コード 説明
シフトJIS Mac OSWindowsで通常使用されている文字コードです。
JIS
(1978年版)
JIS形式で、漢字の文字セットにJISX 0208 1978年版を使用している文字コードです。
JIS
(1983年版)
JIS形式で、漢字の文字セットにJISX 0208 1983年版を使用している文字コードです。
EUC UNIXLinuxで通常使用されている文字コードです。
UCS-2
(BIG ENDIAN)
UNICODE文字にして全て2バイトで記述したものです。文字を上位バイトから順に記述しています。

※ 「Unicode(UTF-16 BIG ENDIAN)」「Unicode(UTF-16BE)」
「UnicodeFFFE」などと呼ばれる特殊用途Unicodeです

UCS-2
(LITTLE ENDIAN)
UNICODE文字にして全て2バイトで記述したものです。文字を下位バイトから順に記述しています。

※ これが一般的に用いられる「Unicode(UTF-16)」です

UCS-4
(BIG ENDIAN)
UNICODE文字にして全て4バイトで記述したものです。文字を上位バイトから順に記述しています。
UCS-4
(LITTLE ENDIAN)
UNICODE文字にして全て4バイトで記述したものです。文字を下位バイトから順に記述しています。

※ これがSun Microsystems の Solaris で用いられる「Unicode(UTF-32)」です

UTF-8 UNICODE文字にしてアルファベットと数字の部分にはシフトJISと互換性を持たせた形式です。1バイトから複数バイトで1文字を構成しています。

※ これが「Unicode(UTF-8)」です

特徴
  • フリーソフト(無償配布)
  • HTMLファイルのMETAタグにおけるcharset指定部分も自動書換可能
    (HTMLファイルを変換する場合には、この機能を「ON」にしておかないと、ブラウザソフトでの表示時に文字化けします)

  • 半角カタカナを全角カタカナに書換可能
  • 「第1・第2水準実装外漢字」は扱えません
    (Unicode間のエンコードを変換すると、「第1・第2水準実装外漢字」は「半角の空白」に置き換えられます)
ダウンロードファイル
データ量
Version 2.0.5 for Windows : 268KB (zip 形式圧縮版)
zip 形式圧縮 (解凍ソフトが別途必要です)

Version 3.2.0 for Mac OS 9.x/Mac OS X : 579KB(sit 形式圧縮版)
sit 形式圧縮 (解凍ソフトが別途必要です)

※ 入手したオンラインダウンロードソフトのファイルの多くの場合は「圧縮」されているため、「解凍ソフト」と呼ばれるソフトによる伸展プロセスをおこなう必要があります(詳しくは、「オンラインダウンロードソフトの基礎知識」 をご覧下さい)

作者 林晃 さん
入手先 http://www1.odn.ne.jp/soft/mtc.html

 

 

 

■ Unicodeの「CJK Unified Ideographs Extension B」の文字を入力するには

 

現在の時点では、「Microsoft IME」「ATOK for Windows」「ATOK 〜15 for Mac OS/Mac OS X」「ATOK X Linux」などの「日本語入力かな漢字変換辞書システム」の文字一覧表では、いずれも Unicodeの実装領域「第00面」しか表示出来ません

≫ 「ATOK 16 for Mac OS X 10.1〜」や、Mac OS X 10.1/10.2に標準装備の「ことえり3」・Mac OS X 10.3に標準装備の「ことえり4」では、文字一覧表Unicodeの実装領域「第02面」の「CJK Unified Ideographs Extension B」の文字も表示出来ます

そのため、Mac OS X 10.1〜以外の環境で「CJK Unified Ideographs Extension B」の文字をアプリケーション上に入力するには、「日本語入力かな漢字変換辞書システム」以外のツールなどを利用する事になります

 

<方法1>
下段に記述している「The Unicode Consortium」の文字検索で検索、Unicode(UTF-8)で表示された「CJK Unified Ideographs Extension B」の文字データ(※)をクリップボード経由でコピー&ペースト

※ 「CJK Unified Ideographs Extension B」の該当する文字を含むフォントがPCにインストールされていない状態や、インストールされていてもブラウザソフト上で使用出来る条件に適合していない状態では、

・・・と表示されます

 

<方法2>
Windowsの場合、上段に記述している「文字字形自動生成テキストエディタ」の文字検索機能で検索、エディタ本体の文章表示部に表示された「CJK Unified Ideographs Extension B」の文字をクリップボード経由でコピー&ペースト

 

 

<方法3>
WindowsxpWindows Server 2003 の場合、Unicode対応アプリケーション上で、キーボードのキーを押し続けたまま、Unicodeでのコードポイントの「U」を除いた部分の文字列のキーを順番に押し、キーを離すと、そのコードポイントの文字に変換されます(※)

※ この文章を書いた当初の段階(2003年10月上旬)では、「 弓道辞書 」作者のPCでもきちんと変換されていたものの、2003年10月半ば過ぎになったらキーボードのキーを押し続けたままキーを押すと何故かエラー音が出てキー入力を受け付けなくなっていました・・・
(Microsoftのセキュリティ修正プログラム「KB823182(MS03-041)」「KB828035(MS03-043)」「KB825119(MS03-044)」「KB824141(MS03-045)」のどれかが影響している?)

≫ 例えば「(ゆがけ)」なら、U+5F3Dの内の「U」を除いたを、キーボードのキーを押し続けたまま とキーを順番に押して、キーを離すと、「(ゆがけ)」に変換されます

≫ また、牛丼の𠮷野家(よしのや)の「𠮷(よし)」の字(「土」冠に「口」構えの、いわゆる土吉(U+20BB7):第1〜第4水準実装外漢字)であれば、U+20BB7の内の「U」を除いたを、キーボードのキーを押し続けたまま とキーを順番に押して、キーを離すと、「𠮷(よし)」に変換されます
(「文字字形自動生成テキストエディタ」以外のアプリケーションの場合では、「ヒラギノ Pro OpenTypeフォント version 7.02〜」などの「CJK Unified Ideographs Extension B」実装フォントがインストールされていなければ「・」などと表示されますが、文字データの中身は「𠮷(よし)」となっています)

 

 

 

■ 公的機関リンク

 

The Unicode Consortium (英語ページ)

 

<ダイレクト検索方法>
ページ上部の入力欄へUnicode(UTF-16)のコードポイントを入力(例えば「(ゆがけ)」なら、U+5F3Dの内の「U+」を除いたを入力)して、をクリックして検索すると、その文字に関わる様々なデータがいろいろ出てきます
(「Use UTF-8」がオンでもオフでも、GIF画像とUnicode(UTF-8)の両方で表記されています)

 

<画数検索方法>
ページ下部の「Strokes in Radical」欄に並んでいる「1」〜「17」の中から検索漢字の部首画数 (例えば弓偏なら「 3 」) をクリックしてページジャンプ、次のページ(なか)ほどの「Additional strokes」欄へ検索漢字の画数(総画数では無く、部首を除く画数)の範囲の最小値〜最大値を適当に入力、ページ下部の検索漢字の該当画数部首一覧から検索部首にを付け (例えば弓偏なら「|| bow 」を選択) 、をクリックして検索(※)します

※「Use UTF-8」でGIF画像版、「Use UTF-8」ではUnicode(UTF-8)表記版が選択されます

≫ GIF画像版の場合には表示にかなりの時間が掛かります

例えば「弓部0画〜50画」の条件で検索すると、GIF画像版検索結果もしくはUnicode(UTF-8)HTML版検索結果となります

ここにはお馴染みの漢字から見た事も無いような漢字まで、弓偏の漢字がずら〜っと羅列されていますので、そこから一つの文字を選んでクリックすると、その文字に関わる様々なデータがいろいろ出てきます
(GIF画像とUnicode(UTF-8)の両方で表記)

 

<読み検索方法>

「音読み」もしくは「訓読み」を選択、漢字の読みをローマ字で入力(例えば「(ゆがけ)」なら、と入力)してをクリックして検索(※)すると、同じ読みの文字が絞り込まれて表示され、そこから一つの文字を選んでクリックすると、その文字に関わる様々なデータがいろいろ出てきます

※「Use UTF-8」でGIF画像版、「Use UTF-8」ではUnicode(UTF-8)表記版

 

<ダイレクト検索方法>
ページ左側の入力欄へUnicode(UTF-16)のコードポイントを入力(例えば「(ゆがけ)」なら、U+5F3Dの内の「U+」を除いたを入力)して、をクリックして検索すると、その文字に関わる様々なデータがいろいろ出てきます
(「Use UTF-8」がオンでもオフでも、GIF画像とUnicode(UTF-8)の両方で表記されています)

 

<一覧表から検索する方法>
ページ右側の数字はUnicode(UTF-16)のコードポイントの「U+」と「下二桁」を除いた数値による「256文字のグループ」となっていますので、例えば「(ゆがけ)」なら、「CJK Unified Ideographs (U+4E00 through U+9FA5)」欄での、(U+5F3Dの内の「U+」と「下二桁」を除いた)「5F」をクリックすると、CJK統合漢字の弓部とその周辺のGIF画像による一覧表(256文字)が表示され、そこから一つの文字を選んでクリックすると、その文字に関わる様々なデータがいろいろ出てきます
(GIF画像とUnicode(UTF-8)の両方で表記)

 

 

インストールされているフォントに実装されている文字集合の文字を実装枠別などで一覧表示させるWindows用フォントビューアーがダウンロード出来ます

 

 


 

 

ISO : International Organizations for Standard (英語ページ)

 

 

 

 

 

 


 

 

jisc 日本工業標準調査機構調査会 : Japanese Industrial Standards Committee

 

 

上記ページ右列「JISC Navi」欄の「JISをご覧になりたい方」をクリック



「JIS関連」欄の「JIS」をクリック

JIS規格番号検索 JIS規格番号:JIS (半角英数字)
(入力例:A0000)
→詳細表示

・・・の入力欄にと入力して、右の「→詳細表示」をクリックします

 

 


 

 

JSA 日本規格協会 : Japanese Standards Association

 

 

 

 

 

return to back

return to toppage