背景
明度調整

00/15

01/15

02/15

03/15

04/15

05/15

06/15

07/15

08/15

09/15

10/15

11/15

12/15

13/15

14/15

15/15
文字
明度調整

00/15

01/15

02/15

03/15

04/15

05/15

06/15

07/15

08/15

09/15

10/15

11/15

12/15

13/15

14/15

15/15

 

 

第3・第4水準漢字の扱い方
「文字参照」編

 

 

 

■ 「文字参照」とは?

 

「HTML2.0(RFC1866)」で定義されているHTML文法の一つで、「文字参照(character references)」の「&○○○○;」記述にて、フォントのコードポイントをダイレクトに文字指定するというモノです

 

原理としては、携帯電話でのホームページに多用されている絵文字の指定の仕方と同じです

□ NTT DoCoMo の場合

DoCoMo Net - iモード対応絵文字絵文字とは のページを見ていただければ判りますが、3種類あります

  • Shift-JISのバイナリコード入力(全機種にて推奨)
    (=Shift-JISエンコード上での「外字」による表記)

  • Unicodeのテキスト入力(iモード対応HTML4.0対応機種以降)
    (=Shift-JISエンコード上での『文字コード(Unicode)16進法表記 数値「文字参照」』)(※)

※ HTMLの世界では、全く普及しなかった(=失敗作であった)『HTML4.0規格』にて制定された表記方法であり、今現在一般的に浸透している『HTML3.2互換規格』で使用される事は全くありません

  • Shift-JISのテキスト入力(推奨しません)(※)
    (=Shift-JISエンコード上での『文字コード(Shift-JIS)10進法表記 数値「文字参照」』)(※)

※ 「各種携帯電話」や「Internet Explorer 〜3.x」「Netscape Navigator 〜3.x」では、文字参照コードの参照コードをShift_JISコードポイントとして処理するものの、「Internet Explorer 4.0〜」や「Netscape 6.0〜」では『HTML4.0規格』での取り決めによって文字参照コードの参照元コードがUnicodeコードポイントとして処理されるため、「i絵文字」(NTT DoCoMo純正)「i-mode絵文字対応外字データ」「i−文字」「けーたい絵文字(i-MODE/EZweb/H"・AirH")」などの外字フォントをインストールした環境上でも「i-MODE絵文字」は表示出来ません(文字化けします)

よって、推奨されていないのでしょう・・・

au by KDDI ・TU-KA の場合

「第2世代携帯電話(PDC方式)i-MODE規格(C-HTML)」で記述しておけば、EZweb でも問題無く携帯電話向けホームページで絵文字を表示出来ます

  • 「NTT DoCoMo の第3世代携帯電話(W-CDMA方式のFOMA)端末」や「au by KDDI の第3世代携帯電話(CDMA2000 1x方式)端末」では『WAP2.0規格準拠』となり、電話端末搭載ブラウザソフトが「2.5世代携帯(cdmaOne)対応版EZweb規格(WAP1.0)」「第2世代携帯電話(PDC方式)i-MODE規格(C-HTML)」「XHTML」の3種類に対応しています

iモード対応ホームページとの互換性

  • 「2.5世代携帯電話(cdmaOne方式)端末」や「TU-KA(PDC方式)」で EZweb(WAP1.0) を使用する場合でも、2001年11月からKDDIのEZwebゲートウェイサーバーに『「第2世代携帯電話(PDC方式)i-MODE規格(C-HTML)」→「EZweb(WAP1.0)規格」変換機能』が付きました

HTMLコンテンツ変換機能

「iモード・オプション」のサポート

vodafone(旧 J-PHONE) の場合

「非漢字+第1・第2水準漢字文字集合」については、「第2世代携帯電話(PDC方式)i-MODE規格(C-HTML)」で記述しておけば表示出来ますが、絵文字については他社規格からの変換機能が無いので「Vodafone Live!(旧 J-Sky Web) 以外にも対応出来る携帯電話向けホームページに絵文字を使用する」というのはいささか難しいかも

Vodafone Developpers Support Site > Web

J-FONT (Vodafone Live!(旧 J-Sky Web)絵文字外字フォント)

 

「文字参照(character references)」であれば、ホームページやリッチテキスト(HTML)形式メールにて、非漢字+第1・第2水準漢字文字集合(と、機種依存文字)には実装されていない文字種でも、ごくごく普通のJIS X 0208準拠の「Shift_JIS」「JIS(iso-2022-jp)」「EUC(euc-jp)」の文章内に組み込む事が出来ます

表示する側の環境に「第3・第4水準漢字などの文字集合対応フォント」が導入されていない場合、該当文字の部分は文字抜けしてしまいますが、Unicodeエンコード文章によって「第1・第2水準実装外漢字」を扱うよりも文字化けのリスクが軽減されます(※)

※ 「Internet Explorer 4.0〜」では、文字参照コードの参照元コードがUnicodeとして処理されますが、「Internet Explorer 〜3.x」「Netscape Navigator 〜3.x」では、文字参照コードの参照元コードをShift_JISコードとして処理されるため該当文字部分は「文字化け」「文字抜け」します

※ 「Netscape Navigator 〜4.x」では、「Internet Explorer 4.0〜」と同様に、文字参照コードの参照元コードがUnicodeとして処理されるという事にテクニカルノートではなっているのですが、実際には「Netscape Navigator 4.x」では「文字参照」として「第1・第2水準実装外漢字」を処理する事が出来ず、該当文字のフォントが「?」(半角のQestion Mark)となります

であるので、「文字参照非対応ブラウザソフト」を使用している方でも文章の意味が把握出来るように、

「第1・第2水準実装外漢字」をネット上で扱う場合には、

・・・などの配慮を必ずして下さい(※1)

※1 「 弓道辞書 」によって漢字変換された「第1・第2水準実装外漢字」については、強制的にふりがなが付与されるようにしてあります(※2)

※2 ふりがなが振られなかった弓道用語の漢字については、「第1水準漢字」もしくは「第2水準漢字」のいずれかであるという事です

 

さらに、

Windows 95」「Mac OS 〜9.x」「一部の Unix」のような古いPC環境では、素の状態(PCを購入したまま)であれば第3・第4水準漢字などを含むフォント(※)は入っていません

※ Mac OS 8.5〜9.xの場合には、OSのCD-ROMなどから別途追加インストールする必要があります

Mac OS 8.59.xを使用されている方はこちらのページをご覧下さい

「文字参照対応ブラウザソフト」を使用している場合でも、第3・第4水準漢字などを含むフォントが入っていない古い環境では、第3・第4水準漢字などは文字抜け(半角の空白に置き換わる)してしまうので読解不能な文章となってしまいます

「第1・第2水準実装外漢字」をネット上で扱う場合には、

・・・などの配慮を必ずして下さい

 

しかし、上記のような古いPC環境であっても、Microsoft や Apple などが Unicodeにおける第3・第4水準漢字などを含むフォント(※1)を無償配布していますので、それらをダウンロードしてくる(※2)事で、第1・第2水準実装外漢字が扱えるようになります

※1 第3・第4水準漢字だけではなく、世界中の主要言語の文字の包括した数万文字の文字集合を実装していますので、最新のPC環境を使用している方も、ぜひダウンロードしておきましょう

※2 「Unicode UCS 文字集合対応フォント」の入手方法についてはこちらのページをご覧下さい

 

 

■ 対応アプリケーション

 

○ ブラウザソフト:

・・・など

≫ Unicodeの実装領域など、扱える文字の制約については、第3・第4水準漢字の扱い方 「Unicode」編のページをご覧下さい

 

○ メールソフト:「Internet Explorer 4.0 〜」のリソースに依存するリッチテキスト(HTML)形式メール対応メールソフト(※)や、「Netscape Mail & Newsgroups 6.0〜」や「Opera 6.x/7.x」(5.0〜?)などのブラウザソフトのメール機能

<重要> リッチテキスト(HTML)形式対応メールソフト自体が持つセキュリティ面の問題については、「 インターネットにおけるセキュリティ問題について 」 をご覧下さい

 

<主な対応ソフト>

 

<主な非対応ソフト>

  • 「Netscape Messenger 〜4.x」

  • 「PostPet 2001(2.0.x)」

  • 携帯電話のメール機能

 


< 注 意 事 項 >

メールの標準文章形式は「テキスト形式メール」です
受信側の方が「リッチテキスト(HTML)形式メール」非対応、もしくは「リッチテキスト(HTML)形式メール」には対応していても「文字参照」非対応のメールソフトを使用しているケースもありえます
先方の対応文章形式を事前に確認しておきましょう!

 

送信されてきたメールの差出人が使用している
メールソフトの種類の確認方法

送信されてきたメールの「ヘッダ」(メールソフトとメールサーバーとがやり取りする情報)には、メールの差出人が使用しているメールソフトの種類が基本的には記入されていますので、メールソフトで「ヘッダ」を表示して、先方のメールソフトが「リッチテキスト(HTML)形式メール」に対応しているかどうか事前に確認しておきましょう

 

  1. メールソフト上で、「ヘッダ」を確認したいメール文章を表示させます

  2. 「ヘッダ」を表示させます

    ツールバーのをクリック→をクリック→プロパティ窓にてタブをクリック

    ツールバーのをクリック→をクリック

    • 「Opera」の場合

    メール画面の真ん中の水平線(「送信者」「宛先」「件名」「日付」表示欄)の右端にある「すべてのヘッダを表示」の文字列をクリック

    (その他のメールソフトでも、大概のメールソフトでは似たような方法で「ヘッダ」が表示されます)

  3. すると、

・・・というような感じで「ヘッダ」の中身が表示されます

この中の「X-Mailer」項目が、メールの差出人が使用しているメールソフトの種類となります

ここに記入されているメールソフトが「リッチテキスト(HTML)形式対応メールソフト」であれば、その相手には「リッチテキスト(HTML)形式メール」を送信しても技術的には大丈夫ですが、世の中には「リッチテキスト(HTML)形式メール」に対して嫌悪感を抱いているヒトが少なくありません

<重要> リッチテキスト(HTML)形式対応メールソフト自体が持つセキュリティ面の問題については、「 インターネットにおけるセキュリティ問題について 」 をご覧下さい

嫌悪感を抱いているヒトへいきなり「リッチテキスト(HTML)形式メール」を送りつけると、そのメールは読まれること無く削除されるとか、目を通してくれたとしても無視されるなどといった事がありえますので、「リッチテキスト(HTML)形式メール」でメールを送っていいかどうか、相手の方への事前に許諾を取っておく必要があります

 

なお、受信側の方が「Netscape Messenger 〜4.x」を使用している場合でも、Unicodeにおける第3・第4水準漢字文字集合対応フォントが導入されている環境であれば、文字参照対応ブラウザソフトを利用して「第3・第4水準漢字」「第1〜第4水準実装外漢字」を含んだ「リッチテキスト(HTML)形式メール」を表示させる事が出来ます

  1. Windows 95/NT4.0以外のWindowsの場合には、このページを参照して「拡張子」が表示されるにWindowsの設定を変更します

  2. 「Netscape Messenger 〜4.x」を起動します

  3. 「リッチテキスト(HTML)形式メール」のメール文章の表示窓を開きます

  4. ツールバーのをクリック→を選択→をクリック

  5. 「名前を付けてメッセージを保存」窓にて、 一番下の「ファイルの種類(T)」に を選択した上で、ファイル名(N)欄は適当な名前(拡張子が「.txt」となっている拡張子を「.htm」へ変更する必要があります)を付けてをクリック

  6. 保存したHTMLファイルを文字参照対応ブラウザソフトで開くと「リッチテキスト(HTML)形式メール」をほぼ正常(※)に表示出来ます

※ 「リッチテキスト(HTML)形式メール」の場合には、上部に「第3・第4水準漢字」「第1〜第4水準実装外漢字」が「?」(半角のQestion Mark)となっている文書が、下部にはHTMLに則っとった本来の「リッチテキスト(HTML)形式テキスト」が表示され「第3・第4水準漢字」「第1〜第4水準実装外漢字」も正しく表示されます

画像や音は再現出来ませんが、文章としてはなんら問題無く再現出来るのでこれで大概の用は足りるでしょう・・・

 

リッチテキスト(HTML)形式メールに対応していないメールソフト(「Post Pet 〜2.0.x」など)で「文字参照」を使用したリッチテキスト(HTML)メールを受信した場合でも、該当文字のフォントが「?」(半角のQestion Mark)となり、文末にHTMLタグが表示されるだけなので、ふりがなさえ振っておけば本文はきちんと読解出来ます

また、受信側の方が「リッチテキスト(HTML)形式対応メールソフト」を使用していなくても、Unicodeにおける第3・第4水準漢字文字集合対応フォントが導入されている環境であれば、文字参照対応ブラウザソフトを利用して「第3・第4水準漢字」「第1〜第4水準実装外漢字」を含んだ「リッチテキスト(HTML)形式メール」を表示させる事が出来ます

  1. Windows 95/NT4.0以外のWindowsの場合には、このページを参照して「拡張子」が表示されるにWindowsの設定を変更します

  2. メールソフトを起動します

  3. 「リッチテキスト(HTML)形式メール」のメール文章の表示窓を開きます

    ≫ 「HTML」のソース(ブラウジングされていない生のHTML文字列)が羅列されている事でしょう

  4. 「テキストエディタ(※)を起動します

    ※ OS標準装備のアプリケーションであれば「メモ帳(NotePad)」(Windows)、「SimpleText」(Mac OS 〜9.x) など

  5. メール本文(ブラウジングされていない生のHTMLソース)の文字列を全てクリップボードにコピーします

  6. クリップボードにコピーした文字列を、「テキストエディタ」の画面へ貼り付けます

  7. 適切な場所(ディレクトリ)を選んでから、適当なファイル名を付けてをクリック

  8. 保存された「テキスト文章」ファイルの拡張子を「.txt」から「.htm」に変更してHTMLファイルにする

  9. 保存したHTMLファイルを文字参照対応ブラウザソフトで開くと「リッチテキスト(HTML)形式メール」をほぼ正常(※)に表示出来ます

※ 上部に「第3・第4水準漢字」「第1〜第4水準実装外漢字」が「?」半角のQestion Mark)となっている文書が、下部にはHTMLに則っとった本来の「リッチテキスト(HTML)形式テキスト」が表示され「第3・第4水準漢字」「第1〜第4水準実装外漢字」も正しく表示されます

 

 

■ 「文字参照」 の種類について

現在、3種類が制定されています

● 文字コード10進法表記 数値「文字参照」

「Internet Explorer 4.0〜」「Netscape 6.0〜」、および左記のリソースを利用したリッチテキスト(HTML)対応メールソフトで使用出来ます

例 : 第3水準漢字の「€」(ユーロ表記記号)

※ 「Netscape Navigator 〜4.x」では実装の大半にバグがあるため、大半の文字については参照出来ません

 

● 文字コード16進法表記 数値「文字参照」

完全な実装が行われているブラウザソフトは「Internet Explorer 6.0〜」「Netscape Navigator 6.0〜」のみであり、基本的には「16進法表記」として扱う事は避けるべきでしょう

例 : 第3水準漢字の「€」(ユーロ表記記号)

(↑:アルファベット部分は大文字でも小文字でも問題ありません)

※ 「Netscape Navigator 〜4.x」では実装の大半にバグがあるため、大半の文字については参照出来ません

※ 「Internet Explorer 〜5.x」では実装の一部にバグがあるため、一部文字については参照出来ません

※ 「Netscape Navigator 〜4.x」では実装の大半にバグがあるため、大半の文字については参照出来ません

 

● 実体「文字参照」

「Internet Explorer 4.0〜」「Netscape 6.0〜」、および左記のリソースを利用したリッチテキスト(HTML)対応メールソフトで使用出来ますが、一般的な記号類にのみ設定されています
(漢字などの言語表記文字には設定がありません)

例 : 第3水準漢字の「€」(ユーロ表記記号)

(↑:アルファベット部分は大文字でも小文字でも問題ありません)

※ 「Netscape Navigator 〜4.x」では実装の大半にバグがあるため、大半の文字については参照出来ません

 

■ 対応「日本語入力かな漢字変換辞書」

 

「弓道辞書」によって『「文字参照」Unicode10進法表記文字列』(「&#○○○○;」コード)へ変換される際には、「rubyタグ」が付与された状態にしています

また、「第1・第2水準実装外漢字」を「弓道辞書」の力によって 文章上へ参照文字そのものを変換候補内で確認しながら、『「文字参照」Unicode10進法表記文字列』(「&#○○○○;」コード)に変換出来るの「日本語入力かな漢字変換辞書」は下記の種類に限られます

Microsoft IME ATOK ことえり
97・98 2000 2002 Windows Macintosh Linux 1・2 3・4
「通常版」での
インストール時
「エキスパート版」での
インストール時
11 12〜15 16
× × (※1) (※2) (※1) × (※1) (※2) (※1) × (※2)

※1 Unicodeの実装領域「第00面」のみ対応

※2 Unicodeの実装領域「第00面」〜「第16面」に対応

なお、次期版の 「 弓道辞書 」version 1.30 では、Microsoft IME 98/2000 対応版での「第1・第2水準実装外漢字」漢字変換に完全対応します
(Unicodeの実装領域「第00面」のみ対応)

 

また、「日本語入力かな漢字変換辞書システム」での漢字変換候補表示に用いられるフォントに第1・第2水準実装外漢字が含まれていなければ、漢字変換候補文字列の第1・第2水準実装外漢字は「・」「□」などと表示されます

一般的に、表示フォント設定が「第1・第2水準実装外漢字対応フォント」になっていなければ「第1・第2水準実装外漢字」は表示出来ませんが、一部のアプリケーションではインストールされている「第1・第2水準実装外漢字」が当てはめられて表示されるように出来ているモノもあります

 

 

クリップボードを介在させての文字のコピーについて

 

ブラウザソフトやリッチテキスト(HTML)形式メールソフトなどでの第3・第4水準漢字の文字参照文字を含む文字列から、クリップボードを介在させての文字のコピーについては、貼り付け先が「ホームページ制作支援ソフト」(タグを直書きするタイプでは無いヤツ)や「リッチテキスト(HTML)形式メール対応メールソフト」など、ソースがHTMLで構築されている文字入力画面へそのまま第3・第4水準漢字の文字参照文字を貼り付ける事が出来ますが、「Windows 95/98/Meの場合には、コピーする文字列にHTMLとしてのフォント属性をここで組み込まれていないと、クリップボードを介してコピーしたときに「第3・第4水準漢字」や「第1〜第4水準実装外漢字」が「?」(半角のQestion Mark)に置き換わるに文字化けしてしまう可能性が高くなります(※)

※ 「Windows NT4.0/2000/xp」「Windows Server 2003の場合にはこれらの心配はありません

また、「Unicode(UTF-8)」や「Unicode(UTF-16)」での第3・第4水準漢字を含む文章をクリップボードにコピーさせて、「Outlook Express」(※)の「リッチテキスト(HTML)形式」設定時の「メッセージの作成」画面へ貼り付けると、それがそのまま「文字参照」による第3・第4水準漢字の文字参照文字を含む文章形態になります

※ 「IBM拡張文字」や「Apple拡張文字」などの「機種依存文字」についてはこのページの一番下の項目をご覧下さい

「Netscape 6.0〜」においても、「Unicode(UTF-8)」や「Unicode(UTF-16)」での第3・第4水準漢字を含む文章をクリップボードにコピーする事が出来ますが、上記のように変換されるタイミングは送信時やHTMLファイルとしての保存時に初めて「&○○○○;」という文字列に変換されます

 

 

Windows に標準で装備されている文字参照対応アプリケーションソフトでの使用例

 

■ 「Outlook Express

<重要> リッチテキスト(HTML)形式対応メールソフト自体が持つセキュリティ面の問題については、「 インターネットにおけるセキュリティ問題について 」 をご覧下さい

  1. 「新しいメール」を作成します ( ←:この文字列をクリックすると、メールソフトの「メッセージの作成」が開きます・・・参考まで)

  2. 「メッセージの作成」にて、ツールバーの をクリック→をクリック

    ≫ これでリッチテキスト(HTML)形式モードになりました

    ※ 「メッセージの作成」の本文文章入力領域についてのみUnicode準拠文字をサポートしていますので、第3・第4水準漢字などを含んだ文章を作成出来ます

    (UTF-8やUTF-16などのUnicode文章からのクリップボード貼り付けでも、HTMLソースは自動的に第1・第2水準実装外漢字が「&#○○○○;」という文字列に変換されます)

  3. 文章の入力が終ったら、「メッセージの作成」にてボタンを押します

    ≫ メールの本文に、第1・第2水準実装外漢字が含まれている場合には、「メッセージの文字セットの競合」という警告画面が表示されますが、をクリックして下さい

  4. あとは通常通りの操作でメールを送信しましょう

なお、「Outlook Express」にて受信した「文字参照」による第1・第2水準実装外漢字を含むメールは、「転送」して文章を編集できる状態にし、ツールバーの をクリック→をクリックして「UTF-8」「リッチテキスト(HTML)」の設定にして、ツールバーの
「ファイルの種類(T):」
を選択してテキストファイルとして保存すると、「Unicode(UTF-16)」へと変換する事が出来ます

<参考>

「Netscape Messenger」においても、「Outlook Express」と同じように「文字参照」によって「第3・第4水準漢字」や「第1〜第4水準実装外漢字」を扱う事が出来ます

ただし、「Outlook Express」が本文入力領域への入力時にリアルタイムに「&#○○○○;」という文字列に変換されるのに対し、「Netscape 6.0〜」では送信時やHTMLファイルとしての保存時に初めて「&#○○○○;」という文字列に変換されます

 

■ 「Internet Explorer

 

  1. 編集したいファイルを表示させた「Internet Explorer」にて、ツールバーのボタンから「Windows Notepad で編集」を選択

    編集したいファイル(文字エンコード方式は何でも構いません)のHTMLソースの記載された「メモ帳」(Windows Notepad )が表示されます

    ※ : ボタンが無い場合には、タイトルバー下部の で表れる「ツール バーの変更」画面にてボタンを追加しましょう

  2. 「メモ帳」にて、「(ゆがけ)」「(やごろ)」「(あづち)」などの文字を使いたい場所へ、以下の文字列を入力しましょう

    (ゆがけ)」の場合、

    (やごろ)」の場合

    (あづち)」の場合

     

  3. 「メモ帳」にて編集が済んだら上書き保存しましょう

  4. 先ほどの編集したいファイルを表示させた「Internet Explorer」にて、ボタンを押しましょう

これで、「弽(ゆがけ)」「彀(やごろ)」「垜(あづち)」という感じで「第1・第2水準実装外漢字」が表示出来ます

 


 

 

■ 「ホームページ」での 「文字参照」第3・第4水準漢字文章作成について

 

Unicode対応のホームページ作成支援ソフトでの場合、HTMLソース編集機能(タグ編集モード)を用いてダイレクトに『「文字参照」Unicode10進法表記文字列』を直書きしても、ブラウズ編集(WYSIWYGモード)に戻ると第1・第2水準実装外漢字の部分を勝手にUnicodeへに置き換わってしまうシロモノが多いようで(※)、そういった仕様のソフトでは、後でブラウザソフトで確認してみると第3・第4水準漢字が「?」(半角のQestion Mark)に置き換わってしまうようです(※)

なので、「テキストエディタ」にてHTMLソースを直書きするのが手っ取り早いでしょう

・・・とはいうものの、一度ダイレクトに『「文字参照」Unicode10進法表記文字列』を直書きしても、その後にホームページ作成支援ソフトで手直ししたら第1・第2水準実装外漢字の部分が「?」に置き換わってしまうのでは、これではメンテナンスが非常に大変な事になってしまいます

※ Unicodeカーネルの比較的新しい「ホームページ作成支援ソフト」では、「?」(半角のQestion Mark)に置き換わらないシロモノが多いようです

このような「?」(半角のQestion Mark)に置き換わってしまうホームページ作成支援ソフトで編集する場合には、「yugake」「yagoro」「aduchi」などとローマ字表記(※)で記述しておいていったん保存(※)し、FTPソフトでサーバーへアップロード直前に「テキストエディタ」の「置換機能」にてHTMLファイルを一つ一つ以下のような感じで文字列置換するか、「文字列置換ソフト」(※)を用いてフォルダ内のHTMLファイルをまるごと一括文字列置換するのが現実的だと思われます

※1 半角アルファベットよりも全角アルファベット使用したほうが、文字列置換時の誤変換が発生しにくくなると思われます

※2 次回編集用のバックアップファイルと、アップロード用ファイルの2つを用意しておいたほうが賢明でしょう(「文字列置換ソフト」では自動バックアップされます)

 

※ ただ単に「ふりがな」を付けるのでは無く「ルビ」を振りたい場合にはこちらのページをご覧下さい

※ 「文字列置換ソフト」の入手方法についてはこちらのページをご覧下さい

 

 

もしくは、このページ下部で記述している ■ 「Unicode」から「文字参照」への変換方法 でのように、いったんUnicode(UTF-8)でHTML文章を記述してから、「Internet Explorer」や「Netscape 6.0〜」などを使用して『Unicode(UTF-8)エンコード文章』を『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』へと変換するのが効率的かも・・・

Shift_JISなどの既存のHTML文章を「Unicode(UTF-8)」に変換するには、第3・第4水準漢字の扱い方 「Unicode」編 のページ最下部で紹介しているフリーソフトを使用しようすると非常に効率的です

 

 

■ 「Microsoft Word 98/2000」での 「HTML形式保存ファイル」について

 

「Microsoft Word 98〜」にて文章を保存する際、Shift_JISエンコードのHTML形式で保存(=)すると、「IBM拡張文字(Windows機種依存文字)」以外の「第1・第2水準実装外漢字」はすべて文字参照によって処理されます

この保存ファイルを「Microsoft Word」にて再編集しても、上記でのホームページ作成支援ソフトでのように第1・第2水準実装外漢字が「?」(半角のQestion Mark)に置き換わってしまう事はありませんので簡単に取り扱う事が出来ます

しかし、「Microsoft Word」でのHTML形式保存というものは、ネット上にホームページとして公開するためのHTML文章作成を目的としたモノでは無く、HTML形式を使用しながらWord形式(.doc)での文章と出来る限り同一のように再現する事を目的としているため、文字の一つ一つにまで文字属性やレイアウトの詳細なデータが付与されています

よって、ホームページ作成支援ソフトによって作成されるHTML文章ファイルの数倍〜数十倍ものデータサイズに肥大するため、「Microsoft Word 」でのHTML形式保存によって作成したHTML文章をネット上にホームページとして公開するのは好ましくありません、・・・というか迷惑です!

であるので、Microsoft が無償配布している「HTML Filter 2.1 for Office 2000」「HTML TIDY」- (日本語版・GUIフロントエンド)などを利用しましょう

「HTML Filter 2.1 for Office 2000」ページからの引用

Office HTML Filter は、HTML (Hypertext Markup Language) 形式で保存した Office 2000 文書に埋め込まれている Office 固有のマークアップ タグを削除するためのツールです。Office 2000 で HTML 文書を作成すると、Office 固有のマークアップ タグが埋め込まれます。これらのタグがあると、編集の「ラウンドトリップ」をすることができます。たとえば、Word 2000 で作成した文書を HTML 形式で保存した場合に、これらのタグが埋め込まれていると、その文書を Word 2000 で再度開いたときに文書を作成したときと同じ書式設定、編集状態などが再現されます。

Office HTML Filter を使用すると、Word 2000 または Excel 2000 で HTML 文書の編集を完了した後で、最終的な HTML 文書から Office 固有のマークアップ タグを削除できます。タグを削除すると文書のサイズが小さくなるので、Web サーバー上の格納領域が少なくなり、ページのダウンロードにかかる時間も短くなります。 Office 固有のマークアップ タグを削除した場合のメリットとデメリットに関する詳細については、「Office HTML Filter を使用して短時間でダウンロードできる Web ページを作成する」を参照してください。

メモ  Office HTML Filter では、シングル バイト エンコード形式で保存されたすべてのファイルを処理できます。マルチ バイト エンコードも処理できますが、Unicode、UnicodeFFFE、および UTF-7 には対応しません。ただし、Unicode のうち Web ページで最もよく使われる UTF-8 はサポートされます。

なお、「Microsoft Word version 2002/Microsoft Office Word 2003」では、を選択→「ファイルの種類」窓で「Web ページ」を選択すると文字の一つ一つにまで文字属性やレイアウトの詳細なデータが付与されたHTMLファイルとして保存され、を選択→「ファイルの種類」窓で「Web ページ (フィルタ後)」 を選択すると、ホームページ用途に最適なHTMLファイルが保存出来るようになっています

もしくは、「Microsoft Word 〜2000」は使用しないで、「Netscape 6.0〜」「Netscape Composer」(Netscapeに標準装備のホームページ作成支援機能)や、「市販のホームページ作成支援ソフト」を利用してホームページを作っておいたほうが、後になってラクなのでは無いかと思われます・・・

 

 

■ 「文字参照」Unicode10進法表記文字列の求め方

 

「OutLook Expless 4.0〜」や「Netscape 6.0〜」を使用すると、簡単に『「文字参照」におけるUnicode10進法表記文字列』が求められます

また、ネット上において「IBM拡張文字」や「Apple拡張文字」をUnicode以外のエンコード方式で扱いたい場合には、この方法にて「文字参照」として扱うべきでしょう(※)

※ 「Unicode」や「文字参照」であれば、機種依存文字と呼ばれている文字であってもOSの違いによる「文字化け」は発生しません
(該当する文字を包括するフォントが導入されていない環境では「文字抜け」しますが・・・)

 

■ 「Outlook Express

<重要> リッチテキスト(HTML)形式対応メールソフト自体が持つセキュリティ面の問題については、「 インターネットにおけるセキュリティ問題について 」 をご覧下さい

  1. 「新しいメール」を作成します ( ←:この文字列をクリックすると、メールソフトの「メッセージの作成」が開きます・・・参考まで)
  2. 「メッセージの作成」にて、ツールバーの をクリック→を選択→をクリック(※)

    ※ 「西ヨーロッパ言語」でなくても、漢字文化圏ではないエンコードなら何でも構いません

    ※ ここで日本語エンコード(JIS)のままにしておくと、Windows Character Set(非漢字+第1・第2水準漢字+IBM拡張文字)に含まれる文字は「文字参照」Unicode10進法表記文字列には変換してくれません

  3. 「メッセージの作成」にて、ツールバーの をクリック→をクリック

    ≫ これでリッチテキスト(HTML)形式モードになりました

  4. 「メッセージの作成」にて、ツールバーの をクリック→をクリック

    ≫ 本文入力欄下部へ、という3つのタブが表示されるようになります

    ※ 「メッセージの作成」の本文文章入力領域についてのみUnicode準拠文字をサポートしていますので、第3・第4水準漢字を含んだ文章を作成出来ます

    (UTF-8やUTF-16などのUnicode文章からのクリップボード貼り付けでも、HTMLソースは自動的に第3・第4水準漢字が「&○○○○;」という文字列に変換されます)

  5. 本文入力欄に「Unicode10進法表記文字列」を求めたい文字を一文字だけ入力します

  6. タブを選択するとこのような文字列が表示されます

<例>「(ゆがけ)」を漢字で入力した場合

一番最後の行の「カッコ」に囲われていないの部分が、『「文字参照」におけるUnicode10進法表記文字列』となります

 

 

■ 「Netscape 6.0〜」

 

  1. 「Netscape 6.0〜」を起動させます

  2. :「Netscape Navigator」にて、ツールバーの をクリック→を選択→をクリック

    ≫ 「Netscape Composer」が起動します

  3. 「Netscape Composer」の文章入力領域にて、ツールバーの をクリック→を選択→をクリック(※)

    ※ 「欧米(ISO8959-1)」でなくても、漢字文化圏ではないエンコードなら何でも構いません

    ※ ここで日本語エンコード(JIS)のままにしておくと、Windows Character Set(非漢字+第1・第2水準漢字+IBM拡張文字)に含まれる文字は「文字参照」Unicode10進法表記文字列には変換してくれません

  4. 「Netscape Composer」の文章入力欄に「Unicode10進法表記文字列」を求めたい文字を一文字だけ入力します

  5. :「Netscape Composer」のアイコンをクリックして「適当な名前」を付けて保存します

  6. 「Netscape Composer」のアイコンをクリックすると、保存したファイルが「Netscape Navigator」で表示されます

  7. 「Netscape Navigator」にて、ツールバーの をクリック→をクリック

≫ 「ページソース」窓が開き、下記のような文字列が表示されます

<例>「(ゆがけ)」を漢字で入力した場合

一番最後の行の「カッコ」に囲われていないの部分が、『「文字参照」におけるUnicode10進法表記文字列』となります

 

 


なお、「Outlook Expless」や「Netscape Composer」での文字入力方式に付いては、第3・第4水準漢字の扱い方 「Unicode」編 に準じます


また、ちゃどさんによる「Character Code Checker」では、ネット上で簡単に『「文字参照」におけるUnicode10進法表記文字列』と16進法Unicodeコードポイントを求める事が出来ます(※)

※ <例>「(ゆがけ)」を漢字で入力した場合、『「文字参照」におけるUnicode10進法表記文字列』はの数字部分のみ()、16進法Unicodeコードポイントについてはと表示されます


それから、Windows の場合には、 「文字鏡フォント」の「Mojikyo Character Map」 で検索、表示された文字を右ボタンクリックしてをクリック→をクリックで、『「文字参照」におけるUnicode10進法表記文字列』がクリップボードにコピーされます

 

 

 

■ 「Unicode」から「文字参照」への変換方法

 

「Internet Explorer 4.0〜」や「Netscape 6.0〜」などのブラウザソフト(「Opera」では不可能)を使用すると、簡単に『Unicodeエンコード文章』を『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』へと変換する事が出来ます

※ 「第1・第2水準実装外漢字」であっても、使用しているOSで再現出来得る「機種依存文字」文字種については、『「文字参照」におけるUnicode10進法表記文字列』へ変換されません

≫ 弓道関連の文章で使用頻度が高いと思われるである、小山弓具製造販売の「直心Ⅰ(じきしん One)直心Ⅱ(じきしん Two)直心Ⅲ(じきしん Three)

この「(ローマ数字の1)(ローマ数字の2)(ローマ数字の3)」といった「ローマ数字」はWindowsで再現出来得る「機種依存文字」文字種であるので、Windowsにて下記方法で変換しても、『「文字参照」におけるUnicode10進法表記文字列』へ変換されません

このような「機種依存文字」文字種が含まれている場合には、この上の部分で記述している ■ 「文字参照」Unicode10進法表記文字列の求め方 を参考にして、「機種依存文字」の『「文字参照」におけるUnicode10進法表記文字列』を手動で割り出し、「文字列置換ソフト」を用いてフォルダ内のHTMLファイルの「機種依存文字」をまるごと『「文字参照」におけるUnicode10進法表記文字列』へと一括置換するべきでしょう

なお、「(ローマ数字の1)の『「文字参照」におけるUnicode10進法表記文字列』は、「(ローマ数字の2)」は、「(ローマ数字の3)」はとなります

 


Internet Explorer」の場合


  1. 「Unicode(UTF-8/UTF-16)」ファイルを表示させた「Internet Explorer」にて、ツールバーのをクリック→をクリック

  2. 「Webページに保存」窓にて、窓の一番下の方にある「ファイルの種類(T):」欄をを選択、「エンコード(E):」欄を(選択肢の中の下から2番目)などを選択、後は適当な場所に適当なファイル名を付けてボタンをクリックします


これで、『Unicodeエンコード文章』が『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』へと変換されました

ただし、HTML文章にリンクや画像、MIDIファイルなどを使用している場合、「相対パス」については「保存先ローカルドライブにおける絶対パス」に書き換えられてしまいますので後からパスの修正が必要になってしまいます

であるので、このような場合には「Netscape 6.0〜」を使用したほうが効率的です


Netscape 6.0〜」の場合


  1. 「Netscape 6.0〜」を起動し、「Unicode(UTF-8/UTF-16)」ファイルを表示させます

  2. 「Netscape Navigator」にて、ツールバーの をクリック→をクリック

    ≫ 「Netscape Composer」が起動し、変換させたいファイルが表示されます

  3. 「Netscape Composer」にて、ツールバーのをクリック→をクリック

  4. 「文字セットを指定して保存」窓にて、「文字コード セット」欄を(選択肢の中の下から2番目)などを選択してボタンをクリック、後は「名前を付けて保存」窓にて、適当な場所に適当なファイル名を付けてボタンをクリックします


これで、『Unicodeエンコード文章』が『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』へと変換されました


 

 

 

■ 「文字参照」から「Unicode」への変換方法

 

「Internet Explorer 4.0〜」や「Netscape 6.0〜」などのブラウザソフト(「Opera」では不可能)を使用すると、簡単に『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』を『Unicodeエンコード文章』へと変換する事が出来ます

 


Internet Explorer」の場合


  1. 変換させたいファイルを表示させた「Internet Explorer」にて、ツールバーのをクリック→をクリック

  2. 2-1 : HTMLファイルのまま「Unicode(UTF-8)」へ変換させる場合

「Webページに保存」窓にて、窓の一番下の方にある「ファイルの種類(T):」欄をを選択、「エンコード(E):」欄を(選択肢の中の上から2番目)を選択、後は適当な場所に適当なファイル名を付けてボタンをクリックします

2-2 : 「Unicode(UTF-16)テキストファイル」へ変換させる場合

「Webページに保存」窓にて、窓の一番下の方にある「ファイルの種類(T):」欄をを選択、「エンコード(E):」欄を(選択肢の中の一番上)を選択、後は適当な場所に適当なファイル名を付けてボタンをクリックします


これで、『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』が『Unicodeエンコード文章』へと変換されました

ただし、HTML文章にリンクや画像、MIDIファイルなどを使用している場合、「相対パス」については「保存先ローカルドライブにおける絶対パス」に書き換えられてしまいますので後からパスの修正が必要になってしまいます

であるので、このような場合には「Netscape 6.0〜」を使用したほうが効率的です


Netscape 6.0〜」の場合


  1. 「Netscape 6.0〜」を起動し、「Unicode(UTF-8/UTF-16)」ファイルを表示させます

  2. 「Netscape Navigator」にて、ツールバーの をクリック→をクリック

    ≫ 「Netscape Composer」が起動し、変換させたいファイルが表示されます

  3. 「Netscape Composer」にて、ツールバーのをクリック→をクリック

  4. 「文字セットを指定して保存」窓にて、「文字コード セット」欄を(選択肢の中の上から2番目)を選択してボタンをクリック、後は「名前を付けて保存」窓にて、適当な場所に適当なファイル名を付けてボタンをクリックします


これで、『「文字参照」を使用した第1・第2水準実装外漢字を含む文章』が『Unicodeエンコード文章』へと変換されました


 

 

 

 

return to back

return to toppage