この説明書では、見慣れない名前が出て来ます。それは、この電脳無形装備道具(Computer Software)が漢字の分類に拠所を置いているからで、漢字無しには成り立たない電脳無形道具だからです。各々の意味は漢字の意味の通りです。無形具(Soft)は有形具(Hard)である電脳(Computer)に装備されます。
その他の単語
電帳(File)、情報粒/情報粒子(Data)、電網(Net,Web)、相互電網(Internet)、下開帳欄(ComboBox)、折畳箱(Folder)、方位角長(Vector)、付印(Checkbox, Check)、択一付印(RadioButton)、電脳鍵盤(Keyboard)
この電脳無形装具は、野田時寛(のだ ときひろ)氏が提唱した「現代日本語の漢字の意味分類」にある漢字群の中から漢字を検索します。また、概念(意味)毎に集められた漢字群を基に、単語間あるいは文(段落)間の類似性を余弦(cos)類似度、及びTF_IDFを使って測定します。概念(意味)による検索は、「理解する」から「考える」、「警護をする」から「助ける」、或いは「前」から「後」等を抽出できます。本無形具では野田氏の漢字群をXML電帳(File),ClassifiedKanji.xmlに変換して利用しています。
目次
野田時寛氏提唱の漢字群では、他の漢字とくっ付いて使われるものと、そうでないものを区別しています。例えば「曜」は日曜、月曜等と単語で使われ、独立して使われることは稀です。逆に「画」や「面」は独立しても使い、且つ「画面」と単語でも使います。このXML電帳では、単独では使われない漢字に「m」印を付けています。しかし、本無形具では単語や文書の類似度計算には、この区別は利用していません。
漢字一文字には複数の概念(意味)が割り当てられています。例えば「臭」を漢字木で検索すると四つの概念と漢字群が見つかります。XML漢字木電帳は編集できます。但し対応文書符号はUTF-8のみです。詳細は「XML情報粒電帳の編集」を参照してください。
重要: 漢字木電帳ClassifiedKanji.xmlに不具合があると本無形具は機能しません。内容を見たりしたときは、不用意に間違って書き込み保存したりしないよう注意してください。この取り説電帳と同じ場所に、予備としてClassifiedKanji.xmlを保存してあります。
設定で対象の電帳名入力欄の下にある、辞書「右」、対象「右」、画面「右」とある下開帳欄を押下して、左右何れかを選択します。これは比較する辞書や対象文が以下の様に、
□□□ Tab ○○○○
□□□ Tab ○○○○
Tab区切りになっている場合に、左右のどちらが比較する側(漢字が在る側)か決めるものです。
Tab区切りでない一行の場合
○○○○
○○○○
は、「右」を選択します。これらの左右を間違えると比較できなかったり、間違った類似度が算出されます。
統計に付印を付けると、単語や文書に使われている漢字と、その概念名や品詞名が個数と共に表示されます。この個数は漢字の数ではなく、漢字群すなわち概念(意味)の数です。一字漢字は複数の概念に属するものがあるので、漢字数とは一致しない場合があります。
この文書符号はUTF-8のみに対応しています。XMLの構造は以下の様になっています。文書無形具でClassifiedKanji.xmlを表示させて見て下さい。注意: XMLに不具合があるとKanjiConceptorCは機能しません。
<?xml version="1.0" encoding="utf-8"?>
<kanjiclass_野田時寛>
<h n="○○">
<g n="□□">
<k>△,△,△,△</k>
<k>△,△,△,△</k>
..............
</g>
..............
</h>
以下<h n="○○">~</h>の繰り返し。
</kanjiclass_野田時寛>
○□△は自由に変更できます。<h n="○○">~</h>や<g n="□□">~</g>、及び<k>~</k>は何回でも繰り返すことができます。
但し、△は「,」読点のみで区切ります。注意: 最後は付けません。
<k>△,△, △,△,</k> <- 間違い
<k>△,</k> <- 間違い
<k>△,△,△,△</k> <- 正しい
<k>△</k> <- 正しい
このXMLには<g n="None1">と言う項目札があります。番号は1~6まであります。これは野田氏の漢字分類で品詞相当にのみ入れられて、概念(意味)の区分がない漢字群です。本XMLでは階層構造を同じにする必要があるので、便宜的にNone1~6の名前を与えてあります。階層構造が大事と言うことです。
XMLを間違えると正しく機能しません。編集したら、閲覧具(Browser)で表示すると良いでしょう。
閲覧具は構造に不備があると指摘してくれますが、内容は感知しません。読点には特に注意してください。
SampleData折畳箱内にDetarameKanjiArray.xml電帳を添付してあります。これは野田氏の漢字木電帳にある一文字漢字を電脳で無作為に並べ直したものです。概念(意味)など全く無視したものです。
検証の仕方
余弦類似度を算出するにあたり、やっている事について簡単に説明します。詳しく知りたい方は、相互電網(Internet)で調べてください。
野田氏の漢字分類で重要なのは、
<k>△,△,△,△</k>
の△に当てはまる漢字群です。この漢字群は755群あり、一列にずらっと並べる事ができます。本無形具は、文書や単語の漢字一字の頻度をこの漢字群を使って計算します。これはある漢字が何個あるかではなく、それが属する漢字群、すなわち概念(意味)が何回出てくるかを意味します。一列に並べられた頻度は、方向の角度と長さを持つ単位、即ち方位角長(Vector)に変換できます。
二つの単語や文書に出てくる概念群からは、各々、頻度の列を作ることができ、それらは各々の方位角長に変換できます。こうするとざっくり言って、二つの時計の針のように角度の違いから、方位角長の一致度、すなわち二つの単語や文書の類似度が計算できることになります。計算では余弦の値を使うので1が一致、0が不一致となります。単語や文書により類似度はその間の様々な値となります。
野田氏の漢字分類の素晴らしいところは、単語や文書の長短に関係なく一律に755群に頻度を落とし込めるところにあります。普通は類似度計算には単語の出現頻度を使いますが、これに概念を当てはめると、何十万もの単語を網羅する必要があります。しかし、野田氏の漢字分類を使うと、常用漢字の755群だけで済みます。
出現頻度の類似度は多いものに焦点を合わせます。TF_IDFは逆に、稀な単語ほど、その文書の特徴を現しているとして、(個人的には疑問符ですが)、稀に出現する単語に焦点を当て計算し、類似度を算出します。TF_IDFは主に文(段落)間の類似度測定に使います。この処理は時間が掛かります。気長にお待ちください。
類似度を0~1の間で変化させると(通常は0.6~1.0)、抽出される項目数が変わってきます。添付してある英和辞書で、抽出を試みると通常の検索では引っかからない単語が出ます。英単語などを覚えるのに、この集まりで関連付けて覚えると効果が有りそうです。逆に試験問題の作成に使えるかもしれません。
ClassifiedKanji.xmlにある品詞名や概念(意味)名は、本無形具では使用していません。これは人間が漢字群分類の目安にするものです。従って、犬でも猫でも良いのです。逆に、犬に関連する漢字群、或いは猫に関連する漢字群を集めると、犬や猫に関する文章を区別できるかも知れません。難解な法律や特許関連など、何か利用できそうですが、作者にはその辺の知見が無いのが残念です。何方か試行して頂ければ幸いです。
本無形具は野田氏提唱の意味分類された漢字群を使って、単語や文書の類似度を計算します。従って片仮名は扱えません。しかし、巷には片仮名が溢れていて、情報技術(IT)、通信、電脳関連の文書では片仮名の洪水です。そこで、これらの片仮名単語を無理やり漢字に置き換えてみました。手入力で置き換えるのは大変なので、それを自動で行う電脳無形装具KatakanaToKanjiAを電脳命令技巧(Programming)してみました。本無形具と同じ場所で掲載する予定です。使って頂ければ幸いです。
片仮名を漢字語に置き換えれば、類似度が上がると単純に思ったのですが、SampleData\LongText.txtでは、下がってしまう文もありました。よく考えると、片仮名が多い文書では、それ以外の漢字で比較されます。片仮名は名詞が多く、それ以外は動詞、形容詞、副詞等となります。動詞、形容詞、副詞等は共通で使う場合が多く、その漢字の概念(意味)は同じものが増えます。結果として類似度が上がります。
全くの言語学素人の私見ですが、「概念(意味)による余弦類似度が上がる」は、即ち「文書が似ている度合いが上がる」のでは無いと考えます。漢字語に置換した場合の類似度は、より精密になって、概念(意味)による似ている度合いの精度が、より厳密になるのかなと考えています。知見ある方のご意見頂ければ幸いです。