対象バージョン

1.13.0 以降

キーワード分類機能について

ユーザーが指定したキーワードリストと分類対象のキーワードリストとの類似度を計算し指定したキーワードリスト毎に分類する機能です。本機能ではベクトルファイルを用いてコサイン類似度を算出しています。

キーワード分類方法

EISS Tools を開き、左ペインの①「キーワード分類」をクリックします。

②「キーワードファイルの選択」をクリックし、分類の対象であるキーワードファイルを選択します。このキーワードファイルは、分析済みデータから任意のルールに沿った文字列を抽出する方法 で作成したcsvファイルを用いることができます。または、それに準じたファイルを用いることができます。仕様はXXXを参照してください。

キーワードファイルを選択して、読み込みが完了すると、読込んだ内容が表に表示されます。

表は図のようにA、B、C、Dとあり、それぞれ、分類名(後述。のちにユーザー入力)、指定キーワード(後述。のちにユーザー入力)、キーワード、類似度となっています。分類処理が完了すると、BとCの類似度がDに記載されることになります。

キーワードファイルが読込めたら、③「キーワード分類の実行」をクリックします。

設定ダイアログが表示されるので、④「参照」をクリックしベクターファイルを指定します。⑤には、分類の指標となる代表的なキーワードを設定します。また分類名を指定します。ここで指定した代表的なキーワードが類似度の計算に使用され(前図のBに該当)、分類名はファイル出力時のスクリプトやグルーピング用のファイルにおけるグループ名として利用されます(前図のAに該当)。最後に⑥「実行する」をクリックします。

処理が開始されると、ベクターファイルの読み込み、キーワードの類似度の計算を実施します。ベクターファイルのファイルサイズが大きいと読み込みに時間を要します。また、キーワード数が多いとクラスタリングの計算に時間を要します。

処理が完了すると図の様な表示となります。Aは設定ダイアログで入力した分類名、Bも設定ダイアログで設定した代表的なキーワード、Cはキーワードファイルから読込んだキーワード、DはBとCの類似度となっています。Bにおいて、複数のキーワードが指定されている場合はそれぞれの平均ベクトルを計算に使用しています。

表の項目をクリックすると各列でソートが可能です。また、類似度によるフィルターも可能で、最小値、最大値を設定することができます。

処理結果はファイルに出力することができます。⑧「ファイルへ出力」をクリックし、出力したいファイルを選択します。現表の内容が出力されます。フィルターがかかっている場合はその結果が、フィルターがかかっていない場合はすべてのデータが出力されることになります。

図中Eの「CSVファイルへの出力」では、表示中の表をそのまま出力します。Fの「スクリプトファイルへの出力」では、キーワードによってリージョンを作成し、分類名ごとにグループ化するスクリプトファイルを出力します(グループ化時のグループ名は分類名としている)。これは、EISSで利用することができます。Gの「グループ・リージョン作成用ファイルへの出力」もFと同様にリージョン・グループを作成するファイルを出力します。これは、EISSToolsの「データ編集」の「グループ・リージョンの作成」で利用することができます。

以上