CatDataマニュアル：データの可視化・分析

CatDataマニュアル目次

データの可視化・分析

データを選択したり、分布を可視化したりすることで、データからストーリーを考える分析が可能です

データの可視化・分析の流れ

「テーブルの新規作成」をクリックし、ファイルアップロード画面を開きます

ファイルアップロードエリアでiris_training.xlsx を選択し、アップロードボタンをクリックしてください

アップロードしたデータが間違っていないか確認をします。
特に、列名と数値にずれが無いかどうか、各列の型(*)が意図したものか確認してください。
特に赤字の列は、型を自動で判別していたり、欠損値が多い列なので、注意深く確認してください。
- 赤字の列:型が自動で変更された列、もしくは欠損値が多い列です

(*)数字や文字列のこと。CatDataは自動で判別します。意図したものと間違っている場合、修正してください。ここで決定した型は、後で修正できません。

データを保存すると「このテーブルの利用目的」を選択するモーダルウィンドウが開きます。アップロードしたテーブルの利用目的を選択します
機械学習を実施する前に、データの分布を見て、データの様子を知るために「可視化」を選択します
- 可視化をすることで、AI作成が容易なデータか、あるいは、難しそうか、あたりをつけます

意図しないデータの混入や、値に偏りが無いかどうかを確認します

(*)正規化：平均0、分散1になるように単位の変更を実施すること。
大きく単位が異なる変数が存在する場合に、学習が難しくなることがあるため、必要に応じて実施します。

特に必要がなければ、このステップは省略して可視化に進めます

下の図は、花びらの⻑さ (cm) が短いもの(破線で囲ったところ)を削除する操作(アクション)の作成例です。
花びらの⻑さの分布を見ると、明らかに短い集団が存在するので、除いてみました。

「花弁の長さ (cm)」項目をクリックして、項目詳細ページへ遷移します
項目詳細ページで、花弁の値が明らかに短い集団を取り除きます。
グラフ下にある「最小値」の数値を2.5に変更し、「追加」ボタンをクリックしてアクションを追加します
「前処理 1/2: アクションセットの編集」ページにて、アクションが追加されていることを確認します。問題なければ「適用」ボタンのクリックし、追加したアクションを適用します

データの選択と正規化を実施する

アクションが追加されただけでは、その処理は適用されません。「適用」ボタンのクリックで、追加したアクションを適用します。
下の例では、全120個体中、花弁の⻑さ (cm) の値が2.5以上の80サンプルに絞ったので、連動してデータ全体の分布が変わっています。サンプル数(行数)の変化は右下の窓で確認できます。

アクションの適用