ユーザーインタビュー｜北海道大学・和多和宏教授 | ページ 2

開発未経験者が1週間でAIを作れてしまった

HNL：
Eyesのことは何で知りましたか？

和多：
Eyesのことは、社長の瀬々さんが実験医学2022年７月号の記事で紹介されていたのを見かけて知りました。Eyesを使えばAI使って画像認識できるよ、と。

HNL：
ツールを生かした使い方がパッと浮かぶのは、さすがです。なかなか難しいんですよね。
ちなみにEyesを使ってアノテーション（画像データの場合、画像の中の特定の領域に対し、その部分が示す意味をラベル付けすること）やAIを作成する作業ってどなたがメインでやられてるんですか？

和多：
中国からやってきている留学生のHuくんがやってくれてます。ある程度日本語は読めるので、彼にEyesの「はじめてガイド」などの記事を読んでもらって、デモデータで1回AIを作ってもらいました。そうしたら、1週間弱ぐらいである程度のものができちゃった、みたいな。今は他の学生にも使ってもらってます。

Humanome Eyes はじめてガイド

「Humanome Eyes」ではじめてのAIづくり！「AIなんてわからないから使いこなせる自信がない」「変な操作しちゃったらどうしよう」などなど、はじめてのツールを触る時は不安がつきものです。そんな皆様の為に、安心して「Humanome Eyes」をお試しいただけるよう、基本的な操作…

ノーコードではじめる画像認識AI｜株式会社ヒューマノーム研究所【AI部】｜note

画像認識AI・物体検知AIをこれから学ぶ初心者向けテキストです。ノーコードシステムを使ってAIを自作しながら、データサイエンスの基礎を学べます。

HNL：
Eyesは半年ぐらいお使いいただいてますが、初期と今とで使い方が変わってた点などありますか？

和多：
初期はひたすらその教師役となるデータをラベリングして、知りたい内容に合わせてAIに答えさせるっていうような形で使っていました。初めはそれなりにうまくいってるような感じがしていたんですが、明らかに似ているチャンク（ひなの声紋のまとまり）を見落としたり、スコアが低かったり、という現象が多発してきました。

教師データを増やしたりとかいろいろ条件を変えてみたのですが、どうもよくない。

チャンクBとCは区別がつくように教えているはずなのに、BにもCにも見える、とAIが判定したりだとか。あと、一番やりたかったひなのデータを判定させると、どう見ても違うチャンクと判定したり。誤答に統一性がないんですよね。

最初はアノテーションする時に同じ大きさ、同じ向きなどの対象物でなくても、つまり大きさを揃えなくても、AIは認識してくれるもの、と思っていたので、画像の大きさは適当でした。これを、教師データもテストする方の画像も、全て同じ大きさに揃えるようになってから精度が上がってきました。80％程度は正しくなってきたのでまあまあいいんじゃないのと。

HNL：
じゃあ、工夫してもうちょっと精度良くしたいよね、というような感じなんですね。

和多：
はい。
使っている中で、AIはなんでそんなふうに思うのかなぁとか考えることがあって。

例えばなんですが、この画像の四角い枠の部分が上にちょっとずれてるんですよね。AIは画像の中のある一部分をみて、似ているかを答えてるんだろうな、とか、言っているんだろうな、と。（図3）

図3. AIが認識しているエリアのズレ

ツールの使い方というよりは「AIのトレーニングの仕方に気をつける必要がある」と感じています。適当な画像で適当にやればいいものではないと。特に僕らの解析に関しては。

HNL：
元のデータから解析できる状態に加工するまでに、結構手間はかかりましたか？

和多：
録音状態によっては、解析結果に影響するバックノイズが入るので、既存の音響ソフトウェアでなるべく除いてあげて、ノイズの影響がないような状態にします。そのあとに、声紋に変換したデータを使って解析しています。

AIの捉え方と人間の捉え方はずれている

HNL：
この作業はどれくらいの頻度で実施されていますか？

和多：
録音データは膨大にあるので、Huくんがほぼ毎日やってます。特に今は、条件を既に決定してデータを集めにかかってる段階なので精力的に進めています。

僕らは行動解析としての「歌の認識」を非常に重要視しているので、今のやり方が確立してきたらずっと使ってもいいかなと思っています。同じ問題を同じ領域でやっている他の研究者も同じような問題を持っています。

HNL：
今は確かにちょっと手間が多いですよね。

和多：
良い精度が得られるまでのデータ作成に関するノウハウが必要ですしね。
周波数の設定や、何秒間の画像を1枚として出力されるように設定すると精度が高くなるのか、とかそういう設定も適当だと良くなくて、違うチャンクとして判別されちゃうとか。

あと、無理に認識してほしくないところを認識してしまうところがあるんですよね。逆に、あんまり一致するところがない、と言いたい。

HNL：
ここは違うぞ！という箇所には「unknown」というようなラベルをつけるといいかもしれませんね。AIの判断基準は人間の直感と結構ずれているのは確かです。

和多：
あっている時の感覚は近いものがあるんですが、ずれた時の感覚があわないんですよねぇ・・・。

HNL：
「壊れたものを見つけたい」と言うような時とかに、壊れたものだけ覚えさせても、なんだかいい結果にならない、ということはありがちです。なので、壊れたものを見つけたい時は、壊れているものと、壊れていないものの両方を教えてあげると、AIは両者の差をうまいこと判断してくれるので、「これは壊れているものなんだな」と読み取ってくれるようになったりします。

和多：
じゃあ、これから「unknown」ラベルのアノテーションをいっぱい作っていくと、あやふやなものは選ばないようになるかもしれないですね。

HNL：
選んでほしくない対象がある場合、それをAIに教えてあげることは、精度をあげるひとつの手になります。

和多：
ラベルの重なりの問題はどうしたらいいんですかね？重なった場合は、スコアの高い方を選ぶようにはしているんですけど。

HNL：
AIアノテーションの機能を使うと、何％以上の場合にラベル付けしてほしい、というような感じでしきい値を変えられるんですね。通常だと50%以上だと全てについてしまうので、しきい値がどれぐらいの設定だと重ならないで判定できるか？をお試しいただくとよいかもしれません。

別のラベルの重なりが邪魔という問題について、完全に解消するのは難しいかもしれませんが、AIアノテーション機能で判定をしてほしい画像を別タスクとして作ってみてください。実際に判定する時にAIアノテーションで作ったモデルを選択していただくと、判定時のしきい値の設定ができます。しきい値を調整することで、90%以上しか出さないとか、80%以上までは出すとか設定すると、見やすい結果画像が得られるようになるかもしれません。

和多：
このチャンクCなんかも、もしかして短いやつも、長いやつもトレーニングさせることで精度が高くなるのかもしれませんね。

人間の目による判断にはバイアスがあるんですが、Huくんが人の目で判定したラベルの分布傾向は、AIが判定したラベルの分布と結構似てくるんですよね。複数の鳥のデータで調査しても同様の傾向がみられるので、結果は許容範囲かなと。
そういう意味では、当初の目的は達しつつあるかなと思っています。

HNL：
ここまでで、Eyesでやりたかった一番の目的が「AIの判定と人間の目による判定が似た結果になることを確認すること」とお伺いしましたが、その次の目的は想定されていましたか？

和多：
できればシステム側で勝手にラベリングしてくれるといいんだけどな、ということですよね。
Eyesに合うようにデータを準備するとより正確な結果が出るので、データプレパレーション（データ分析の前に行うデータを分析できる形に変換すること）しなくてはならない、という手間がめんどくさいな、と感じています。

精度をあげるために今もいろいろデータ形式を変えながら試しているのですが、画像は白黒よりもカラーのほうが精度が上がる、みたいなことってあったりするんですか？

HNL：
場合による、といった回答となってしまうのですが。
カラーの場合、画像の持つ情報量が増えるので、理論的には精度が高くなる可能性があるのですが、白黒画像の方が被写体の傾向をつかみやすい場合もあります。色味がバラバラすぎると傾向がつかみにくくなる場合もあるので、そこはトライアンドエラーでそれぞれの精度を比較するのがよいかもしれません。

和多：
あと、将来的にやりたいのは「判定の細分化」です。
今、いくつかの波形データをひとかたまりとして「チャンクA」と判定しているのですが、チャンクAを構成する要素を「チャンクA-1」「チャンクA-2」「チャンクA-3」と細分化された要素として判定したい、加えて、チャンクA-1・A-2・A-3が順番通りに並んでいるか、A-1・A-2・A-3の要素がどのように繰り返されて出現しているのか、という情報が得られるようになると良いな、と考えています。

これらの細かいパーツがかたまることでクラスターになってるんだっていうことを言えると非常にいいなと。

HNL：
このデータはもともと「音」なので、系列だった並びになってると思うんですけれど、音を画像としてAIが認識した場合、記憶した画像単体の「形」自体を学習していくんですよね。なので、この画像が出たから次はこれ、みたいな、画像と時系列的な情報を掛け合わせた予測となるので、技術的にかなり難易度が上がりそうです。

画像によるAIの予測では、指定した領域が似ているか否か？の判定が行われているので、チャンクの出現状況を加味するのであれば、フレーズの前後の領域を入れた形で、教えたほうがいいのかもしれません。

和多：
対象物の位置情報を元に、近くに出現する可能性の高い要素を予測できたりするといいのかもしれませんね。

HNL：
今日はポジティブな話も含めて、いろいろと面白いお話をお聞かせいただき、本当にありがとうございました！

あとがき

今回は北海道大学の和多先生に、研究のご紹介とEyesをどのように使用されているかをお伺いしました。小鳥も人間と同じように、鳴き声を学んでいく途中の段階があるんですね。物体検知AIと聞くと色のある写真を利用するイメージがありましたが、グラフに対しても活用できることには驚きました。また、恣意的ではなく、客観的な判断基準が必要な際にAIを用いるのは素晴らしい利用方法だなと感じました。