このページでは、Humanome Eyes(以下「Eyes」)を実際にお使いいただいているユーザーの皆様へのインタビューをご紹介します。使ってみてどのように感じたか? など、率直な意見やご感想についてお伺いしています。
ご利用をお考えのお客様の参考になりますと幸いです。
お話しいただいた方
和多 和宏先生
北海道大学 大学院理学研究院 教授
東京医科歯科大学大学院医学系研究科 博士(医学)。米国デューク大学 医療センター 神経生物部門 リサーチアソシエイト、北海道大学 大学院先端生命科学研究院 准教授、北海道大学 大学院理学研究院 准教授(学内改組異動)を歴任。2021年10月より、北海道大学 大学院理学研究院 教授。音声発声学習を可能にする脳神経回路・メカニズムを物質・遺伝子レベルで明らかにすることを目的として、研究活動に従事。
インタビュー
小鳥の歌をAIで解析する
ヒューマノーム研究所(以下「HNL」):
本日はインタビューのお時間をありがとうございます。特に和多先生がEyesをどのように使っているのかや、研究内容について私たちが把握していないところも多いと思いますので、そのあたりをぜひお聞かせください。
和多先生(以下「和多」):
僕の研究は、小鳥のさえずりや歌を学習モデルとして、動物がどうやって他者の声を聞いて、発声パターンや声の出し方を真似ていくのかを、神経行動学的に研究しています。
学習臨界期と言うのですが、人の言語、言葉の獲得は非常に若い時にやりやすくて、年をとると難しくなっていく、ということが知られています。それがどのような神経メカニズムによって起こっているのかを研究しています。
HNL:
ちなみにEyesの利用はどのようなきっかけで検討いただけたのでしょうか。
和多:
AIによる画像認識によって、どれくらいまで声紋(声の特徴を機械によって分析した結果を模様化したもの、スペクトログラムともいう)の違いを認識できるのか?ということを試したかった、というのが今回利用を検討したきっかけです。
小鳥のひなは、歌を完成させていくときに「バブリング」という喃語(赤ちゃん特有の言葉)を話します。「うわうわうい~うい~」っていうような不明瞭な音から、だんだん大人がしゃべるような、はっきりとした歌になっていくのですが、この歌がお手本とされる歌とどれくらい似ているのか?を調べるためにAIを利用しようと考えました。
音声は、声紋を通じて視覚的に比較することができます。横軸に時間、縦軸に音の高さをとり、音の強さを色の濃さで表し、フーリエ変換した音のデータをプロットすると、声紋のパターンを視覚的に表すことができるんですね。
私達の研究では、この声紋をひなの歌と、お手本の歌の間で比較するのですが、これは、研究者間でも「それはあなたの思い込みでしょう」「似てると言ってるけど似てないよ」とか、議論になる話題でもあります。人間の耳では似てるように聞こえるんだけど、人によってはあんまり似てないようにも聞こえる、というような違いがあるんですよね。結構あいまいなんです。
HNL:
他に使おうと思っていたアプリや、比較した解析技術などはありましたか?
和多:
これまでに利用されてきた研究解析用ソフトウェアで、AVISOFTのSASLab Proっていうツールや、研究者が試行錯誤した成果などを使うことで、音が似てる似てないみたいなことは一応比べることはできるんですけども、方法をちょっと変えるだけで「あれ?」っていうような結果になるんですよね。検出感度が非常に落ちてしまうとか。
例えば、非常に短い音は、情報量がほとんどないので比較には使えません。「ピッ」という音も音の高さだけで判断してくれなくなったりしてしまって。これらは、音を視覚的に表現することで、変調の度合いなども含めて、かなり比較結果が変わってきます。
HNL:
なるほど。音を視覚的に処理したデータの比較ツールとしてEyesを使ってみよう、という流れがあったんですね。
和多:
そうですね、一回ちょっと見てもらったほうがわかりやすいかな?
音の成長を画像で判別する
これは鳥の声紋をAIに学習させた実際の結果です。僕らはこれを見ると、だいたい鳥がどんな風にうたっているのかが想像できます。
実際に研究で何をやっているかというと、ひなに教師データとしてお手本となる親の歌を再生して聞かせています。お手本とひなの声紋情報が非常によく似てると、ちゃんと同じように認識されるんですよね。
ひとつの句をチャンク、歌全体の流れをフレーズといいます。フレーズでチャンクA→チャンクA→チャンクB→チャンクC→チャンクA→チャンクB、みたいに変化します(図1)。僕らも、ちゃんとチャンクに聞こえるし、AIもちゃんと認識してくれてるんですよね。AIが認識していない部分は、親と似ていない音を出している部分、ということになります。
僕らの一番の目的は、逆戻り。
つまり、大人になるにつれて歌が完成していく前段階において、不明瞭な音が完成に近づく中で、いつからこのチャンクAとかBとかCが作られ出すのかな?というのをAIに聞きたかったわけです。
僕らはまとまりの判定精度にずっと悩んでたんですよ。
簡単に言うと、1個1個の音に関しては何パーセント似てる、という評価ができるんですが、まとまりとして似てる・似てないの評価は非常に難しいんですね。その1個1個の間隔が変わるだけでも、既存ソフトは極端に学ばなかったりするんですが、Eyesだとそれなりに認識できている感じはします。
小鳥が大人になった歌のデータだと、既存の方法でもなんとか比較ができたんです。ただ、AIが行った結果と比較すると、AIの方が明らかに正確にやってる感じもする。 加えてそれぞれの判定精度のパーセンテージが出るのがなかなかいいなと。概ね90%くらい認識できているんですよね。
その一番いい例がチャンクCの話になります。
AIが認識しなかった部分に、チャンクCが長くなって繰り返されている部分があるんですよね。人間が見ればただの繰り返しである、とすぐに認識できるんですけど、ある程度変化が大きくなるとAIが認識できないとか、そういう点が存在します。
一方で不思議なのは、同じチャンクCの長さが違うパターンでも、少しだけ違う場合はちゃんと認識していたりするんですよね。でも、ある程度を超えるとAIが認識できなくなる。長めのチャンクの一部だけをみて認識する、というようなことがない。
完璧に判定してくれるわけではないですが、繰り返され方がある程度変わってもチャンクCと判定してくれる場合もあるので、その理由は気になるところです(図2)。