
近年の創薬の多様化に着目し、現在主流となった新規モダリティ(mRNA、抗体医薬など)の開発をサポートする生成AI基盤モデルの開発を実施しています。
本開発は、経済産業省及びNEDOが協力して実施する事業「GENIAC(Generative AI Accelerator Challenge)」の一環として実施したものです。
文献検索や化合物の構造といった従来のデータではなく、モダリティによらず細胞内の状態を表すことができる遺伝子発現量をもとに過去の実験データを探索し、生体に対する影響を予見します。
本モデルを利用することで、医薬品の薬効予測精度向上や創薬における臨床試験の効率化が期待されます。
モデル概要
先行研究scFoundationの非対称エンコーダ・デコーダ型アーキテクチャをベースに拡張したモデル(3億パラメータ)。公共DBから収集した約9億細胞分のデータから高品質な約3億細胞分を抽出した世界最大級となるデータセットを構築し学習しました。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、遺伝子発現量の基盤モデルの評価として、標準的ながら難易度の高い遺伝子発現量を数値として予測するタスクをベンチマークとして採用しました。
モデルの数値評価には標準指標である「MSE」を用いました。先行研究の性能を基準に、目標値を現行トップであるscFoundationの性能を上回るMSE0.30以下と設定し、本モデルは2025年4月19日時点で0.295を記録し、同種モデルで世界1位の性能となりました。
公開モデル情報
| モデル名 | CellScribe -300M-step10k |
|---|---|
| 公開形態 | 学習済み重み・推論スクリプトを公開 |
| 公開リンク | https://github.com/HumanomeLab/hnl-cellscribe-pub |
GENIAC コミュニティキックオフ 事業内容説明プレゼンテーション
課題と対応
課題
- 新薬研究開発は長い年月と莫大な投資を要するが、試験難易度が非常に高く、成功率が低い
- 新規モダリティの新薬開発は前例が少ないため、さらに困難
対応
- 新規モダリティの新薬開発をサポートし、試験成功率を高める「創薬に役立つ」生成AI基盤モデルを開発
プロジェクト情報
| 関係機関 / お取引先名 | 経済産業省様、国立研究開発法人新エネルギー・産業技術総合開発機構様 |
|---|---|
| カテゴリ | |
| キーワード | |
| 関連リンク |
お気軽にお声がけください