少量で不完全な「レガシーデータ」を活用した分析・予測と意思決定第2回 - トレンド

これまで AI による分析には、一貫した基準で取得されたビッグデータが必要とされてきました。しかし、少量で不完全な「レガシーデータ」であっても、ドメイン知識を組み込むことで分析・予測と意思決定に活用することが可能です。前回はレガシーデータの特徴と、その活用例として交換部品の需要予測をご紹介しました。今回は、AI に組み込めるドメイン知識がどのようなものかご紹介し、ドメイン知識をモデル化する過程が意思決定を改善するチャンスでもあることを論じます。

曖昧なドメイン知識も AI に組み込むことができる

AI に組み込めるドメイン知識とは、業務の過程や対象を要素に分解し、要素とデータの関係や、要素と要素の相関関係を表したものです。前回ご紹介した交換部品の需要予測の例でいえば、要素とは稼働中の製品数、故障数、修理数、廃棄数です。データとは、製品や交換部品の出荷数や、出荷後年数などの故障率に影響する要因です。

相関関係とは、ある物事が起こったときに別の物事がよく一緒に起こるとか、ある要素が増大したときに、別の要素も増大するといった関係を示すものです。この関係は、定量的なものでも定性的なものでも構いません。物理現象などについては、定量的なモデルが存在することがあります。一方、現場で蓄積されている知見は、ある要素が増大したときに別の要素が増大する、または減少するといった、定性的なものが多いでしょう。それが分かるだけで、定量的な相関関係は、AI にデータを用いて推定させることができます（図 1）。

さらにいえば、この相関関係は、決定論的なものである必要はなく、確率的なものでも構いません。決定論的な相関関係とは、ある物事が起こったら “必ず” 別のことが起こるとか、ある要素がある値を取ったら別の要素が “特定の” 値を取る関係です。これに対して、確率的な相関関係とは、ある物事が起こったときに別の物事がある確率で起こるが、起こらない場合もあるといった関係です。また、ある要素が、ある値を取ったときに別の要素が “最も取りやすい” 値があるものの、その “周りの” 値を取る可能性もある関係です。

このような関係を組み合わせて数理モデルを構築し AI に組み込むことで、レガシーデータに含まれる情報の不足を補い、的確な分析、予測と意思決定を行うことができます。

1：ドメイン知識の AI への組み込み

予知保全は最も適する領域で、多数の資産の運用最適化に応用できる

AI にドメイン知識を組み込む方法が適しているのは、業務の過程や対象に関するドメイン知識が豊富な領域です。機械製品、生産設備、プラントやインフラを対象に、故障確率や余寿命を予測し、点検や整備スケジュールの最適化を図る予知保全は、最も適する領域の一つです。

予知保全では、故障や交換に至るまでの期間が長いため、点検や整備、運転の記録などについて、新たに集めたデータだけで予測するわけにはいかず、必然的にレガシーデータを利用することになります。一方で、この領域では設計から開発、運転、点検、整備までの各過程において、豊富なドメイン知識が蓄積されています。定性的なもの、確率的なものを含め、これらのドメイン知識を AI に組み込むことで、正確で、まれな状況に対しても頑健な AI システムを構築できます。

前回は、製品出荷数の履歴に基づく交換部品の需要予測を紹介しました。そこでは、製品個体ごとではなく製品の集団について、故障率を推定していました。この場合、製品個体に関する情報、すなわち運転・点検・整備の記録は必ずしも必要ではありません。しかし、このような記録があれば、製品個体の故障予測が可能になります。

製造業以外でも、輸送業やレンタル業では、トラックなどの輸送機器やレンタル対象機器といった多数の資産を集団（フリート）レベルで最適に運用する必要があります。集団の運用を強く制約するのが、個別の機器の故障や、その後の修理、また故障を未然に防ぐための点検・整備です。

このため、運転・点検・故障記録に基づき、個別機器の故障確率や余寿命を予測できれば、輸送やレンタルなどサービスの需要や制約を同時に考慮しながら、機器の集団レベルで、点検や整備のタイミングを最適化できることになります。

他の領域でも、中長期的な予測のためにレガシーデータを利用せざるを得ないものの、製品やサービス、生産設備、顧客、競合企業といった業務の対象や業務の過程に関してドメイン知識が蓄積されていれば、AI にドメイン知識を組み込む方法が適します。

ドメイン知識を数理モデルに変換する過程で意思決定の改善が容易になる

図2 は、私たちが日々の行動を決める際や、組織において次のアクションを決断する際の意思決定を分解したものです。意識することは少ないですが、意思決定には四つの過程が含まれています。

過程 1
取り得る行動（アクション）の範囲や選択肢の設定。

過程 2
特定のアクションを取った後の状態に関する予測。これまでに挙げた例では、余寿命予測や需要予測がこれに当たります。

過程 3
アクションの価値を評価する基準。アクション後の状態から得られるベネフィットと、アクションのコストを金額など同じ単位に換算し、その差を指標とします。組織の営業利益や KPI（重要業績評価指標）は、評価基準を構成する要素です。

過程 4
価値を最大化する行動を探索する、最適化。過程 1 の範囲や選択肢の中から、仮にあるアクションを起こした後の状態を、過程 2 によって予測し、それに基づいて過程 3 のアクションの価値を評価することを繰り返し、価値を最大化する行動を探索します。

意思決定のために AI を開発する場合、意思決定の過程を分解し明示する必要があります。分解し明示することの副産物として、これまで行ってきた意思決定の過程が適切であったかどうかが検証され、その改善が容易になります。

具体的には、過程 1 の取り得るアクションの範囲や選択肢と、過程 3 のアクションの価値を評価する基準は、意思決定を自動化することが目的なら、必ず明確にしなければならないものです。

AI の開発においては、業務の中で日々の意思決定を行っている組織や担当者と協議し現状を明確にしていきます。その副産物として、過程 1 で前提にしているアクションの範囲や、過程 3 のアクションの評価基準を、組織の現状や目標に合わせて改良できます。

一方、AI の開発は、意思決定の一部である、過程 2 の予測のみを目的とすることも多くなります。汎用の構造を持つ機械学習モデルを用いた AI を開発する場合でも、入力として用いるデータを探索する過程で、日々の意思決定にどのようなデータを用いているかが明確になります。

さらに、AI に組み込むためにドメイン知識を数理モデル化する過程では、組織や担当者が、データの他に、何を前提条件や常識として仮定し、予測しているかが明らかになります。ただし、組織や担当者の前提条件や常識を数理モデルに組み込んでも、それらの全てが正確で、まれな状況にも頑健な予測に寄与するとは限りません。AI に組み込んで予測を実行し、精度を定量的に評価することで、それらの仮定の中で、どれが信頼できるもので、どれが思い込みだったのかが明らかになり、改善が可能になります。

2：意思決定の流れの分解

ドメイン知識の AI への組み込みは今後ますます一般的になる

AI にドメイン知識を組み込むと、モデル中に専用の構造や複雑な制約を含むことになるため、高速に学習できるアルゴリズムが存在しません。このため、現状ではセンサーデータなどのビッグデータへの適用は難しいのが現状です。さらに、ドメイン知識を深く理解した上で、これを数理モデルに変換するスキルも必要になります。

これらの課題は、計算資源の増大、学習アルゴリズムの改良や量子コンピューターの導入などにより克服されていくでしょう。また、ドメイン知識の数理モデルへの変換に関しても、それぞれの領域に特化したツールの開発などにより、効率的に行えるようになると見込まれます。

このような取り組みを背景に、AI システムに直接ドメイン知識を組み込む方法は、レガシーデータを利用する場合にとどまらず、ますます一般的な手法となっていくでしょう。

関連ページ

Focal Point：少量で不完全な「レガシーデータ」を活用した分析・予測と意思決定第1回

※掲載内容は2021年8月時点のものです。

松崎潤（まつざき・じゅん）

IoT 戦略本部シニアデータサイエンティスト

東京大学にて博士（農学）を取得後、北海道大学、農業生物資源研究所（現農業・食品産業技術総合研究機構）、理化学研究所にて研究員を務め、ドメイン知識のモデル化に基づくデータ分析を植物科学に導入した。その後、データ分析企業に転じてさまざまな業種のプロジェクトに従事。製造業をはじめとする顧客向けに、データとモデルを用いた分析、予測および意思決定に関する技術の提案と開発に携わる。