Modal Stage's
Mission, Vision and Value

Mission

モデル、データ、アルゴリズムを利用した科学的アプローチによって、 新規ビジネスの創造、業務効率化をサポートし、創造的で豊かな社会 を築いていくことに貢献すること。

Vision

様々な活動において、誰もがモデル、データ、アルゴリズムを利用するメリットを享受できるようにすること。

Value

大胆で、創造的で、オープンマインドな姿勢で成長と学習を追求し、前向きな変化をもたらす。
誠実でフェアな態度で物事に取り組む。
物事の本質、価値の源泉を追求する。
長期的な視点を持って行動する。

Few Words About
Model, Data and Algorithm

Model

モデルとは、現実世界の問題、現象を抽象化して数理的に記述したもの、さらにはそれをアルゴリズム化したものです。

モデルを利用することで、予測、推定、分類、異常検知、 現実世界の模倣等が出来るようになります。

複雑なモデルの構築は、機械学習等のアルゴリズムとデータを利用して行われることが多いです。 機械学習のアルゴリズムは様々なものがありますが、問題に応じて適切なものを選択、あるいは、開発を行わなければ、 有益なモデルを構築することは困難な場合も多いです。 そのため、各種機械学習のアルゴリズムに関する深い洞察や、モデルと学習アルゴリズムに関する高度な開発知見・経験が必要とされる局面も 多いです。

さらに、現実世界で生成されるデータのほとんどは確率的な側面を持ちます。 そのため、モデルを構築するにあたって、確率統計的な視点からデータの確率統計的な性質を把握することも重要になります。 把握したデータ間の確率統計的依存関係に関する知見をモデルに取り込む有用なモデル構築手法として、 ベイズ学習をはじめとした確率的機械学習の手法があります。

モデルは実際に使用する前に、データを使ってモデルの性能を評価し、そのモデルが実用にどの程度耐えうるかどうか判断する必要があります。 データが確率的な性質を持つので、モデルの性能を適切に評価するためにも確率統計的な視点が必要になります。

モデルの利用には何らかの目的があり、その目的に合わせてモデルを作る必要があります。モデルの性能評価もその目的に合致した評価が行われる必要があります。そのようにしなければ、モデルの利用によって目指していた本来の目的が果たせなくなってしまう場合が多々あります。 例えば、異常検知においては異常を検知するのが目的であり、これは通常の分類問題とは異なります。そのため、異常検知において、正常・異常の分類を目的とした通常の2値分類モデルの構築手法、性能評価手法をそのまま適用するとうまくいきません。 しかしながら、このようなモデルの目的に合致していないモデルの構築手法、性能評価手法を適用したことにより、使えないモデルが作成されている場合も多いと思われます。

Data

モデルを構築したり、学習させるためにはデータが必要となります。

またモデルの性能を評価するためにもデータが使われます。

データが受動的に手元にある場合は多くなく、多くの場合は、計画的・能動的にデータを収集しないといけないことになります。 その際に、適切な方法でデータを収集(あるいはサンプリング)しないとデータが本来持つ統計的な性質から偏ったデータを収集(あるいはサンプリング)してしまう可能性があります。データが本来持つ統計的な性質から偏ったデータによりモデルを構築、学習、性能評価すると、たとえ性能評価では良い結果を出していても、実際の性能は実用に耐えないものとなってしまう可能性があります。

異常検知の問題のようにデータの中に含まれる異常データが極めて少ない等、データが本質的に不均衡である場合があります。 このようなデータが本来不均衡である問題に対して、通常よく使われている機械学習の手法をそのまま適用してモデルを構築してもうまくいかない場合が多いです。通常よく使われている機械学習の手法は、データがある程度均衡であることを前提として設計されているからです。 また、不均衡データを取り扱う場合は、モデルの性能評価手法も重要になります。例えば、異常検知問題の場合、通常よく使われる正解率を性能評価指標としてしまうと、常に正常を出し続けるモデルの性能がかなり良いということになり、このようなモデルは問題解決のための本来の目的を達成しないためです。

データの中には、時系列データと呼ばれる種類のデータがあります。時系列データは、データに時刻の情報が含まれており、時刻の情報がデータの生成において重要な要因であると考えられるデータです。時系列データを取り扱うモデルにおいては、データ間の時間的な確率的依存関係をいかにうまく取り込んでモデル化を行うかが鍵になります。 確率的な依存関係をうまくモデルに取り入れるために有効な手法が、ベイズ学習をはじめとする確率的機械学習の手法であると考えられています。

Algorithm

アルゴリズムとは、一般的には、計算可能な有限列で記述された計算手順のことです。

モデルは、実用上はアルゴリズム化されてコンピュータ上に実装されます。 また、モデルを作成する機械学習における学習アルゴリズム自体もアルゴリズムです。 目的に合致したモデルを構築するために、既存の機械学習の手法で不十分な場合は、 新たなモデルの計算アルゴリズムとそのための学習アルゴリズムを開発することになります。

現実世界の問題では、複数のモデルを組合せて問題解決に当たらなければならない問題も多いです。 そのような場合も、複数のモデルをどのように組合わせて最終的な結果を得るかという計算手順、すなわち、アルゴリズムを 設計・開発する必要があります。

アルゴリズムを設計・開発する際に、アルゴリズムの計算量を考える必要があります。いくら性能が良いアルゴリズムであっても、 計算量の観点からは非現実的であるアルゴリズムである場合があるからです。 計算量の点で現実的であり、かつ、性能がある程度良いアルゴリズムを設計・開発する必要があります。

計算量理論の観点からは、計算量は問題の規模に関して要求される計算の量で測られます。 一般的には、問題の規模に関して多項式時間で計算できるアルゴリズムが望ましいとされています。 特に問題規模が大きくなると、多項式時間で計算できない アルゴリズムは実用的ではなくなってしまいます。