前書
イノベーションという言葉を近年よく耳にする。一般的に使われているイノベーションの定義はSchumpeterが1934年に発表した「経済発展の理論」に端を発す。その意味は「新既もしくは既存の知識、資源、設備、そしてほかの要因の新しい組み合わせ」である。
このイノベーションを加速させる動きとして、オープンイノベーションという方法が注目を集めている。オープンイノベーションはChesbroughが2003年に発表した「Open Innovation」の著作の中で語られているアイデアである。著書の中でオープンイノベーションは、従来行われてきた自社内部で技術や製品・サービスを開発を完結するという閉じた環境でのイノベーションに対して、自社内外の知見や技術を活用し製品やサービスを開発するという開かれた環境でのイノベーションというアイデアで語られている。
オープンイノベーションという新しいアイデアはAppleやP&Gといった大手企業の成功で注目を集めているが、一方で、富士フィルムのように自社で研究開発し培った技術を他の分野に展開することによって新商品や新事業開発に成功した企業も多く存在する。
本レポートでは既存技術活用による新事業開発を行うためのデータ分析方法について提案を行いたい。近年盛り上がりを見せているAI技術のひとつである自然言語処理*1のアプローチを用いて既存技術活用を模索していく方法にフォーカスし議論を行う。
本レポートはオープンイノベーションを否定するものではない。既存技術による新事業開発を考えることは、自社のアセットを整理し自社開発の可能性・限界を知ることだけでなく、自社開発の限界を突破するためのオープンイノベーション実施にもつながることとご理解頂きたい。
なお、本レポートでは弊社の技術的観点からの検証の一部分しか掲載できていないため、より詳しく内容を知りたい場合はご連絡ください。
既存技術の展開例
表1に「既知の理論や技術」を「別分野や新事業」に展開した例を記載した。代表的な理論と企業について以下1例ずつ紹介する。
熱力学方程式*2を金融商品の取引に展開したブラック=ショールズの方程式は、最も成功した理論展開例の一つと考えられる。方程式を考え出したマイロン・ショールズとロバート・マートンは、その功績により1997年にノーベル経済学賞を受賞した(方程式の名前に含まれているフィッシャー・ブラックは1995年に亡くなったためにノーベル賞を受賞していない)。
富士フィルムは保有していた写真フィルムの製造技術を医療やヘルスケアといった別分野に展開した。電子カメラやスマートフォンの台頭で徐々に需要が減りつつあった写真フィルムの技術をうまく活用して事業転換を行った。既存技術により新事業開発を行って成功した会社の一つと考えられる。
機械学習を用いた探索方法
本章では既存技術による新事業開発を行うための機械学習手法を用いた分析について記載する。ただし、本レポートでは分析について数学的、エンジニアリング的に厳密な議論を行う予定はなく、簡単な概要とその使い方について紹介する程度に留める。機械学習の定義について、本レポートで詳細を述べることはしないが、端的に言えば「人間が持っているパターン認識能力を機械で代替する技術」である。機械学習はAIと呼ばれる技術群を構成する代表的な技術の1ジャンルであり、様々なアルゴリズムが含まれる。機械学習にご興味のある方はお問合せいただきたい。
機械学習を用いた分析を行うにあたって考えなければならないことが3つある。それは、①分析するテーマの決定、②何のデータを分析対象とし、どこから収集するか(分析データセットの作成)、③どの機械学習手法を選択するか、である。
まずは、 ①分析するテーマの決定について考える。本レポートのテーマである既存技術による新技術開発を考える場合は、自社が保有している技術について現在活用している以外の用途(ニーズ)での展開を分析で明らかにすることになる。そのため自社保有の技術やその周辺技術・類似技術を分析テーマに設定し、次のデータセット作成を行えばよい。
次に、 ②何のデータを分析対象とし、どこから収集するか(分析データセットの作成) について考える。今回の分析で必要となる項目は、技術についての詳細情報と、技術の利用目的・用途についての情報2つが挙げられる。この技術と用途の2項目が記載されているデータとしては、特許文書が容易に想像できる。他には、特定の分野について取り上げたニュースサイト記事が挙げられる。特許文書については、インターネット上にて無料で入手出来る他、Panasonic社が提供している「PatentSQUARE」やClarivate Analytics社が提供している「Derwent Innovation」といった商用の特許データベースから入手することも出来る。ニュースサイトの記事も無料で提供されているものから有償のものまで存在するが、情報量や質が統一的に分析可能であればどのようなサービスから記事を入手するかは問題にならない。
最後に、③どの機械学習手法を選択するかを考える。分析対象となるデータはテキスト形式のデータとなることから、自然言語処理によるアプローチを用いる。自然言語処理によるアプローチのメリットは、手法によっては人間では認識できない単語同士の関係性を考慮出来るという点、人間では困難な大量の情報を高速に処理すること出来るという点、大量の情報を人間が認識できる情報量に集約することが出来るという点が挙げられる。
自然言語処理のアプローチを選択する場合、複数のアルゴリズムから分析目的に適したアルゴリズムを選択する必要がある。本レポートでは文章のグルーピングで一般的に利用されるトピックモデルの分析を想定した内容を記載する。
トピックモデルとは文章が複数のカテゴリ(トピック)に属すると仮定した分析手法である。トピックモデルはデータセットに使用されている単語の種類や頻度、単語同士の関係性に基づいて分類軸(分類ルール)を作成し、文章がトピックに属しているか否かを判断する基準(所属確率)を自動で作成する。トピックモデルについても複数のアルゴリズムが考えられるが、数学的、エンジニアリング的に厳密な議論を行う予定はないためここでは詳細は控えたい。ここでは、Latent Dirichlet Allocationという一般的に使用されているトピックモデル手法による分析イメージして記載する。
図1はトピックモデルの処理イメージを示す。トピックモデルは入力した文章のトピックへの所属確率を出力する。そのため、文章がどのトピックに所属するかは、閾値を設けて所属確率が一定以上超えたトピックに所属(分類)するというルールや、確率が高い順から任意の数に所属する等のルールを設定して決める必要がある。しかし、文章が複数のトピック(例:掃除機は掃除家電のトピックと空気に関する技術のトピックに所属)に分類されることは不自然なことではなく、技術の可能性を探る上では必要となる。
分析に用いる文章の構成によってトピックモデルから出力される結果の解釈方法が異なる。
文章内で技術と用途が明確に分かれていない場合
主にネットニュースの記事などが該当する。この場合、技術の単語と用途の単語が混ざっており、どの技術がどの用途に利用されているかは分析から明らかにすることは出来ない。技術についてのニュースと用途についてのニュースが1つのトピックに分類される。図2はニュース記事をトピックモデルで分析し、トピックの1つとして空気に関するトピックが作成された時のイメージを示している。このトピックの中には、掃除機、ドライヤ、ホバークラフトといった空気を扱う道具(用途)についての記事が存在する一方で、空気を扱うための技術であるプロペラについての記事が存在している。
そのためトピックモデルの出力結果について解釈を行うには、「①技術の記事なのか用途についての記事なのかを分別する」作業と、「②自社のニュース記事と他のニュース記事を比較し自社の技術と関連する技術が別の用途で使われている事例がないか探索する」作業、の2つを分析の後処理として人力で行う必要がある。
自社技術の関連技術や類似技術が意図していない用途に使われている事例が発見された場合は、その事例を参考に既存技術を横展開する可能性と新事業開発を考えていくことになる。
文章内で技術とその用途が明確に分かれている場合
主に特許文書が該当する。特許文書は「発明が解決しようとする課題」(用途パート)についての記載と「技術と用途の記載があるための手段」(技術パート)についての記載がある。各パートでそれぞれトピックモデルを作成することで、各特許文書がどののような技術を持ちどのような用途に使用されているかを分析から明らかにすることが出来る。
例として、家電に関するデータセットの分析を考えてみる。図3は各文章の技術パートと用途パートでそれぞれトピックモデルを作成し、分類を実施した結果を示している。分析例では掃除機、ドライヤ、エアコン、扇風機、乾燥機等は流体制御の技術トピックに属する結果となっている。自社が流体制御の技術を保有しており掃除の用途でのみ使用している場合は、分析結果から室内管理や美容、洗濯の用途の商品開発に活用できる可能性が考えられる。
発展的な使い方
前章ではトピックモデルについての概要と、トピックモデルを用いた既存技術の応用可能性を探索する方法について記載した。
本章では、より明確なユーザーを想定してトピックモデルの分析結果の活用を考えたい。その準備として、トピックモデルから出力された結果を集計し、より理解しやすい情報の形に加工する。
図4はトピックモデルから出力された結果を可視化するまでの流れを示している。トピックごとに紐づく文献数を会社ごとに集計し、その結果を2次元にプロットすることでそのトピックでの自社のポジショニングを把握することが出来る。
1.技術提供
図5のオレンジ枠に位置する企業が該当する。分析結果は技術営業担当者が利用する想定である。オレンジ枠に位置する企業は技術はあるが会社規模の小さい会社で、自社の技術を自分よりも大きい企業に売り込むことを考えているとする。この場合営業先企業としては、図5の緑枠に位置する「技術はないが会社規模が大きく、オープンイノベーションによって新たな市場の開拓や、新事業開発を行うことを計画している企業」が対象先として考えられる。このようにトピックモデルを用いた解析結果を集計し可視化することで、会社の規模と技術力が相対的に理解でき、数ある営業候補企業から有力だと思える企業を絞り込むことが出来る。
2.技術調達
図5の紫枠に位置する企業が該当する。分析結果は自社保有技術の関連技術を調達したい事業開発者や経営者が利用する想定である。周りにいる競合企業よりも市場で先行するために技術調達を考える場合、技術はあるが会社規模は大きくないオレンジ枠内の企業に提携を申し込むか会社ごと買収するという選択肢と、会社規模は大きいが現状は対象事業や技術開発に注力していない緑枠の企業へ提携申し込みや開発部署の買収という選択肢が想定される。このようにトピックモデルを用いた解析結果を利用することで、自社と他社の置かれている状況や技術開発状況が把握でき、効率よく技術調達先を選出することが出来る。
考察
前章ではトピックモデルの概要とその活用方法について議論を展開した。しかし、トピックモデルで文章を分析するにあたって気を付けなれればならない点が3つある。この気を付けなければならない点は、現時点でのAI技術では解決できず人間が考える必要がある点でもある。
1つ目は、文章を分類するトピック数について。このトピック数は数学的に最適な数を機械的に求めることが出来る。しかし、機械で求めたトピック数は人間の感覚と異なっている場合や、ビジネスでの活用が難しい場合(例:トピック数が多すぎる)がある。そのため、トピック数は機械的に求めるだけでなく、人間の感覚に合う数字でも計算するといった試行錯誤が求められる場合がある。
2つ目は、出力されたトピックの解釈は人間が行う必要がある点である。トピックの解釈は、トピックに属する文書に共通する背景の理解が必要となる(図6参照)。そのため、トピックモデルが出力するトピックを代表する単語やトピックに属する文章を眺めて、トピックの特徴を把握し解釈する作業が発生する。
3つ目は、トピックモデルに入力するデータセット作成である。どのようなテーマの文章を収集するか、どの範囲の文章まで関連しているかの判断は人間が行う必要がある。関係のない文章をデータセットに含めると、その文章は分析上ノイズとなってしまい、分析結果の解釈性を下げてしまう。しかし、データセットに含める文章の範囲を狭め過ぎると、結果は解釈できるが意外性が無く、新事業開発の参考にならない結果となる可能性がある。そのため、解釈性と意外性のバランスを求めると、どのような文章をデータセットに含めるかの試行錯誤が必要となる。
前述した2つ目と3つ目の気を付けなければならない点は、データの解釈や意味づけは人間が行うという点では同じ問題である。視点を変えることによってデータの意味が変わることについて例を使って補足したい。
図7はクマに関連する単語とその単語を集団として区分するための線を示している。以下区分を記載する。
1.実線:ヒグマとそれ以外の動物
2.破線:クマ科とクマ科以外の動物
3.点線:イヌ型亜目(全動物)
上記から、区分の仕方によって集団の持つ意味合いが異なるということがわかる。データセットに含める文章や、トピックの解釈に使用する文章についても同様のことが言える。何がノイズか、何が関係しているかを区別する作業は、トピックモデルをはじめAI技術を使う上で重要な作業である。
少し前までだとAI技術を使うには、研究者や一部のプログラムに精通したエンジニアが1から自分でアルゴリズムを実装するという作業が求められた。現在では既にアルゴリズムが実装されたプログラムが無料で配布されていたり、プログラミングをすることなしにグラフィカルな操作で分析を可能とする有償のソフトウェアが広く普及しており、気軽に高度な分析が出来る。
そうした現状の中で求められる能力は、問題の発見とその構造の把握である。前書きに記載した通り、イノベーションは「新既もしくは既存の知識、資源、設備、そしてほかの要因の新しい組み合わせ」である。今後はいかに適切なデータを集め、情報を分析し、活用するかということと、既存の枠にとらわれない柔軟な思考が重要になる。
任意のサービスや商品は複数の技術で実現されている(図8)。そのため、新しいサービスや商品を開発するには、①実現するためには何の技術が必要となるか、②自社が保有している技術は何か、③自社が保有していない技術は何かを知る必要がある。本レポートに記載した分析は前述の課題に対して十分に有効と言える。さらに、オープンイノベーションを検討する上でも有効と言える。
後書
本ショートレポートでは、既存技術による新事業開発手法について、近年発展が著しいAI技術を使った方法について記載した。本レポートではAI技術の中でも自然言語処理アプローチに属するトピックモデルを用いた分析方法と結果解釈方法、気を付ける点について重点的に議論している。
もちろん、Covalentでは、技術的検証や事業開発に特化したサービスを展開しているため、より詳細の検証結果を整理している。
本レポートでは、あくまでさわりの部分に過ぎないが、世の中が変わっていく過程の中で、技術が本当に後押ししている様子を感じて頂けたであろう。
Covalentでは、AIや自然言語処理のような汎用的な技術トピックに限らず、デジタルツイン、ブロックチェーン、オートメーションなど、幅広い先端技術分野で技術的観点から将来戦略を策定するノウハウ及びツールを提供しております。そして、今回ご紹介したトピックモデルを用いた文章分析は、本レポートで取り上げた以外の業界においても、強弱は違えど進むことは確実。
現代ビジネスで目の当たりにする変革には、自然言語処理同様、技術の後押しが必須となりつつある。そのため、今回のような技術的観点からの分析は、今後の事業戦略を策定する上で、必須となるであろう。
本レポートでは弊社の技術的観点からの検証の一部分しか掲載できていないため、より詳しく内容を知りたい場合はご連絡ください。
また、当該レポートに関わる技術および事業課題でお困りの際はお気軽にご連絡ください。
Comments