AutoML: 自動化された機械学習の説明
ソフトウェアが会計士、工場労働者、作家、さらにはセラピストの仕事を引き継ぐ可能性を示しているため、自動化は人工知能に関する継続的な会話の中で一般的なバズワードとなっています。 現在、AI は自動機械学習として知られるプロセスで自らを自動化し始めています。
自動機械学習 (略して autoML) では、基本的にアルゴリズムが機械学習モデルの構築プロセスを引き継ぎます。 これは、機械学習のより日常的で反復的なタスクを処理し、AI 開発プロセスの高速化とテクノロジーの利用しやすさの両方を約束します。
近年、複雑な機械学習の世界を簡素化する autoML の可能性に対する関心が高まっています。 DataRobot は、2013 年に DataRobot を世間の注目を集めた最初の企業の 1 つとして評価されることがよくあります。それ以来、Meta は autoML を AI の「バックボーン」と呼び、Salesforce はデータ分析のスタートアップ BeyondCore を買収して独自の Einstein AutoML Library を作成しました。 一方、Google、Microsoft、Amazon などの大手テクノロジー企業は、autoML 技術を利用した独自のローコード機械学習ツールを展開しています。
最先端の AI システムを構築するために必要な専門知識が、このような企業であっても不足していることを考えると、このような広範な業界での導入は重要です。
Salesforce の機械学習およびエンジニアリング担当副社長であるサラ・アーニ氏は、「私にとって、これらのより自動化されたアプローチ以外に進むべき道はありません」と Built In に語った。 「AI のチャンスは多すぎますが、ビジネスに導入し、技術に導入し、実稼働環境に導入し、監視し、反復し続けるための人材が不足しています。私にとって、autoML は次の解決策として登場します。スケーリング。"
自動機械学習の概念は 10 年近く前から存在していますが、依然として進行中です。 AIで作られたAIがその可能性を最大限に発揮すれば、テクノロジー企業の枠を超えて応用され、医療、金融、教育などの分野で状況を変える可能性がある。
「実際、機械学習を使用する人は誰でも、自動化された機械学習も使用することになるでしょう」とワイオミング大学コンピューターサイエンス学部の助教授兼研究員であるラース・コットホフ氏はBuilt Inに語った。 「最終的には、これは機械学習と AI が使用されるあらゆる場所に実際に導入されることになります。」
さらに詳しく見てみましょう 自動化は経済に広範囲にわたる影響を及ぼします。 期待できることは次のとおりです
一見すると、自動機械学習は少し冗長に思えるかもしれません。 結局のところ、機械学習はすでに、予測を行うためにデータ内のパターンを識別するプロセスを自動化することを目的としています。 このプロセスはアルゴリズムと統計モデルに依存するため、一貫性のある明示的なプログラミングは必要ありません。 機械学習モデルが構築されると、試行錯誤とフィードバックを通じてさらに最適化することができます。つまり、人間と同じように、機械は経験とデータへの露出の増加によって学習することができます。
実際には、機械学習モデルの作成に必要な作業の多くはかなり手間がかかり、データ サイエンティストはさまざまな意思決定を行う必要があります。 彼らは、ニューラル ネットワークに含める層の数、各ノードで入力に与える重み、使用するアルゴリズムなどを決定する必要があります。 これは大きな仕事であり、適切に実行するには多くの専門的なスキルと直感が必要です。
モデルが複雑になればなるほど、作業も複雑になります。 そして一部の専門家は、AIシステムがより複雑になるにつれて、その作業の一部を自動化することが必要になるだろうと述べている。 したがって、autoML は、データ サイエンティストや研究者が機械学習モデルを設計する際に現在下さなければならない決定を引き継ぐことにより、人間の推測作業を排除することを目指しています。
最終的な目標は、過度の技術的スキルを必要とせずに、データについて質問し、そのデータに autoML ツールを適用して、探している結果を受け取ることができるようになることです。 また、autoML を通じて機械学習を民主化しようとする企業が増えていますが、このテクノロジーは主に AI とデータ サイエンスの専門知識を持つ人々に独占されています。 これはツールであり、特定のプラットフォームではありません。 Domino Data Lab のデータ サイエンス戦略および伝道部門の責任者である Kjell Carlsson 氏によると、これはかなり狭い用途で使用されるツールです。
カールソン氏は、データ サイエンス戦略を拡張し、AI をより効果的に活用する方法について顧客にアドバイスしており、autoML はデータ サイエンティストにとって一種の「ブースター」または「アクセラレーター」であると説明しています。
「これにより、ユーザーは使用したい機能をより迅速に見つけることができます。また、使用したいアルゴリズムをより迅速に絞り込むことができます。また、データの問題を早期に特定するのに役立ちます。 」と彼はビルトインに語った。 「これは、概念実証の段階で、『これは実行可能か?』を判断するのに非常に役立ちます。」
内部関係者の意見を入手する Rage Against the Machine Learning: 私の戦争とレコメンデーション エンジン
カールソン氏によると、自動機械学習は「主に」教師あり機械学習であり、ラベル付きデータのパターンを識別するモデルを作成することでユーザーが予測しようとしている結果に関する情報をユーザーに提供することを意味する。
機械学習には多くの種類がありますが、教師あり学習では、タグ付けされた入出力データが人間によってトレーニングされたシステムに常に供給され、新しいデータセットがシステムに供給されるたびに予測の精度が向上します。
たとえば、企業が誰かが自社の製品を購入するかどうかを予測できるようにしたい場合、まず、誰が購入したのか、誰が購入しなかったのかごとに整理された、過去の顧客のデータ セットを用意する必要があります。 次に、そのデータセットを使用して、まったく新しい顧客が何をするかを予測できる必要があります。 あるいは、コンピュータにビデオ内の猫を識別できるようにしたい場合は、まず猫が登場する他のビデオを見せてコンピュータを訓練し、これまでに見たことのないビデオ内の猫を正確に識別できるようにする必要があります。
自動機械学習は、モデルで使用する必要がある特定のデータセット内のさまざまな変数の選択と、そのモデルの作成に必要なアルゴリズムの選択を自動化します。
ある人が購入するかどうかを予測する場合、autoML を使用して、企業がその人に関して保有している何千ものデータ ポイントを解析し、正確な予測を行うためにどの情報を使用すべきかを決定します。 また、選択自体も自動化され、どのモデルが最も合理的であるかが決定されます。 これは、ロジスティック回帰モデル、ランダム フォレスト モデル、ある種のアンサンブル モデルなど、ビジネス ユース ケースに最も適したものであれば何でも可能です。
autoML アルゴリズムは、基礎となる機械学習モデルより上の抽象化レベルで動作し、ガイドとしてのモデルの出力のみに依存するため、事前トレーニングされたモデルに適用することもでき、既存の調査を繰り返したり、無駄な計算を行うことなく、新たな洞察を得ることができます。力。
autoML にかかる正確な時間は、モデルに供給されるデータの量と、適用されるさまざまなタイプのモデルの数に完全に依存します。 標準的な構造化データセット (たとえば CRM の顧客データなど) の場合、autoML モデルの実行は「非常に速く」、わずか数秒で実行できるとカールソン氏は述べています。 大規模なデータセットでは、ユーザーが使用するさまざまなアルゴリズムのさまざまなモデルの置換を多数試したい場合、数日から数週間かかる場合もあります。
組み込み機械学習を使用した機械学習の詳細については、組み込み学習ラボをご覧ください。
では、どのような autoML ツールが利用できるのでしょうか? これらは、機械学習プロセスを自動化するためにビジネス プロフェッショナルの間で使用されている一般的な選択肢のほんの一部です。
Aible の AI ソリューション スイートは、複数の業界にわたるデータ サイエンスとデータ エンジニアリングのタスクを自動化するために機能します。 同社の製品は、主要なデータの関係を検出し、モデル入力に対するデータの準備状況を評価し、さらにデータ分析と推奨事項を強化できます。 Aible はデータ セキュリティのためにクラウドに直接接続し、Salesforce や Tableau などの他のツールと統合できます。
AutoKeras は、Python 機械学習 API である Keras に基づくオープンソース ライブラリおよび autoML ツールです。 このツールは、画像、テキスト、構造化データの深層学習モデルにおける分類および回帰タスクを自動化できます。 AutoKeras は主にニューラル アーキテクチャ検索を適用して、コード作成、機械学習アルゴリズムの選択、パイプライン設計を最適化します。
Auto-PyTorch は、Python の PyTorch 機械学習ライブラリに基づいており、完全に自動化された深層学習 (autoDL) タスクを可能にします。 ディープ ニューラル ネットワーク アーキテクチャのアルゴリズム選択とハイパーパラメーター調整を自動化し、表形式および時系列データセットをサポートできます。 Auto-PyTorch は、自動化のためにベイズ最適化、メタ学習、アンサンブル構築を適用します。
Auto-Sklearn は、Python の scikit-learn 機械学習ライブラリに基づいて構築されたオープンソースの autoML ツールです。 このツールは教師あり機械学習パイプラインの作成を自動化し、Python の scikit-learn 分類器のドロップイン代替として使用できます。 Auto-PyTorch と同様に、Auto-Sklearn はメタ学習、アンサンブル学習、ベイジアン最適化を利用して、新しいデータセットが与えられると学習アルゴリズムを自動的に検索します。
Google Cloud AutoML は、Google が開発した autoML ツールのスイートで、カスタム機械学習モデルの作成に使用できます。 スイートを主導するのは、画像、ビデオ、テキスト、表形式データの分類、回帰、予測などの目的に合わせてモデルを構築できるプラットフォームである Vertex AI です。 Vertex AI は、事前トレーニングされた API を提供し、PyTorch、TensorFlow、scikit-learn を含むすべてのオープンソース機械学習フレームワークをサポートします。
AutoML は、高度な人工知能アプリケーションや、人間がすべてを行うことができない従来のビジネスでよく見られる単純な問題にも使用できます。
Salesforce には、顧客離れから電子メール マーケティングのクリックスルー、機器の故障に至るまで、さまざまな予測を求めている何千もの顧客がいます。 そして、これらすべてには、カスタマイズされた機械学習モデルの構築に使用できる、特定のビジネスに固有の豊富なデータが大量に必要です。 Salesforce は、自動化された機械学習を通じて、これらのモデルを簡単に作成し、誰でもアクセスできるようにすることに重点を置いています。
「そのデータを活用するには、[Salesforce は] データを確認することができません。そのため、そのデータを変換するには、自動化された機械学習アプローチを使用して、その顧客のデータセットをトレーニングする必要があります。」と Aerni 氏は説明しました。 これは、データの準備からトレーニング、最適なモデルとアルゴリズムの選択に至るまで、機械学習プロセスのさまざまな段階にまで及びます。これらすべてが完全に自動化された方法で行われます。
買収後に Salesforce の Einstein となった BeyondCore の創設者、アリジット・セングプタ氏は、価値を生み出す AI モデルの構築を誰でも支援することを目的として、Aible という会社を設立しました。 彼の目標は、「AI を使用して誰もがデータから価値を抽出できるようにするにはどうすればよいでしょうか?」です。
Aible はソフトウェア スイートを提供することでこれを実現します。 1 つのツールは拡張データ エンジニアリングに焦点を当てており、もう 1 つのツールは拡張分析であり、企業が理解できる言語でデータに関する重要な洞察を提供します。 そして 3 番目のサービスは拡張データ サイエンスと機械学習で、予測モデルの構築を処理しながら、正しい予測の利点と不正確な予測のコストもすべて考慮します。
たとえば、「誰かが買うだろうと正しく伝えると、どのようなメリットがあるのでしょうか? 買わないのに、誰かが買うだろうと誤って伝えると、どのような代償が発生しますか? そして、これらの見込み客を追求するにはどのくらいのキャパシティが必要ですか?」 彼が説明した。 「そして、私たちのシステムは、お客様の独自のビジネスを考慮して、最も経済的な価値を生み出す AI または AI セットを自動的に生成します。」
Sangupta 氏は、主に従来の autoML が「まったく役に立たない」と考えているため、従来自動機械学習と考えられてきたものから同社を遠ざけたいと述べた。
「従来の autoML の問題は、ビジネスの現実から出発しないことです」と Sangupta 氏は言います。 「さまざまなパラメーターと多数のモデルを試して、戻ってきて、『これが最良のモデルです』と教えてくれるだけです。 そしてそれは本当にまったく役に立たないのです。」
例を示します。あなたの会社の販売による利益が 100 ドルで、潜在顧客を獲得するコストが 1 ドルであると想像してください。 100 ドル相当の製品を購入する 1 人につき 99 回の間違った予測を与える機械学習モデルに頼っても問題ないかもしれません。 ただし、販売能力で 20 件の通話しか許可されていないとします。 これにより、まったく新しい一連の制限が作成されます。
「autoML の問題は、autoML が非常に強力であるため、何をしようとしているのかをよく考えず、理解しようとしているビジネスに対するそのモデルの影響を説明できないことです。ビジネスユーザーが理解できる言語を使用する必要がある」とサングプタ氏は述べ、「自分自身を本当に傷つける可能性がある」と語った。
それはおそらく、自動化された機械学習の最大の欠点です。それは、ビジネス上の直感が欠如していることです。 AutoML は確かに、本番環境で使用できるモデルをより迅速に生成しますが、特定のモデルを使用する必要がある理由やビジネス上の正当性がユーザーに必ずしも伝わるわけではありません。ましてや、大量のデータ セットの中で解決すべき正当な問題を提供するわけではありません。
Domino Data Lab のカールソン氏は、「これはかなり長い間、問題を探すソリューションでした」と述べています。
浮上するもう 1 つの問題は、「優れた」 AI モデルがどのようなものであるかについての設定された基準がないことです。 それは正確さだけを基準にしているのでしょうか? 速度は貢献しますか? それとも学習能力でしょうか? いずれにせよ、カールソン氏は、これらの指標がビジネス上の問題の実際の内容と一致することはほとんどないと述べた。
「冗談は、テロ活動を99.99パーセントの精度で予測するモデルは私たち全員が作成できるということだ。私たちはテロが決して起こらないと予測しているだけだ」と彼は語った。 「テロはめったに起こらないので、テロが決して起こらないと予測するだけなら、この非常に正確なモデルを手に入れることができます。しかし、それは役に立たないモデルです。」 一方、ブラックジャックのゲームでプレイヤーがもう一枚カードを取るべきかどうかを 50.1 パーセントの精度で予測するモデルを作成できれば、「それは私を驚異的に裕福にさせるだろう」と彼は付け加えた。
つまり、すべて相対的なものであり、autoML モデルはそれ自体の予測が役に立たないかどうかを判断できません。 そして、自動化された機械学習がどれほど複雑であっても、信頼に関して私たちのほとんどが切望している意思決定プロセスの「理由」は提供されません。
しかし、ワイオミング大学のコットホフ氏は、特にautoMLの場合、「この機械全体が複雑で、内部で自動的に行われる多くの決定のため」、それを実際に達成するのは「非常に困難」であると述べた。
AutoML は倫理も自動化しません。 公平性の概念は組み込まれていません。 公平性を保つために、さまざまな制約を課すこともできます(拒否率が等しい、受け入れ率が等しい、成功の可能性が等しいなど)。その後、AI がその公平性の定義を確実に満たすようにすることができますが、それは autoML の範囲外であるとサングプタ氏は言います。人間がそれらの制約を設定する必要があるため、それが可能になります。
「autoML の危険性は、autoML システムが理解できるのはデータだけであるため、間違ったビジネス上の行動や間違った倫理的な行動をしてしまうことです」と彼は言いました。
AI 倫理の詳細 AI 倫理: 倫理的な AI ガイド
そうは言っても、自動機械学習に非常に適した問題がいくつかあります。 これらの問題には、数十万のモデルを作成し、それらの数十万のモデルを定期的に更新する必要があります。
カールソン氏によると、言及されているこれらのモデルは予測モデルとして分類されることが多いという。 たとえば、医療提供者が病院のネットワーク全体でさまざまなユニットの需要を予測したい場合、病院ごとに異なるモデルを作成するだけでなく、それらの病院内の異なるユニット、および異なる時間枠 (1 つの時間枠) も作成する必要があります。 1 週間後、3 か月後など)。 最終的には何千ものモデルが作成され、その作成と再トレーニングには人間のデータ サイエンティストにとって膨大な量の作業が必要になります。
「AutoML モデルは、このような種類のインスタンスでは非常にうまく機能します」と Carlsson 氏は言います。
また、autoML は一般的に、特に大きくて複雑な問題に直面した場合に、人間のような忘れっぽさや近視眼的な傾向がありません。
「これらの自動化されたアプローチを使用すると、人間が達成できるよりも良い結果が得られる傾向があります。それは単に機械が間違いを犯さないからです。機械は私が収集したすべての情報を原則的な方法で受け取り、それに基づいて意思決定を下します。物事を忘れることです」とコットホフ氏は語った。
しかし、もちろん、自動機械学習の最大の利点は、データ サイエンティストが ML モデルを手動で構築するという困難で単調な作業を行う必要がなくなったことである、と同氏は付け加えました。 「これは最終的に、人間が退屈な部分を行う必要がなくなるため、より効率的に、より多くの作業を短時間で実行できるようにするものです。」
自動化のあらゆる側面と同様に、autoML も、人間の従業員、特にデータ サイエンティストとして働く従業員に取って代わるのではないかという現在進行中の憶測の影響を受けないわけではありません。 実際、「データ サイエンスの民主化」は、DataRobot がこのテクノロジーを初めて世間の注目を集めたときの流行語であり、Salesforce から Google に至るまで、あらゆる人によって繰り返されてきました。 しかし、カールソン氏によると、データサイエンティストの支援をまったく受けずに企業がこのテクノロジーを利用できるというアイデアは、まだうまくいっていないという。
「人々はデータサイエンティストが何をしているのかを知らないため、『適切なツールがあれば誰でもこれができるようになり、データサイエンティストはもう必要なくなる』という見方があります。 私はそれが真実であるのを実際に見たことがありません」と彼は言い、どちらかと言えば、人々が反対の方向に動くのを見てきたと付け加えた。 企業はさらに多くのデータサイエンティストを雇用しています。 そして、データ サイエンティストになれるよう、より多くのデータ アナリストをトレーニングします。
実際のところ、カールソン氏は、autoML はデータ サイエンティストに取って代わるものではないだけでなく、実際にこのテクノロジーの恩恵を受けるのはデータ サイエンティストだけであると述べています。 それでも、それは彼らにとって「漸進的に利益をもたらす」だけです。主に、彼らは非常に多くの追加の指導を必要とするからです。
「これらの自動化されたアプローチを使用すると、人間が達成できるよりも良い結果が得られる傾向があります。これは単に機械が間違いを犯さないためです。」
「データ サイエンティストの世界では、モデルの実際の作成はそのほんの一部にすぎません」とカールソン氏は言います。 データチームは、最初は探索的な分析を行うために autoML を少し使用するかもしれませんが、「実際のモデル」を作成することになると、自分たちでゼロから作成することになると同氏は付け加えました。 「実際には、データを理解し、そのデータの分布を調べて分析する方法を知っており、そのデータの結果を分析する方法 (データの検証) を知っている人が必要であることがわかりました。実際に意味のあるモデルです。」
また、Aible の創設者である Sangupta 氏は、autoML がデータ サイエンティストに完全に取って代わることを懸念している人々は、まったく的外れだと述べています。 彼は、価値を生み出す AI モデルを構築できる能力をすべての人に与えるということは、データ サイエンティストをまったく排除しなければならないことを意味するとは考えていません。 その代わりに、彼は Aible の取り組みを、1990 年代にインターネットを広く普及させるために Netscape ブラウザが行ったことに例えています。これにより、この異質で信じられないほど複雑な新しい世界が、一般の人々にとってよりアクセスしやすくなりました。
「すべてのテクノロジーはこのフェーズを通過します。最初は専門家がいて、その専門家だけがそれを実行できます。しかし、本当の可能性は誰もがテクノロジーを活用できるようになったときに現れます。それが AI で起こることです。それは起こらなければなりません。」サングプタ氏は語った。 そうでないと、「AIを持つ者と持たざる者」の力の格差は拡大し続けるだろう。
実際、現在の人工知能ができることは、ほんの数年前のものとは大きく異なり、ビジネスの運営方法に大きな影響を与えています。 通常のチャットボットはチューリング テストを破り、AI はますます巧妙化するサイバー犯罪に対応し、営業チームはかつてないほどの精度と情報を活用して業務を遂行しています。
「私たちの世界は非常に急速に変化しているため、AIなしでは競争できません」とサングプタ氏は語った。 「インターネット革命が起こったとき、これに乗れなかった多くの企業は消滅しました。実際、AI 革命はこれまでのインターネット革命よりもはるかに破壊的なものになると私は考えています。」
問題を探している解決策のように動作する