本ブログは、UiPath米国本社が発表したブログを翻訳したものです。 ジェレミー・テデリー(Jeremy Tederry)は、UiPath米国本社の機械学習プロダクトマネージャーです。
私はデータを扱うのが大好きです。しかし、それ故にフラストレーションが溜まってしまうのも事実です。
5年以上にわたってデータサイエンティストとして働いてきた私は、データに対し抱いている熱望と、データを運用可能にする際に直面する限界との間でバランスを取ることに苦痛を感じてきました。たとえば、以前勤めていた会社では、機械学習(ML)モデルを運用に移すためのリソースがなかったので、気に入った会社ではありましたが退職しました。データを使用してタスクを解決するために懸命に働きましたが、結局は製品に反映する機会が得られませんでした。組織や運用上の問題で仕事が行き詰まった場合は、失望の度合いも大きく、そもそも自分がデータを扱うことが好きだった理由すらも見失ってしまいがちです。
このブログでは、一人のデータサイエンティストのジャーニーについて、以下の話題に沿ってお話したいと思います。
データの世界へ興味を惹かれる動機
期待が現実に直面した時の限界
ロボティック・プロセス・オートメーション(RPA)などのテクノロジーに、データサイエンスをより適切に統合することでデータの運用方法を変える可能性
私がAIファブリック(人工知能とRPAを統合し、データを最大限に活用する新たな機会を推進するソリューション)に熱心な理由
データに愛があるがゆえに、私は創造的に問題を解決することが大好きです。そして、データは創造的問題解決に大きな力を貸してくれます。
データを使用して困難なタスクに取り組み、人々の生活に影響を与える課題を解決することは、私にとって当然のキャリアパスだと感じました。私が仕事を共にしたデータサイエンティストの多くは、データによる問題解決の方法を学ぶためにこの分野に飛び込んでいました。私たちは、手元のデータを理解し、テストするために、機械学習(ML)アルゴリズムを調査し、開発し、活用します。そして、構築したモデルを用いて、自らの推進力と洞察力を通じて新たなソリューションを実現する方法を見つけ出すことに情熱を傾けています。
データサイエンティストになることを決めたときには、この職業には特有の課題や悩みがあることを理解していました。取り扱うデータの型に関係なく、以下の作業は欠かすことができません。
データの処理とクリーニングに時間を費やす
モデルがトレーニングされるまでしばらく待つ
さまざまなハイパーパラメーターを試してみる
データを扱うほどに、組織という制約の中でデータサイエンスが複雑化していくという認識が深まりました。データサイエンティストであることに付きまとう現実は、私がこの分野に飛び込んだ動機に暗い影を落とし始めたのです。
多くの企業は、データ駆動型開発アプローチを採用しており、機械学習(ML)を調査する初期段階にあります。今もってしてもデータサイエンティストは珍しい存在で、その役割は誤解されています。企業内でデータの運用を開始し、データを使用して問題を解決し始めると、データサイエンティストにとってさまざまな課題が持ち上がる可能性があります。
組織が機械学習(ML)を使って出来ること、出来ないことについて期待値を設定することは、十分に時間をかけて取り組むべき領域の1つです。データサイエンティストの役割の性質、注力したい場所、そしてプロジェクトの成功に必要なことを関係者に教え、理解を深めてもらうことが重要です。
もう1つの課題は、データサイエンスがしばしば縦割り組織の中で運用されるという事実です。これにより、組織に価値をもたらすはずのデータサイエンスプロジェクトの能力が制限される可能性があります。
機械学習(ML)モデルだけでは何も達成できませんし、それ自身が何かをすることもありません。成功するには、他のチームと連携して、より大きなプロジェクトの一部に組み込まれる必要があります。
また、機械学習(ML)モデルによってもたらされる投資対効果(ROI)を示すのは、通常は非常に難しいことです。データサイエンティストは、組織内でのMLの役割を訴える困難な戦いにしばしば直面します。その場合は、役割を果たそうとしている場所と、効果を及ぼすために必要なことを繰り返し主張するべきです。
データ自体への取り組みは、一連の独自の課題をもたらします。データを理解してモデルを構築するよりも、データセットの収集、統合、クリーニングに多くの時間を割くことがよくあります。企業内に、モデルの継続的インテグレーションと継続的配信(CI/CD)のパイプラインが既に構築されていない限り、私たちの時間の多くは、ローカルマシンからステージングへ、そして運用へとモデルを移行するスケーラブルパイプラインの作成に費やされます。これはスコープオブワークから外れるだけでなく、本来実施したいモデルの構築とテストに向ける時間を奪われることになります。
継続的なモデルの監視も準備ができていないと課題が増えてしまいます。時間の経過に伴うデータドリフトを試しますか?運用環境のデータはトレーニングに使用したデータと同じですか?出力はまだ制御できていますか?そのモデルは、新しいデータを使用したときにトレーニングセットで構築されたベースモデルと同様に機能しますか?MLモデルを更新する必要があるのはいつですか?
私は、データへの愛着を取り戻すために、データサイエンスをより広範なプロセスと計画に統合することを優先する企業を探して移ることにしました。今では、データサイエンスを社内で優先しているだけでなく、MLモデルを活用して業績を向上するように積極的に取り組んでいる企業で働けることに喜びを感じています。
RPAを使用してプロセスを合理化する組織が増えるにつれて、データサイエンティストにとっては、新しい方法でデータを運用する機会が生まれます。
UiPathでは、データサイエンスとRPAを統合し、企業がインテリジェントオートメーションを使用して新たな成果をもたらすための支援をすることにコミットしています。データサイエンスとRPAを統合することにより、これまで話したような、自動化の世界でデータサイエンティストが日々直面している課題の大半を軽減したいと考えています。これらの取り組みを牽引しているのがAIファブリックです。
データサイエンスとRPAが連携することで相乗効果が生まれると確信しています。企業はデータサイエンティストを受け入れ、彼らにデータとMLを使用してRPA機能を強化するためにできることの概要を説明してもらい、データサイエンスをRPAセンターオブエクセレンス(CoE)の不可欠な要素にすることが重要です。
AIファブリックの開発を通して、私たちは組織がMLを自動化プロセスの中の1ステップにするよう全面的に支援しています。ユーザーがMLとRPA 開発を、より一層シームレスに統合できるようにしたいと考えています。AIファブリックとRPAを使用すると、データサイエンティストは前処理とデータ収集に特化したツールを使用して、データパイプラインの構築を簡素化できます。モデルを簡単にデプロイし、監視し、人間とMLモデルが連携して動作するように設計されたRPAワークフローを利用することができます。
データサイエンスとRPAを統合することにより、データサイエンティストが構築しデプロイしたモデルにおけるROIを算出できるよう支援し、データ探索と現実世界の問題を解決するモデルの改良に全力で臨みたいと思います。
私が個人的な経験から得た知識では、権限を与えられたデータサイエンティストがデータを使用して問題を解決することに注力し、既存のプロセスにデータサイエンスを統合すれば、組織が進化し成長する方法を変革することができるということです。
私にとって最も重要なことは、お客様がより良い成果を生むよう支えることです。私は、UiPathで使命を果たす中で、企業がどのようにしてデータサイエンスとRPAを統合し、複雑なプロセスを自動化できるのかを直接目にしてきました。企業がAIファブリックなどの製品を通じてRPAのデプロイにデータサイエンスを組み込むことによって、データサイエンティストが一般的なデータを運用可能にする課題から解放されるのを見ると、私は心から報われた気持ちになるのです。
AIファブリックの詳細についてはこちらをご覧ください。
また、UiPath x AIの連携ソリューションや取り組みについてより詳細を知りたい方は、UiPath x AI Lab Japanへ是非お越しください。
ジェレミー・テデリーは、効率的でインテリジェントなソフトウェアを専攻して、コンピュータサイエンスの理学修士号を取得しました。修士論文のテーマは機械学習でした。テデリーは、2つの異なる新興企業でデータサイエンティストとして5年間勤務しました。この間、モデルの運用可能性について2社とも同じ問題に直面しましたが、他の誰もそれを解決できなかったため、データ製品担当、そしてエバンジェリストの職務に変更することを余儀なくされました。その後、2018年末に機械学習プロダクトマネージャーとしてUiPathに入社しています。
Machine Learning Product Manager, UiPath
Landing Modal Subheadline