本ブログは、UiPath米国本社が発表したブログを翻訳したものです。 Tarun Singh(タラン・シン)は、UiPath米国本社のドキュメント理解AI部門 機械学習製品マネージャーです。
情報は力です。ほとんどの企業において、大量の貴重なビジネス情報が膨大なドキュメントの中で眠っています。ドキュメントの種類、サイズ、フォーマットが多種多様であるため、企業にとって、ドキュメントを管理し、効率的に処理して知見を得ることが難しい課題になることがしばしばあります。
UiPathはこうした課題を理解しています。UiPathの最新のドキュメント理解フレームワークにより、お客様はドキュメントの種類、フォーマット、サイズに関わらず、データ抽出と処理を簡単に自動化できます。これにより、お客様は自社のニーズに最適なプロセスを用いて、柔軟にドキュメント処理にアプローチできます。
この記事では、次のことを取り上げます。
一般的なドキュメントのタイプと分類を確認する
ルールベースおよびモデルベースのデータ抽出方法について検討する
上記の標準的な方法のそれぞれを適用してドキュメント処理をした場合に、企業が直面する一般的な課題について確認する
両方のドキュメント処理方法を組み合わせ、マルチアプローチ型データ抽出方法とした場合に、企業が得られるメリットについて確認する。
では始めましょう。
ドキュメントは、構造とフォーマットに応じて、次の3タイプに分類できます。
納税申告用紙などの数多くのドキュメントは、フォーマットが決まっています。これらを構造化ドキュメントと呼びます。
契約書など、その他の文書は標準的な構造を持ちません(契約書など)。これらを非構造化ドキュメントと呼びます。
最後に、レイアウトやデザインが多様であるなど、質が異なる文書であるものの、同じような種類の情報が含まれている場合、半構造化ドキュメントと呼びます。
データ抽出方法には、ドキュメントの分類に基づき、一般的に2つのタイプがあります。1つは構造化ドキュメントに使用されるルールベースのデータ抽出、もう1つは半構造化ドキュメントと非構造化ドキュメントの処理に使用されるモデルベースのデータ抽出です。
ルールベースのデータ抽出は、ドキュメントからデータを抽出するための一連のルールに依存します。たとえば、ドキュメントテンプレートを作成して、特定のデータポジションに基づいてルールを適用する方法があります。または、テンプレートを作成せずに、ドキュメント内でデータセットがどれくらいの頻度で使用されるか(発生パターン)または文字列の中でデータ変数が通常どのように表示されるか(正規表現)に基づいて、ルールを適用することもできます。
前者は、テンプレート化可能なフォームを扱う際に便利です。後者は、このようなルールの作成が容易に可能な場合に使用されます。ルールベースの方法は、設定や理解がしやすく、ドキュメント処理において非常に効率的に作用しますが、構造化ドキュメント限定で、半構造化ドキュメントの場合はごくシンプルなケースでのみ使用されます。
このようにルールベースのデータ抽出法はいろいろなコンテキストで使えますが、適用上明らかな限界があります。テンプレートベースの抽出は決まった文書レイアウトに緊密に関連づけられているため、レイアウトが変更されるとルール違反となるため、ルールの再設定が必要となります。
同様に、正規表現ベースの方法は、実装やトラブルシューティングが難しく、状況がより複雑になりがちなので扱いが面倒です。しかし、ルールベースの抽出法には代替の方法があります。それはモデルベースの抽出法です。
モデルベースのデータ抽出法は、機械学習(ML)に基づいています。多様なドキュメントから学習できることから、これらの方法は強力です。当社は、自然言語処理(NLP)や統計学習といった高度な技術を採用してこれらの抽出法を使用しています。
UiPath 検証ステーションは、人間介入型(human-in-the-loop)機能を提供しており、モデルはデータの中の変化を即座に学習して、適応することができます。半構造化および非構造化ドキュメントからのデータ抽出には、一般的に人工知能(AI)活用型技術が用いられます。たとえば当社では、領収書や請求書の処理といったシナリオに対応するドキュメント理解フレームワークで使用するためのMLモデルを作成しました。※
※2020年5月15日時点では日本語は未対応。
参考: Using AI to Automate Invoices and Receipt Processing(英文ブログ:請求書や領収書の処理を自動化するためにAIを活用する)
モデルベースの抽出法の課題は、MLモデルを作成し、実行するために時間と専門知識が必要である点です。しかし多くのシナリオで、さまざまなドキュメント構造や内容を学習し、適応する能力があるという点で、モデルベースの抽出法の方が優れています。
あらゆるドキュメント処理のニーズに対応する特効薬はありません。ルールベースの抽出法とモデルベースの抽出法はいずれも有力な手段ですが、企業が管理する多様なドキュメントを適切に処理するには限界があります。
一部の構造化ドキュメントは、ルールまたはテンプレートでは抽出できないデータがあるため、ルールベースの抽出法以外の方法が必要になることがあります。同様に、モデルベースの抽出法だけで、すべての非構造化ドキュメントや半構造化ドキュメントに対応できるわけではありません。
1つのドキュメントから情報を抽出するためのさまざまな方法を、簡単に組み合わせていただけるように、UiPathは個々の方法の限界を克服するためのドキュメント理解フレームワークを開発しました。複雑なドキュメントを扱う際には、ぜひマルチアプローチのデータ抽出法を活用し、データ抽出プロセスで最高の精度を達成してください。
UiPathの柔軟なフレームワークにより、UiPath Studioのワークフロー内に複数のデータ抽出方法をドロップするだけで、ドキュメント処理方法を組み合わせることができます。
データ処理のための抽出子を簡単に構成し、抽出実行の優先順を設定し、さらに特定の抽出結果を有効として受け入れるためのしきい値を設定できます。こうして、可変文書構造であろうと複雑なデータ抽出ルールであろうと、もはや問題にはなりません。同時に、最新のAI技術とエンドツーエンドな自動化によって、より迅速で、より正確な文書処理が可能になります。
効率的で正確なドキュメント抽出/処理技術を持つことは非常に重要です。UiPathは、マルチアプローチのデータ抽出に重点を置き、UiPathのお客様のため、ドキュメント処理と分析をできる限り簡単なものにしたいと思っています。
UiPathのドキュメント処理にご興味がある方は、是非下記よりお問い合わせください。
AI & Product Management, UiPath
Landing Modal Subheadline