たった 2 つの Python 関数を使用して完全なコンピュータービジョンアプリケーションを数分で作成する方法-AI-php.cn

たった 2 つの Python 関数を使用して完全なコンピュータービジョンアプリケーションを数分で作成する方法

#翻訳者| Li Rui

校閲者| Chonglou

#Thisこの記事は、コンピュータビジョンアプリケーションの基本要件の簡単な紹介から始まります。次に、組み込みコンピュータービジョンのサーバーレス開発エクスペリエンスを提供するオープンソースフレームワークである Pipeless について詳しく紹介します。最後に、いくつかの Python 関数とモデルを使用して単純なオブジェクト検出アプリケーションを作成および実行する方法を示す詳細なステップバイステップガイドが提供されます。

コンピュータビジョンアプリケーションの作成

「コンピュータビジョン」を説明する 1 つの方法は、それを「カメラとアルゴリズムテクノロジを使用して、画像認識と処理の分野を実行します。」ただし、この単純な定義では、人々の概念の理解が完全には満たされない可能性があります。したがって、コンピュータービジョンアプリケーションを構築するプロセスをより深く理解するには、各サブシステムが実装する必要がある機能を考慮する必要があります。コンピュータービジョンアプリケーションを構築するプロセスには、画像取得、画像処理、特徴抽出、オブジェクト認識、意思決定など、いくつかの重要な手順が含まれます。まず、カメラまたは他の画像取得デバイスを通じて画像データが取得されます。その後、画像は、さらなる分析のためのノイズ除去、強調、セグメンテーションなどの操作を含むアルゴリズムを使用して処理されます。特徴抽出段階で、システムは

などの画像内の主要な特徴を識別します。60 fps のビデオストリームをリアルタイムで処理するには、各フレームを 16 フレーム以内に処理する必要があります。ミリ秒。これは通常、マルチスレッドおよびマルチ処理プロセスを通じて実現されます。場合によっては、フレーム処理を確実に高速化するために、前のフレームが完了する前に次のフレームの処理を開始することが必要になる場合もあります。

人工知能モデルの場合、幸いなことに、現在では優れたオープンソースモデルが多数利用できるため、ほとんどの場合、独自のモデルを最初から開発する必要はなく、パラメータを微調整するだけで済みます。特定のユースケースを満たすため。これらのモデルはすべてのフレームで推論を実行し、オブジェクト検出、セグメンテーション、姿勢推定などのタスクを実行します。

•推論ランタイム: 推論ランタイムは、モデルをロードし、利用可能なさまざまなデバイス (GPU または CPU) 上で効率的に実行する責任があります。

推論プロセス中にモデルを迅速に実行できるようにするには、GPU の使用が不可欠です。 GPU は、特に大量の数学演算を処理する場合に、CPU よりも桁違いに多くの並列演算を処理できます。フレームを処理するときは、フレームが配置されるメモリの場所を考慮する必要があり、GPU メモリまたは CPU メモリ (RAM) に格納することを選択できます。ただし、これら 2 つの異なるメモリ間でフレームをコピーすると、特にフレームサイズが大きい場合、動作が遅くなる可能性があります。これは、より効率的なモデル推論プロセスを実現するには、メモリの選択とデータ転送のオーバーヘッドを比較検討する必要があることも意味します。

マルチメディアパイプラインは、データソースからビデオストリームを取得し、フレームに分割して、モデルへの入力として使用する一連のコンポーネントです。場合によっては、これらのコンポーネントは、転送のためにビデオストリームを変更および再構築することもできます。これらのコンポーネントはビデオデータの処理において重要な役割を果たし、ビデオストリームが効率的に送信および処理されることを保証します。

• ビデオストリーム管理: 開発者は、アプリケーションがビデオストリームの中断、再接続、ビデオストリームの動的追加と削除、複数のビデオストリームの同時処理などに耐えられるようにしたい場合があります。

これらのシステムはすべて作成するか、プロジェクトに組み込む必要があるため、コードを保守する必要があります。ただし、直面する問題は、アプリケーション固有ではなく、実際のケース固有のコードを囲むサブシステムを大量のコードを保守することになることです。

Pipeless フレームワーク

上記のすべてを最初から構築することを避けるために、代わりに Pipeless フレームワークを使用できます。これはコンピュータービジョン用のオープンソースフレームワークであり、ケース固有の機能を許可し、その他の処理も可能です。

Pipeless フレームワークは、アプリケーションのロジックを「ステージ」に分割し、その 1 つは単一モデルのマイクロアプリケーションのようなものです。ステージには、前処理、前処理された入力を使用した推論の実行、およびアクション用のモデル出力の後処理が含まれます。その後、複数のモデルを使用する場合でも、好きなだけステージを連鎖させて完全なアプリケーションを構成できます。

各ステージのロジックを提供するには、アプリケーション固有のコード関数を追加するだけで、必要に応じて Pipeless がその関数の呼び出しを処理します。このため、Pipeless は、組み込みコンピュータービジョンにサーバーのような開発エクスペリエンスを提供し、追加のサブシステムの必要性を気にせずにいくつかの機能を提供するフレームワークと考えることができます。

Pipeless のもう 1 つの重要な機能は、CLI または REST API を介してビデオストリームを動的に追加、削除、更新することでビデオストリーム処理を自動化できることです。ビデオストリームの処理をいつ再開するか、エラー後に再開するかどうかなどを示す再開ポリシーを指定することもできます。

最後に、Pipeless フレームワークをデプロイするには、パイプレスフレームワークをインストールし、クラウドコンピューティング仮想マシンやコンテナ化モード、または Nvidia Jetson などのエッジデバイスで直接、任意のデバイス上でコード関数を使用して実行するだけです。ラズベリーなどミドル。

オブジェクト検出アプリケーションの作成

次に、Pipeless フレームワークを使用して単純なオブジェクト検出アプリケーションを作成する方法を詳しく説明します。。

#最初はインストールです。インストールスクリプトを使用すると、インストールが非常に簡単になります。

Curl https://raw.githubusercontent.com/pipeless-ai/pipeless/main/install.sh | bash

ログイン後にコピー

次に、プロジェクトを作成する必要があります。 Pipeless プロジェクトは、ステージを含むディレクトリです。各ステージはサブディレクトリ内にあり、各サブディレクトリ内にフック (特定のコード関数) を含むファイルが作成されます。各ステージフォルダーに指定された名前は、後でビデオストリームに対してそのステージを実行するときに、パイプレスボックスに指定する必要があるステージ名です。

pipeless init my-project --template emptycd my-project

ログイン後にコピー

ここで、空のテンプレートは CLI にディレクトリを作成するだけを指示します。テンプレートが提供されていない場合、CLI はステージを作成するためのいくつかの質問を表示します。インタラクティブに。

上で述べたように、プロジェクトにフェーズを追加する必要があります。次のコマンドを使用して、GitHub からステージの例をダウンロードします:

wget -O - https://github.com/pipeless-ai/pipeless/archive/main.tar.gz | tar -xz --strip=2 "pipeless-main/examples/onnx-yolo"

ログイン後にコピー

これにより、ステージディレクトリ onnx-yolo が作成されます。アプリケーション機能が含まれています。

次に、各ステージファイルの内容 (アプリケーションフック) を確認します。

これは、フレームとシーンを受け入れる関数 (フック) を定義する pre-process.py ファイルです。この関数は、モデルが予期する形式と一致するように、RGB フレームを受信する入力データを準備するためにいくつかの操作を実行します。このデータは、Pipeless がモデルに渡すデータである Frame_data['interence_input'] に追加されます。

def hook(frame_data, context):frame = frame_data["original"].view()yolo_input_shape = (640, 640, 3) # h,w,cframe = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)frame = resize_rgb_frame(frame, yolo_input_shape)frame = cv2.normalize(frame, None, 0.0, 1.0, cv2.NORM_MINMAX)frame = np.transpose(frame, axes=(2,0,1)) # Convert to c,h,winference_inputs = frame.astype("float32")frame_data['inference_input'] = inference_inputs... (some other auxiliar functions that we call from the hook function)

ログイン後にコピー

使用するパイプレス推論ランタイム (この場合は ONNX ランタイム) を示す process.json ファイルもあります。ロードする必要があるモデルと、使用する実行プロバイダー (CPU、CUDA、TensorRT など) などのオプションのパラメーターの一部を見つけます。

{ "runtime": "onnx","model_uri": "https://pipeless-public.s3.eu-west-3.amazonaws.com/yolov8n.onnx","inference_params": { "execution_provider": "tensorrt" }}

ログイン後にコピー

最後に、post-process.py ファイルは、pre-process.py の関数と同様の関数を定義します。今回は、Pipeless が Frame_data["inference_output"] に保存する推論出力を受け入れ、その出力を境界ボックスに解析する操作を実行します。その後、フレーム上に境界ボックスを描画し、最後に変更されたフレームをframe_data['modified']に割り当てます。このようにして、Pipeless は提供されたビデオストリームを転送しますが、境界ボックスを含む変更されたフレームが含まれます。

def hook(frame_data, _):frame = frame_data['original']model_output = frame_data['inference_output']yolo_input_shape = (640, 640, 3) # h,w,cboxes, scores, class_ids =  parse_yolo_output(model_output, frame.shape, yolo_input_shape)class_labels = [yolo_classes[id] for id in class_ids]for i in range(len(boxes)):draw_bbox(frame, boxes[i], class_labels[i], scores[i])frame_data['modified'] = frame... (some other auxiliar functions that we call from the hook function)

ログイン後にコピー

最後のステップは、Pipeless を起動してビデオストリームを提供することです。 Pipeless を開始するには、my-project ディレクトリで次のコマンドを実行するだけです:

pipeless start --stages-dir .

ログイン後にコピー

実行すると、Web カメラ (v4l2) からのビデオストリームが提供されます。、出力を画面に直接表示します。ビデオストリームが順番に実行するステージのリストを提供する必要があることに注意してください。この例では、それは単なる onnx-yolo 段階です:

pipeless add stream --input-uri "v4l2" --output-uri "screen" --frame-path "onnx-yolo"

ログイン後にコピー

結論

コンピュータービジョンアプリケーションの作成は A多くの要素やサブシステムを実装する必要があるため、タスクは複雑です。 Pipeless のようなフレームワークを使用すると、立ち上げて実行するのに数分しかかからないため、特定のユースケース向けのコードの作成に集中できます。さらに、パイプレス「ステージ」は再利用性が高く、メンテナンスが容易であるため、メンテナンスが容易になり、非常に迅速に反復できます。

Pipeless の開発に参加したい場合は、GitHub リポジトリを通じて参加できます。

元のタイトル: Create a Complete Computer Vision App in Minutes With Just Two Python Functions、著者: Miguel Angel Cabrera

リンク: //m.sbmmt.com/link/e26dbb5b1843bf566ea7ec757f3325c4

以上がたった 2 つの Python 関数を使用して完全なコンピュータービジョンアプリケーションを数分で作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。