視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。-AI-php.cn

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

王林

リリース： 2023-11-26 20:22:58

転載

1586 人が閲覧しました

視覚的なプロンプトを使用すると、どのようなエクスペリエンスが得られますか?

画像にランダムな輪郭を描くだけで、同じカテゴリがすぐにマークされます。

GPT-4V では穀物計数ステップさえも処理が困難です。すべての米粒を見つけるには、手動で箱を引くだけです。

新しいターゲット検出パラダイムが登場しました。

閉幕したばかりのIDEA年次会議で、IDEA研究所の創設会長であり、国家工程院の外国人学者でもある沈祥陽氏は、最新の研究結果を発表した -

ビジュアルプロンプトモデル T-Rex のコンテンツを書き直す必要がある

インタラクティブプロセス全体はすぐに使用できるようになっており、わずか数ステップで完了できます。

以前は、Meta のオープンソース SAM はすべてのモデルをセグメント化しており、CV 分野で GPT-3 の瞬間が直接到来しました。しかし、それは依然としてテキストプロンプトパラダイムに基づいており、対処がより困難になるでしょういくつかの複雑でまれなシナリオ。

これで、写真を写真に交換することで、簡単に問題を解決できます。

さらに、カンファレンス全体には、Think-on-Graph 知識主導型大規模モデル、開発者プラットフォーム MoonBit、AI 科学研究成果物 ReadPaper アップデート 2.0、SPU 機密コンピューティングコプロセッサなど、有益な情報が満載です。、制御可能なポートレートビデオ生成プラットフォーム HiveNet など。

最後に、沈祥陽氏は、過去数年間で最も多くの時間を費やしたプロジェクト、低高度経済についても共有しました。

#低空経済が比較的成熟すると、深センの空には毎日 10 万機のドローンが飛び立ち、毎日数百万機のドローンが飛び立つことになると私は信じています

#視覚を使用してプロンプトを作成します

##基本的なシングルラウンドプロンプト機能に加えて、T-Rex は 3 つの高度なモードもサポートしています

##マルチラウンドポジティブモード

#肯定的および否定的な例モード

これは適切です視覚的な手がかりがあいまいで誤検出を引き起こすシナリオ向け。

クロスグラフモードを使用すると、グラフを再設計してレイアウトし、データや情報を簡単に視覚化できます

1 つの参照グラフを使用して他の画像を検出することにより、

レポートによると、ティラノサウルスは事前に定義されたカテゴリに制限されず、視覚的な例を使用して検出対象を指定できるため、特定のオブジェクトを言葉で完全に表現することが難しいという問題が解決され、迅速な効率が向上します。特に一部の産業シナリオにおける複雑なコンポーネントの場合、その効果は特に顕著です

さらに、ユーザーと対話することで、いつでも迅速に評価することもできます。結果を確認し、エラー訂正などを実行します。

ティラノサウルスの構成には、主にイメージエンコーダ、プロンプトエンコーダ、フレームデコーダの 3 つのコンポーネントが含まれています。

この作品は、IDEA Research Institute Computer Vision とロボット研究センター。

チームが以前オープンソースで開発していたターゲット検出モデル DINO は、COCO ターゲット検出リストで 1 位にランクされた最初の DETR モデルであり、Github で人気となっています

(これまでに 11,000 個のスターを獲得しています) 視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。ゼロサンプル検出器である Grounding DINO、およびあらゆるものを検出してセグメント化できる Grounded SAM。技術的な詳細については、記事の最後にあるリンクをクリックしてください。

カンファレンス全体は有益な情報でいっぱいです

さらに、IDEAカンファレンスではいくつかの研究結果も共有されました。たとえば、

Think-on-Graph ナレッジ駆動型大規模モデル

は、簡単に言うと、大規模モデルとナレッジグラフを組み合わせたものです。

大規模モデルは意図の理解と自律学習に優れていますが、ナレッジグラフは構造化された知識の保存方法により、論理連鎖推論に優れています。

Think-on-Graph は、大規模なモデルエージェントにナレッジグラフ上で「思考」させ、徐々に最適な答えを検索および推論します (ナレッジグラフの関連エンティティを段階的に検索および推論します)。推論のすべてのステップで、大規模なモデルが個人的に関与し、ナレッジグラフを使用して互いの長所と短所を学習します。

MoonBit は、Wasm を利用し、クラウドコンピューティングとエッジコンピューティング向けに設計された開発者プラットフォームです。

このシステムは、ユニバーサルプログラミング言語設計を提供するだけでなく、コンパイラ、ビルドシステム、統合開発環境 (IDE)、展開ツールなどのモジュールを統合して、開発エクスペリエンスと効率を向上させます

以前にリリースされた科学研究成果物 ReadPaper も 2.0 にアップデートされ、記者会見では副操縦士の読み取りや副操縦の研磨などの新機能がデモされました。

記者会見の最後に、沈祥陽氏は「低地経済発展白書（2.0） - 完全デジタルソリューション」を発表した。 Airspace System, SILAS) として、時間空間プロセスの新しい概念が提案されました。

T-Rex リンク:
https://trex-counting.github.io/

以上が視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。