ソニーセミコンダクタソリューションズグループ
AITRIOS
製品タイプ

オンプレミスSW

利用可能な国/地域
  • 日本
購入方法
  • 詳細はお問い合わせください。
価格

価格設定あり

VisionAI_Icon_Final

Woven City AI Vision Engine for AITRIOS

提供元: Woven by Toyota, Inc.
Woven City AI Vision Engineは時空間理解のためのマルチモーダル基盤モデルとしてのVision LLM です。
画像および動画の理解において、さまざまな産業分野における複雑な動画像解析に応用可能です。Video Caption、Video Perception、Video Question Answer、Video Retrieval、Video Summary などの機能を利用し、動画像からビジネスインサイトを引き出します。
Woven City AI Vision Engine capabilities for vision-language model business applications
The flow of AI Vision Engine
ユースケース① 行動・シーンの分析
ユースケース② 異常の理解・説明・アラート
ユースケース③ 自然言語による映像検索
CLOSE
Woven City AI Vision Engine capabilities for vision-language model business applications
The flow of AI Vision Engine
ユースケース① 行動・シーンの分析
ユースケース② 異常の理解・説明・アラート
ユースケース③ 自然言語による映像検索

 

 

高度な動画解析性能

Woven City AI Vision Engine は、動画および画像コンテンツの解析を目的として設計された高度な Vision Language Model です。
このモデルは、カスタムプロンプトや、事前定義されたシステムプロンプトを与えることが可能で、提示された特定の問いや目的に合わせた結果を出力することができます。
これにより、正確な意図の抽出と、ユーザーのニーズに合わせた AI アプリケーションの開発が実現できます。

製品ハイライト:

● 時空間動画像認識においてトップレベルの性能*

● 様々な産業分野における画像および動画理解のサポート

● 複雑な視覚理解を可能にする短尺・長尺動画双方のサポート

● 制約環境での利用に適したエッジ最適化モデル

 

*公開されている MVBench リーダーボードにてトップレベルの動画認識性能を達成。
*最優秀技術成果として GENIAC Model Prize を受賞。詳細については、こちらをご参照ください

 

特長

  • 動画からテキストへの変換(キャプション):時空間情報についての詳細な把握
  • 短尺/長尺動画の理解および要約
  • 動画質問応答
  • カスタマイズ可能、かつフォーマットに沿った構造化された出力が可能なVision Language Modelのoutput
  • AI 駆動システム
    • Vision Language Retrieval Systems(RAG)
    • マルチモーダル・エージェント型システム

Example of the AI Vision Engine used for analysis and structured output
解析内容をフォーマットに沿った形で出力するAI Vision Engine の活用例
Multi-end devices from on-premises to edge
オンプレミスからエッジまでマルチエンドデバイスに対応

 

仕様詳細

項目詳細
サービスタイプオンプレミス環境へのインストール(有効化にはソフトウェアライセンスが必要)
AIモデルVision LLM (Large Language Model)
ソフトウェア動作環境- オペレーティングシステム: Ubuntu 22.04
推奨GPU: NVIDIA A100 Tensor Core GPU
アーキテクチャ: Ampere
GPUメモリ: 最小 20 GB*
システムメモリ: 最小 25 GB*
ストレージ: 最小 30 GB**

* GPU およびシステムメモリの使用量は、設定された入力動画像サイズに依存します。入力サイズが大きいほど両者の使用量は増加し、ハードウェア容量が不十分な場合にはメモリ不足(Out‑of‑Memory)エラーが発生する可能性があります。入力設定を選定する際には、サーバーのハードウェア制約および想定される利用シナリオの要件を考慮することが重要です。記載されている推奨仕様は、少量の動画フレームを小さなバッチサイズで処理するために必要な推奨構成であり、より大きなバッチを処理する場合には、より高い性能・容量が必要となる場合があります。
** SDK およびその依存ライブラリに必要なストレージ容量を示します。

- エッジサービスの詳細につきましては、担当窓口までお問い合わせください。
サポートページスタートガイド
Web サイトWoven City AI Vision Engine

*本製品の保証/サポートについては、提供元の規定をご参照ください。