GoogleのVEO3AIモデルはサウンドでビデオを生成できます


I/O Developer Conferenceでの今年の発表の一環として、Googleは最新のメディア生成モデルを明らかにしました。最も注目すべきは、おそらく、VEO 3であり、サウンドでビデオを生成できるモデルの最初の再発です。たとえば、歌う音声で鳥のビデオを作ることができます。 Googleは、VEO 3も実際の物理学とリップシンクに優れていると述べています。現在、このモデルは、Mithunアプリ内の米国のGemini Ultraの顧客とVertex AIのエンタープライズユーザーのみが利用できます。また、Googleの新しいAIフィルムプロダクション機器であるFlowでも利用できます。

Flowは、VO、イメージ、ジェミニを一緒にして、映画のクリップとシーンを作成します。自然言語のユーザーは、最終的な出力を説明でき、フローは彼らのために機能します。この新しいツールは、Google AI Proと米国のウルトラの顧客でのみ利用可能になりますが、Googleはすぐにより多くの国で転がすと述べています。

同社は新しいビデオ生成モデルをリリースしていますが、まだVO2を離れていません。ユーザーは、フローで目的の出力を使用して、人、シーン、スタイル、オブジェクトの2つの画像を提供できます。カメラ制御にアクセスできるようになり、ビジュアルを回転させ、特定のオブジェクトをズームインしてフロー用にズームインします。さらに、彼らは自分のフレームをポートレートから風景まで広くすることができ、オブジェクトをビデオに接続および削除するか削除することができます。

Googleはまた、イベントで最新の画像生成モデルであるImagene 4を導入しました。同社は、Imageneは、4つの「驚くべき明確さ」を持つ複雑な布や動物の毛皮などの優れた詳細を提供し、フォトリアル主義と抽象的な画像の両方を生成することに優れていると述べました。タイポグラフィを前任者よりも提供する方がはるかに優れており、最大2Kの解像度を備えたさまざまな面で画像を作成できます。 Imagene 4は、Mithun App、Vertex AI、Dock、およびWorkspaceアプリでスライドして利用できるようになりました。 Googleは、「3」よりも10倍高速なImagene 4のバージョンをリリースしていると述べました。

最後に、GoogleはSyntid Detectorを立ち上げて、人々がAI関連の材料を特定するのを支援しました。これは、ユーザーがAIに生成されると考えるメディアをアップロードできるポータルであり、GoogleはSyntIDのID装置、透かし、AIアートを含むかどうかを判断します。 Googleは透かしツールを開いていましたが、すべての画像ジェネレーターがそれを使用したわけではないため、ポータルはすべてのAI媒介画像を識別できません。



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *