映像コンテンツを企画しても、撮影や編集のコストが壁になるケースは少なくありません。Wan 2.2は、テキストや画像を入力するだけでシネマティックな動画を生成できるオープンソースAIモデルです。動画生成を内製化したい企業にとって、開発・運用両面のハードルを下げる選択肢となり得ます。
本記事では、公式情報を基にWan 2.2の概要から料金、導入方法、活用事例までをまとめます。
目次
Wan 2.2の概要
Wan 2.2はAlibaba Group 通義Labが公開した動画生成基盤モデルで、テキスト→動画・画像→動画・ハイブリッド生成の3系統をApache 2.0ライセンスで提供しています。最大の特徴は、Mixture‑of‑Experts(MoE)を動画拡散モデルに取り入れ、総パラメータ270億のまま実行時は140億パラメータのみを活性化する点にあります。これにより計算負荷を抑えつつ表現力を拡大し、従来版(Wan 2.1)より高精細で一貫性のある映像を生成します。

主な特徴と強み
Wan 2.2は、モデル構造や学習手法の工夫により、動画生成の品質と実行効率を高いレベルで両立しています。以下に代表的な特徴を紹介します。
Mixture‑of‑Expertsで高品質・高速化
1回の推論ステップで使うパラメータ数を制限しながらも、モデル全体としては大規模な構造を維持できるMoE(Mixture of Experts)構造を採用。高ノイズ・低ノイズに応じたエキスパートネットワークを使い分けることで、 演算コストを抑えつつ幅広い表現が可能 になっています。これにより、映像の細部や動きにおける自然さを維持しながら、生成速度も実用的な水準に保たれています。
シネマティックな美学制御
照明条件や時間帯、色調、構図、アングルなど、映画撮影における演出要素をプロンプトで細かく指定できます。例えば「逆光の夕景」や「広角レンズによる俯瞰視点」など、具体的な映像スタイルを文字ベースで指定できるため、狙い通りの演出が実現しやすくなっています。学習時にラベル付きの芸術・映像データセットを用いたことにより、美的要素への理解力も高く、自然な映像表現を実現しています。
複雑な動きと指示遵守
人物の表情、指の動き、スポーツの瞬間など、精緻なモーションが必要なシーンにも対応可能 です。これは学習データを前バージョン比で画像+65%、動画+83%に拡張し、さらにプロンプトの意味を正確に理解して反映するよう設計されているためです。複数の人物やオブジェクトが同時に動く場面でも、整合性を保ったまま滑らかに描写されます。
消費者GPUでも動く高効率モデル
高解像度のまま効率よく動画生成が行えるよう、独自の3次元VAEを組み込んだ5Bモデル(TI2V-5B)を提供しています。このモデルは、 時間軸・空間軸を高度に圧縮しながらも表現力を損なわず、24GB VRAMを搭載したコンシューマー向けGPU(例:RTX 4090)でも720p/24fpsの5秒動画を数分で生成可能 です。環境負荷やコストを抑えながら運用したい場合にも適した設計です。
| モデル | アーキテクチャ | 総パラメータ | 720 p生成目安 | 必要VRAM* |
|---|---|---|---|---|
| Wan 2.2 A14B | MoE(2 Expert) | 27 B(14 B active) | 5 秒 ≒9 分 | 80 GB GPU |
| Wan 2.2 TI2V‑5B | 高圧縮VAE | 5 B | 5 秒 ≒9 分 | 24 GB GPU |
| Wan 2.1 T2V‑14B | Dense | 14 B | 5 秒 ≒?(公称720 p対応) | 80 GB GPU |
*VRAM:推論時の最小推奨メモリ。
これらの技術により、オープンソースながら商用モデルと比較しても競争力のある映像品質を実現しています。
提供形態と料金
Wan 2.2本体は無償ですが、クラウド版「 WAN AI」では下表のようなクレジット課金制を採用しています。
| プラン | 月額 (USD) | 毎月付与クレジット | 想定生成量 | 同時実行上限** |
|---|---|---|---|---|
| Free | 0 | 0 | リラックスモード無制限 | 1ジョブ |
| Pro | 約10 | 300 | 30–60本(5 秒) | 2ジョブ |
| Premium | 約40 | 1200 | 120–240本(5 秒) | 公開値非表示(Pro超) |
**同時実行上限:即時実行ジョブ数。待機キューは別枠。
自社GPUを保有していない場合でも、クレジットを購入するだけで高速生成が利用できます。
導入と利用手順
公式GitHubからリポジトリをクローンし、pip install -r requirements.txtで依存ライブラリを導入します。モデル重みはHugging FaceまたはModelScopeから取得し、ローカルパスを--ckpt_dirで指定します。
単一GPUでテキスト→動画を生成する例は次の通りです。
python generate.py --task t2v-A14B --size 1280*720 \
--ckpt_dir ./Wan2.2-T2V-A14B --offload_model True \
--convert_model_dtype \
--prompt "Two anthropomorphic cats in boxing gear fight on a spotlighted stage."
80 GB VRAM未満の環境では--offload_model Trueや--t5_cpuオプションでメモリを節約できます。画像→動画、テキスト+画像→動画も同一スクリプトで切り替え可能です。
利用シーンと実例紹介
Wan 2.2は公開直後から複数のプラットフォームに組み込まれています。あわせて、X(旧Twitter)上でも開発者やクリエイターが実際に生成した動画が数多く共有されており、モデルの出力品質を確認する上で参考になります。
-
ComfyUIがAlibaba最新動画生成モデルWan 2.2のFLF2V機能に正式対応
ComfyUI now supports Wan2.2 FLF2V!
— ComfyUI (@ComfyUI) August 2, 2025
✨ Define your start & end frames
🎬 Generate smooth transitions in between
🚀 Native support, no custom nodes needed
Update to the latest version on Git/Portable/Desktop.
Get workflow from our docs 👇 pic.twitter.com/jCL9F3133u -
T2VとI2Vの両方に対応し、高速・高品質・低コストで、OnLoRA.aiでも手軽に利用可能
Wan 2.2 is now live on @onlora_ai
— daoleno (@dao_leno) July 31, 2025
What I love about this model:
• Cheapest
• Fastest
• Great quality
• Supports t2v and i2v
It's perfect for scenarios where you need to generate multiple iterations to achieve the desired result. pic.twitter.com/zoLdJoTiuw -
I2V機能を実際に試したデモ投稿。非AI画像から自然な動きが生成
Wan2.2(I2V) works pretty good.(Base image is not AI generated.) pic.twitter.com/5g9CfoiqT4
— Xiu Ran (@f_fanshu) July 30, 2025
こうした第三者サービスの普及により、社内に深い機械学習知識がなくてもWan 2.2を活用した動画制作が現実的になっています。
導入時のチェックポイントと注意点
Wan 2.2を導入する際は、まず GPUメモリ要件と生成時間の確認 が重要です。A14Bモデルは80 GB以上のGPUが前提となりますが、より軽量なTI2V‑5Bモデルであれば24 GBクラスのGPUでも実用的な速度で動作します。
ライセンスは Apache 2.0 のため商用利用も可能ですが、生成物に関する権利処理(肖像権・著作権など)は利用者の責任となります。特に、高精細な人物映像が生成できる点から、 著作物や実在人物に似たコンテンツの扱いには注意 が必要です。
さらに、大容量モデルを運用する場合は ランニングコストが高くなりがち なため、 推論オフロードや量子化などによるメモリ最適化 の検討も推奨されます。
まとめ
Wan 2.2はMoEアーキテクチャを採用した動画生成AIで、シネマティックな画作りと高いモーション再現性を兼ね備えています 。オープンソースであるためオンプレミス展開も容易ですが、クラウド版や統合SaaSを活用すればスピード感ある導入が可能 です。技術検証から小規模プロジェクトまでまずはハイブリッドモデルで試し、効果が見えた段階でフルサイズモデルや有料プランの活用を検討してみてください。