Veo 3 هو نموذج الجيل الثالث من Google DeepMind لتوليد الفيديو بالذكاء الاصطناعي. ينشئ مقاطع تصل إلى 8 ثوانٍ من النص أو الصور المرجعية، مع صوت أصلي يشمل الحوار والمؤثرات والبيئة في التمريرة نفسها.

هل يولد Veo 3 الصوت تلقائيًا؟

نعم، وهذه واحدة من أهم نقاط تميّزه. يولد Veo 3 الحوار والصوت المحيطي والمؤثرات والموسيقى بالتزامن مع الفيديو نفسه، لا كإضافة لاحقة.

ما مدة الفيديوهات التي يولدها Veo 3؟

يمكن لـ Veo 3 توليد مقاطع تصل إلى 8 ثوانٍ في كل مرة. ومع Veo 3.1 يمكنك استخدام ميزة تمديد الفيديو لمواصلة المقطع نفسه وإنتاج تسلسل أطول.

ما الفرق بين Veo 3 Fast والوضع القياسي؟

يركز Veo 3 Fast على السرعة واختبار الأفكار بكلفة أقل، بينما يخصص الوضع القياسي موارد أكبر لرفع الجودة البصرية والمحاكاة الفيزيائية وتزامن الصوت مع الصورة ودقة الالتزام بالبرومبت.

Veo 3 أم Kling: أيهما أختار؟

يتفوق Veo 3.1 في الواقعية الفوتوغرافية والصوت الأصلي والجودة السينمائية، لذا يناسب السرد والفيديوهات المدفوعة بالصوت ومحتوى العلامات. أما Kling 2.6 و3.0 فيقدمان تحكمًا أفضل بالكاميرا ومدة أطول وتوليدًا متعدد اللقطات. اختر Veo إذا كانت الأولوية للصوت والواقعية، واختر Kling إذا كانت الأولوية للتنوع الحركي والمدة.

هل يدعم Veo 3.1 إدخال الصور؟

نعم. يدعم Veo 3.1 صورًا مرجعية متعددة لتوجيه مظهر الشخصيات أو أسلوب المشهد أو التكوين البصري. وهو لا يكتفي بتحريك صورة واحدة، بل يستخدمها كمرتكز للهوية والأسلوب داخل تسلسل فيديو كامل.

ما نسب الأبعاد التي يدعمها Veo 3.1؟

يدعم Veo 3.1 التنسيق الأفقي 16:9 والعمودي 9:16. ويعد الوضع العمودي ميزة جديدة موجهة خصيصًا لمنصات الفيديو القصير مثل TikTok وYouTube Shorts وInstagram Reels.

ما الذي يميز المحاكاة الفيزيائية في Veo 3؟

تلقى Veo 3 تدريبًا أعمق على السلوك الفيزيائي الواقعي: الماء والدخان والنار، وحركة الشخصيات مع الوزن والزخم، وتبدلات الظلال والإضاءة، واستجابات الاصطدام بين الأجسام. لذلك تبدو نتائجه أكثر تجذرًا في الواقع.

كيف أكتب برومبتات فعالة لـ Veo 3؟

استخدم هيكلًا من ثلاث طبقات: (1) المشهد: الموضوع والبيئة والفعل بتفصيل ملموس، (2) الكاميرا: الموضع والحركة والإضاءة، (3) الصوت: البيئة الصوتية أو الموسيقى أو نبرة الحوار. كلما زادت التفاصيل، أصبحت النتيجة أكثر تحكمًا وسينمائية.

هل يستطيع Veo 3.1 تمديد فيديوهات مولدة سابقًا؟

نعم. تمديد الفيديو ميزة جديدة في Veo 3.1. بعد توليد مقطع مدته 8 ثوانٍ، يمكنك متابعته بسلاسة مع الحفاظ على الأسلوب البصري ومظهر الشخصية وسياق المشهد.

هل يمكن استخدام فيديوهات Veo 3 من GeminiPro تجاريًا؟

نعم. يمكن استخدام الفيديوهات المولدة عبر GeminiPro في الإعلانات ومحتوى السوشيال وعروض المنتجات وإنتاج العلامات التجارية. وإذا تضمنت أشخاصًا حقيقيين أو عناصر مرخصة، فمن الأفضل مراجعة سياسات الاستخدام لدى Google أيضًا.

النموذج

Quality

المدة

الدقة

وضع الصورة

إضافة إطار نهاية

اختر صورة البداية

رفع صورة

JPEG، PNG، WebP (حد أقصى 10 ميجابايت)

هذه الصورة ستكون الإطار الأول لفيديوك

الأمر النصي

ترجمة الأمر النصي

0 / 5000

نسبة الأبعاد

ينشئ فيديو مع صوت AI (قد يتم تعطيل الصوت للمحتوى الحساس)

مولد فيديو بالذكاء الاصطناعي Veo 3.1

Q: ما الجديد في Veo 3.1؟

يضيف Veo 3.1 خمس ميزات رئيسية فوق Veo 3: الوضع العمودي 9:16، وتمديد الفيديو، والتحكم في أول وآخر إطار، وإدخال صور مرجعية متعددة، وتحسينًا واضحًا في اتساق الموضوع طوال المقطع.

يمنحك GeminiPro وصولًا مباشرًا إلى Veo 3.1، نموذج الفيديو السينمائي من Google DeepMind. يمكنك توليد فيديوهات مدتها 8 ثوانٍ مع حوار ومؤثرات صوتية وصوت محيطي مولّد أصلاً في تمريرة واحدة. ويضيف Veo 3.1 وضع 9:16 العمودي وتمديد الفيديو والتحكم في أول وآخر إطار وإدخال صور مرجعية متعددة، من دون الحاجة إلى خبرة في تحرير الفيديو.

صوت AI أصلي

فيديو سينمائي لمدة 8 ثوانٍ

محاكاة فيزيائية

عمودي 9:16

تمديد الفيديو

ترخيص تجاري

ما هو Veo 3؟ نموذج الفيديو السينمائي من Google DeepMind

Veo 3 هو نموذج الجيل الثالث من Google DeepMind لتوليد الفيديو بالذكاء الاصطناعي. وعلى عكس معظم الأدوات التي تحتاج إلى إضافة الصوت لاحقًا، يركّب Veo 3 الفيديو والصوت معًا، فيولد الحوار والصوت المحيطي والموسيقى متزامنة مع الصورة. ويتميز خصوصًا بالحركة الدقيقة فيزيائيًا، من ديناميكيات السوائل إلى حركة الشخصيات.

حتى 8 ثوانٍ

أقصى مدة للفيديو

صوت AI أصلي

توليد الصوت

حتى 4K

أقصى دقة

ما الجديد في Veo 3.1

يضيف Veo 3.1 خمس قدرات رئيسية توسّع التحكم الإبداعي مقارنة بالإصدار الأصلي من Veo 3.

الوضع العمودي (9:16)

إخراج عمودي مخصص لـ TikTok وInstagram Reels وYouTube Shorts من دون الحاجة إلى قص لاحق.

تمديد الفيديو

يمكنك متابعة مقطع مولد مسبقًا بسلاسة مع الحفاظ على الأسلوب البصري والشخصية وسياق المشهد.

التحكم في أول وآخر إطار

يتيح لك تحديد الإطار الافتتاحي والإطار الختامي للمشهد، ثم يولد Veo 3.1 تسلسلًا مترابطًا بينهما.

إدخال متعدد للصور المرجعية

ارفع عدة صور لتوجيه مظهر الشخصية أو تكوين المشهد أو الأسلوب البصري للنتيجة.

تحسين اتساق الموضوع

تحافظ الشخصيات والعناصر على مظهرها بشكل أفضل على امتداد الفيديو كاملًا، مع تقليل الانحراف بين الإطارات.

Veo 3 مقابل Kling: أي مولد فيديو بالذكاء الاصطناعي يناسبك أكثر؟

كلاهما من أبرز منصات الفيديو بالذكاء الاصطناعي في 2026. إليك مقارنة مباشرة عبر أهم الأبعاد العملية.

	Veo 3.1أفضل جودة سينمائية	Kling 2.6	Kling 3.0
المطور	Google DeepMind	Kuaishou	Kuaishou
المدة القصوى	حتى 8 ثوانٍ	5 إلى 10 ثوانٍ	3 إلى 15 ثانية
الصوت الأصلي	نعم - حوار ومؤثرات وموسيقى	محدود	محدود
أقصى دقة	حتى 4K	حتى 1080p	حتى 4K
عمودي 9:16	نعم	نعم	نعم
متعدد اللقطات	—	—	نعم
التحكم بالكاميرا	قياسي	جيد	متقدم
مرجعية الصور	متعدد الصور	صورة واحدة	متعدد الصور
تمديد الفيديو	نعم	—	—
الأنسب لـ	جودة سينمائية وسرد بصوت AI	الحركة واللقطات الأطول	السرد متعدد اللقطات والتحكم المتقدم بالكاميرا

اختر Veo 3.1 إذا كانت الأولوية للجودة السينمائية والسرد المدفوع بصوت AI. واختر Kling إذا كنت تحتاج إلى لقطات أطول وتسلسلات متعددة ومزيد من التحكم بالكاميرا.

نماذج الفيديو بالذكاء الاصطناعي المتاحة على GeminiPro

أنشئ باستخدام Google Veo 3.1 أو Kuaishou Kling، إذ جرى تحسين كل نموذج لاحتياجات إبداعية وإنتاجية مختلفة.

Veo 3.1

Google DeepMind · أفضل جودة سينمائية

النموذج السينمائي الرائد من Google. يولد مقاطع HD مدتها 8 ثوانٍ مع صوت مولد أصلًا يشمل الحوار والمؤثرات الصوتية والموسيقى في تمريرة واحدة.

Native AI audioPhysics simulationUp to 4KPortrait 9:16Video extensionMulti-image referenceصوت AI أصليمحاكاة فيزيائيةحتى 4Kعمودي 9:16تمديد الفيديومرجعيات صور متعددة

Veo 3.1 Fast

Google DeepMind · توليد أسرع

النسخة المحسنة للسرعة من Veo 3.1. تحتفظ بالأساس السينمائي للنموذج مع زمن توليد أسرع، ما يجعلها مناسبة للاختبار السريع والتكرار المكثف.

Native AI audioFast outputUp to 4KSame Veo qualityPortrait 9:16صوت AI أصليإخراج سريعحتى 4Kجودة Veo نفسهاعمودي 9:16

Kling 2.6

Kuaishou · لقطات أطول وحركة أقوى

نموذج Kling المجرب الذي يقدم مقاطع تصل إلى 10 ثوانٍ مع جودة حركة ممتازة واتساق جيد للموضوع، مع إمكانية توليد صوت AI اختياري.

Up to 10s duration1080p outputOptional AI audioImage-to-videoPortrait 9:16حتى 10 ثوانٍإخراج 1080pصوت AI اختياريimage-to-videoعمودي 9:16

Kling 3.0

Kuaishou · متعدد اللقطات وكاميرا متقدمة

أقوى إصدارات Kling، مع تركيب متعدد اللقطات وتوليد يصل إلى 15 ثانية وتحكم متقدم بالكاميرا ودعم @Elements للشخصيات المرجعية وإخراج يصل إلى 4K.

Up to 15s durationMulti-shot scenesAdvanced camera control@Elements supportUp to 4K outputحتى 15 ثانيةمشاهد متعددة اللقطاتتحكم متقدم بالكاميرا@Elementsإخراج حتى 4K

Wan 2.6

Alibaba · جودة حركة طبيعية

يتخصص Wan 2.6 في توليد حركة طبيعية وسلسة، مع دعم قوي لكل من text-to-video وimage-to-video بدقات 720p و1080p.

Text-to-videoImage-to-video720p & 1080pFluid motionCommercial licensetext-to-videoimage-to-video720p و1080pحركة سلسةترخيص تجاري

Seedance 2

ByteDance · توليد متزامن للصوت والفيديو

النموذج المشترك من ByteDance يولد الصوت والفيديو معًا في تمريرة واحدة، محافظًا على تزامن الحوار والموسيقى والمؤثرات من أول إخراج. يدعم حتى 15 ثانية ودقة 2K ومزامنة شفاه بأكثر من 8 لغات.

Up to 15s duration2K resolutionAudio-video co-generation8+ language lip-syncText-to-videoحتى 15 ثانيةدقة 2Kتوليد صوتي بصري متزامنمزامنة شفاه بـ 8+ لغاتtext-to-video

ماذا يمكنك أن تنشئ باستخدام Veo 3.1؟

من الأفلام القصيرة السينمائية إلى محتوى وسائل التواصل، تفتح جودة Veo 3.1 وصوته الأصلي أبوابًا كانت تتطلب سابقًا فرق إنتاج كاملة.

الأفلام والسرد السينمائي

أفلام قصيرة، عروض مفاهيمية، سرد بصري

أنشئ أفلامًا قصيرة وسردًا بصريًا ومشاهد سينمائية مع حركة واقعية وصوت محيطي تلقائي وأجواء أكثر إقناعًا.

فيديوهات العلامة التجارية والتسويق

فيديوهات المنتجات، حملات العلامة، مواد إعلانية

أنتج عروض منتجات ومحتوى علامتك وإعلاناتك بجودة احترافية ووقت وتكلفة أقل من الإنتاج التقليدي.

محتوى قصير لوسائل التواصل

TikTok وInstagram Reels وYouTube Shorts

ولّد محتوى عموديًا 9:16 لـ TikTok وReels وShorts، وجرّب أكثر من اتجاه إبداعي قبل النشر.

المحتوى التعليمي والشرح

شروحات، دروس، سلاسل تعليمية

حوّل المفاهيم المعقدة إلى مرئيات توضيحية ومحتوى تعليمي بصوت ينسجم مع ما يظهر على الشاشة.

كيف تكتب برومبتات Veo 3: إطار من 3 طبقات

يفهم Veo 3 البرومبتات المنظمة على طبقات أفضل من الكلمات المفتاحية القصيرة. يساعدك هذا الإطار الثلاثي في الحصول على نتائج أكثر سينمائية وتحكمًا.

الطبقة 1 - المشهد

صِف الموضوع والبيئة والفعل بتفاصيل محددة. بدلًا من “شخص يمشي”، اكتب “امرأة ترتدي معطفًا أحمر تمشي في ساحة أوروبية مغطاة بالثلج عند الفجر”.

الطبقة 2 - الكاميرا

حدّد موضع الكاميرا (لقطة واسعة أو لقطة متوسطة أو منظور درون)، وحركتها (بان بطيء، ثابتة، تتبع)، ونوع الإضاءة (golden hour أو ضوء غائم منتشر أو إضاءة استوديو).

الطبقة 3 - الصوت

اشرح البيئة الصوتية المطلوبة: غابة هادئة، مقهى مزدحم، ضجيج مدينة، نبرة الحوار أو مؤثرات محددة. يستخدم Veo 3 هذه الإشارات لتوليد صوت متزامن.

مشهد سينمائي

افتتاحية فيلم قصير

“حارس منارة وحيد يقف على حافة جرف أثناء عاصفة، معطفه المبتل يتطاير مع الريح، لقطة منخفضة تنظر إليه من أسفل، أمواج متلاطمة في الخلفية، سماء رمادية، تتبع بطيء يقترب منه، وصوت المحيط والرعد البعيد”

إعلان علامة تجارية

فيديو إطلاق منتج

“ساعة ذكية سوداء مطفية على معصم داخل مكتب حديث بسيط، لقطة منتج قريبة مع دوران بطيء، إضاءة استوديو ناعمة ودرامية، موسيقى إلكترونية محيطية خفيفة، تركيز حاد، جودة تجارية 4K”

فيديو قصير للسوشيال

محتوى لـ TikTok / Reels

“باريستا يصب لاتيه آرت داخل مقهى دافئ ومشرق، لقطة متوسطة قريبة من خلف الكاونتر، ضوء صباحي ناعم من نوافذ كبيرة، بخار يتصاعد من الكوب، أصوات مقهى خافتة مع موسيقى جاز هادئة، صيغة عمودية 9:16”

وثائقي طبيعي

محتوى حياة برية أو طبيعة

“ثعلب أحمر يمشي بحذر داخل غابة ثلجية عند الغسق، لقطة واسعة منخفضة، ضوء ذهبي وردي يمر بين أشجار الصنوبر، يتوقف الثعلب وينظر إلى الكاميرا، أجواء غابة هادئة مع صوت الريح بين الأغصان، بان سينمائي بطيء يتبعه”

نصائح برومبت Veo 3

•أضف حركة الكاميرا — يستجيب Veo 3 جيدًا لتعليمات الكاميرا الواضحة. عبارات مثل “لقطة تتبع” أو “اقتراب بطيء” أو “لقطة واسعة ثابتة” تساعد كثيرًا في تحسين اتساق النتيجة.
•اذكر الإشارات الصوتية بوضوح — بما أن Veo 3 يولد الصوت أصلاً، فإن تسمية البيئة الصوتية مباشرة تعطيه إشارة أفضل: مثل “ضوضاء مرور في الخلفية” أو “موسيقى أوركسترالية ناعمة” أو “شخص يتحدث بهدوء”.
•حدّد نوع الإضاءة، لا تكتفِ بوصفها بأنها جميلة — بدلًا من “إضاءة جميلة”، اذكر ما إذا كانت golden hour أو ضوءًا غائمًا منتشرًا أو إضاءة نيون خلفية أو إضاءة استوديو ثلاثية. هذا يساعد في الظلال والخامات والواقعية.
•استخدم موضوعات وبيئات ملموسة — المشاهد المحددة والمرتكزة على الواقع تتفوق عادة على الأوصاف العامة أو المجردة. ذكر المواد والطقس والوقت ونوع المكان يثبت العالم الفيزيائي الذي يبنيه Veo 3.

كيفية استخدام مولد الفيديو بالذكاء الاصطناعي Veo 3 على GeminiPro

أنشئ أول فيديو سينمائي لك في ثلاث خطوات.

اكتب البرومبت

صِف المشهد وأسلوب الكاميرا والبيئة الصوتية باستخدام إطار الطبقات الثلاث. وفي image-to-video ارفع صورًا مرجعية لتوجيه مظهر الشخصية والأسلوب البصري.

اختر النموذج

اختر Veo 3.1 لأقصى جودة سينمائية، أو Veo 3.1 Fast لتكرار أسرع، أو Kling 2.6 / 3.0 إذا كنت تحتاج إلى مدة أطول أو تحكم أكبر بالكاميرا.

ولّد ثم نزّل

يُولد الفيديو بشكل غير متزامن، وستصلك إشعارات عند الجاهزية. بعد ذلك يمكنك تنزيله بجودة كاملة أو تمديده باستخدام ميزة تمديد الفيديو في Veo 3.1.

استكشف المزيد من أدوات الإبداع بالذكاء الاصطناعي على GeminiPro

من توليد الصور عبر Nano Banana إلى أفاتار AI وتحويل النص إلى كلام، يقدم GeminiPro مجموعة إبداعية متكاملة.

مولد الصور بالذكاء الاصطناعي

التحكم في الحركة

أفاتار AI

الأسئلة الشائعة حول Veo 3

أسئلة شائعة حول Google Veo 3 وVeo 3.1 على GeminiPro.

أنشئ أول فيديو Veo 3.1 اليوم

جرّب على GeminiPro أكثر نماذج الفيديو بالذكاء الاصطناعي سينمائية من Google: صوت AI أصلي، وحركة دقيقة فيزيائيًا، ووضع عمودي مخصص لمنصات الفيديو القصير، وكل ذلك من داخل المتصفح.

مولد فيديو بالذكاء الاصطناعي Veo 3.1

ما هو Veo 3؟ نموذج الفيديو السينمائي من Google DeepMind

Veo 3.1أفضل جودة سينمائية

Kling 2.6

Kling 3.0

المطور

Google DeepMind

Kuaishou

المدة القصوى

حتى 8 ثوانٍ

5 إلى 10 ثوانٍ

3 إلى 15 ثانية

الصوت الأصلي

نعم - حوار ومؤثرات وموسيقى

محدود

أقصى دقة

حتى 4K

حتى 1080p

حتى 4K

عمودي 9:16

نعم

متعدد اللقطات

—

نعم

التحكم بالكاميرا

قياسي

جيد

متقدم

مرجعية الصور

متعدد الصور

صورة واحدة

متعدد الصور

تمديد الفيديو

نعم

—

الأنسب لـ

جودة سينمائية وسرد بصوت AI

الحركة واللقطات الأطول

السرد متعدد اللقطات والتحكم المتقدم بالكاميرا

أنشئ أول فيديو Veo 3.1 اليوم