ماذا حدث؟
في 14 أكتوبر 2025، نشر T.J. Thomson، باحث في جامعة RMIT، دراسة في مجلة Visual Communication تُسلط الضوء على اختلاف رؤية أنظمة الذكاء الاصطناعي (AI) عن الرؤية البشرية.
استخدمت الدراسة نموذجاً لغوياً كبيراً لوصف مجموعتين من الصور التي أنشأها البشر: رسوم يدوية وصور فوتوغرافية. أُعيدت الأوصاف إلى أداة ذكاء اصطناعي لتوليد صور جديدة، ثم قُورنت بالصور الأصلية.
أظهرت النتائج أن الذكاء الاصطناعي يرى الصور الفوتوغرافية كنمط افتراضي، متجاهلاً الواقعية العالية ما لم يُطلب تحديدها، ويُركز على الحواف والزوايا والقوام بدلاً من العمق والمنظور.
كانت الصور المولدة أكثر إشراقاً وتشبعاً بالألوان، مع مبالغة في التفاصيل، مثل تحويل سيارة واحدة إلى قافلة سيارات، مما يعكس تأثير الصور المخزنة ذات التباين العالي في بيانات التدريب.
تجاهلت الأوصاف السياق الثقافي، مثل النصوص العربية أو العبرية، مما يُظهر هيمنة اللغة الإنجليزية في بيانات الذكاء الاصطناعي، وكانت الصور أكثر “صخباً” وأقل تخصيصاً مقارنة بالرسوم البشرية ذات الأشكال العضوية.
لماذا هذا مهم؟
تُبرز الدراسة الفجوة بين الرؤية البشرية، التي تعتمد على تحويل الضوء عبر العين والدماغ لتفسير الألوان والعمق، والرؤية الحاسوبية، التي تعالج الصور عبر مقارنة الأنماط والبيانات الوصفية مثل الوقت والموقع.
هذه الفجوة تؤثر على كيفية دمج أدوات الذكاء الاصطناعي في الحياة اليومية، حيث أصبحت قادرة على وصف الصور أو إنشائها بناءً على أوامر نصية، كما في اختبارات CAPTCHA التي تُحسن خوارزميات التعلم.
أهميتها تكمن في أن الصور المولدة، رغم جاذبيتها البصرية بألوانها الزاهية، تبدو “جوفاء” وأقل أصالة بسبب طابعها العام، مما يقلل تأثيرها العاطفي مقارنة بالصور البشرية التي تعكس ظروفاً محددة.
كما تُظهر هيمنة الإنجليزية في بيانات التدريب تحيزاً ثقافياً، حيث يفشل الذكاء الاصطناعي في التعرف على سياقات مثل النصوص غير اللاتينية، مما يحد من دقته في بيئات متنوعة.
هذا يطرح تساؤلات حول استخدام الذكاء الاصطناعي في مجالات مثل الإعلام والتصميم، حيث تكون الأصالة والعمق حاسمين.
ماذا بعد؟
من المتوقع أن تُحفز الدراسة تطوير أنظمة ذكاء اصطناعي أكثر حساسية للسياق الثقافي والعمق البصري، من خلال تنويع بيانات التدريب لتشمل لغات وثقافات غير إنجليزية، مما يعزز دقة الأوصاف والصور المولدة.
في المجالات الإبداعية، قد يُفضل المصممون الاعتماد على الرؤية البشرية لإنتاج صور أصيلة تثير استجابات عاطفية، بينما يُستخدم الذكاء الاصطناعي لتصنيف البيانات الضخمة بسرعة، كما في تحليل الصور الطبية أو الأرشيفات.
إذا استمر تحسين خوارزميات الرؤية الحاسوبية، قد تُصبح الصور المولدة أقل “صخباً” وأكثر واقعية بحلول 2030، لكن التحدي سيظل في تحقيق التوازن بين الكفاءة والأصالة.
في النهاية، سيُعزز فهم الفروق بين الرؤيتين الإنتاجية والأمان الرقمي، مما يتيح استخداماً أكثر فعالية للذكاء الاصطناعي في التواصل البصري، أو يُبقي الفجوة قائمة إذا لم تُعالج التحيزات الثقافية والتقنية.