[ad_1]

اکنون یک مدل جدید با هوش مصنوعی می تواند چنین تصاویری را با وضوح – و شیرینی ایجاد کند.

این هفته ، شرکت تحقیقاتی غیرانتفاعی OpenAI DALL-E را منتشر کرد که می تواند انبوهی از تصاویر جذاب ، غالباً سورئال را از درخواست های نوشته شده مانند “صندلی راحتی به شکل آووکادو” یا “عکس کبابار نشسته در یک میدان هنگام طلوع آفتاب” ایجاد کند. “(و بله ، نام DALL-E بندری است که به هنرمند سورئالیست سالوادور دالی و فیلم علمی تخیلی انیمیشن” WALL-E “اشاره دارد)

در حالی که از هوش مصنوعی سالها برای تولید تصاویر از متن استفاده می شود ، این تمایل به ایجاد لکه ها ، تصاویر پیکسلی با شباهت محدود به اشیا or واقعی یا تصور دارد. یکی از موسسه هوش مصنوعی آلن ایده ای از آخرین وضعیت هنر را ارائه می دهد. با این حال ، بسیاری از خلاقیت های DALL-E که توسط OpenAI در یک پست وبلاگی نشان داده شده ، تازه و واضح به نظر می رسد و از پیچیده اما جذاب برخوردار است (تربچه و سگ های فوق الذکر ؛ روباه ها به سبک نگاه اجمالی ؛ صندلی هایی که شبیه نیم آووکادو هستند ، در مجموعه ای از لنت ها برای چاله ها) کاملاً واقعی (چشم اندازهای پل گلدن گیت در سانفرانسیسکو یا کاخ هنرهای زیبا).

ایلیا ساتسكور ، بنیانگذار OpenAI و دانشمند ارشد آن ، گفت: این مدل گامی به سوی هوش مصنوعی است كه هم با متن و هم با تصاویر كاملاً آشنا است. و این به آینده ای اشاره دارد که هوش مصنوعی ممکن است بتواند دستورالعمل های پیچیده تری را برای برنامه های خاص دنبال کند – مانند ویرایش عکس یا ایجاد مفاهیمی برای مبلمان جدید یا سایر موارد – در حالی که س questionsالاتی راجع به معنی انجام یک کامپیوتر ایجاد می کند با کارهای هنری و طراحی که به طور سنتی توسط انسان انجام می شود.

صندلی راحتی به شکل آووکادو

DALL-E نسخه ای از مدل AI OpenAI موجود به نام GPT-3 است که سال گذشته برای بسیاری از طرفداران منتشر شد. GPT-3 در متن میلیاردها صفحه وب آموزش دیده است تا بتواند به درخواستهای نوشتاری پاسخ دهد ، از مقاله های خبری گرفته تا دستور العمل ها و شعرها تولید می کند. برای مقایسه ، DALL-E در جفت های تصویر و متن مربوط به آن آموزش داده شده است به گونه ای که به نظر می رسد می تواند به درخواست های نوشته شده با تصاویر پاسخ دهد که ممکن است به طرز شگفت انگیزی شبیه آنچه تصور می شود باشد. OpenAI سپس از مدل AI جدید دیگری به نام CLIP برای تعیین بهترین نتایج استفاده می کند. (CNN Business نتوانست به تنهایی با هوش مصنوعی آزمایش کند.)

آدیتیا رامش ، که هدایت ایجاد DALL-E را بر عهده داشت ، اظهار داشت که وی از توانایی آن در پذیرش دو مفهوم غیر مرتبط و ترکیب آنها در چیزی شبیه به اشیا functional کاربردی مانند صندلی های آووکادو و افزودن قطعات انسانی به آن تعجب کرده است. بدن (به عنوان مثال سبیل) برای تحریک حیوانات مانند سبزیجات در مکانی که منطقی است.

این هوش مصنوعی پر سر و صدا و جدید می تواند دستور العمل هایی با صدای انسان ایجاد کند ، اما هنوز هم طعم خوبی دارند

OpenAI که توسط الون ماسک تاسیس شده و مایکروسافت را یکی از حامیان خود می داند ، هنوز مشخص نکرده که چگونه و چه زمانی این مدل را عرضه می کند. در حال حاضر ، تنها راهی که می توانید امتحان کنید ویرایش موارد در پست وبلاگ DALL-E ، انتخاب کلمات مختلف برای پر کردن آنها از لیست های کشویی است: به عنوان مثال ، “صندلی آووکادو” را می توان تغییر داد از “ساعت مکعب روبیک”. با این حال ، حتی در این محدوده ها ، روش های زیادی برای دستکاری دستورالعمل ها وجود دارد تا ببینید DALL-E چه چیزی تولید خواهد کرد ، خواه ساعت مکعبی به سبک دهه 80 ، نمای مقطعی سر انسان یا خال کوبی کنگر فرنگی بنفش.

مارک ریدل ، دانشیار انستیتوی فناوری جورجیا که به مطالعه هوش مصنوعی متمرکز بر انسان می پردازد ، گفت تصاویر ایجاد شده توسط این مدل “واقعاً سازگار” به نظر می رسند. علی رغم این واقعیت که او مستقیماً به DALL-E دسترسی ندارد ، اما نشان داد که هوش مصنوعی مفاهیم خاصی را می فهمد و نحوه ترکیب آنها را از لحاظ بصری درک می کند.

وی گفت: “می بینید ، او سبزیجات را می فهمد ، بسته های نرم افزاری را می فهمد ، او می فهمد که چگونه می توان بسته ای را روی سبزیجات قرار داد.”

فلامینگو با گربه تنیس بازی می کند

OpenAI به CNN Business اجازه داد چندین درخواست اصلی ارسال کند که از طریق مدل اجرا شده اند. آنها عبارتند از: “تصویری از یک قایق با عنوان” تولدت مبارک “. “تصویر پاندا در حال خوردن آب نبات”. “تصویر ساختمان امپایر استیت هنگام غروب آفتاب” و “تصویر یک فلامینگو در حال بازی تنیس با گربه”.

DALL-E با دستورالعمل های پیچیده تر کار سخت تری دارد.  این یکی پرسید

به نظر می رسد که تصاویر بدست آمده ، نقاط قوت و ضعف DALL-E را منعکس می کند ، پانداها با خوردن آبنبات پنبه ای و تجسم رایانه ای چیزی شبیه به ساختمان Empire State هنگام غروب خورشید ، آرام به نظر می رسند. به نظر می رسد که نوشتن کلمات یا عبارات طولانی تر برای مدل دشوار است (و شاید او به طور گسترده ای در مورد تصاویر قایق آموزش ندیده باشد) ، بنابراین قایق های به تصویر کشیده کمی عجیب به نظر می رسند و تنها یکی از نتایج ما بسیار روشن “تولدت مبارک”. همچنین برای DALL-E ارائه نتایج واضح برای اعلان هایی که بسیاری از اشیا را شامل می شود دشوار است. در نتیجه ، بسیاری از تصاویر فلامینگو در حال بازی-تنیس-با-گربه کوچک ، خوب ، عجیب به نظر می رسید.

رامش توضیح داد: “اگرچه او در بعضی کارها موفق است ، اما در بعضی موارد شکننده است.”

این پانداهای آبنبات خورده پنبه ای از یک مدل AI به نام DALL-E ساخته شده اند.

ریدل همچنین سعی کرد با ویرایش یکی از مواردی که انتظار داشت اطلاعات زیادی در مورد آموزش نداشته باشد ، DALL-E را آزمایش کند: میگوهایی که لباس خواب می پوشند و با بادبادک پرواز می کنند. این ترکیب منجر به ایجاد تصاویری شد که نسبت به تربچه های موجود در بسته که در حال راه رفتن با یک سگ هستند ، تار و لکه دارتر بودند.

شاید دلیل این امر این باشد که هرچه مفهوم موجود در مجموعه داده ها زیر پا گذاشته شود – که از آنچه در اینترنت خارج می شود – برای بازی کردن با یک مدل هوش مصنوعی راحت تر است. این بدان معنی است که آنچه واقعاً او را متعجب کرده این است که چند عکس از سبزیجات متحرک باید بصورت آنلاین وجود داشته باشد.

[ad_2]

منبع: pezeshk-khabar.ir