की वर्तमान मीडिया लोकप्रियता के साथ ChatGPT यह भी बात करने का अवसर है DALL-E, एक और आर्टिफिशियल इंटेलिजेंस भी द्वारा डिज़ाइन किया गया AI खोलें ! और अधिक आम तौर पर छवि बनाने वाले एआई। जहां चैटजीपीटी आसानी से लिखित पाठ उत्पन्न करने में सक्षम है, वहीं डीएएल-ई और इसके जैसे अन्य लोगों को उपयोगकर्ता से एक सरल लिखित अनुरोध से छवियां बनाने के लिए प्रशिक्षित किया गया है।
आइए एक नजर डालते हैं कि वे कैसे काम करते हैं, उनकी क्षमताएं, लेकिन छवि बनाने वाले एआई के इस तुलनात्मक लेख के साथ उनकी सीमाएं भी।
लेकिन एआई कैसे काम करता है?
एक बहुत अच्छा सवाल जिस पर जल्दी वापस आना दिलचस्प हो सकता है, खासकर जब से हमने इसे चैटजीपीटी के बारे में अपने पिछले लेख में संबोधित नहीं किया था। जब आप "आर्टिफिशियल इंटेलिजेंस" सुनते हैं तो इस प्रकार के ह्यूमनॉइड रोबोट को ध्यान में रखना मुश्किल नहीं होता है जैसा कि हमने उन्हें फिल्मों में देखा है। यह वही है जो एआई स्वयं उत्पन्न करता है जब उनसे इन कीवर्ड की खोज के अनुरूप छवि के लिए कहा जाता है, जैसे कि इस लेख की परिचयात्मक छवि।
फिर भी हकीकत में, मौजूदा एआई में से कई के पास कोई भौतिक लिफाफा नहीं है। दरअसल, अधिकांश समय, यह विशिष्ट एल्गोरिदम पर आधारित कंप्यूटर प्रोग्राम होते हैं जिन्हें मनुष्यों द्वारा कुछ अधिक या कम जटिल कार्यों को करने के लिए प्रशिक्षित किया जाता है।
छवि निर्माण एक ऐसा कार्य है जिसे एक (या अधिक) एआई को सौंपा जा सकता है! एआई द्वारा चित्र बनाने के तरीकों के बारे में अधिक जानने के लिए, निम्न वीडियो देखने में संकोच न करें:
चलिए आर्टिफिशियल इंटेलिजेंस के साथ अपनी पहली इमेज बनाते हैं
ऐसा करने के लिए, पहली नजर में कुछ भी आसान नहीं हो सकता है, क्योंकि आपको केवल एआई को उस छवि का वर्णन करना है जिसे आप प्राप्त करना चाहते हैं। इस लेख के लिए हमने तीन AI जनरेटर द्वारा दी गई छवियों की तुलना करने का निर्णय लिया:
- DALL-E
- स्थिर प्रसार
- कैनवा (इमेज का टेक्स्ट)
बेशक, ऐसे अन्य भी हैं जिन्हें आपको परीक्षण करने में भी संकोच नहीं करना चाहिए। यहाँ एक है संक्षिप्त सूची.
यदि आप थोड़े रचनात्मक हैं, तो हमें यकीन है कि आपको छवियों को उत्पन्न करने के लिए बहुत सारे विचार मिलेंगे। लेकिन जिन लोगों के लिए यह थोड़ा अधिक जटिल होगा, उनके लिए थोड़ी मदद के लिए... ChatGPT से पूछना संभव है। हां, हमने एक एआई का इस्तेमाल दूसरे एआई का इस्तेमाल करने के लिए किया...
बेशक, एक छवि निर्माण मॉडल के रूप में, DALL-E छवियों की एक विस्तृत विविधता बना सकता है। यहां छवियों के लिए कुछ विचार दिए गए हैं जिन्हें आप DALL-E के साथ उत्पन्न कर सकते हैं:
- काल्पनिक जानवर: DALL-E से काल्पनिक जानवरों की छवियां बनाने के लिए कहें, जैसे तितली के पंखों वाला ड्रैगन या पैरों वाला सांप।
- अजीब खाद्य पदार्थ: DALL-E को चॉकलेट पिज्जा या तरबूज के स्लाइस वाले बर्गर जैसे असामान्य खाद्य पदार्थों की छवियां बनाने के लिए कहें।
- असामान्य कपड़े: डीएएल-ई से अजीब कपड़ों की छवियां बनाने के लिए कहें, जैसे एफिल टॉवर के आकार की टोपी या पंखों वाले जूते।
- काल्पनिक परिदृश्य: DALL-E को काल्पनिक परिदृश्यों की छवियां बनाने के लिए कहें, जैसे कि बादलों में तैरता शहर या विशाल मशरूम का जंगल।
- हाइब्रिड वस्तुएँ: DALL-E से उन वस्तुओं की छवियाँ उत्पन्न करने के लिए कहें जो दो अलग-अलग चीज़ों का मिश्रण हों, जैसे एक झूला जैसा दिखने वाला बिस्तर या पक्षी के पंखों वाली कार।
- सेलेब्रिटी पोर्ट्रेट्स: DALL-E से उन सेलिब्रिटी पोर्ट्रेट्स की छवियां बनाने के लिए कहें जो मौजूद नहीं हैं, जैसे टैटू के साथ मर्लिन मुनरो का वैकल्पिक संस्करण।
- फ्यूचरिस्टिक कारें: डीएएल-ई से फ्यूचरिस्टिक कारों की छवियां बनाने के लिए कहें, जैसे कि एक कार जो एक हवाई जहाज में बदल सकती है या एक कार जो उड़ सकती है।
- काल्पनिक वास्तुकला: डीएएल-ई से कल्पना वास्तुकला की छवियां उत्पन्न करने के लिए कहें, जैसे ड्रैगन के आकार की गगनचुंबी इमारत या पेड़ की तरह दिखने वाला घर।
ये विचार आपको केवल एक विचार देने के लिए सुझाव हैं कि DALL-E क्या कर सकता है। आप इस एआई टेम्पलेट के साथ हजारों अन्य छवि विचार उत्पन्न कर सकते हैं।
प्रत्येक एआई की अपनी शैली होती है
इस सूची के साथ, आइए एक साथ देखें कि अपनी छवियों को कैसे उत्पन्न किया जाए, और चुने गए विभिन्न सॉफ्टवेयरों में से कौन सा सबसे अच्छा काम करता है।
अपनी पहली छवि के लिए हमने तितली के पंखों वाले ड्रैगन का प्रतिनिधित्व करना चुना। कुछ संदर्भ जोड़ने के लिए, हम इसे "एक परी कथा काल्पनिक वन" में दर्शाने के लिए भी कह रहे हैं। आईएएस के आधार पर, अनुरोध की भाषा परिणाम को प्रभावित कर सकती है। तो हमने जल्दी से पाया कि DALL-E और स्थिर प्रसार के लिए अंग्रेजी सर्वश्रेष्ठ परिणाम देने वाली भाषा रही। इसके विपरीत, कैनवा का टेक्स्ट टू इमेज एप्लिकेशन आमतौर पर फ्रेंच में बेहतर काम करता है।
1. DALL-E ने तितली-पंखों वाले ड्रैगन की तस्वीरें बनाईं
2. स्थिर प्रसार द्वारा उत्पन्न ड्रेगन
3. और अंत में जिसे हमने कैनवा टूल के लिए चुना था
पहली चीज जो हम बहुत जल्दी देख सकते हैं: एक ही अनुरोध के लिए, प्रत्येक AI की अपनी शैली होती है!
- DALL-E का एक "कल्पनाशील" पक्ष है, हालांकि "परी कथा" वन परी के लिए थोड़ा अंधेरा है, तितली के पंखों का अच्छी तरह से प्रतिनिधित्व और साफ-सुथरा है। यह स्टाइल में है कला डिजिटल.
- स्थिर प्रसार में शैली अधिक "हर्षित" होती है, थोड़ा बचकाना. हम बच्चों के लिए एक कहानी को दर्शाने वाली इन छवियों की बहुत अच्छी तरह से कल्पना करते हैं। यहाँ ड्रेगन स्पष्ट रूप से दिखाई देते हैं और चीन को याद करते हैं, जिसका यह प्रतीक है। दूसरी ओर, एआई ने तितली के पंखों को पूरी तरह से अस्पष्ट कर दिया और असली तितलियों को हमारे ड्रेगन के साथ दिखाई देकर आसान समाधान चुना।
- अंत में कैनवा टूल के लिए, हमने चयन से हमारे अनुरोध के अनुरूप एकमात्र छवि का चयन किया। हालाँकि, दो तत्व (ड्रैगन और पंख यहाँ मौजूद हैं)। जबकि सभी छवियां विषय-वस्तु और कार्रवाई योग्य हैं, कैनवा ईमानदारी से अनुरोध को क्रियान्वित करने में सबसे अच्छा करता है और इसलिए यहां पहला अंक अर्जित करता है।
अनुरोधित छवि की कलात्मक शैली की संभावनाएं क्या हैं?
यदि कला शैली के बारे में किसी विवरण का अनुरोध नहीं किया जाता है, तो एआई आपके लिए उनका चयन करेंगे जैसा कि ड्रैगन के उदाहरण में किया गया है।
फिर भी, उदाहरण के लिए, Dall-e पर निम्नलिखित शैलियों को परिभाषित करना संभव है:
- पिंटूर l'huile : दल-ए उन रंगों और बनावटों के विवरण से तैल चित्र बना सकता है, जिन्हें आप पेंटिंग में देखना चाहते हैं।
- फोटोग्राफी : डल-ई फोटो में आप जो रंग, बनावट और विवरण देखना चाहते हैं, उसके आधार पर फोटो उत्पन्न कर सकते हैं।
- डिजिटल कला : Dall-e पूर्व-डिज़ाइन किए गए टेम्पलेट से या आर्टवर्क में आप जो रंग और विवरण देखना चाहते हैं, उसके विवरण से डिजिटल आर्टवर्क तैयार कर सकते हैं।
- अमूर्त कला : Dall-e आप काम में देखना चाहते हैं आंदोलनों, रंग और आकार के आधार पर अमूर्त कार्यों का उत्पादन कर सकते हैं।
- डिज़ाइन : डल-ई उन रंगों और आकारों के आधार पर डिज़ाइन तैयार कर सकता है जिन्हें आप डिज़ाइन में देखना चाहते हैं।
- वेक्टर कला : Dall-e एक पूर्वनिर्धारित टेम्पलेट से या उन रंगों और विवरणों के विवरण से सदिश छवियां उत्पन्न कर सकता है जिन्हें आप छवि में देखना चाहते हैं।
ड्रैगन के उदाहरण डिजिटल आर्ट शैली में बनाई गई एक प्राथमिकता थी। शैली अंतिम उत्पन्न छवि को दृढ़ता से प्रभावित करेगी।
मजबूत अभी भी, की शैलियों का अनुरोध करना संभव है कुछ प्रसिद्ध कलाकार. इसलिए हमने शैली में एक चैट तैयार की पिकासो, वान गाग और डाली ! और परिणाम हैं...काफी आश्चर्यजनक!
3 महान पेंटिंग मास्टर्स की शैलियों में हमारी एआई-तैयार बिल्ली
बेहतर है, हमने फिर एक "के लिए कहा पिकासो और डाली और वान गाग शैली में बिल्ली और हमें यह मिला:
हमने भी अनुरोध किया है "पिकासो शैली में सुअर" और परिणाम समान रूप से, यदि अधिक नहीं, प्रभावशाली था ...
एआई के आने वाले वर्षों में कला और इंटरनेट के क्षेत्र में क्रांति लाने की संभावना है, जो पहले से ही सट्टा एनएफटी के मामले में है।
हम समझते हैं पेशेवरों का अविश्वास इन कलात्मक एआईएस की तुलना में कला के बारे में, उनके डर वैसी ही हैं जैसे कि चैटबॉट जैसे प्रकाशन और साहित्यिक सृजन के साथ-साथ चैटजीपीटी! वे सही हैं, ये सभी आशंकाएँ, हमारी राय में, उचित हैं!
Dall-e के साथ छवि बनाने का अनुरोध करने के विभिन्न तरीके क्या हैं?
Dalle-e के साथ एक छवि के निर्माण को इंगित करने के लिए कई तरीकों का उपयोग किया जा सकता है, जिसमें आपकी आवश्यकताओं के अनुरूप तेज़ परिणाम के लिए ग्राफ़िक विधियाँ शामिल हैं:
- कीवर्ड से चित्र बनाना : आप एक कीवर्ड दर्ज कर सकते हैं और डल-ए आपके द्वारा दर्ज किए गए कीवर्ड के आधार पर एक छवि तैयार करेगा।
- वाक्यों से चित्र बनाना : आप एक पूरा वाक्य दर्ज कर सकते हैं और डल-ए आपके द्वारा दर्ज किए गए वाक्य के आधार पर एक छवि तैयार करेगा।
- छवि विवरण से छवियां उत्पन्न करना : Dall-e उन रंगों, आकृतियों और वस्तुओं के विस्तृत विवरण से छवियां उत्पन्न कर सकता है जिन्हें आप छवि में देखना चाहते हैं।
- दृश्यों से चित्र बनाना : दल-ई एक दृश्य के पूर्ण विवरण से 3डी छवियां उत्पन्न कर सकता है।
- पैटर्न से चित्र बनाना : Dall-e आपके द्वारा इनपुट किए गए पैटर्न से छवियां उत्पन्न कर सकता है।
- टेम्पलेट्स से छवियां उत्पन्न करना : आप Dall-e को एक पूर्वनिर्धारित टेम्पलेट प्रदान कर सकते हैं और यह आपके द्वारा प्रदान किए गए टेम्पलेट के आधार पर छवियों का उत्पादन करेगा।
- एनिमेटेड अनुक्रमों से छवियों का निर्माण : Dall-e आंदोलनों, रंगों और ध्वनियों के विवरण से एनिमेटेड अनुक्रम उत्पन्न कर सकता है जिसे आप अनुक्रम में देखना चाहते हैं।
यथार्थवादी लेकिन असंभव छवियां
हमने तब अपने एआई इमेज जेनरेटर से हमें आकर्षित करने के लिए कहा आंखों वाला सलाद : दो तत्व जो पहली नज़र में एक साथ नहीं चलते। फिर भी इस स्तर पर, हमारे 3 जनरेटर बिना किसी स्पष्ट कठिनाई के आए।
1. डीएएल-ई द्वारा प्रस्तावित आंखों के साथ सलाद की चार छवियां
2. स्थिर प्रसार द्वारा उत्पन्न हमारे अनुरोध के अनुरूप दो छवियां
3. और कैनवा टूल के लिए दो संबंधित इमेज
यहाँ फिर से, प्रत्येक छवि की अपनी शैली है, लेकिन जो विशेष रूप से हड़ताली है वह विभिन्न छवियों का यथार्थवाद है: एआई ने फोटोग्राफिक शैली का उपयोग किया है।
हम खाद्य पदार्थों को विशेष रूप से अच्छी तरह से पहचानते हैं, इस बात के लिए कि हम रसोई में प्रस्तावित विभिन्न विचारों को पुन: पेश करना चाहें। यदि कैनवा फिर भी "इमोटिकॉन" प्रेरणा के साथ एक छवि पेश करके अपनी मौलिकता के लिए खड़ा है, तो यह यहाँ DALL-E है जो चार अलग-अलग छवियों और सभी अनुरोधित थीम के साथ बिंदु जीतता है।
Stable Diffusion के फ्लॉप होने के बीच, छवियों में से एक अभी भी वापस आने लायक है
वास्तव में, इस छवि को समाप्त कर दिया गया क्योंकि इसमें आँखें शामिल नहीं हैं, हम दूसरी ओर कार्य योजना के प्रतिनिधित्व में एआई के यथार्थवाद के प्रयास को देखते हैं।
हमारे एआई वास्तव में "सलाद" शब्द को संबंधित वातावरण से जोड़ने में सक्षम हैं। उपरोक्त छवियों के मामले में यह पहले से ही था प्लेट, कांटे का प्रतिनिधित्व और पाक क्षेत्र से संबंधित अन्य तत्व।
फ्लॉप जो अभी भी नियमित हैं
उनकी सामान्य दक्षता के बावजूद, हमारे एआई अभी भी अच्छी मात्रा में उत्पन्न करते हैं औसत दर्जे की, गलत छवियां मांग के साथ पूरी तरह से बाहर दिखती हैं. यह हाल हमारा था एफिल टॉवर के आकार की टोपी.
DALL-E ने हमारे अनुरोध पर आने वाली अपनी एकमात्र छवि के साथ बिंदु जीत लिया: एक सफेद टोपी, एक लघु टॉवर द्वारा आच्छादित जिसकी हम पूरी तरह से कल्पना करेंगे जिनेविएव डे फोंटेने के प्रमुख !
ओपन एआई के एआई द्वारा पेश किए गए इस छोटे से खीस के अलावा, अन्य चित्र या तो बहुत यथार्थवादी थे, बस एक तत्व का प्रतिनिधित्व करते हुए दूसरे को अस्पष्ट करते हुए:
पहली छवि में स्थिर प्रसार टॉवर का प्रतिनिधित्व करता है, जबकि दूसरी छवि में DALL-E ने हमें टोपियों का ढेर भेजने के लिए चुना, हमारे अनुरोध के दूसरे भाग को भी अस्पष्ट कर दिया।
या तो उन्हें अनुरोध की गलत समझ थी क्योंकि इन दो छवियों में DALL-E एफिल टॉवर की स्मारिका मूर्तियों का प्रतिनिधित्व करता है:
अंत में, कुछ छवियां कभी-कभी पूरी तरह से लीक से हटकर होती हैं, जैसा कि इस छवि के मामले में "आईए स्थिर प्रसार की कल्पना से व्यक्ति" का प्रतिनिधित्व करने वाला था, जिसने फिर एक अज्ञात भाषा में सहज रूप से एक उद्धरण जोड़ने का फैसला किया ... अंग्रेजी से करीब ...
एक संवेदनशीलता जो कभी-कभी शब्द दर शब्द बदलती है
परीक्षणों को पूरा करने से, हम जल्दी से महसूस करते हैं कि असंतोषजनक परिणामों की स्थिति में हमारे एआई के लिए स्थिति को सही करने के लिए कभी-कभी यह पर्याप्त होता है। इसलिए जब हम उनमें से प्रत्येक के लिए सबसे अच्छी छवि का चयन करके पहली बार अपने एआई से "एक बादल भरे आकाश में एक तैरता हुआ शहर" पूछते हैं, तो हमें निम्नलिखित परिणाम मिलते हैं:
क्रमशः ऊपर से नीचे तक, स्थिर प्रसार, DALL-E और Canva के परिणाम
बहुत अच्छी छवियां, लेकिन जो वास्तव में मनुष्यों द्वारा समझे गए हमारे अनुरोध के "अवास्तविक" अर्थ को प्रतिबिंबित नहीं करती हैं, लेकिन स्पष्ट रूप से हमारे जनरेटर द्वारा नहीं। पूरी तरह से अलग परिणाम प्राप्त करने के लिए मांग में एक सूक्ष्म परिवर्तन होता है।
तो वाक्य के साथ "एक शानदार शहर एक बादल आकाश में तैरता हुआ" हमें यह समय मिलता है:
1. डीएएल-ई से बहुत अधिक कल्पनाशील इमेजरी
2. स्थिर प्रसार से बहुत सुंदर शानदार शहर जो हालांकि "बादल भरे आकाश में तैरते" भाग को पूरी तरह से छोड़ देते हैं
3. कुछ दृश्य जो कैनवा द्वारा वीडियो गेम (उदाहरण के लिए माइनक्राफ्ट या लेगो वर्ल्ड) से लिए जा सकते हैं
यहां हम DALL-E और Canva के लिए एक बिंदु प्रदान कर सकते हैं, जो हमारे एक या अन्य अनुरोधों के माध्यम से, हमारे शहर को बादलों में तैरने में कामयाब रहे।
लेकिन फिर, छवियों की पीढ़ी के लिए क्या भविष्य?
एक ऐसे समाधान का सामना करना जो समग्र रूप से काफी अच्छी तरह से काम करता है, एक आश्चर्य है कि कृत्रिम बुद्धि द्वारा छवियों की पीढ़ी का भविष्य क्या हो सकता है। निश्चित रूप से यहाँ उद्धृत करने का मन कर रहा है कि रचनाएँ इंटरनेट पर असफल हों, तो आने में संकोच न करें हमारे पर पोस्ट करें forum जिन्हें आप पहले ही ऑनलाइन देख चुके होंगे।
लेकिन हम और अधिक गंभीर उपयोगों की कल्पना भी कर सकते हैं। इस प्रकार कैनवा टूल को "पेड़ जो वास्तव में एक घर है" की छवि बनाने के लिए कहकर प्राप्त किए गए परिणाम आसानी से प्रकृति में मिश्रण करने वाले आवास बनाने के लिए जिम्मेदार एक वास्तुकार को विचार दे सकते हैं!
लेकिन फिर, हमारे 3 इमेज जेनरेटर में से कौन सबसे अच्छा काम कर रहा है?
पेड़ के लिए जो एक घर भी होगा, हम आसानी से प्रत्येक उपकरण को एक बिंदु देते हैं!
क्रमशः DALL-E, स्थिर प्रसार और फिर Canva टूल द्वारा प्रस्तावित छवियों के उदाहरण
पक्षियों के पंखों वाली कार ने हमारे सभी एआई को चुनौती दी थी, लेकिन जो कार उड़ सकती है, उसने कैनवा और स्टेबल डिफ्यूज़न को कुछ बहुत ही यथार्थवादी फ्यूचरिस्टिक रेंडर के साथ बाहर खड़े होने की अनुमति दी:
क्रमशः स्थिर प्रसार शीर्ष पर और कैनवा तल पर।
अंतत: डीएएल-ई ने खुद को इसके साथ काफी कुशल दिखाया है ड्रैगन के आकार का भवन (जो अभी भी निर्माणाधीन है), और कैनवा एक चित्र के अनुरोध को पूरा करने में सक्षम था जिसे हमने सेलिब्रिटी को "एआई की कल्पना से एक व्यक्ति" के साथ बदलकर कुछ हद तक संशोधित किया था।
अंतिम गिनती में, ये इसलिए हैं DALL-E और Canva's टूल जो क्रमशः 5 अंक जीतते हैं।
वे आम तौर पर अधिकांश उपयोगकर्ता अनुरोधों के अनुरूप परिणाम प्रदान करने में सक्षम होते हैं।
Canva अपने यथार्थवाद के लिए खड़ा है जबकि DALL-E अधिक प्रासंगिक लगता है जैसे ही अनुरोध के लिए कल्पना या पेंटिंग के क्षेत्र की आवश्यकता होती है।
हालाँकि, केवल 2 बिंदुओं के बावजूद, स्थिर प्रसार उस छवि गुणवत्ता में विफल नहीं होता है जो वह प्रदान करने में सक्षम है! नकारात्मक पक्ष उपयोगकर्ता के अनुरोधों की उनकी समझ में निहित है क्योंकि वह अक्सर पृथ्वी से बहुत नीचे रहने की प्रवृत्ति रखते हैं। हालाँकि, यह खोजना भी बहुत दिलचस्प है।
वैसे भी, हम आने वाले वर्षों में आर्टिफिशियल इंटेलिजेंस को गतिविधि के कई क्षेत्रों में क्रांति देखने की उम्मीद कर सकते हैं। और निश्चित रूप से तेजी से कुछ सोचते हैं एआई द्वारा लिखी गई किताबें, आंशिक या पूर्ण रूप से, पहले से ही अमेज़न पर बिक्री के लिए उपलब्ध हैं...BFMTV की इस शॉर्ट वीडियो रिपोर्ट में कुछ दिनों पहले इसके बारे में बात की गई थी: