क्लासिक आर्केड गेम क्यू * बर्ट में एक कारनामे की खोज करने और उसके साथ चलने के बाद एक एआई ने सबसे अच्छी मानवता के साथ धोखा देने में कामयाबी हासिल की है।
जबकि एआई के पहले के पुनरावृत्तियों ने क्यू * बर्ट को ठीक से खेला होगा, कुछ बिंदु पर यह सीखने में कि खेल कैसे काम करता है, यह एक ऐसे कारनामे का पता लगाता है जो इसे पागल बिंदुओं को रैक करने देता है। स्वाभाविक रूप से, किसी भी स्कोर-शिकार खिलाड़ी के रूप में, यह प्रक्रिया को दोहराता है ताकि यह अपने स्कोर को सबसे प्रभावी तरीके से बढ़ा सके।
आप नीचे दिए गए वीडियो में AI को प्लेटफॉर्म के आसपास काम करते हुए देख सकते हैं। सबसे पहले, ऐसा लगता है कि यह प्लेटफार्मों के बीच लक्ष्यहीन रूप से कूद रहा है। अगले दौर में खेल की प्रगति को देखने के बजाय, क्यू * बर्ट एक लूप में फंस जाता है, जहां इसके सभी प्लेटफॉर्म फ्लैश करना शुरू कर देते हैं - यह यहां है कि एआई फिर स्कोर-उन्माद पर बड़े अंकों की रैकिंग कर सकता है।
आगे पढ़िए: सबसे विवादास्पद गेम रिकॉर्ड्स में से एक को अंततः बदनाम कर दिया गया है
सिम्स 4 में चीट कैसे चालू करें
एआई ने क्यू*बर्ट युद्ध कैसे जीता
शीर्षक के लिए सर्वकालिक रिकॉर्ड को तोड़ते हुए, AI ने अपनी विकास रणनीति एल्गोरिथम प्रोग्रामिंग के लिए एक असंभव उच्च स्कोर प्राप्त किया। विकास रणनीतियाँ (ES) सामान्य रीइन्फोर्समेंट लर्निंग (RL) से भिन्न होती हैं, जिसे पारंपरिक AI उपयोग करता है क्योंकि इसे पीढ़ीगत सीखने के कारण अधिक स्केलेबल के रूप में देखा जाता है।
प्रत्येक लर्निंग लूप को एक पीढ़ी के रूप में संदर्भित किया जाता है और यह तब तक अपना कार्य जारी रखता है जब तक कि एक निर्धारित शर्त पूरी नहीं हो जाती (इस मामले में, एक उच्च-स्कोर)। प्रत्येक अगली पीढ़ी के साथ, एआई पिछली पीढ़ी के ज्ञान को अवशोषित करता है और इसलिए उसी लक्ष्य को प्राप्त करने और उसे पार करने में बेहतर होता है। चलते रहें, और आप एक एआई के साथ समाप्त हो जाएंगे जो अपने कार्य में बिल्कुल बेजोड़ है। ठीक यही यहाँ Q*bert स्कोर के साथ हुआ।
में उल्लिखित कागज़ , जर्मनी के फ्रीबर्ग विश्वविद्यालय के शोधकर्ताओं द्वारा पिछले सप्ताह प्रकाशित किया गया था, ऐसा प्रतीत होता है कि बग एक ज्ञात मात्रा नहीं थी। वास्तव में, जबकि वे बग को खोजने के बारे में बहुत आश्चर्यचकित नहीं हैं, यह देखना दिलचस्प है कि एआई फिर कैसे आगे बढ़ता है और हर बार अपनी स्कोरिंग क्षमता को अधिकतम करने के लिए इसका फायदा उठाना सीखता है।
आगे पढ़िए: यह कृत्रिम बुद्धिमत्ता सुपर मारियो ब्रदर्स में महारत हासिल करना सीख रही है
बग को खोजने के लिए, एजेंट को पहले पहले स्तर को लगभग पूरा करना सीखना था - यह एक बार में नहीं किया गया था, लेकिन कई छोटे सुधारों का उपयोग करके, शोधकर्ताओं ने समझाया रजिस्टर . हमें संदेह है कि प्रशिक्षण में कुछ बिंदु पर संतान समाधानों में से एक को बग का सामना करना पड़ा और अपने भाई-बहनों की तुलना में बेहतर स्कोर प्राप्त हुआ, जिसने बदले में अद्यतन में अपना योगदान बढ़ाया - भारित माध्य में इसका वजन सबसे अधिक था। यह धीरे-धीरे समाधान को उस स्थान पर ले गया जहां अधिक से अधिक संतानों को एक ही बग का सामना करना पड़ा।
हम सटीक परिस्थितियों को नहीं जानते हैं जिसके तहत बग प्रकट होता है; यह संभव है कि यह केवल तभी प्रकट होता है जब एजेंट एक ऐसे पैटर्न का पालन करता है जो उप-इष्टतम प्रतीत होता है, [उदाहरण के लिए जब एजेंट समय बर्बाद करता है, या यहां तक कि एक जीवन भी खो देता है]। यदि ऐसा होता, तो मानक RL के लिए बग ढूँढना बेहद कठिन होता: यदि आप वृद्धिशील पुरस्कारों का उपयोग करते हैं तो आप ऐसी रणनीतियाँ सीखेंगे जो कुछ समय के लिए कई पुरस्कार नहीं देने वाली रणनीतियों को सीखने के बजाय कुछ इनाम जल्दी से प्राप्त करती हैं और फिर अचानक बड़ी जीत।
संबंधित देखें ड्रैगस्टर चैंपियन टॉड रोजर्स ने 35 साल बाद अपना ताज खो दिया है यह आर्टिफिशियल इंटेलिजेंस 17 दिनों से सुपर मारियो ब्रोस 1-2 में महारत हासिल करना सीख रहा है इसे देखें AI Twitch पर GTA V में ड्राइव करना सीखें
हालांकि, बॉट के अद्भुत परिणामों के बावजूद, शोधकर्ता यह नहीं कह रहे हैं कि यह आरएल पर ईएस सीखने का मामला है। वास्तव में, दोनों प्रणालियों की अपनी समस्याएं हैं और दोनों के संयोजन को बड़े पैमाने पर आगे बढ़ने के सर्वोत्तम विकल्प के रूप में देखा जाता है।
अन्य अटारी खेलों पर समान ES पद्धति समान सकारात्मक परिणामों के करीब कहीं भी नहीं लाती है। दूसरी ओर, RL दुनिया के सर्वश्रेष्ठ GO खिलाड़ी को हराने सहित, बाएं, दाएं और केंद्र के रिकॉर्ड को तोड़ने के लिए जिम्मेदार है। हालाँकि, ES का अभी भी चीजों में अपना स्थान है, और यह वास्तव में है कि कैसे Nvidia अपने AI प्रशिक्षण का बहुत अधिक प्रदर्शन करता है, क्योंकि इसके लिए अधिक कम्प्यूटेशनल शक्ति की आवश्यकता होती है, लेकिन लंबी अवधि में बेहतर परिणाम प्राप्त होते हैं।
एआई विकास के लिए भविष्य चाहे जो भी हो, कम से कम सिस्टम को धोखा देने वाला यह बॉट इतना बुरा नहीं है अब अपमानित वीडियो गेम विश्व चैंपियन .