एआई क्यू * बर्ट में उस तरह से धोखा देना सीखता है जैसे पहले कभी किसी इंसान ने नहीं किया

क्लासिक आर्केड गेम क्यू * बर्ट में एक कारनामे की खोज करने और उसके साथ चलने के बाद एक एआई ने सबसे अच्छी मानवता के साथ धोखा देने में कामयाबी हासिल की है।

जबकि एआई के पहले के पुनरावृत्तियों ने क्यू * बर्ट को ठीक से खेला होगा, कुछ बिंदु पर यह सीखने में कि खेल कैसे काम करता है, यह एक ऐसे कारनामे का पता लगाता है जो इसे पागल बिंदुओं को रैक करने देता है। स्वाभाविक रूप से, किसी भी स्कोर-शिकार खिलाड़ी के रूप में, यह प्रक्रिया को दोहराता है ताकि यह अपने स्कोर को सबसे प्रभावी तरीके से बढ़ा सके।

आप नीचे दिए गए वीडियो में AI को प्लेटफॉर्म के आसपास काम करते हुए देख सकते हैं। सबसे पहले, ऐसा लगता है कि यह प्लेटफार्मों के बीच लक्ष्यहीन रूप से कूद रहा है। अगले दौर में खेल की प्रगति को देखने के बजाय, क्यू * बर्ट एक लूप में फंस जाता है, जहां इसके सभी प्लेटफॉर्म फ्लैश करना शुरू कर देते हैं - यह यहां है कि एआई फिर स्कोर-उन्माद पर बड़े अंकों की रैकिंग कर सकता है।

आगे पढ़िए: सबसे विवादास्पद गेम रिकॉर्ड्स में से एक को अंततः बदनाम कर दिया गया है

सिम्स 4 में चीट कैसे चालू करें

एआई ने क्यू*बर्ट युद्ध कैसे जीता

शीर्षक के लिए सर्वकालिक रिकॉर्ड को तोड़ते हुए, AI ने अपनी विकास रणनीति एल्गोरिथम प्रोग्रामिंग के लिए एक असंभव उच्च स्कोर प्राप्त किया। विकास रणनीतियाँ (ES) सामान्य रीइन्फोर्समेंट लर्निंग (RL) से भिन्न होती हैं, जिसे पारंपरिक AI उपयोग करता है क्योंकि इसे पीढ़ीगत सीखने के कारण अधिक स्केलेबल के रूप में देखा जाता है।

प्रत्येक लर्निंग लूप को एक पीढ़ी के रूप में संदर्भित किया जाता है और यह तब तक अपना कार्य जारी रखता है जब तक कि एक निर्धारित शर्त पूरी नहीं हो जाती (इस मामले में, एक उच्च-स्कोर)। प्रत्येक अगली पीढ़ी के साथ, एआई पिछली पीढ़ी के ज्ञान को अवशोषित करता है और इसलिए उसी लक्ष्य को प्राप्त करने और उसे पार करने में बेहतर होता है। चलते रहें, और आप एक एआई के साथ समाप्त हो जाएंगे जो अपने कार्य में बिल्कुल बेजोड़ है। ठीक यही यहाँ Q*bert स्कोर के साथ हुआ।

में उल्लिखित कागज़ , जर्मनी के फ्रीबर्ग विश्वविद्यालय के शोधकर्ताओं द्वारा पिछले सप्ताह प्रकाशित किया गया था, ऐसा प्रतीत होता है कि बग एक ज्ञात मात्रा नहीं थी। वास्तव में, जबकि वे बग को खोजने के बारे में बहुत आश्चर्यचकित नहीं हैं, यह देखना दिलचस्प है कि एआई फिर कैसे आगे बढ़ता है और हर बार अपनी स्कोरिंग क्षमता को अधिकतम करने के लिए इसका फायदा उठाना सीखता है।

none

आगे पढ़िए: यह कृत्रिम बुद्धिमत्ता सुपर मारियो ब्रदर्स में महारत हासिल करना सीख रही है

बग को खोजने के लिए, एजेंट को पहले पहले स्तर को लगभग पूरा करना सीखना था - यह एक बार में नहीं किया गया था, लेकिन कई छोटे सुधारों का उपयोग करके, शोधकर्ताओं ने समझाया रजिस्टर . हमें संदेह है कि प्रशिक्षण में कुछ बिंदु पर संतान समाधानों में से एक को बग का सामना करना पड़ा और अपने भाई-बहनों की तुलना में बेहतर स्कोर प्राप्त हुआ, जिसने बदले में अद्यतन में अपना योगदान बढ़ाया - भारित माध्य में इसका वजन सबसे अधिक था। यह धीरे-धीरे समाधान को उस स्थान पर ले गया जहां अधिक से अधिक संतानों को एक ही बग का सामना करना पड़ा।

हम सटीक परिस्थितियों को नहीं जानते हैं जिसके तहत बग प्रकट होता है; यह संभव है कि यह केवल तभी प्रकट होता है जब एजेंट एक ऐसे पैटर्न का पालन करता है जो उप-इष्टतम प्रतीत होता है, [उदाहरण के लिए जब एजेंट समय बर्बाद करता है, या यहां तक कि एक जीवन भी खो देता है]। यदि ऐसा होता, तो मानक RL के लिए बग ढूँढना बेहद कठिन होता: यदि आप वृद्धिशील पुरस्कारों का उपयोग करते हैं तो आप ऐसी रणनीतियाँ सीखेंगे जो कुछ समय के लिए कई पुरस्कार नहीं देने वाली रणनीतियों को सीखने के बजाय कुछ इनाम जल्दी से प्राप्त करती हैं और फिर अचानक बड़ी जीत।

संबंधित देखें ड्रैगस्टर चैंपियन टॉड रोजर्स ने 35 साल बाद अपना ताज खो दिया है यह आर्टिफिशियल इंटेलिजेंस 17 दिनों से सुपर मारियो ब्रोस 1-2 में महारत हासिल करना सीख रहा है इसे देखें AI Twitch पर GTA V में ड्राइव करना सीखें

हालांकि, बॉट के अद्भुत परिणामों के बावजूद, शोधकर्ता यह नहीं कह रहे हैं कि यह आरएल पर ईएस सीखने का मामला है। वास्तव में, दोनों प्रणालियों की अपनी समस्याएं हैं और दोनों के संयोजन को बड़े पैमाने पर आगे बढ़ने के सर्वोत्तम विकल्प के रूप में देखा जाता है।

अन्य अटारी खेलों पर समान ES पद्धति समान सकारात्मक परिणामों के करीब कहीं भी नहीं लाती है। दूसरी ओर, RL दुनिया के सर्वश्रेष्ठ GO खिलाड़ी को हराने सहित, बाएं, दाएं और केंद्र के रिकॉर्ड को तोड़ने के लिए जिम्मेदार है। हालाँकि, ES का अभी भी चीजों में अपना स्थान है, और यह वास्तव में है कि कैसे Nvidia अपने AI प्रशिक्षण का बहुत अधिक प्रदर्शन करता है, क्योंकि इसके लिए अधिक कम्प्यूटेशनल शक्ति की आवश्यकता होती है, लेकिन लंबी अवधि में बेहतर परिणाम प्राप्त होते हैं।

एआई विकास के लिए भविष्य चाहे जो भी हो, कम से कम सिस्टम को धोखा देने वाला यह बॉट इतना बुरा नहीं है अब अपमानित वीडियो गेम विश्व चैंपियन .

एआई क्यू * बर्ट में उस तरह से धोखा देना सीखता है जैसे पहले कभी किसी इंसान ने नहीं किया

एआई ने क्यू*बर्ट युद्ध कैसे जीता

दिलचस्प लेख

सुपर मारियो ओडिसी समीक्षा: मारियो के ग्लोबट्रोटिंग एडवेंचर से पता चलता है कि निन्टेंडो ने अपना जादू नहीं खोया है

Google Pixel 2/2 XL पर फ़ाइलों को एसडी कार्ड में कैसे स्थानांतरित करें

संपादक की पसंद

प्लग-इन कार हीटर विकल्प

क्या आप देख सकते हैं कि YouTube पर आपकी टिप्पणी को किसने पसंद किया? नहीं!

टीम किले में इंजीनियर कैसे खेलें 2

एंड्रॉइड डिवाइस के लिए रिंगटोन कैसे बनाएं

गेमिंग के लिए सर्वश्रेष्ठ वीपीएन

कोडी को बफरिंग से कैसे रोकें: एक स्थिर स्ट्रीम के लिए सबसे अच्छा फिक्स

2024 के सर्वश्रेष्ठ ऊर्ध्वाधर चूहे