သတင်းကုထုံး ဗဟုတက္ကသိုလ် စာကြည့်တိုက်: Artificial Intelligence: A Modern Approach

အခန်း-၂ ၏မေးခွန်းနှင့် အဖြေများ

2.1 Suppose that the performance measure is concerned with just the first T time steps of the environment and ignores everything thereafter. Show that a rational agent’s action may depend not just on the state of the environment but also on the time step it has reached.

A: စွမ်းဆောင်ရည်တိုင်းတာမှုဟာ ပတ်ဝန်းကျင်ရဲ့ ပထဦးဆုံး အချိန်အဆင့် T ထိပဲ စဉ်းစားပြီး၊ နောက်ပိုင်းအခြေအနေတွေအားလုံးကို လျစ်လျူရှုမယ် ဆိုပါစို့။ အကောင်းဆုံးကိုရွေးချယ်ဆောင်ရွက်မယ့်အေးဂျင့် (rational agent) ရဲ့ လုပ်ဆောင်မှုဟာ၊ ပတ်ဝန်းကျင်အခြေအနေအပေါ်မှာသာမကပဲ သူရောက်နေတဲ့ အချိန်အပေါ်မှာပါ မူတည်ကြောင်းပြပါ။

A: ဒီမေးခွန်းက "ပတ်ဝန်းကျင်၊ အကောင်းဆုံးရွေးချယ်လုပ်ဆောင်မှု၊ စွမ်းဆောင်ရည်တိုင်းတာမှု" ဆိုတာတွေနဲ့ ပတ်သက်တဲ့ သဘောပေါက်နားလည်မှုကို စစ်ဆေးတာပါ။ စဉ်ဆက်ပတ်ဝန်းကျင် (sequential environment) တစ်ခုမှာ အကောင်းဆုံးရလာဒ်ကို ရရှိဖို့ အချိန်တစ်ခု ယူရ၊ ပေးရ၊ စောင့်ရ ပါတယ်။ အောက်ပါဥပမာကို စဉ်းစားကြည့်ပါ။

· ဘယ်လို state တစ်ခုမှာမဆို action နှစ်ခုရှိတယ်။ a နဲ့ b။

· အချိန် T သို့မဟုတ် T-1 မှာ အေးဂျင့်က state s မှာ ရှိနေတယ်ဆိုပါစို့။

· state s မှာ a ကိုလုပ်ရင် state s' (s prime) ကိုရောက်မယ်။ အမှတ်ကတော့ သုည ပဲရမယ်။

· state s မှာ b ကိုလုပ်ရင်တော့ state s ကိုပဲ ပြန်ရောက်လာမယ်။ တစ်မှတ် ရမယ်။

· state s'(s prime) မှာ action a ကိုပဲလုပ်လုပ်၊ action b ကိုပဲလုပ်လုပ် ဆယ်မှတ်ရမယ်။

အဲဒီလိုအနေအထားမျိုးမှာ၊

· အချိန် T-1 မှာဆိုရင်တော့ state s မှာ action a ကိုလုပ်ခြင်းဟာ rational ဖြစ်တယ်။

(ဘာလို့လဲဆိုတော့၊ အေကိုလုပ်လို့ တစ်မှတ်မှ မရပေမယ့် state s-prime ကိုရောက်သွားမယ်။ နောက်တစ်ဆင့် တစ်ခုခုလုပ်လိုက်တာနဲ့ ဆယ်မှတ်ရပြီ။ နောက်တစ်ဆင့်လည်း လုပ်ပိုင်ခွင့်ရှိတယ်။ ဘာလို့တုန်းဆိုတော့ သူက အချိန် T-1 က စထားတာဆိုတော့ နောက်တစ်ဆင့် အချိန် T အထိ လုပ်ခွင့်ရှိတာကိုး။ ပုစ္ဆာရဲ့ ပေးထားချက် "first T time steps" ဆိုတာကို သတိထားပါ။)

· အချိန် T မှာဆိုရင်တော့ state s မှာ action b ကိုလုပ်ခြင်းဟာ rational ဖြစ်တယ်။ အဲဒါမှ တစ်မှတ်ရမယ်။ နောက်ထပ်လုပ်စရာ သူ့မှာ အချိန်မရှိတော့ဘူး။ T ထိပဲလုပ်ရမှာ။ T+1 တို့၊ T+2 တို့မရှိဘူး။ ပုစ္ဆာရဲ့ ပေးထားချက် first T time steps ဆိုတာကို သတိထားပါ။)

အထက်က ဥပမာမှမဟုတ်ပါဘူး။ ကျောင်းသူ/သားတွေအနေနဲ့ ဒီမေးခွန်းရဲ့အဖြေအတွက် တခြား ဖြစ်နိုင်လောက် လက်ခံနိုင်လောက်ပြီး အဓိပ္ပါယ်ရှိတဲ့ နေ့စဉ်ဘဝက တခြားဥပမာတွေလည်းပေးနိုင်ပါတယ်။ ရင်းနှီးမြှုပ်နှံမှုဆိုရင် သတ်မှတ်ထားတဲ့အချိန်ကာလရောက်မှ အကျိုးအမြတ်ရတာ... စာမေးပွဲဖြေတဲ့အခါ အမှတ်များတဲ့ပုစ္ဆာကို အချိန်နည်းနည်းလေးကျန်တော့မှ စဖြေမယ်ဆိုရင် ဘယ်လိုမှပြီးပြည့်စုံတဲ့အဖြေရမှာမဟုတ်ဘူး... စသည်ဖြင့်ပေါ့။ တကယ်တော့ ပတ်ဝန်းကျင်ရဲ့အခြေအနေမှာ နာရီတစ်လုံးပါနိုင်တယ်။ (အချိန်ပြဖြစ်စဉ်၊ time-line ကိုရည်ညွှန်း)။ အဲဒီလိုပါတယ်ဆိုလည်း အဖြေရဲ့ အဓိကသဘောတရားကတော့ ပြောင်းသွားမှာမဟုတ်ဘူး။ အဲဒီအခါမှာ လုပ်ဆောင်ချက်ဟာ အခြေအနေရဲ့ နာရီ(အချိန်)အပေါ်မှာရော၊ နာရီမဟုတ်တဲ့အပိုင်းပေါ်မှာရော မူတည်လာမှာဖြစ်တယ်။ ဒါပေမယ့် အေးဂျင့်ဟာ တူညီတဲ့အခြေအနေတစ်ခုကို ဘယ်တော့မှ နှစ်ခါပြန်မလာရဘူး(မဖြစ်ရဘူး)လို့ဆိုလိုတာ မဟုတ်ဘူး။ (မတူညီတဲ့အချိန်နှစ်ခုမှာ၊ တူညီတဲ့အခြေအနေရှိနိုင်တယ် ဖြစ်နိုင်တယ်။ ကန့်သတ်မထားဟု ဆိုလို။)

သတင်းကုထုံး ဗဟုတက္ကသိုလ် စာကြည့်တိုက်

Monday, January 1, 2018

Artificial Intelligence: A Modern Approach - Lesson V

အခန်း-၂ ၏မေးခွန်းနှင့် အဖြေများ

No comments:

Post a Comment