Monday, January 1, 2018

Artificial Intelligence: A Modern Approach - Lesson V

အခန်း-၂ ၏မေးခွန်းနှင့် အဖြေများ

2.1 Suppose that the performance measure is concerned with just the first T time steps of the environment and ignores everything thereafter. Show that a rational agent’s action may depend not just on the state of the environment but also on the time step it has reached.
A:           စွမ်းဆောင်ရည်တိုင်းတာမှုဟာ ပတ်ဝန်းကျင်ရဲ့ ပထဦးဆုံး အချိန်အဆင့် T ထိပဲ စဉ်းစားပြီး၊ နောက်ပိုင်းအခြေအနေတွေအားလုံးကို လျစ်လျူရှုမယ် ဆိုပါစို့။ အကောင်းဆုံးကိုရွေးချယ်ဆောင်ရွက်မယ့်အေးဂျင့် (rational agent) ရဲ့ လုပ်ဆောင်မှုဟာ၊ ပတ်ဝန်းကျင်အခြေအနေအပေါ်မှာသာမကပဲ သူရောက်နေတဲ့ အချိန်အပေါ်မှာပါ မူတည်ကြောင်းပြပါ။
               
A:            ဒီမေးခွန်းက "ပတ်ဝန်းကျင်၊ အကောင်းဆုံးရွေးချယ်လုပ်ဆောင်မှု၊ စွမ်းဆောင်ရည်တိုင်းတာမှု" ဆိုတာတွေနဲ့ ပတ်သက်တဲ့ သဘောပေါက်နားလည်မှုကို စစ်ဆေးတာပါ။ စဉ်ဆက်ပတ်ဝန်းကျင် (sequential environment) တစ်ခုမှာ အကောင်းဆုံးရလာဒ်ကို ရရှိဖို့ အချိန်တစ်ခု ယူရ၊ ပေးရ၊ စောင့်ရ ပါတယ်။ အောက်ပါဥပမာကို စဉ်းစားကြည့်ပါ။
·         ဘယ်လို state တစ်ခုမှာမဆို  action နှစ်ခုရှိတယ်။  a နဲ့ b။
·         အချိန် T သို့မဟုတ် T-1 မှာ အေးဂျင့်က state s မှာ ရှိနေတယ်ဆိုပါစို့။
·         state s မှာ a ကိုလုပ်ရင် state s' (s prime) ကိုရောက်မယ်။ အမှတ်ကတော့ သုည ပဲရမယ်။
·         state s မှာ b ကိုလုပ်ရင်တော့ state s ကိုပဲ ပြန်ရောက်လာမယ်။ တစ်မှတ် ရမယ်။
·         state s'(s prime) မှာ action a  ကိုပဲလုပ်လုပ်၊ action b ကိုပဲလုပ်လုပ် ဆယ်မှတ်ရမယ်။

အဲဒီလိုအနေအထားမျိုးမှာ၊
·         အချိန် T-1 မှာဆိုရင်တော့ state s မှာ action a ကိုလုပ်ခြင်းဟာ rational ဖြစ်တယ်။
(ဘာလို့လဲဆိုတော့၊ အေကိုလုပ်လို့ တစ်မှတ်မှ မရပေမယ့် state s-prime ကိုရောက်သွားမယ်။ နောက်တစ်ဆင့် တစ်ခုခုလုပ်လိုက်တာနဲ့  ဆယ်မှတ်ရပြီ။ နောက်တစ်ဆင့်လည်း လုပ်ပိုင်ခွင့်ရှိတယ်။ ဘာလို့တုန်းဆိုတော့ သူက အချိန် T-1 က စထားတာဆိုတော့ နောက်တစ်ဆင့် အချိန်  T  အထိ လုပ်ခွင့်ရှိတာကိုး။ ပုစ္ဆာရဲ့ ပေးထားချက် "first T time steps" ဆိုတာကို သတိထားပါ။)
·         အချိန် T မှာဆိုရင်တော့ state s မှာ action b ကိုလုပ်ခြင်းဟာ rational ဖြစ်တယ်။ အဲဒါမှ တစ်မှတ်ရမယ်။ နောက်ထပ်လုပ်စရာ သူ့မှာ အချိန်မရှိတော့ဘူး။ T ထိပဲလုပ်ရမှာ။ T+1 တို့၊  T+2 တို့မရှိဘူး။ ပုစ္ဆာရဲ့ ပေးထားချက် first T time steps ဆိုတာကို သတိထားပါ။)


                အထက်က ဥပမာမှမဟုတ်ပါဘူး။ ကျောင်းသူ/သားတွေအနေနဲ့ ဒီမေးခွန်းရဲ့အဖြေအတွက် တခြား ဖြစ်နိုင်လောက် လက်ခံနိုင်လောက်ပြီး အဓိပ္ပါယ်ရှိတဲ့ နေ့စဉ်ဘဝက တခြားဥပမာတွေလည်းပေးနိုင်ပါတယ်။ ရင်းနှီးမြှုပ်နှံမှုဆိုရင် သတ်မှတ်ထားတဲ့အချိန်ကာလရောက်မှ အကျိုးအမြတ်ရတာ... စာမေးပွဲဖြေတဲ့အခါ အမှတ်များတဲ့ပုစ္ဆာကို အချိန်နည်းနည်းလေးကျန်တော့မှ စဖြေမယ်ဆိုရင် ဘယ်လိုမှပြီးပြည့်စုံတဲ့အဖြေရမှာမဟုတ်ဘူး... စသည်ဖြင့်ပေါ့။ တကယ်တော့ ပတ်ဝန်းကျင်ရဲ့အခြေအနေမှာ နာရီတစ်လုံးပါနိုင်တယ်။ (အချိန်ပြဖြစ်စဉ်၊ time-line ကိုရည်ညွှန်း)။ အဲဒီလိုပါတယ်ဆိုလည်း အဖြေရဲ့ အဓိကသဘောတရားကတော့ ပြောင်းသွားမှာမဟုတ်ဘူး။ အဲဒီအခါမှာ လုပ်ဆောင်ချက်ဟာ အခြေအနေရဲ့ နာရီ(အချိန်)အပေါ်မှာရော၊ နာရီမဟုတ်တဲ့အပိုင်းပေါ်မှာရော မူတည်လာမှာဖြစ်တယ်။ ဒါပေမယ့် အေးဂျင့်ဟာ တူညီတဲ့အခြေအနေတစ်ခုကို ဘယ်တော့မှ နှစ်ခါပြန်မလာရဘူး(မဖြစ်ရဘူး)လို့ဆိုလိုတာ မဟုတ်ဘူး။ (မတူညီတဲ့အချိန်နှစ်ခုမှာ၊ တူညီတဲ့အခြေအနေရှိနိုင်တယ် ဖြစ်နိုင်တယ်။ ကန့်သတ်မထားဟု ဆိုလို။)

No comments:

Post a Comment

Note: Only a member of this blog may post a comment.