"Tit-for-Tat" (တစ်ဖက်သား ပြုသလို တုံ့ပြန်ခြင်း) နည်းဗျူဟာ ဆိုတာ ဂိမ်းသီအိုရီ (Game Theory) မှာ အလွန်ထင်ရှားပြီး၊ ဉာဏ်ရည်တုပညာ (AI) မှာလည်း အသုံးချတဲ့ ရိုးရှင်းပြီး အစွမ်းထက်တဲ့ နည်းဗျူဟာတစ်ခု ဖြစ်ပါတယ်။
ဒီနည်းဗျူဟာရဲ့
အဓိက သဘောတရားကတော့ "သင် ပထမအကြိမ် ဘာလုပ်ခဲ့သလဲ၊ ကျွန်ုပ် နောက်တစ်ကြိမ် ထိုအတိုင်း ပြန်လုပ်မည်" ဆိုတာပါပဲ။ သူ့ကို "Iterated
Prisoner's Dilemma" (ထပ်ခါတလဲလဲ
ကစားရသော အကျဉ်းသားပြဿနာ) မှာ အများဆုံး လေ့လာတွေ့ရှိရပါတယ်။
Tit-for-Tat (TFT) ရဲ့
အလုပ်လုပ်ပုံ
ဒီနည်းဗျူဟာမှာ
အဓိက စည်းမျဉ်း (၂) ခုပဲ ရှိပါတယ်:
၁။
ပထမအလှည့်မှာ အမြဲတမ်း "ပူးပေါင်းပါ"
(Cooperate): ဂိမ်းကို
စတင်ကစားတဲ့အခါ၊ TFT က အမြဲတမ်း အကောင်းမြင်ပြီး
တစ်ဖက်ကစားသမားနဲ့
"ပူးပေါင်းဆောင်ရွက်"
ပါတယ်။ (ဥပမာ - အကျဉ်းသားပြဿနာမှာဆိုရင်
"သစ္စာမဖောက်"
ဘဲ နှုတ်ဆိတ်နေတာမျိုးပါ။)
၂။
နောက်အလှည့်တိုင်းမှာ
တစ်ဖက်သားရဲ့
"ယခင်အလှည့်"
ကို အတုခိုးပါ (Mirror):
- တစ်ဖက်ကစားသမားက သူ့ရဲ့ ယခင်အလှည့်မှာ "ပူးပေါင်းခဲ့ရင်"
     (Cooperate)၊
     TFT က ဒီအလှည့်မှာ "ပူးပေါင်း" ပါတယ်။
 - တစ်ဖက်ကစားသမားက သူ့ရဲ့ ယခင်အလှည့်မှာ "သစ္စာဖောက်ခဲ့ရင်"
     (Defect)၊ TFT က ဒီအလှည့်မှာ ချက်ချင်း "သစ္စာဖောက်" ပြီး လက်တုံ့ပြန်ပါတယ်။
 
ဘာကြောင့်
ဒီနည်းဗျူဟာက ထိရောက်တာလဲ။
TFT က
ရိုးရှင်းပေမယ့် အောက်ပါ အရည်အချင်း (၄) မျိုးကြောင့် အလွန်အောင်မြင်တဲ့
နည်းဗျူဟာ ဖြစ်နေတာပါ:
- မွန်မြတ်ခြင်း (Nice):
     သူက ဘယ်တော့မှ ကိုယ့်ဘက်က အရင်ဦးအောင် "သစ္စာမဖောက်" ပါဘူး။ ဒါကြောင့် ပဋိပက္ခကို သူက ဘယ်တော့မှ မစတင်ပါဘူး။
 - လက်တုံ့ပြန်တတ်ခြင်း
     (Retaliatory): သူ့ကို
     သစ္စာဖောက်တာနဲ့
     ချက်ချင်း (နောက်တစ်လှည့်မှာ) ပြန်ပြီး လက်တုံ့ပြန်ပါတယ်။ ဒါကြောင့် သူ့ကို အလွယ်တကူ အမြတ်ထုတ်လို့ မရပါဘူး။
 - ခွင့်လွှတ်တတ်ခြင်း
     (Forgiving): သူက
     အငြိုးအတေး မထားပါဘူး။ တစ်ဖက်သားက "သစ္စာဖောက်" ရာကနေ "ပူးပေါင်း" တဲ့ လမ်းကြောင်းကို ပြန်ပြောင်းလာတာနဲ့၊
     TFT ကလည်း ချက်ချင်း ခွင့်လွှတ်ပြီး နောက်တစ်လှည့်မှာ
     "ပူးပေါင်း"
     ပါတယ်။ ဒါက ပူးပေါင်းဆောင်ရွက်မှုကို
     ပြန်လည်တည်ဆောက်နိုင်စေပါတယ်။
 - ရှင်းလင်းခြင်း
     (Clear): သူ့ရဲ့
     နည်းဗျူဟာက အလွန်ရိုးရှင်းပြီး နားလည်ရ လွယ်တဲ့အတွက်၊ ပြိုင်ဘက်က သူ့ရဲ့ အပြုအမူကို အလွယ်တကူ ခန့်မှန်းနိုင်ပြီး
     "ပူးပေါင်းမှ
     အဆင်ပြေမယ်"
     ဆိုတာကို မြန်မြန်ဆန်ဆန် သင်ယူလာစေပါတယ်။
 
ဉာဏ်ရည်တုပညာ
(AI) မှာ အသုံးချပုံ
AI မှာ
"Multi-Agent Systems" (အေးဂျင့်များစွာ
ပါဝင်သော စနစ်များ) ဆိုတာ ရှိပါတယ်။ ဒါက AI agent တွေ (ဥပမာ - စက်ရုပ်တွေ၊ ဆော့ဖ်ဝဲ ပရိုဂရမ်တွေ၊ မောင်းသူမဲ့ကားတွေ) အချင်းချင်း အပြန်အလှန် ဆက်ဆံပြီး ပန်းတိုင်တစ်ခုကို အတူတူ လုပ်ဆောင်ရတဲ့ နယ်ပယ်ပါ။
ဒီ
AI agent တွေဟာ လူသားတွေလို ရှုပ်ထွေးတဲ့ ညှိနှိုင်းမှုတွေ၊ စကားပြောဆိုမှုတွေ မလုပ်နိုင်တဲ့အခါ၊ သူတို့ရဲ့ အပြန်အလှန် ဆက်ဆံရေးအတွက် ရိုးရှင်းတဲ့ စည်းမျဉ်းတွေ လိုအပ်လာပါတယ်။
- ဥပမာ: လမ်းဆုံတစ်ခုမှာ ဆုံတဲ့ မောင်းသူမဲ့ကား
     (Self-Driving Cars) နှစ်စီးဟာ
     "တစ်စီးက အရင်သွား၊ တစ်စီးက စောင့်" (ပူးပေါင်း) မလား၊ ဒါမှမဟုတ် "နှစ်စီးလုံး အလုအယက် တိုးဝှေ့" (သစ္စာဖောက်) မလား ဆိုတာကို ဆုံးဖြတ်ရပါမယ်။
 - TFT
     အသုံးချပုံ:
     ကားတွေဟာ "ငါ့ကို ယခင်အကြိမ်က ဦးစားပေးခဲ့ရင်၊ ငါလည်း မင်းကို ဒီတစ်ကြိမ် ဦးစားပေးမယ်။ မင်းက ငါ့ကို ကျော်တက်သွားရင်၊ ငါလည်း မင်းကို နောက်တစ်ခါ ပြန်ကျောတက်မယ်" ဆိုတဲ့ TFT နည်းဗျူဟာကို သုံးနိုင်ပါတယ်။
 
ဒီလိုနည်းနဲ့
AI agent တွေဟာ ရှုပ်ထွေးတဲ့ ဆက်သွယ်မှုတွေ မလိုဘဲ၊ ရေရှည်မှာ နှစ်ဦးနှစ်ဖက် အကျိုးရှိမယ့် ပူးပေါင်းဆောင်ရွက်မှုကို အလိုအလျောက် တည်ဆောက်နိုင်လာစေပါတယ်။
အနှစ်ချုပ်:
"Tit-for-Tat" ဆိုတာ
"ကိုယ်ချင်းစာတရား"
နဲ့ "လက်တုံ့ပြန်မှု" ကို ပေါင်းစပ်ထားတဲ့ နည်းဗျူဟာပါ။ ဒါဟာ AI တွေကို ရိုးရှင်းတဲ့ စည်းမျဉ်းတွေနဲ့ အချင်းချင်း ပူးပေါင်းဆောင်ရွက်တတ်အောင်
သင်ပေးရာမှာ အလွန်အသုံးဝင်တဲ့ နည်းလမ်းတစ်ခု ဖြစ်ပါတယ်။
REF:
"နည်းသစ်ဉာဏ်ရည်တုပညာ အဆင့်မြင့်သီအိုရီများ"
မှ... ကောက်နှုတ်ချက်။
Artificial Intelligence: A Modern Approach
Chapter 17 Multiagent Decision Making
17.2.3 Repeated games
Tit-for-Tat
p.604