လူမှုကွန်ရက်ကုမ္ပဏီကြီးတစ်ခုဖြစ်တဲ့ Meta ရဲ့ AI ဘာသာပြန်စနစ်ဟာ ရေးထုံးမရှိတဲ့ ဘာသာစကားတွေကိုပါ ဘာသာပြန်နိုင်လာပြီလို့ ဆိုပါတယ်။
ကမ္ဘာပေါ်က ဘာသာစကား ၇၀၀၀ အနက်က တစ်ဝက်လောက်ဖြစ်တဲ့ ဘာသာစကား ၁၀ မျိုးမှာ ၄ မျိုးက က ဘာသာဗေဒရေးထုံးမရှိကြဘဲ ရပ်တည်နေကြတယ်လို့ ပြောပါတယ်။ ရေးထုံးမရှိတဲ့ ဘာသာစကားဟာ ခေတ်သစ် Machine Learning ဘာသာပြန်စနစ်တွေအတွက် ထူးခြားတဲ့ပြဿနာတစ်ခု ဖြစ်လာပါတယ်။ ပုံမှန်အားဖြင့် Machine Learning ဘာသာပြန်စနစ်တွေဟာ ဘာသာစကားသစ်တစ်ခုကို ဘာသာပြန်မှု မလုပ်ခင် ၊ စာသားကနေ ပြောစကားကို မပြောင်းခင် နှုတ်ပြောစကားကို လက်ရေးစာသားတွေအဖြစ် ပြောင်းပေးရပါတယ်။
Photo: Facebook
ဒါကြောင့်ပဲ အရေးအသားမရှိတဲ့ ဘာသာစကားကို ဘာသာပြန်ဖို့ ခေတ်သစ် Machine Learning ဘာသာပြန်စနစ်တွေ အခက်တွေ့နေတာ ဖြစ်ပါတယ်။ Meta က တီထွင်ထားတဲ့ ဘာသာပြန်စနစ်ဟာ ဒီပြဿနာကို နောက်ဆုံးပေါ် Open-Source ဘာသာစကား AI အဆင့်မြှင့်တင်မှုနဲ့ ဖြေရှင်းထားတယ်လို့ ဆိုပါတယ်။ Meta ရဲ့ Universal Speech Translator (UST) ပရိုဂရမ်ရဲ့ အစိတ်အပိုင်းတစ်ခုဖြစ်တဲ့ ဘာသာပြန်စနစ်ဟာ ပြောစကားတစ်ခုကနေ နောက်စကားတစ်ခုကို တိုက်ရိုက်ပြန်ဆိုမှုလုပ်နိုင်အောင် တီထွင်ထားတာပါ။
ဒီပရောဂျက်ရဲ့ အစိတ်အပိုင်းတစ်ခုအဖြစ် Meta သုတေသီတွေဟာ အာရှအနှံ့မှာ ပြောလေ့ရှိပြီး ထိုင်ဝမ်တရားဝင်ဘာသာစကားတွေထဲက တစ်ခုဖြစ်တဲ့ ရေးထုံးမရှိဘာသာစကား Hokkien ကို အင်္ဂလိပ်စကားကို ဘာသာပြန်ဖို့ လုပ်ပါတယ်။ Machine Learning ဘာသာပြန်စနစ်တွေဟာ ဘာသာစကားတစ်ခုကနေ နောက်တစ်ခုကို ပြန်ဆိုဖို့ စာအရေးအသားရော ၊ ပြောစကားတွေကိုပါ နမူနာတွေ ယူပြီး လေ့ကျင့်ရပါတယ်။ Hokkien လို ရေးထုံးမဲ့ဘာသာစကားတွေကို speech-to-unit Translation (S2UT) ကို သုံးပြီး သွင်းထားတဲ့ စကားသံကို အသံယူနစ်လှိုင်းစဉ်အဖြစ် တိုက်ရိုက်လမ်းကြောင်းတစ်ခုထဲ ပြောင်းယူတယ်လို့ မတ်ခ်ဇူကာဘတ်ခ်ရဲ့ ပို့စ်မှာ ဖော်ပြပါတယ်။
"ဒီနောက်မှာ ကျွန်တော်တို့ဟာ ယူနစ်တွေထဲက လှိုင်းပုံစံတွေကို ထုတ်ယူပါတယ်။ ဒါ့အပြင် UnitY ဟာ ဆက်စပ်ဘာသာစကား (မန်ဒရင်း) တစ်ခုထဲမှာ ပထမတဖြတ် ကုဒ်ဖြည်မှုကနေ စာသားတွေ ထုတ်ပေးတဲ့ နှစ်ဆင့်ဖြတ် ကုဒ်ဖြည်ရေးစနစ်ကို သုံးပါတယ်။ နှစ်ဆင့်ဖြတ် ကုဒ်ဖြည်တာကနေမှ ယူနစ်တွေ ဖန်တီးပါတယ်။" လို့ ဇူကာဘတ်ခ်ရဲ့ ပို့စ်က ဆိုပါတယ်။ "မန်ဒရင်းကို ကြားခံဘာသာစကားအဖြစ် ပုံတူ labels တည်ဆောက်ပြီး အင်္ဂလိပ် ဒါမှမဟုတ် Hokkien ဘာသာစကားသံကို မန်ဒရန်းစာအဖြစ် ဘာသာပြန်ပါတယ်။ ပြီးမှ Hokkien ဒါမှမဟုတ် အင်္ဂလိပ်စာအဖြစ် ဘာသာပြန်ပါတယ်။ ဒီထဲမှာလည်း Training Data တွေ ထပ်ထည့်ပါတယ်။"
Photo: News Eng
လက်ရှိမှာ ဒီစနစ်ဟာ Hokkien စကားပြောတဲ့ သူကို အင်္ဂလိပ်စကားပြောသူတစ်ဦးနဲ့ ဆက်သွယ်နိုင်အောင် ကူညီပေးပါတယ်။ ဒီမော်ဒယ်ဟာ တစ်ကြိမ်မှာ ဝါကျအပြည့်အစုံ တစ်ကြောင်းပဲ ဘာသာပြန်ပေးနိုင်ပြီး နောက်ပိုင်းမှာ ဒီနည်းပညာက နောက်ထပ်ဘာသာစကားတွေ ပိုအသုံးချနိုင်သလို လက်တွေ့ဘာသာပြန်မှုကိုလည်း ပိုကောင်းမွန်စေမယ်လို့ ဆိုပါတယ်။ Meta ဟာ ဒီပရောဂျက်ကို အများပြည်သူယူသုံးနိုင်အောင် Open-Source လုပ်ထားတာ ဖြစ်ပြီး Hokkien စကားသံအခြေပြု ပထမဆုံး အသံ-အသံချင်း ဘာသာပြန်တိုင်းတာရေးစနစ်ကိုလည်း ဖြန့်ချိထားပါတယ်။