Optical Character Recognition(OCR) គួរតែប្រែជាភាសារខ្មែរយើងថាយ៉ាងម៉េច? ខ្ញុំសូមបកប្រែក្រៅផ្លូវការសំរាប់ប្រើដោយខ្លួនឯងថា ប្រព័ន្ធអានរូបភាពអក្សរ។
ប្រព័ន្ធអានរូបភាពអក្សរ គឺជាប្រព័ន្ធមួយដែលអាចមានសម្ថភាពបំលែងអក្សរដែលជារូបភាព អោយទៅជាអក្សរកុំព្យូទ័រ (ASCII ឫ Unicode)។ ធម្មតាកុំព្យូទ័រមិនយល់នូវអក្សរទាំងនោះទេ ដោយគ្រាន់តែចាត់ទុកថា រូបភាពទាំងអស់ គឺគ្រាន់ជាតារាងនៃ Pixels ដូចជារូបភាពធម្មតាតែប៉ុណ្ណោះ។ ប្រព័ន្ធអានរូបភាពនេះ ត្រូវបានគេយកទៅប្រើប្រាស់យ៉ាងច្រើន។ ឧទាហរណ៏ កាលពីមិនទាន់មានប្រព័ន្ធអានរូបភាពអក្សរ ដើម្បីចំលងឯកសារលើក្រដាស់ ចូលកុំព្យូទ័រជាអក្សរកុំព្យូទ័រ យើងត្រូវចំណាយពេលវេលា ដើម្បីវាយបញ្ចូលដោយដៃ។ ក្រោយមក ដោយប្រើប្រាស់ ប្រព័ន្ធអានរូបភាពអក្សរ យើងអាចបំលែងឯកសារដែលគេចំលងចូលកុំព្យូទ័រជារូបភាព (Scan) អោយទៅជាឯកសារកុំព្យូទ័រ បាយដោយងាយ មិនចំណាយពេលយូ និង មានតំលៃថោកជាងការដែលបញ្ចូលដោយដៃ។
តាមពិត OCR ឫ ប្រព័ន្ធអានរូបភាពអក្សរនេះ ត្រូវបានគេចាប់ផ្តើមស្រាវជ្រាវតាំងពីឆ្នាំ ១៩២៩ មកម្លេះ។ នៅឆ្នាំ ១៩៤៩ ក្រុមស្រាវជ្រាវរបស់ RCA បានបង្កើតប្រព័ន្ធអានអក្សរមួយសំរាប់ជាជំនួយដល់មនុស្សងងឹត។ ប៉ុន្តែពូកគេ មិនត្រឹមតែបំលែងរូបភាពអក្សរ អោយទៅជាអក្សរកុំព្យូទ័រទេ គឺគេថែមទាំងបំលែងអោយទៅជាសំលេងទៀត ដែលជាហេតុធ្វើអោយ វាមានតំលៃថ្លៃហួសហេតុពេក ទើបមិនត្រូវបានដាក់អោយប្រើប្រាស់។ សូមបញ្ជាក់ដែរថា សព្វថ្ងៃនេះ ប្រព័ន្ធបែបនេះគឺមានហើយ ថែមទាំង តំណើរការបានយ៉ាងល្អទៀតផង។
នៅឆ្នាំ ១៩៥០ លោក David H. Shepard អ្នកវិភាពអាថកំបាំង(cryptanalyst) អោយ Armed Forces Security Agency នៅសហរដ្ឋអាមេរិច បានបង្កើតម៉ាស៊ីនមួយសំរាប់បំលែងសំបុត្រអោយទៅជាអក្សរកុំព្យូទ័រ។ ក្រោយមកគាត់ក៏បានបង្កើត Intelligent Machines Research Corporation (IMR) ដែលជាប្រព័ន្ធអានរូបអក្សរដែលបានធ្វើអាជីវកម្មតំបូងគេ ដែលបានប្រើប្រាស់ដោយក្រុមហ៊ុនធំៗជាច្រើនដូចជា Reader’s Digest ក្រុមហ៊ុន Standard Oil ដើម្បីអានកាតធានាគា និងក្រុមហ៊ុន IBM ជាដើម។
រហូតមកដល់បច្ចុប្បន្ននេះ ប្រព័ន្ធអានរូបភាពអក្សរពុម្ព ត្រូវបានចាត់ទុកថាជាប្រព័ន្ធដែលអាមានសម្ថតភាពគ្រប់គ្រាន់ ក្នុងការបំលែងរូបភាពអក្សរពុម្ពអោយទៅជាអក្សរកុំព្យូទ័រដែលមានកំហុសតិចតួចបំផុត។ ក្រៅពីនេះ គេក៏បានបង្កើតប្រព័ន្ធអានអក្សររូបភាពឆ្លាតវៃ (Intelligence Character Recognition – ICR ) ដែលមានសមត្ថភាពអានរូបភាពអក្សរដែលមានទំរង់ខុសគ្នា និងអក្សរដែលសរសេរដោយដៃផងដែរ។
ក្រោយមកទៀត គេក៏ចាប់ផ្តើមបង្កើតប្រព័ន្ធដែលអាចមានសមត្ថភាព អានពាក្យដែលសរសេរដោយដៃ (Handwriting Word Recognition-HWR) or (Intelligence Word Recognition) ដែលជាបញ្ហាមួយដែលលំបាកជាងគេប្រព័ន្ធអានរូបភាពអក្សរ។ ប៉ុន្តែមួយរយៈចុងក្រោយនេះ Microsoft បានអះអាងថា ពួកគេបានបង្កើតប្រព័ន្ធអានអក្សរសរសេរដោយដៃបានដោយជោគជ័យរូចទៅហើយ។ ទោះបីជាយ៉ាងណាក៏ដោយ គេនៅតែមានការស្រាវជ្រាវជាច្រើនទាក់ទងនឹងការបង្កើតប្រព័ន្ធ អានពាក្យដែលសរសេរដោយដៃ។
សព្វថ្ងៃនេះ ខ្ញុំឃើញមានតែភាសារធំៗមួយចំនួនប៉ុណ្ណោះ ដែលត្រូវបានស្រាវជ្រាវនិងបង្កើតប្រព័ន្ធអានរូបភាពអក្សរនេះ។ ភាសារទាំងនោះមានដូចជា ភាសារដែលប្រើអក្សរឡាតាំង ដូចជា បារាំង អង់គ្លេស អេស្ប៉ាញ … ភាសារអារ៉ាប់ ភាសារចិន ភាសារជប៉ុន ភាសារកូរ៉េ(អត់ដឹងព្រោះខ្ញុំមិនដែលបានជួបអ្នកធ្វើការលើភាសារកូរ៉េនៅឡើយទេ) ភាសារហ៊ីនឌី។ ក្រៅពីនោះ ភាសារ វៀតណាម ម៉ាឡេស៊ី ដែលជាភាសារប្រើប្រាស់អក្សរឡាតាំងដែលនោះ ក៏កំពុងតែមានការស្រាវជ្រាវផងដែរ។ សំរាប់ភាសារ ថៃ ឡាវ ខ្ញុំក៏មិនធ្លាប់បានដឹងដែរ។ ខ្ញុំធ្លាប់ទៅចូលរូម សន្និសិទខ្លះដែរតែមិនដែលឃើញមានគេនិយាយពីអក្សរ ថៃ និងឡាវនៅឡើយ សូម្បីតែអក្សរវៀតណាម ក៏នៅដែរ។
ដោយឡែក សំរាប់ភាសារខ្មែរ ប្រហែលជាធ្លាប់មានអ្នកធ្វើការស្រាវជ្រាវដែរ តែខ្ញុំក៏មិនបានដឹងថាតើគេធ្វើអ្វីខ្លះនោះទេ!