RSS

Optical Character Recognition

15 កុម្ភៈ

Optical Character Recognition(OCR) គួរតែប្រែជាភាសារខ្មែរយើងថាយ៉ាងម៉េច? ខ្ញុំសូមបកប្រែក្រៅផ្លូវការសំរាប់ប្រើដោយខ្លួនឯងថា ប្រព័ន្ធអានរូបភាពអក្សរ។

ប្រព័ន្ធអានរូបភាពអក្សរ គឺជាប្រព័ន្ធមួយដែលអាចមានសម្ថភាពបំលែងអក្សរដែលជារូបភាព អោយទៅជាអក្សរកុំព្យូទ័រ (ASCII ឫ Unicode)។ ធម្មតាកុំព្យូទ័រមិនយល់នូវអក្សរទាំងនោះទេ ដោយគ្រាន់តែចាត់ទុកថា រូបភាពទាំងអស់ គឺគ្រាន់ជាតារាងនៃ Pixels ដូចជារូបភាពធម្មតាតែប៉ុណ្ណោះ។ ប្រព័ន្ធអានរូបភាពនេះ ត្រូវបានគេយកទៅប្រើប្រាស់យ៉ាងច្រើន។ ឧទាហរណ៏ កាលពីមិនទាន់មានប្រព័ន្ធអានរូបភាពអក្សរ ដើម្បីចំលងឯកសារលើក្រដាស់ ចូលកុំព្យូទ័រជាអក្សរកុំព្យូទ័រ យើងត្រូវចំណាយពេលវេលា ដើម្បីវាយបញ្ចូលដោយដៃ។ ក្រោយមក ដោយប្រើប្រាស់ ប្រព័ន្ធអានរូបភាពអក្សរ យើងអាចបំលែងឯកសារដែលគេចំលងចូលកុំព្យូទ័រជារូបភាព (Scan) អោយទៅជាឯកសារកុំព្យូទ័រ បាយដោយងាយ មិនចំណាយពេលយូ និង មានតំលៃថោកជាងការដែលបញ្ចូលដោយដៃ។

តាមពិត OCR ឫ ប្រព័ន្ធអានរូបភាពអក្សរនេះ ត្រូវបានគេចាប់ផ្តើមស្រាវជ្រាវតាំងពីឆ្នាំ ១៩២៩ មកម្លេះ។ នៅឆ្នាំ ១៩៤៩ ក្រុមស្រាវជ្រាវរបស់ RCA បានបង្កើតប្រព័ន្ធអានអក្សរមួយសំរាប់ជាជំនួយដល់មនុស្សងងឹត។ ប៉ុន្តែពូកគេ មិនត្រឹមតែបំលែងរូបភាពអក្សរ អោយទៅជាអក្សរកុំព្យូទ័រទេ គឺគេថែមទាំងបំលែងអោយទៅជាសំលេងទៀត ដែលជាហេតុធ្វើអោយ វាមានតំលៃថ្លៃហួសហេតុពេក​ ទើបមិនត្រូវបានដាក់អោយប្រើប្រាស់។ សូមបញ្ជាក់ដែរថា សព្វថ្ងៃនេះ ប្រព័ន្ធបែបនេះគឺមានហើយ ថែមទាំង តំណើរការបានយ៉ាងល្អទៀតផង។

នៅឆ្នាំ ១៩៥០ លោក David H. Shepard អ្នកវិភាពអាថកំបាំង(cryptanalyst) អោយ Armed Forces Security Agency នៅសហរដ្ឋអាមេរិច បានបង្កើតម៉ាស៊ីនមួយសំរាប់បំលែងសំបុត្រអោយទៅជាអក្សរកុំព្យូទ័រ។ ក្រោយមកគាត់ក៏បានបង្កើត Intelligent Machines Research Corporation (IMR) ដែលជាប្រព័ន្ធអានរូបអក្សរដែលបានធ្វើអាជីវកម្មតំបូងគេ ដែលបានប្រើប្រាស់ដោយក្រុមហ៊ុនធំៗជាច្រើនដូចជា Reader’s Digest ក្រុមហ៊ុន Standard Oil ដើម្បីអានកាតធានាគា និងក្រុមហ៊ុន IBM ជាដើម។
រហូតមកដល់បច្ចុប្បន្ននេះ ប្រព័ន្ធអានរូបភាពអក្សរពុម្ព ត្រូវបានចាត់ទុកថាជាប្រព័ន្ធដែលអាមានសម្ថតភាពគ្រប់គ្រាន់ ក្នុងការបំលែងរូបភាពអក្សរពុម្ពអោយទៅជាអក្សរកុំព្យូទ័រដែលមានកំហុសតិចតួចបំផុត។ ក្រៅពីនេះ គេក៏បានបង្កើតប្រព័ន្ធអានអក្សររូបភាពឆ្លាតវៃ (Intelligence Character Recognition – ICR ) ដែលមានសមត្ថភាពអានរូបភាពអក្សរដែលមានទំរង់ខុសគ្នា និងអក្សរដែលសរសេរដោយដៃផងដែរ។

ក្រោយមកទៀត គេក៏ចាប់ផ្តើមបង្កើតប្រព័ន្ធដែលអាចមានសមត្ថភាព អានពាក្យដែលសរសេរដោយដៃ (Handwriting Word Recognition-HWR) or (Intelligence Word Recognition) ដែលជាបញ្ហាមួយដែលលំបាកជាងគេប្រព័ន្ធអានរូបភាពអក្សរ។ ប៉ុន្តែមួយរយៈចុងក្រោយនេះ Microsoft បានអះអាងថា ពួកគេបានបង្កើតប្រព័ន្ធអានអក្សរសរសេរដោយដៃបានដោយជោគជ័យរូចទៅហើយ។ ទោះបីជាយ៉ាងណាក៏ដោយ គេនៅតែមានការស្រាវជ្រាវជាច្រើនទាក់ទងនឹងការបង្កើតប្រព័ន្ធ អានពាក្យដែលសរសេរដោយដៃ។

សព្វថ្ងៃនេះ ខ្ញុំឃើញមានតែភាសារធំៗមួយចំនួនប៉ុណ្ណោះ ដែលត្រូវបានស្រាវជ្រាវនិងបង្កើតប្រព័ន្ធអានរូបភាពអក្សរនេះ។ ភាសារទាំងនោះមានដូចជា ភាសារដែលប្រើអក្សរឡាតាំង ដូចជា បារាំង អង់គ្លេស អេស្ប៉ាញ … ភាសារអារ៉ាប់ ភាសារចិន ភាសារជប៉ុន ភាសារកូរ៉េ(អត់ដឹងព្រោះខ្ញុំមិនដែលបានជួបអ្នកធ្វើការលើភាសារកូរ៉េនៅឡើយទេ) ភាសារហ៊ីនឌី។​ ក្រៅពីនោះ ភាសារ វៀតណាម ម៉ាឡេស៊ី ដែលជាភាសារប្រើប្រាស់អក្សរឡាតាំងដែលនោះ ក៏កំពុងតែមានការស្រាវជ្រាវផងដែរ។ សំរាប់ភាសារ ថៃ ឡាវ ខ្ញុំក៏មិនធ្លាប់បានដឹងដែរ។ ខ្ញុំធ្លាប់ទៅចូលរូម សន្និសិទខ្លះដែរតែមិនដែលឃើញមានគេនិយាយពីអក្សរ ថៃ និងឡាវនៅឡើយ សូម្បីតែអក្សរវៀតណាម ក៏នៅដែរ។

ដោយឡែក សំរាប់ភាសារខ្មែរ ប្រហែលជាធ្លាប់មានអ្នកធ្វើការស្រាវជ្រាវដែរ តែខ្ញុំក៏មិនបានដឹងថាតើគេធ្វើអ្វីខ្លះនោះទេ!

Advertisements
 
7 មតិ

Posted by ​នៅ ខែ​កុម្ភៈ 15, 2011 in ព័ត៌មានវិទ្យា, HWR

 

7 responses to “Optical Character Recognition

  1. វិចិត្រ

    ខែ​កុម្ភៈ 15, 2011 at 1:22 ព្រឹក

    ហេតុអ្វី​បាន​អង់គ្លេស​គេ​ចាំបាច់ដាក់ពាក្យ optical ?

     
    • កូនផ្សោត

      ខែ​កុម្ភៈ 15, 2011 at 9:24 ព្រឹក

      សំរាប់ OCR គេចង់និយាយពីអក្សរដែរពុម្ភដែល Print លើក្រដាស់ ប្រហែលជាមកពីអញ្ចឹងហើយ គេប្រើពាក្យថា optical។ តែខ្ញុំក៏អត់ដឹងដែរ អត់ដែលបានចាប់អារម្មណ៏ផង

      ក្រៅពីណឹងគេមាន Isolated character handwriting recognition សំរាប់អានអក្សរដែរដែលសរសេរដោយដៃ តែអក្សរនិមួយៗសរសេរដាច់ៗពីគ្នាក្នុងប្រអប់ និង Cursive Handwriting Recognition or Word Handwriting Recognition សំរាប់អានពាក្យដែលសរសេរដោយដៃជាទូទៅ។

      តែដល់គេប្រើជាទូទៅ គេបែជាប្រើ OCR សំរាប់ Isolated character handwriting recognition ដែរ។ ហើយបើទោះជាមិនមែនអក្សរ scan ពីក្រដាស់ អ្នកខ្លះគេប្រើ OCR ដែរ តែអ្នកខ្លះគេនៅតែបែបចែកអោយដាច់គ្នា។

      ខ្ញុំមិនដែលចាប់អារម្មណ៏ចំពោះសំនួរណឹងសោះ ចាំខ្ញុំទៅរកសួរគេមើលសិន 😀

       
    • កូនផ្សោត

      ខែ​កុម្ភៈ 15, 2011 at 9:53 ព្រឹក

      ហើយក៏ប្រហែលជាកាលពីមុន (ពេលដែលគេបង្កើតពាក្យណឹង) មិនទាន់មាន scanner ចឹងហើយ គេត្រូវប្រើពន្លឺបាញ់ទៅលើក្រដាស់នោះ ដើម្បីចាប់យកអក្សរ ចឹងហើយ បានគេថា optical។ តែទោះយ៉ាងណា នេះជាការគិតរបស់ខ្ញុំតែប៉ុណ្ណោះ។ ចាំខ្ញុំទៅសួរគេ សួរគ្រូ ហើយបើបានទៅ Conference ឫក៏ទៅជួបបីតាស្រាវជ្រាវខាងណឹងនៅបារាំងនេះ ខ្ញុំនឹងសួរហើយ

       
  2. latephonenews

    ខែ​កុម្ភៈ 15, 2011 at 2:57 ល្ងាច

    ប្រពន្ឋ = ប្រព័ន្ឋ =ប្រពន់

     
    • កូនផ្សោត

      ខែ​កុម្ភៈ 15, 2011 at 3:50 ល្ងាច

      ភ្លេចថាមានពាក្យពីរណឹង។ អរគុណច្រើន ចាំល្ងាចនេះខ្ញុំនឹងកែ

       
  3. Fidele

    ខែ​កុម្ភៈ 15, 2011 at 3:10 ល្ងាច

    ម៉េច​ក៏​ចង់​ឈប់​សរសេរ​ទៅ​វិញ?

     
    • កូនផ្សោត

      ខែ​កុម្ភៈ 15, 2011 at 3:44 ល្ងាច

      ព្រោះដូចជាពិបាករកពាក្យមកសរសេរ។ ចាំល្ងាចនេះ នឹងសរសេរបន្តរទៀត។
      ខ្ញុំសរសេរតែប៉ុន្មានជួរណឹង ខ្ញុំចំណាយពេល ៣០នាទីទៅហើយ

       

ឆ្លើយ​តប

Fill in your details below or click an icon to log in:

ឡូហ្កូ WordPress.com

អ្នក​កំពុង​បញ្ចេញ​មតិ​ដោយ​ប្រើ​គណនី WordPress.com របស់​អ្នក​។ Log Out / ផ្លាស់ប្ដូរ )

រូប Twitter

អ្នក​កំពុង​បញ្ចេញ​មតិ​ដោយ​ប្រើ​គណនី Twitter របស់​អ្នក​។ Log Out / ផ្លាស់ប្ដូរ )

រូបថត Facebook

អ្នក​កំពុង​បញ្ចេញ​មតិ​ដោយ​ប្រើ​គណនី Facebook របស់​អ្នក​។ Log Out / ផ្លាស់ប្ដូរ )

Google+ photo

អ្នក​កំពុង​បញ្ចេញ​មតិ​ដោយ​ប្រើ​គណនី Google+ របស់​អ្នក​។ Log Out / ផ្លាស់ប្ដូរ )

កំពុង​ភ្ជាប់​ទៅ​កាន់ %s

 
%d bloggers like this: