Journalism&Multimedia

วันศุกร์ที่ 10 กุมภาพันธ์ พ.ศ. 2555

ประเภทของโอซีอาร์

โอซีอาร์สามารถแบ่งได้เป็นกลุ่มๆตามลักษณะ หรือแหล่งที่มาของตัวอักษร ได้ดังนี้
1. การรู้จำตัวอักษรแบบออนไลน์ (On-line Character Recognition)
2. การรู้จำตัวอักษรแบบออฟไลน์ (Off-line Character Recognition)
2.1 ตัวอักษรโดด (Single Character)
2.1.1 การรู้จำตัวพิมพ์แบบฟอนต์เฉพาะ (Printed Fixed-Font Character Recognition)
2.1.2 การรู้จำลายมือเขียนแบบตัวโดด (Isolated Handprint Character Recognition (ICR))
2.2 การรู้จำลายมือแบบเขียนต่อเนื่อง (Script recognition)

1.การรู้จำตัวอักษรแบบออนไลน์ (On-line Character Recognition)

วิธีการอินพุตข้อมูลของกลุ่มนี้ ได้มาจากดิจิไทเซอร์ หรือปากกาอิเล็กทรอนิกส์ ที่ใช้กับเครื่องคอมพิวเตอร์มือถือ ส่วนการวิเคราะห์ตัวอักษร จะทำในขณะที่มีการลากเส้น เพื่อเขียนตัวอักษร (ออนไลน์) ถ้าจะเทียบความยากง่าย กับการรู้จำลายมือเขียนแบบออฟไลน์ กลุ่มนี้จะง่ายกว่า เพราะจะได้ข้อมูลเพิ่มเติมเกี่ยวกับทิศทาง และลำดับการลากเส้นมาช่วยด้วย โอซีอาร์กลุ่มนี้มักมาพร้อมกับอุปกรณ์การเขียน ที่มีการกำหนดพื้นที่ให้อินพุตข้อมูล โดยส่วนใหญ่มักต้องเขียนทีละตัวอักษร โดยมีรหัสพิเศษเพื่อใช้ในการเขียนตัวอักษรแต่ละตัว ความก้าวหน้าของเทคโนโลยีโอซีอาร์ มีผลเป็นอย่างมากต่อการเจริญเติบโตของธุรกิจในวงการเครื่องคอมพิวเตอร์มือ ถือ ที่เป็นคอมพิวเตอร์ขนาดเล็ก ซึ่งต้องอาศัยการใส่อินพุตจากปากกาอิเล็กทรอนิกส์แทนคีย์บอร์ด
 
อุปกรณ์รู้จำแบบออนไลน์

2.การรู้จำตัวอักษรแบบออฟไลน์ (Off-line Character Recognition)

อินพุตของระบบเป็นภาพของตัวอักษร ที่ได้จากเครื่องสแกน อาจจะเป็นตัวอักษรแบบพิมพ์ หรือแบบเขียน และอาจเป็นตัวอักษรแบบเดี่ยวๆ หรือติดกันเป็นกลุ่มตัวอักษร ซึ่งจำแนกได้ัดังนี้

2.1 ตัวอักษรโดด (Single Character)

อินพุตของระบบเป็นภาพของตัวอักษรที่เป็นตัวเดี่ยวๆ ไม่ได้เชื่อมติดกับ อัษรตัวอื่น ในกลุ่มนี้ สามารถแบ่งย่อยออกเป็น 2 กลุ่ม ได้แก่

2.1.1 การรู้จำตัวพิมพ์แบบฟอนต์เฉพาะ (Printed Fixed-Font Character Recognition)
เป็นกลุ่มของโปรแกรมที่ใช้ได้กับตัวอักษรประเภทตัวพิมพ์ที่มีการ กำหนดกลุ่มของฟอนต์ ซึ่งถือว่าอยู่ในระดับง่ายที่สุดในด้านการพัฒนาเทคนิคในการทำงานของโปรแกรม ถึงกระนั้นก็ตาม โปรแกรมในกลุ่มนี้ก็ยังประสบกับปัญหาที่เกิดจากเอกสารคุณภาพต่ำ ซึ่งจะส่งผลให้ได้ภาพที่เปรอะเปื้อน ทำให้ภาพตัวอักษรติดกัน หรือขาดออกจากกัน เหล่านี้เป็นตัวการสำคัญ ที่ทำให้อัตราความถูกต้องของโปรแกรมลดลง

ตัวอักษรที่มีส่วนเชื่อมติดกันและขาดจากกัน

2.1.2 การรู้จำลายมือเขียนแบบตัวโดด (Isolated Handprint Character Recognition (ICR))
ตัวอักษรของกลุ่มนี้เป็นลายมือเขียนที่มักจะถูกกำหนดให้เขียนใน กรอบที่จัดไว้ โดยเขียนทีละตัวแยกออกจากกัน ตัวอย่างงานที่เข้าข่ายกลุ่มนี้ได้แก่ โปรแกรมโอซีอาร์ที่ใช้แยกจดหมายจากรหัสไปรษณีย์ ซึ่งเป็นตัวเลขจากลายมือเขียน เป็นต้น การรู้จำลายมือเขียนเป็นเรื่องยากมาก เพราะตัวอักษรแต่ละตัว ที่เขียนโดยคนแต่ละคนมีความหลากหลายมาก ถึงแม้บางครั้งจะเป็นการเขียนโดยคนๆ เดียว การเขียนแต่ละครั้งก็ยังแตกต่างกัน ดังนั้นโปรแกรมพวกนจึงมีข้อกำหนดบางอย่าง เช่น สามารถอ่านได้เฉพาะตัวเลข หรือสามารถอ่านลายมือของคนที่ได้ลองเขียนตัวอักษรตัวอย่างให้โปรแกรมรู้จัก ก่อนเท่านั้น

2.2 การรู้จำลายมือแบบเขียนต่อเนื่อง (Script recognition)

กลุ่มนี้ได้โจทย์ในระดับที่ยากที่สุดในจำนวนตระกูลโอซีอาร์ทั้ง หลาย เพราะตัวอักษรที่โปรแกรมจะต้องอ่านเป็นตัวอักษรที่เป็นลายมือเขียน โดยไม่มีข้อกำหนดใดๆ ผู้เขียนสามารถเขียนได้ตามธรรมชาติอย่างต่อเนื่อง ดังนั้นตัวอักษรที่ได้อาจมีเส้นที่ลากเชื่อมตัวอักษรหลายๆ ตัวให้ติดกัน และประกอบกับความแตกต่างอย่างมากของลายมือของคนแต่ละคน โปรแกรมในกลุ่มนี้บางทีเรียกว่าการรู้จำลายมือเขียนแบบอิสระ (freestyle handwriting recognition) ถึงแม้จะมีผลิตภัณฑ์โอซีอาร์กลุ่มนี้ออกสู่ตลาดบ้างแล้ว แต่หัวข้อนี้ก็ยังคงต้องการการวิจัยเพิ่มเติมอีกมาก

ไม่มีความคิดเห็น:

แสดงความคิดเห็น