מהו OCR? OCR הינם ראשי תיבות של Optical Charachter Recognition, וזוהי טכנולוגיה לזיהוי אוטומטי של טקסט בקבצי תמונה: מסמכים מצולמים, סרוקים, פקסים וכד'. במקרים כאלה לא ידוע מראש מהן האותיות המודפסות, והתוכנה הרלוונטית מנסה להבין מתוך הצורות שבקובץ התמונה, כיווני הקווים, וכד', מה בעצם כתוב ובאיזו שפה.
האם כל קובץ תמונה ניתן להמרה באמצעות OCR? כן! תוכנת OCR יכולה להמיר כל קובץ תמונה הכולל טקסט, כמעט בכל שפה, לקובץ טקסטואלי בר-עריכה בתוכנות עיבוד תמלילים.
כך ניתן להמיר למשל קובץ TIF ל-PDF בר-חיפוש, או קובץ GIF לקובץ WORD.
עם זאת, איכות הזיהוי באמצעות OCR תלויה באיכות הטקסט המודפס בדף, ולפיכך כשאיכות ההדפסה ירודה, עלול לחול שיבוש בזיהוי חלק מן המילים בעמוד.
האם קובץ PDF הוא קובץ תמונה?
לא בהכרח. קובץ PDF יכול להיות מורכב ממספר רב של אלמנטים שונים, כגון: טקסט, גרפיקה, קטעי תמונה בצבע ובשחור-לבן, ואפילו שכבות שונות של מידע מסוגים שונים באותו עמוד.
מהם הפורמטים המקובלים לקבצי תמונה, והאם OCR מסוגלת לטפל בכולם?
הפורמטים הסטנדרטיים לקבצי תמונה הם: TIF ,JPG ,GIF, ותוכנות ה- OCR קולטת ומעבדות את כולם, כולל קבצי PDF, שאינם בהכרח קבצי תמונה, ולרוב בעלי פורמט מורכב יותר (ראה להלן).
יש לי ספר ישן ואני רוצה להוציא אותו לאור מחדש. האם אני חייב להקליד את כולו מחדש?
לא! זוהי בדיוק מהותו של תהליך ה-OCR. ניתן לסרוק את הספר, להריץ עליו את תוכנת OCR וזו כבר תזהה אותו אוטומטית, ותמיר אותו לקובץ שאותו ניתן לערוך. כך ניתן לשנות גדלי גופנים במסמך, לערוך מבנה טורים וכד'.