OCR | אלבום דיגיטלי | סריקת מסמכים | סריקה

OCR אודות

דף הבית >> OCR אודות

(OCR (Optical Character Recognition

זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR)
הוא תחום בתוכנה שמטרתו היא קידוד טקסט כתוב לטקסט דיגיטלי.

פענוח OCR הוא חלק משלים בתהליך סריקת המסמכים בארכיב שכולל מספר שלבים עד להפיכתם לארכיב דיגיטלי פשוט ויעיל.

OCR

באמצעות תהליך דיגיטלי של OCR ניתן לזהות את הנתונים הרשומים במסמך הסרוק. תוכנת ה OCR מזהה את האותיות השונות ומוסיפה למסמך שכבת טקסט דיגיטלית. בנוסף, תוכנת ה OCR מבצעת סריקה של שכבת הטקסט שנוצרה בתום סריקת המסמך והיא מעבירה את המילים שנוצרו בטקסט בדיקת איות סטכוסטי. בודק האיות אינו קובע אם מילה נכונה או לא בדומה לבדיקת איות רגילה אלא משתמש בסטטיסטיקות לגבי השכיחות של צמדי אותיות מסוימים. בדיקת איות שכזו עוזרת לתוכנות OCR כאשר ישנו ספק מהי האות ובהתאם להסתברות תבחר התוכנה את האות הנכונה.

כאמור, לאחר סריקת המסמך על ידי תוכנת ה OCR נוצרת שכבת על גבי קובץ התמונה הקיים.
בשכבה זו מופיע הטקסט שנסרק מהתמונה וכך מאפשר את זמינותו של הטקסט בארכיב הדיגיטלי. בשלב זה ניתן לבצע חיפוש גם בגוף המסמך שעבר את תהליך הפענוח OCR.
כמו כן, לאחר פענוח OCR ניתן להעתיק את תוכן המסמך הדיגיטלי לפורמט טקסט (כדוגמת Word).
משמעות הדבר היא שאם אנו מעוניינים בשינוי טקסט במסמך, חוברת או ספר מרובי עמודים שאין לנו את קובץ המקור הדיגיטלי שלהם איננו נזקקים להקליד אותם אלא נוכל לבצע עליהם פענוח OCR שיאפשר את העברת לקובץ טקסט דיגיטלי לאחר תהליך הסריקה. פענוח נתונים OCR יקצר את הזמנים משמעותית ויאפשר חיפוש ו/או הקלדה מהירה של התוכן המצוי במסמך הפיזי המקורי.

תוכנת SearchAble היא תוכנת חיפוש שמיועדת לחיפוש טקסט חופשי במסמכים שעברו
פענוח OCR בדומה לקובץ טקסט ומאפשרת לאתר טקסט מסוים בין רגע.
בתהליך החיפוש הרגיל, חיפוש של מסמך, דף או נתון מסוים מתוך הארכיב מצריך חיפוש בקלסרים השונים ובניירת רבה הרי שבארכיב דיגיטלי כל המסמכים מתויקים בהתאם למפתוח הרצוי. המפתוח יאפשר את שליפתם המהירה של המסמכים שעברו OCR מהארכיב הדיגיטלי. שילוב SearchAble יאפשר חיפוש מהיר (תוך שניות מעטות) של טקסט חופשי במסמך בקלות ובמהירות.
את הטקסט ניתן להעתיק למסמכים אחרים, לחפש בו מילות מפתח ועוד. תוכנת ה OCR מאפשרת חיפוש גם במסמכים שהתלכלכו או שהטקסט בהם עקום. לתוכנה יכולת ליישר טקסט שמופיע בזווית (פקס, עקום או הדפסה עקומה במדפסת), להבדיל בין אותיות דומות בשפה העברית כמו "ס" ו "ם" או "ו" ו "ן" ואף יודעת להתעלם מכתמים וסימנים שאינם טקסט.
הטכנולוגיה המתקדמת על בסיסה פועלת התוכנה אינה מצריכה הגדרות מדויקת לכל אות ואות. התוכנה פועלת על מודל מתמטי שלומד מדוגמאות (רשתות נוירונים) .

מערכת OCR טובה יעילה בהרבה על פני קלדנות אנושית, כלל תהליך סריקת מסמך והוספת שכבת טקסט נגישה יארך כ 15 שניות לעומת 10 דקות הקלדה אנושית. מעבר לכך מספר הטעויות ב-OCR יהיה קטן מהמתקבל בהקלדה אנושית.

חזרה לעמוד פתרונות לפענוח נתונים

 לעמוד OCR - שאלות ותשובות

דף הבית | אודותינו | מבנה הקבוצה | שאלות נפוצות | מאמרים | חנות | סופט קופי בקהילה |  | הצעות עבודה | | צור קשר |

סופט קופי | משרדי הנהלה: בית מישורים, רח' השילוח 4, פתח תקוה | לשכות סריקה: סניף חשמונאים- מהר"י קפאח 4. סניף אלעד- פנחס בן יאיר 21
info@softcopy.co.il   טל’ 03-9231111  פקס 03-9236688

קבוצת סופט קופי | סריקה בבית הלקוח | לשכת סריקה | סריקת מסמכים - סריקת שרטוטים | סריקה - OCR | יעול תהליכי סריקה
ציוד סריקה ביתי | OCR אודות | OCR - מידע | תהליך סריקה סריקת מסמכים | אלבום דיגיטלי

 
נבנה ע"י משרוקית ניו-מדיה