ﻧرم اﻓزار OCR ﻓﺎرسی

درخواست دمو

کاربردهای مختلف نرم ‌افزارهای OCR فارسی:

  • دیجیتال ‌سازی اسناد قدیمی
  • اتوماسیون اداری
  • تبدیل تصاویر به متن قابل ویرایش
  • پردازش فرم‌ های کاغذی
  • آرشیو الکترونیکی
دسته بندی ها

 

(OCR(Optical Character Recognition از لحاظ لغوی به معنی تشخیص متون موجود در تصاویر می باشد و به یک تعبیر ساده تبدیل تصاویر اسناد مکتوب به متن کامپیوتری است.

 

از آنجاییکه نیاز بود تا حجم بالایی از اطلاعات اسناد مکتوب به سیستم های کامپیوتری وارد شوند و تنها راه ذخیره شان نیز ذخیره کردن تصویر این اسناد بود ، مشکلات زیادی ایجاد شده بود (از جمله اینکه ذخیره اطلاعات بصورت تصویری امکان جستجو در اسناد و اطلاعات ، تغییر ، اصلاح ، کپی و … را غیر ممکن می کرد ؛ همچنین تصاویر دارای حجم بالایی بودند و حافظه سخت افزاری زیادی برای نگهداری آنها نیاز بود و مواردی از این قبیل). بنابراین محققین و کارشناسان امور کامپیوتر ، پژوهش بر روی روش هایی جهت اتوماسیون کردن این فرآیند را آغاز کردند و نتیجه این تحقیقات ایجاد سیستم های نرم افزاری تشخیص حروف از تصاویر بود. این سیستم ها متکی بر فن آوری پیچیده و پیشرفته پردازش تصویر می باشد که با تبدیل تصاویر به میلیون ها نقطه و بکارگیری الگوریتم های پردازش تصویر ، حروف را در داخل آنها تشخیص داده و آنها را به یک متن پیوسته تبدیل می کند.

 

نرم افزار واژه شناس OCR با بکارگیری یک رابط کاربر مناسب (GUI) ، فرآیند ورود تصویر و تشخیص متون را برای کاربر تا حد امکان ساده و سریع کرده است.

 

قابلیت یادگیری یکی از ویژگی های برجسته این نرم افزار می باشد که در بالا بردن دقت تشخیص و کیفیت خروجی نرم افزار قدم بزرگی را برداشته است.

 

وجود راهبرهای اتوماتیک (wizards) یکی دیگر از ویژگی های این نرم افزار می باشد که کاربرد آن را بسیار ساده و سریع کرده است ، بگونه ای که می توان حجم زیادی از تصاویر را با یکبار تنظیم نرم افزار ، اسکن کرده و سپس با زمانبندی دلخواه متون آنها را استخراج نمود.

 

ورودی نرم افزار واژه شناس می تواند به دو صورت تأمین شود : اولین نوع ، تصاویر از پیش ذخیره شده می باشد که می تواند با انواع فرمت های رایج تصویری مانند bmp ، tiff ، Jpeg ، Pcx ، Gif و Multiage به عنوان ورودی به نرم افزار وارد شود و روش دیگر ورودی به نرم افزار ، اسکن تصاویر مستقیما از درون برنامه می باشد.

 

بعد از بارکردن تصویر از اسکنر یا فایل تصویری می توان اعمال بعدی شامل چرخش اتوماتیک یا دستی ، معکوس کردن رنگ همه یا قسمتی از تصویر ، اصلاح تصویر ، قاب بندی و انتخاب موتور تشخیص و غیره را انجام داد.

 

پس از پایان عملیات تشخیص متون در تصاویر ، می توان عملیات آموزش یا بهبود فونت های قبلی یا جدید را انجام داد ، بگونه ای که نرم افزار بطور هوشمند حروف غیر مشخص را نمایش داده و از کاربر مقدار صحیح درخواست می کند و آن را در فایل فونت ذخیره    می نماید.

 

لازم به ذکر است که به همراه این نرم افزار رابط های برنامه نویسی و راهنمای کاملی وجود دارد که می تواند براحتی برای مجتمع کردن قابلیت OCR در هر سیستم دلخواهی استفاده شود.

 

 

 

نیازها و چالش‌ های نرم افزار OCR فارسی

OCR  (بازشناسی نوری کاراکترها) فناوری ‌ای است که امکان تبدیل اسناد چاپی و دست ‌نویس به متن قابل ویرایش دیجیتال را فراهم می ‌کند. برای زبان فارسی، توسعه و پیاده‌ سازی این فناوری با چالش‌ های ویژه ‌ای روبروست. یکی از نیازمندی ‌های اساسی نرم افزار OCR فارسی ، دسترسی به پایگاه داده‌ های بزرگ و متنوع از متون فارسی است. این پایگاه‌ ها باید شامل انواع فونت ‌ها، اندازه‌ ها و سبک ‌های مختلف نوشتاری باشند تا سیستم بتواند دقت بالایی در تشخیص متون داشته باشد.

ﻧرم اﻓزار OCR ﻓﺎرسی
ﻧرم اﻓزار OCR ﻓﺎرسی

از چالش ‌های مهم نرم افزار OCR فارسی می ‌توان به ساختار پیچیده زبان فارسی اشاره کرد. اتصال حروف، وجود نقاط و تشابه برخی حروف با یکدیگر از مواردی هستند که تشخیص صحیح کاراکترها را دشوار می ‌کنند. علاوه بر این، خط فارسی به ‌صورت راست به چپ نوشته می‌ شود که این مسئله نیز نیازمند تنظیمات و الگوریتم‌ های خاصی است که با این جهت‌ گیری سازگار باشند .

دیگر چالش‌ ها شامل کیفیت پایین تصاویر ورودی و نویزهای موجود در آن هاست. ﻧرم اﻓزار OCR ﻓﺎرسی باید توانایی حذف نویز و افزایش کیفیت تصاویر را داشته باشد تا بتواند کاراکترها را با دقت بالاتری تشخیص دهد. در نهایت، برای بهبود کارایی این سیستم ‌ها، نیاز به پژوهش ‌های بیشتر و استفاده از فناوری ‌های پیشرفته مانند یادگیری ماشین و هوش مصنوعی داریم تا بتوانیم به سطح بالاتری از دقت و عملکرد در تشخیص متون فارسی دست یابیم.

مقایسه ویژگی‌ها و عملکرد ﻧرم اﻓزار OCR ﻓﺎرسی

در این بخش به مقایسه ویژگی ‌ها و عملکرد نرم ‌افزارهای OCR فارسی پرداخته می ‌شود. مهم ‌ترین معیارهای مقایسه شامل دقت و سرعت بازشناسی متون، قابلیت ویرایش و اعمال تغییرات در متن اسکن شده و پشتیبانی از انواع اسناد (چاپی و دست ‌نویس) هستند.

دقت و سرعت بازشناسی متون

نرم ‌افزار ABBYY FineReader  با دقت بالا و سرعت مناسب یکی از بهترین گزینه‌ ها برای بازشناسی متون فارسی است. ﻧرم اﻓزار OCR ﻓﺎرسی می ‌تواند متون چاپی و دست ‌نویس را با دقت بالا شناسایی کند. از طرف دیگر، Google OCR  نیز با دقت مناسبی برای متون چاپی و سرعت خوب شناخته می‌ شود، اما در بازشناسی متون دست ‌نویس کمی ضعیف ‌تر عمل می ‌کند.

قابلیت ویرایش و اعمال تغییرات در متن اسکن شده

نرم ‌افزارReadiris  قابلیت تبدیل فایل‌ های PDF و عکس به متن قابل ویرایش را دارد و این امکان را به کاربران می ‌دهد تا تغییرات مورد نیاز خود را به راحتی اعمال کنند. همچنین OmniPage  نیز با ارائه ابزارهای ویرایشی قوی، امکان اعمال تغییرات دقیق در متن را فراهم می‌ کند .

پشتیبانی از انواع اسناد (چاپی، دست ‌نویس)

نرم‌افزارABBYY FineReader  در پشتیبانی از انواع اسناد بسیار قوی عمل می ‌کند. این نرم ‌افزار می ‌تواند متون چاپی و دست ‌نویس را با دقت بالا شناسایی و پردازش کند. نرم افزار Google OCR نیز از متون چاپی به خوبی پشتیبانی می ‌کند اما در شناسایی دست ‌نویس‌ ها ضعف دارد. OmniPage با توانایی تشخیص خطوط دست‌ نویس انسانی و متون چاپی، یکی از بهترین گزینه ‌ها برای استفاده در محیط ‌های اداری و آموزشی است.

جزئیات

 

برخی از مشخصات و قابلیت های نرم افزار به شرح زیر می باشد :

 

تشخیص 800 حرف در ثانیه با پردازنده PIII

 

قابل اجرا در سیستم های Win 98 , 2000 , NT , XP (فارسی و عربی)

 

پشتیبانی از تکنولوژی های OMNI و Training برای رسیدن به دقت بالاتر با فونت های مختلف

 

ذخیره متن خروجی با فرمت های مختلف txt ، .rtf. و …

 

باز کردن چندین فایل در یک زمان

 

تشخیص جداول در تصاویر اسکن شده

 

پشتیبانی خاص برای جداول ناقص

 

پشتیبانی از تصاویر رنگی

 

دوران / اصلاح خودکار و دستی تصویر

 

شامل مصحح املایی

 

پشتیبانی از قاب بندی اتوماتیک و دستی

 

و …

 

این نرم افزار دارای رابط های dll و Activex برای زبان های مختلف برنامه نویسی مانند : Visual C++i ، Viaual Basic  Delphi ، Java ، Visual Studio.NET و … می باشد.

 

تمام قابلیت های نرم افزار از جمله تنظیمات مختلف و غیره ، براحتی می تواند در برنامه های دلخواه توسط برنامه نویسان قرار گیرد.

 

کاتالوگ

Optical-Character-Recognition-catalog

کاربرد ها

 

با توجه به ماهیت سیستم OCR فارسی و قابلیت های مختلف آن ، تقریبا همه موسسات ، سازمان ها ، ارگان ها و … می توانند در حوزه فعالیت و چهارچوب عملکرد خود از این سیستم بهره ببرند.

 

جهت آشنایی سعی شده است تا بعضی از کاربردهای این نرم افزار در مراکز مختلف ارائه گردد:

 

 

 

سیستم دبیرخانه بدون کاغذ

 

یکی از قسمت های مهم هر سازمانی دبیرخانه می باشد. با استفاده از این سیستم می توان بدون نیاز به ذخیره تصویر نامه ها تنها متن نامه را در سیستم ذخیره کرد ، عملیاتی چون جستجو ، اصلاح و یا استفاده دوباره از متن نامه ها را انجام داد و از بسیاری از دوباره کاریها خودداری نمود.

 

 

 

سیستم بایگانی یا آرشیو اسناد و قراردادها

 

چون در اکثریت قریب به اتفاق سازمان ها بخشی به عنوان بایگانی یا آرشیو اسناد موجود می باشد و یکی از دغدغه های سازمان ، مدیریت این اسناد (ذخیره ، جستجو و …) می باشد ، این سیستم براحتی با وارد شدن در سیستم نرم افزاری مدیریت اسناد این مشکل را حل خواهد کرد.

 

 

 

موسسات فرهنگی و آموزشی و شرکت هایی که نرم افزارها و فعالیت های آموزشی دارند

 

این موسسات و شرکت ها براحتی می توانند از این نرم افزار جهت ورود متون کتاب ها ، مجلات و مقالات مختلف به کامپیوتر و سپس ورود این اطلاعات به بانک های اطلاعاتی یا لوح های فشرده (CD) و غیره استفاده کنند.

 

 

 

بانک ها و موسسات مالی و اعتباری (قرض الحسنه ، سرمایه گذاری و …)

 

این مراکز دارای حجم بالایی از دوباره کاری جهت ورود صورتحساب ها و ریز محاسبات مالی به کامپیوتر می باشند ، که این نرم افزار می تواند در کاهش زمان و هزینه ورود اطلاعات و کاهش چشمگیر اشتباهات ناشی از تایپ بسیار مؤثر باشد.

 

 

 

کتابخانه ها ، موسسات و شرکت های اطلاع رسانی

 

در حال حاضر بسیاری از کتابخانه ها و شرکت های اطلاع رسانی اطلاعات خود را شامل کتاب یا مقالات و غیره بر روی اینترنت یا لوح فشرده ارائه می دهند که می توانند از این نرم افزار به عنوان ابزار اصلی برای ورود اطلاعات روی کاغذ به کامپیوتر و سپس ارائه آن تحت اینترنت استفاده کنند.

 

این نرم افزار کلید اصلی ایجاد یک کتابخانه الکترونیک می باشد.

 

 

 

دانشگاه ها و مراکز آموزشی

 

این سیستم در دانشگاه ها به عنوان یکی از مراکز اصلی نگهداری ، تولید و استفاده از اسناد مکتوب کاربردهای فراوانی دارد . از جمله : ورود پایان نامه های دانشجویی ، مقالات تحقیقاتی و کتاب ها به سیستم کامپیوتری ، ایجاد کتابخانه الکترونیک و …

 

 

 

روزنامه ها و نشریات

 

روزنامه ها و نشریات از نهادهایی هستند که نیاز به ورود به روز اطلاعات از منابع مختلف به کامپیوتر دارند ، لذا استفاده از این سیستم می تواند نقش عمده ای در کاهش هزینه ها و زمانبری ورود اطلاعات داشته باشد.

 

همچنین در تهیه یک آرشیو کامل کامپیوتری از نشریات نیز می تواند مورد استفاده قرار گیرد.

 

 

 

سازمان های قضایی و دادگاهی

 

کاربری اسناد و اطلاعات از پیش تدوین شده در سازمان های قضایی امری آشکار می باشد و معمولا اسناد جدیدی که در این سازمان ها ایجاد می شود ترکیبی از اطلاعات موجود در اسناد مکتوب دیگر می باشد که می تواند با استفاده از این نرم افزار استخراج شده و به راحتی با هم ترکیب شود.

مشتریان

فهرست برخی از مشتریان نرم افزار به شرح زیر است :

 

 

 

– اکتشاف صنعت نفت              – دانشگاه بوعلی

– شرکت توسعه صنایع نفت و انرژی      – دانشگاه علوم پزشکی قزوین

– پتروشیمی خارک  – دانشگاه علوم پزشکی اصفهان

– شرکت نفت و مهندسی آریا    – دانشگاه شهید چمران اهواز

– نیروگاه گازی آبادان              – دانشگاه آزاد اسلامی واحد علوم و تحقیقات

– ستاد مشترک ارتش

– دانشگاه آزاد اسلامی کاشان

– سازمان عقیدتی – سیاسی ارتش

– سازمان مناطق آزاد کیش

– سازمان عقیدتی

– سیاسی وزارت دفاع

– اداره کل زندان های استان همدان

– آزمایشگاه خاک وزارت دفاع

– کتابخانه علامه طبابایی

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ﻧرم اﻓزار OCR ﻓﺎرسی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ﻧرم اﻓزار OCR ﻓﺎرسی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *