Linux-порт cuneiform

Відео: CuneiForm. Заміна ABBYY FineReader?

Linux-порт CuneiForm
«Віз і нині там» - можна відповісти словами байки, тільки аж ніяк не з вини лебедя, рака і щуки. Але стосується це, мабуть, лише Windows-версії, яку справді з 2009 року не оновлювали. Поза форумів і офіційного сайту OpenOcr, існує Linux-порт CuneiForm: https://launchpad.net/cuneiform-linux. Над ним працювали ті самі ентузіасти, яких не злякали ні словники, ні згасання інтересу до проекту з боку компанії-батька: люди просто захопилися і робили справу, але ... до травня цього року. Інтерес все ж згас і тут - проект шукає maintained.

Однак сам Cuneiform для Linux працює. І збирається з исходника без будь-яких ускладнень. Правда, якщо у вас не встановлені заголовки ImageMagick, то вхідні зображення, що розуміються CuneiForm, повинні бути в строго визначеному форматі: 24-бітному BMP без альфа-каналу (тобто RRGGBB, а не AARRGGBB- в GIMP при збереженні можна вказати, що потрібно). Якщо не використовувати графічний фронтенд, то запуск CuneiForm з командного рядка здійснюється приблизно так:
$ Cuneiform -f text -l ruseng -o test.txt ім`я test.jpg

У цьому прикладі ми намагаємося розпізнати змішаний, російсько-англійський текст з файлу test.jpg і записати його в файл test.txt.

Linux-порт CuneiForm
Qt-інтерфейс до CuneiForm




Чим більше шрифт і DPI, тим краще текст розпізнається. При поганих (для CuneiForm) исходниках, він часто плутає «и» та «в», «м» і «н», «е» і «з», «до» і «н».

Сторонні проекти: Linux-порт, фронтендів з далекосяжними задумами, - розвивалися окремо. Точніше, про розвиток Linux-порту можна говорити як про пристосування исходника до програмному середовищі Linux (і робота була проведена воістину титанічна!). Справа в тому, що нові функції не з`являлися, а заповнення «повної» функціональності CuneiForm майже не просувалася. Так, компанія-батько не відкрила код розпізнавання таблиць, і ніхто новий код для цього не написав. Але велися роботи по приведенню исходника в порядок і по створенню графічних інтерфейсів. Наприклад, в рамках проекту Linux-порту, до весни цього року включно, Сергій Полтавський розвивав свій GUI, теж на основі Qt.




Однак до літа 2011 року проект виявився зупиненим всюди. На сайті Linux-порту шукають нового ведучого і в порожнечу повідомляють про помилки. Сайт OpenOCR (https://openocr.org/) надихає новинами за 2009 рік, коли ще багато сповнені надій. При спробі завантаження CuneiForm звідти відбувається перенаправлення на сайт Cognitive Forms, де повідомляється про комерційному продукті Cognitive Forms, і вже потім даються посилання для скачування CuneiForm. Складання Linux-порту є в деяких сховищах дистрибутивів - наприклад, в Сі-зіфусе або Ubuntu.

Варто відзначити, що CuneiForm - це ідеальний інструмент для розпізнавання як простих текстових документів, так і складних буклетів з сантехнікою в москві (https://santech.maxlevel.ru), де присутня безліч виносок, фотографій і різних текстових форматів.

висновок

Linux-порт CuneiForm

Підхопить чи хтось ведення исходника і чи з`являться нові ентузіасти, які займуться розвитком проекту? Хотілося б думати, що так, але одного мого «хотіння» для цього мало. Проект був би життєздатний, якби під час його запуску виконалися дещо інші стартові умови: відкриття коду саме під GPL, що привернуло б велику кількість программістов- документування формату словарей- більш широка інформаційна підтримка спільноти з боку «батька», хоча б на перших порах .

Якщо ми подивимося на сучасні технології оптичного розпізнавання тексту (з відкритим кодом), то побачимо, що найбільш активно розвиваються або GPL-проекти, або грошово підтримувані будь-ким, зокрема Tesseract (під патронажем Google). Відкритість початкових кодів - байдуже, під якою ліцензією - дозволяє побачити, як працює та чи інша технологія. Звичайно, іноді простіше взяти готовий код і використовувати його, але, на жаль, це «іноді» не спрацювало в разі CuneiForm.

ІНШЕ

Silicon graphics і open source: linux фото

Silicon graphics і open source: linux

Відео: Booting Debian Jessie on an SGI UV -1000 supercomputer Вважається, що одним з факторів, що призвели до краху…

Xara xtreme фото

Xara xtreme

Відео: Малюємо візитку. Урок Xara Xtreme Xara Xtreme for Linux (зображення з сайту проекту) Згадаймо Xara Xtreme for…

Cuneiform в наші дні С„РѕС‚Рѕ

Cuneiform в наші дні

Відео: # Нефилимов НАШІ ДНІ 2 # ЯКИЙ ПЛАН У занепалих? # З початку 90-х років компанія Cognitive Technologies випускала…

Lightworks фото

Lightworks

Як Ви вже зрозуміли з назви, в даній статті піде мова про Lightworks (https://lwks.com). Тут, як і з Xara, була радість…

» » Linux-порт cuneiform