imho.ws |
![]() |
![]() |
![]() |
# 1 |
Junior Member
Регистрация: 17.07.2002
Адрес: The Moon (Back side)
Сообщения: 80
![]() |
Распознавание формул в тексте.
Привет всем. У меня несколько нетривиальная проблема, хотя многие с ней наверное сталкивались. В общем есть Fine Reader 7 Pro - просто замечательная вещь. Проблема возникает при распознавании текста с формулами. В принципе можно ту же страницу распознавать и на английском (если сам текст русский), но во-первых получится двойная работа а во-вторых если формулы включают мат. символы или греческие буквы то всё равно видимо ничего не выйдет. В общем может кто знает какую-нибудь специальную программу которая знает мат. символы и буквы (русские) или может есть способ включить (как это делается при добавлении нового языка) примочку с такими символами в Fine Reader.
Пасибки за внимание. ![]() |
![]() |
![]() |
# 4 |
Member
Регистрация: 10.05.2002
Сообщения: 231
![]() |
Присоединяюсь к данной теме!
Было бы здорово уметь такое делать, но я никогда даже не слышал о качественном распознавании сложных формул. Даже при существенных ограничениях типа "набрано в ТеХе в стандартных обозначениях". Если бы такое можно было бы делать, я бы об этом знал... были бы какие-то варианты в FR... я так думаю... Сделать такую прогу - хорошая задача для молодого математика, желающего приобрести известность в математических кругах. Да и в ABBYY заинтересовались бы. Вперед! |
![]() |
![]() |
# 5 |
Junior Member
Регистрация: 17.07.2002
Адрес: The Moon (Back side)
Сообщения: 80
![]() |
Ответ amk
Ну программист из меня не слишком плохой только на фортране а это тут по-моему не к месту. Это я больше философствую, конечно, но вроде как принципиального отличия между буквами и символами быть не должно. Я попытаюсь посмотреть как выглядит изнутри примочка языка (как она закодирована, если уроды из это позволяют).
Другая, более серьёзная проблема состоит в том что FR экспортирует распознанный текст в определённые форматы. Но до этого ведь текст хранится в каком-то определённом промежуточном формате. Если это нечто похожее на текстовый файл то всё сильно осложняется. Тогда получается что нужно будет встраивать в FR нечто вроде Microsoft Equation и потом привязывать ассоциированные с ним формулы как некие обьекты к тексту, которые уже после открытия, например в Word'e, будут нормально распознаваться. Если я это смогу - обязательно выложу, расскажу и покажу, но что-то мне не вериться что это возможно. |
![]() |
![]() |
# 6 |
Member
Регистрация: 10.05.2002
Сообщения: 231
![]() |
m16
Ну причем тут Word... кто ж пишет формулы в Ворде... Сразу в ТеХ! то есть результат в текстовом формате нужен. Принципиальной разницы, может быть, и нет. Однако - текст пишется в линейку, а формулы - выносные - могут быть весьма сложными по "геометрии". И как тут быть не вполне ясно. Но даже строчные формулы было бы здорово включить в FR. |
![]() |
![]() |
# 8 |
Guest
Сообщения: n/a
|
Есть две программы:
GOCR (GNU Optical Character Recognition) _http://jocr.sourceforge.net/ _http://sourceforge.net/projects/jocr/ и Infty Editor + Infty Reader _http://www.inftyproject.org/index-e.html _http://www.caisystem.co.jp/infty/e/index.html Насчет первой - OCR-пакета - информация самая противоречивая: в документации по GOCR и библиотеке к ней libGOCR утверждения В ЯВНОМ ВИДЕ, что она распознает математические формулы я не нашел. Но в переписке разработчиков гокра (_http://sourceforge.net/mailarchive/forum.php?forum=jocr-devels), например, здесь _http://sourceforge.net/mailarchive/message.php?msg_id=6869458 это написано черным по белому. Ситуация осложняется тем, что если гокр доступен в экзешнике (требующем притом внешнего интерфейса, например tcl, а также конвертор графических форматов, например PMView или NetPBM, т.к. на вход надо подавать .pbm-файлы), то необходимый либгокр доступен только в исходниках. По поводу второй программы: это WYSIWYG-редактор под формат LaTeX + OCR-пакет для математических формул с приятным интерфейсом. На вход надо подавать .tiff (но не любой, например, GROUP4 подходит, а LZW нет) с разрешением 400 или 600 dpi, на выходе, пишут, можно получить LaTeX/HTML/MathML/TXT. Но здесь свои проблемы: у меня под Windows XP (service pack 1) + Internet Explorer 6.0 появляется сообщение: Microsoft Visual C++ Runtime Library Runtime Error! Program C:\Program Files\CAI-SYSTEM\InftyEditor\InftyEd2.exe abnormal program termination Кто-нибудь знает, что делать? ![]() Последний раз редактировалось dmi; 16.09.2004 в 14:45. |
![]() |
# 9 |
Administrator
Регистрация: 06.05.2003
Адрес: Московская Подводная Лодка
Пол: Male
Сообщения: 12 055
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
dmi
и правила http://www.imho.ws/announcement.php?...uncementid=116 и рекомендации http://www.imho.ws/announcement.php?...uncementid=126 форума. в рекомендациях понятно расписана причина моих действий. впредь не нарушай ![]()
__________________
все "спасибы" - в приват и в репутацию! не засоряйте форум!!!! ~~~~~~~~~~~~~~~~~~~~~~ The time has come it is quite clear, our antichrist is M.M.
|
![]() |
![]() |
# 10 |
Guest
Сообщения: n/a
|
Инфти ридер (распознаватель) - бесплатный (имхо, что и понятно для не всегда работающей программы
![]() Инфти эдитор (редактор) - скачивается без регистрации, но условно-бесплатный, trial-период - 30 дней, лицензия - 55$, кейгенераторов в Интернете не нахожу. По части WYSIWYG-редактирования ридер включает усеченный вариант эдитора. |
![]() |
# 11 |
Administrator
Регистрация: 06.05.2003
Адрес: Московская Подводная Лодка
Пол: Male
Сообщения: 12 055
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
dmi
ты думаешь, у меня есть время и траффик для того чтоб прооверять фриварность каждой софтины??? прочел бы рекомендации - все было бы понятно. там разжевано все. что как и почему. ссылки - в варезе. вопрос закрыт. зы. ссылки на хомсайты при большой необходимости использовать можно, но закрытыми. (напр. _http://jocr.sourceforge.net/ ) также можно использовать ссылки на любые топы внутри форума imho.ws вообще, все это написано уже миллион раз
__________________
все "спасибы" - в приват и в репутацию! не засоряйте форум!!!! ~~~~~~~~~~~~~~~~~~~~~~ The time has come it is quite clear, our antichrist is M.M.
|
![]() |
![]() |
# 12 |
Guest
Сообщения: n/a
|
После переустановки Инфти отсчет trial-периода начался заново. Так что кейгенератор, похоже, не нужен.
У меня проблема именно в том, что я не могу заставить программу работать так, как предполагается, что она должна (см. выше). И вообще, меня интересует вопрос, существует ли работающая (!) платная или бесплатная программа для распознавания отсканированных математических формул в настоящее время, а не через пару лет. Fine Reader (включая последнюю, 7-ю версию) умеет с грехом пополам распознавать формулы типа символ+верхний(нижний)_индекс, а дроби, корни, интегралы, суммы ему не под силу. Естественно, я обращаюсь ТОЛЬКО к тем, у кого есть время и интерес протестировать Гокр и/или Инфти или кто знает что-то еще. (например, кто тоже интересуется проблемой распознавания формул). ![]() Спасибо. Последний раз редактировалось dmi; 16.09.2004 в 16:00. |
![]() |
# 13 |
Guest
Сообщения: n/a
|
Чтобы выяснить, что умеет гокр, я написал одному из его разработчиков и получил ответ:
>Dear Sirs, > >Would you please explain me if your program GOCR or GOCR+LibGOCR can >recognize mathematical formulas at the moment? > >I ask you because I could not find such statement in direct form in the >documentation on GOCR or LibGOCR but some people told me this. No, not yet. I'm not familiar with any OCRs that can recognize math formulas. -- Bruno Barberi Gnecco Так что вопрос с гокром, по крайней мере в той части, которая касается распознавания математических формул, можно снять (по меньшей мере на неопределенное время). А вопрос с Инфти остается. Кто-нибудь может подсказать, что можно делать, если появляется сообщение о Microsoft Visual C++ Runtime Library Runtime Error? Заранее спасибо за советы и помощь. |
![]() |
# 14 |
Guest
Сообщения: n/a
|
В новой версии распознавателя Infty Reader 2.4.2z(11-10-2004)
японцы пофиксили некоторые баги. На хомсайте написано: People who had trouble with the previous versions, including V2.4.2z uploaded on 30/9/2004, on Windows OS in European languages (French, Germany, etc.) <-- русский сюда же are requested to replace it by the current version of 11/10/2004. Some other bugs cocerning left-subscripts (e.g. Combination expression) are also fixed in the present version. Теперь окошко с сообщением о Microsoft Visual C++ Runtime Library Runtime Error появляется существенно реже. ![]() У меня получилось довольно пристойно распознать отсканированный математический текст в .tiff GROUP 4 с разрешением 600 dpi и сохранить результат в форматах .IML (это внутренний формат Infty, в котором формулы можно WYSIWYG-редактировать) и .HTML (с формулами как .PNG-рисунками). НО: не удалось сохранить результат в форматах .XML и .(La)TeX (вообще, интеграция с ТеХом оставляет желать лучшего). Кроме того, остается проблема с пропадающими символами - какой-то глюк в установке шрифтов Infty. Теперь ждем новой версии WYSIWYG-редактора для TeX Infty Editor. ![]() Если японцы будут и дальше так же активно фиксить свои баги, то возможно, в скором времени получится прога, даже лучшая, чем Scientific Word. |
![]() |
# 15 |
Guest
Сообщения: n/a
|
Не успел я отправить предыдущее сообщение,
как японцы еще раз пофиксили свою прогу. (Некоторые антивирусники реже обновляются ![]() На хомсайте теперь написано: People who had trouble with the previous versions, including V2.4.2z uploaded on 30/9/2004, on Windows OS in European languages (French, Germany, etc.) are requested to replace it by the current version of 13/10/2004. Some other bugs cocerning left-subscripts (e.g. Combination expression) are also fixed in the present version. В новой версии Infty Reader 2.4.2z(13-10-2004) уже можно сохранить распознанное как ТеХ (включая формулы). Но проблема со шрифтами осталась. И по-прежнему нет интеграции с имеющимся MiKTeXом. |