IMHO.WS

IMHO.WS (http://www.imho.ws/index.php)
-   Обсуждение программ (http://www.imho.ws/forumdisplay.php?f=3)
-   -   Распознавание формул в тексте. (http://www.imho.ws/showthread.php?t=55305)

m16 31.03.2004 15:39

Распознавание формул в тексте.
 
Привет всем. У меня несколько нетривиальная проблема, хотя многие с ней наверное сталкивались. В общем есть Fine Reader 7 Pro - просто замечательная вещь. Проблема возникает при распознавании текста с формулами. В принципе можно ту же страницу распознавать и на английском (если сам текст русский), но во-первых получится двойная работа а во-вторых если формулы включают мат. символы или греческие буквы то всё равно видимо ничего не выйдет. В общем может кто знает какую-нибудь специальную программу которая знает мат. символы и буквы (русские) или может есть способ включить (как это делается при добавлении нового языка) примочку с такими символами в Fine Reader.

Пасибки за внимание.

:confused:

Krokokot 31.03.2004 18:01

сообщении должно быть в топике здесь

Madness 31.03.2004 20:07

m16
В Программы.

amk 01.04.2004 16:13

Присоединяюсь к данной теме!
Было бы здорово уметь такое делать, но я никогда даже
не слышал о качественном распознавании сложных формул.
Даже при существенных ограничениях типа "набрано
в ТеХе в стандартных обозначениях".
Если бы такое можно было бы делать,
я бы об этом знал... были бы какие-то варианты в FR...
я так думаю...

Сделать такую прогу - хорошая задача для молодого математика,
желающего приобрести известность в математических кругах.
Да и в ABBYY заинтересовались бы.
Вперед!

m16 01.04.2004 19:50

Ответ amk
 
Ну программист из меня не слишком плохой только на фортране а это тут по-моему не к месту. Это я больше философствую, конечно, но вроде как принципиального отличия между буквами и символами быть не должно. Я попытаюсь посмотреть как выглядит изнутри примочка языка (как она закодирована, если уроды из это позволяют).

Другая, более серьёзная проблема состоит в том что FR экспортирует распознанный текст в определённые форматы. Но до этого ведь текст хранится в каком-то определённом промежуточном формате. Если это нечто похожее на текстовый файл то всё сильно осложняется. Тогда получается что нужно будет встраивать в FR нечто вроде Microsoft Equation и потом привязывать ассоциированные с ним формулы как некие обьекты к тексту, которые уже после открытия, например в Word'e, будут нормально распознаваться.

Если я это смогу - обязательно выложу, расскажу и покажу, но что-то мне не вериться что это возможно.

amk 01.04.2004 20:06

m16
Ну причем тут Word... кто ж пишет формулы в Ворде...
Сразу в ТеХ! то есть результат в текстовом формате нужен.
Принципиальной разницы, может быть, и нет. Однако - текст
пишется в линейку, а формулы - выносные - могут быть весьма сложными
по "геометрии". И как тут быть не вполне ясно.
Но даже строчные формулы было бы здорово включить в FR.

alex_in 02.04.2004 15:20

m16
попробуй поэкспериментировать здесь
Fine Reader 7 Pro
Сервис->Опции->Распознавание->Редактор языков

dmi 16.09.2004 02:54

Есть две программы:
GOCR (GNU Optical Character Recognition)
_http://jocr.sourceforge.net/
_http://sourceforge.net/projects/jocr/

и

Infty Editor + Infty Reader
_http://www.inftyproject.org/index-e.html
_http://www.caisystem.co.jp/infty/e/index.html

Насчет первой - OCR-пакета - информация самая противоречивая:
в документации по GOCR и библиотеке к ней libGOCR
утверждения В ЯВНОМ ВИДЕ, что она распознает математические формулы
я не нашел.
Но в переписке разработчиков гокра
(_http://sourceforge.net/mailarchive/forum.php?forum=jocr-devels), например, здесь
_http://sourceforge.net/mailarchive/message.php?msg_id=6869458
это написано черным по белому.
Ситуация осложняется тем, что если гокр доступен в экзешнике
(требующем притом внешнего интерфейса, например tcl, а также
конвертор графических форматов, например PMView или NetPBM,
т.к. на вход надо подавать .pbm-файлы),
то необходимый либгокр доступен только в исходниках.

По поводу второй программы:
это WYSIWYG-редактор под формат LaTeX + OCR-пакет для математических формул с приятным интерфейсом.
На вход надо подавать .tiff (но не любой, например, GROUP4 подходит,
а LZW нет) с разрешением 400 или 600 dpi, на выходе, пишут, можно
получить LaTeX/HTML/MathML/TXT. Но здесь свои проблемы:
у меня под Windows XP (service pack 1) + Internet Explorer 6.0 появляется сообщение:

Microsoft Visual C++ Runtime Library
Runtime Error!
Program C:\Program Files\CAI-SYSTEM\InftyEditor\InftyEd2.exe
abnormal program termination

Кто-нибудь знает, что делать? :idontnow:

Plague 16.09.2004 13:35

dmi
и правила http://www.imho.ws/announcement.php?...uncementid=116
и рекомендации http://www.imho.ws/announcement.php?...uncementid=126
форума.
в рекомендациях понятно расписана причина моих действий.
впредь не нарушай :)

dmi 16.09.2004 14:45

Инфти ридер (распознаватель) - бесплатный (имхо, что и понятно для не всегда работающей программы ;) ), но для скачивания требует регистрации на сайте (присылают пароль на e-mail).
Инфти эдитор (редактор) - скачивается без регистрации, но условно-бесплатный, trial-период - 30 дней, лицензия - 55$, кейгенераторов в Интернете не нахожу.
По части WYSIWYG-редактирования ридер включает усеченный вариант эдитора.

Plague 16.09.2004 14:56

dmi
ты думаешь, у меня есть время и траффик для того чтоб прооверять фриварность каждой софтины???
прочел бы рекомендации - все было бы понятно. там разжевано все. что как и почему.
ссылки - в варезе. вопрос закрыт.

зы. ссылки на хомсайты при большой необходимости использовать можно, но закрытыми. (напр. _http://jocr.sourceforge.net/ )
также можно использовать ссылки на любые топы внутри форума imho.ws
вообще, все это написано уже миллион раз

dmi 16.09.2004 15:52

После переустановки Инфти отсчет trial-периода начался заново. Так что кейгенератор, похоже, не нужен.
У меня проблема именно в том, что я не могу заставить программу работать так, как предполагается, что она должна (см. выше).
И вообще, меня интересует вопрос, существует ли работающая (!) платная или бесплатная программа для распознавания отсканированных математических формул в настоящее время, а не через пару лет.
Fine Reader (включая последнюю, 7-ю версию) умеет с грехом пополам
распознавать формулы типа символ+верхний(нижний)_индекс, а дроби, корни, интегралы, суммы ему не под силу.
Естественно, я обращаюсь ТОЛЬКО к тем, у кого есть время и интерес
протестировать Гокр и/или Инфти или кто знает что-то еще.
(например, кто тоже интересуется проблемой распознавания формул). :молись:
Спасибо.

dmi 18.09.2004 23:06

Чтобы выяснить, что умеет гокр, я написал одному из его разработчиков и получил ответ:

>Dear Sirs,
>
>Would you please explain me if your program GOCR or GOCR+LibGOCR can
>recognize mathematical formulas at the moment?
>
>I ask you because I could not find such statement in direct form in the
>documentation on GOCR or LibGOCR but some people told me this.

No, not yet. I'm not familiar with any OCRs that can recognize
math formulas.

-- Bruno Barberi Gnecco

Так что вопрос с гокром, по крайней мере в той части, которая касается распознавания математических формул, можно снять (по меньшей мере на неопределенное время).

А вопрос с Инфти остается.

Кто-нибудь может подсказать, что можно делать, если появляется сообщение о Microsoft Visual C++ Runtime Library Runtime Error?
Заранее спасибо за советы и помощь.

dmi 13.10.2004 04:55

В новой версии распознавателя Infty Reader 2.4.2z(11-10-2004)
японцы пофиксили некоторые баги.

На хомсайте написано:

People who had trouble with the previous versions, including V2.4.2z uploaded
on 30/9/2004, on Windows OS in European languages (French, Germany, etc.) <-- русский сюда же
are requested to replace it by the current version of 11/10/2004.
Some other bugs cocerning left-subscripts (e.g. Combination expression) are also
fixed in the present version.

Теперь окошко с сообщением о Microsoft Visual C++ Runtime Library Runtime Error появляется существенно реже. :)

У меня получилось довольно пристойно распознать отсканированный математический текст в .tiff GROUP 4 с разрешением 600 dpi и сохранить результат в форматах .IML (это внутренний формат Infty, в котором формулы можно WYSIWYG-редактировать) и .HTML (с формулами как .PNG-рисунками).

НО: не удалось сохранить результат в форматах .XML и .(La)TeX (вообще, интеграция с ТеХом оставляет желать лучшего).
Кроме того, остается проблема с пропадающими символами - какой-то глюк в установке шрифтов Infty.

Теперь ждем новой версии WYSIWYG-редактора для TeX Infty Editor. :claps:

Если японцы будут и дальше так же активно фиксить свои баги, то
возможно, в скором времени получится прога, даже лучшая, чем Scientific Word.

dmi 15.10.2004 13:04

Не успел я отправить предыдущее сообщение,
как японцы еще раз пофиксили свою прогу. (Некоторые антивирусники реже обновляются :) )

На хомсайте теперь написано:

People who had trouble with the previous versions, including V2.4.2z uploaded
on 30/9/2004, on Windows OS in European languages (French, Germany, etc.)
are requested to replace it by the current version of 13/10/2004.
Some other bugs cocerning left-subscripts (e.g. Combination expression) are also
fixed in the present version.

В новой версии Infty Reader 2.4.2z(13-10-2004)
уже можно сохранить распознанное как ТеХ (включая формулы).
Но проблема со шрифтами осталась.
И по-прежнему нет интеграции с имеющимся MiKTeXом.

dmi 25.10.2004 23:38

Вышли новые релиз Infty Editor 2.03d(17-10-2004) и бэта-версия Infty Editor 2.04(20-10-2004).

Несмотря на ряд изменений, по-прежнему есть проблемы с некоторыми символами и интеграцией с MiKTeX или LaTeX Install Kit.

dmi 14.12.2004 01:18

Текущие версии:

релиз Infty Editor 2.03e (11 ноября 2004)
бэта Infty Editor 2.04 beta 3 (13 декабря 2004)

Infty Reader 2.4.2z (13 октября 2004)

Обсуждение последних версий на Ру-Борде:
_http://forum.ru-board.com/topic.cgi?forum=5&topic=12982&start=0


Часовой пояс GMT +4, время: 08:34.

Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.