imho.ws
IMHO.WS  

Вернуться   IMHO.WS > Программы и Операционные системы > Обсуждение программ
Опции темы
Старый 31.03.2004, 15:39     # 1
m16
Junior Member
 
Аватар для m16
 
Регистрация: 17.07.2002
Адрес: The Moon (Back side)
Сообщения: 80

m16 Косячил раньше, старается исправиться
Распознавание формул в тексте.

Привет всем. У меня несколько нетривиальная проблема, хотя многие с ней наверное сталкивались. В общем есть Fine Reader 7 Pro - просто замечательная вещь. Проблема возникает при распознавании текста с формулами. В принципе можно ту же страницу распознавать и на английском (если сам текст русский), но во-первых получится двойная работа а во-вторых если формулы включают мат. символы или греческие буквы то всё равно видимо ничего не выйдет. В общем может кто знает какую-нибудь специальную программу которая знает мат. символы и буквы (русские) или может есть способ включить (как это делается при добавлении нового языка) примочку с такими символами в Fine Reader.

Пасибки за внимание.

m16 вне форума  
Старый 31.03.2004, 18:01     # 2
Krokokot
Junior Member
 
Регистрация: 28.10.2002
Сообщения: 59

Krokokot Нуль без палочки
сообщении должно быть в топике здесь
Krokokot вне форума  
Старый 31.03.2004, 20:07     # 3
Madness
KpTeaM
 
Регистрация: 31.10.2002
Адрес: Russia
Пол: Male
Сообщения: 3 261

Madness СуперБогMadness СуперБогMadness СуперБог
Madness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБогMadness СуперБог
m16
В Программы.
__________________
Над струнами вен моих
Лезвия осени,
Их сталь леденящая
В просинь рук просится...
©Темнозорь
Madness вне форума  
Старый 01.04.2004, 16:13     # 4
amk
Member
 
Аватар для amk
 
Регистрация: 10.05.2002
Сообщения: 231

amk Известность не заставит себя ждать
Присоединяюсь к данной теме!
Было бы здорово уметь такое делать, но я никогда даже
не слышал о качественном распознавании сложных формул.
Даже при существенных ограничениях типа "набрано
в ТеХе в стандартных обозначениях".
Если бы такое можно было бы делать,
я бы об этом знал... были бы какие-то варианты в FR...
я так думаю...

Сделать такую прогу - хорошая задача для молодого математика,
желающего приобрести известность в математических кругах.
Да и в ABBYY заинтересовались бы.
Вперед!
amk вне форума  
Старый 01.04.2004, 19:50     # 5
m16
Junior Member
 
Аватар для m16
 
Регистрация: 17.07.2002
Адрес: The Moon (Back side)
Сообщения: 80

m16 Косячил раньше, старается исправиться
Ответ amk

Ну программист из меня не слишком плохой только на фортране а это тут по-моему не к месту. Это я больше философствую, конечно, но вроде как принципиального отличия между буквами и символами быть не должно. Я попытаюсь посмотреть как выглядит изнутри примочка языка (как она закодирована, если уроды из это позволяют).

Другая, более серьёзная проблема состоит в том что FR экспортирует распознанный текст в определённые форматы. Но до этого ведь текст хранится в каком-то определённом промежуточном формате. Если это нечто похожее на текстовый файл то всё сильно осложняется. Тогда получается что нужно будет встраивать в FR нечто вроде Microsoft Equation и потом привязывать ассоциированные с ним формулы как некие обьекты к тексту, которые уже после открытия, например в Word'e, будут нормально распознаваться.

Если я это смогу - обязательно выложу, расскажу и покажу, но что-то мне не вериться что это возможно.
m16 вне форума  
Старый 01.04.2004, 20:06     # 6
amk
Member
 
Аватар для amk
 
Регистрация: 10.05.2002
Сообщения: 231

amk Известность не заставит себя ждать
m16
Ну причем тут Word... кто ж пишет формулы в Ворде...
Сразу в ТеХ! то есть результат в текстовом формате нужен.
Принципиальной разницы, может быть, и нет. Однако - текст
пишется в линейку, а формулы - выносные - могут быть весьма сложными
по "геометрии". И как тут быть не вполне ясно.
Но даже строчные формулы было бы здорово включить в FR.
amk вне форума  
Старый 02.04.2004, 15:20     # 7
alex_in
Member
 
Регистрация: 15.04.2002
Адрес: Россия
Сообщения: 322

alex_in Известность не заставит себя ждать
m16
попробуй поэкспериментировать здесь
Fine Reader 7 Pro
Сервис->Опции->Распознавание->Редактор языков
alex_in вне форума  
Старый 16.09.2004, 02:54     # 8
dmi
Guest
 
Сообщения: n/a

Есть две программы:
GOCR (GNU Optical Character Recognition)
_http://jocr.sourceforge.net/
_http://sourceforge.net/projects/jocr/

и

Infty Editor + Infty Reader
_http://www.inftyproject.org/index-e.html
_http://www.caisystem.co.jp/infty/e/index.html

Насчет первой - OCR-пакета - информация самая противоречивая:
в документации по GOCR и библиотеке к ней libGOCR
утверждения В ЯВНОМ ВИДЕ, что она распознает математические формулы
я не нашел.
Но в переписке разработчиков гокра
(_http://sourceforge.net/mailarchive/forum.php?forum=jocr-devels), например, здесь
_http://sourceforge.net/mailarchive/message.php?msg_id=6869458
это написано черным по белому.
Ситуация осложняется тем, что если гокр доступен в экзешнике
(требующем притом внешнего интерфейса, например tcl, а также
конвертор графических форматов, например PMView или NetPBM,
т.к. на вход надо подавать .pbm-файлы),
то необходимый либгокр доступен только в исходниках.

По поводу второй программы:
это WYSIWYG-редактор под формат LaTeX + OCR-пакет для математических формул с приятным интерфейсом.
На вход надо подавать .tiff (но не любой, например, GROUP4 подходит,
а LZW нет) с разрешением 400 или 600 dpi, на выходе, пишут, можно
получить LaTeX/HTML/MathML/TXT. Но здесь свои проблемы:
у меня под Windows XP (service pack 1) + Internet Explorer 6.0 появляется сообщение:

Microsoft Visual C++ Runtime Library
Runtime Error!
Program C:\Program Files\CAI-SYSTEM\InftyEditor\InftyEd2.exe
abnormal program termination

Кто-нибудь знает, что делать?

Последний раз редактировалось dmi; 16.09.2004 в 14:45.
 
Старый 16.09.2004, 13:35     # 9
Plague
Administrator
 
Аватар для Plague
 
Регистрация: 06.05.2003
Адрес: Московская Подводная Лодка
Пол: Male
Сообщения: 12 029

Plague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague Демиург
Plague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague Демиург
dmi
и правила http://www.imho.ws/announcement.php?...uncementid=116
и рекомендации http://www.imho.ws/announcement.php?...uncementid=126
форума.
в рекомендациях понятно расписана причина моих действий.
впредь не нарушай
__________________
все "спасибы" - в приват и в репутацию! не засоряйте форум!!!!
~~~~~~~~~~~~~~~~~~~~~~

The time has come it is quite clear, our antichrist is almost already here.
M.M.
Plague вне форума  
Старый 16.09.2004, 14:45     # 10
dmi
Guest
 
Сообщения: n/a

Инфти ридер (распознаватель) - бесплатный (имхо, что и понятно для не всегда работающей программы ), но для скачивания требует регистрации на сайте (присылают пароль на e-mail).
Инфти эдитор (редактор) - скачивается без регистрации, но условно-бесплатный, trial-период - 30 дней, лицензия - 55$, кейгенераторов в Интернете не нахожу.
По части WYSIWYG-редактирования ридер включает усеченный вариант эдитора.
 
Старый 16.09.2004, 14:56     # 11
Plague
Administrator
 
Аватар для Plague
 
Регистрация: 06.05.2003
Адрес: Московская Подводная Лодка
Пол: Male
Сообщения: 12 029

Plague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague Демиург
Plague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague ДемиургPlague Демиург
dmi
ты думаешь, у меня есть время и траффик для того чтоб прооверять фриварность каждой софтины???
прочел бы рекомендации - все было бы понятно. там разжевано все. что как и почему.
ссылки - в варезе. вопрос закрыт.

зы. ссылки на хомсайты при большой необходимости использовать можно, но закрытыми. (напр. _http://jocr.sourceforge.net/ )
также можно использовать ссылки на любые топы внутри форума imho.ws
вообще, все это написано уже миллион раз
__________________
все "спасибы" - в приват и в репутацию! не засоряйте форум!!!!
~~~~~~~~~~~~~~~~~~~~~~

The time has come it is quite clear, our antichrist is almost already here.
M.M.
Plague вне форума  
Старый 16.09.2004, 15:52     # 12
dmi
Guest
 
Сообщения: n/a

После переустановки Инфти отсчет trial-периода начался заново. Так что кейгенератор, похоже, не нужен.
У меня проблема именно в том, что я не могу заставить программу работать так, как предполагается, что она должна (см. выше).
И вообще, меня интересует вопрос, существует ли работающая (!) платная или бесплатная программа для распознавания отсканированных математических формул в настоящее время, а не через пару лет.
Fine Reader (включая последнюю, 7-ю версию) умеет с грехом пополам
распознавать формулы типа символ+верхний(нижний)_индекс, а дроби, корни, интегралы, суммы ему не под силу.
Естественно, я обращаюсь ТОЛЬКО к тем, у кого есть время и интерес
протестировать Гокр и/или Инфти или кто знает что-то еще.
(например, кто тоже интересуется проблемой распознавания формул).
Спасибо.

Последний раз редактировалось dmi; 16.09.2004 в 16:00.
 
Старый 18.09.2004, 23:06     # 13
dmi
Guest
 
Сообщения: n/a

Чтобы выяснить, что умеет гокр, я написал одному из его разработчиков и получил ответ:

>Dear Sirs,
>
>Would you please explain me if your program GOCR or GOCR+LibGOCR can
>recognize mathematical formulas at the moment?
>
>I ask you because I could not find such statement in direct form in the
>documentation on GOCR or LibGOCR but some people told me this.

No, not yet. I'm not familiar with any OCRs that can recognize
math formulas.

-- Bruno Barberi Gnecco

Так что вопрос с гокром, по крайней мере в той части, которая касается распознавания математических формул, можно снять (по меньшей мере на неопределенное время).

А вопрос с Инфти остается.

Кто-нибудь может подсказать, что можно делать, если появляется сообщение о Microsoft Visual C++ Runtime Library Runtime Error?
Заранее спасибо за советы и помощь.
 
Старый 13.10.2004, 04:55     # 14
dmi
Guest
 
Сообщения: n/a

В новой версии распознавателя Infty Reader 2.4.2z(11-10-2004)
японцы пофиксили некоторые баги.

На хомсайте написано:

People who had trouble with the previous versions, including V2.4.2z uploaded
on 30/9/2004, on Windows OS in European languages (French, Germany, etc.) <-- русский сюда же
are requested to replace it by the current version of 11/10/2004.
Some other bugs cocerning left-subscripts (e.g. Combination expression) are also
fixed in the present version.

Теперь окошко с сообщением о Microsoft Visual C++ Runtime Library Runtime Error появляется существенно реже.

У меня получилось довольно пристойно распознать отсканированный математический текст в .tiff GROUP 4 с разрешением 600 dpi и сохранить результат в форматах .IML (это внутренний формат Infty, в котором формулы можно WYSIWYG-редактировать) и .HTML (с формулами как .PNG-рисунками).

НО: не удалось сохранить результат в форматах .XML и .(La)TeX (вообще, интеграция с ТеХом оставляет желать лучшего).
Кроме того, остается проблема с пропадающими символами - какой-то глюк в установке шрифтов Infty.

Теперь ждем новой версии WYSIWYG-редактора для TeX Infty Editor.

Если японцы будут и дальше так же активно фиксить свои баги, то
возможно, в скором времени получится прога, даже лучшая, чем Scientific Word.
 
Старый 15.10.2004, 13:04     # 15
dmi
Guest
 
Сообщения: n/a

Не успел я отправить предыдущее сообщение,
как японцы еще раз пофиксили свою прогу. (Некоторые антивирусники реже обновляются )

На хомсайте теперь написано:

People who had trouble with the previous versions, including V2.4.2z uploaded
on 30/9/2004, on Windows OS in European languages (French, Germany, etc.)
are requested to replace it by the current version of 13/10/2004.
Some other bugs cocerning left-subscripts (e.g. Combination expression) are also
fixed in the present version.

В новой версии Infty Reader 2.4.2z(13-10-2004)
уже можно сохранить распознанное как ТеХ (включая формулы).
Но проблема со шрифтами осталась.
И по-прежнему нет интеграции с имеющимся MiKTeXом.
 
Старый 25.10.2004, 23:38     # 16
dmi
Guest
 
Сообщения: n/a

Вышли новые релиз Infty Editor 2.03d(17-10-2004) и бэта-версия Infty Editor 2.04(20-10-2004).

Несмотря на ряд изменений, по-прежнему есть проблемы с некоторыми символами и интеграцией с MiKTeX или LaTeX Install Kit.
 
Старый 14.12.2004, 01:18     # 17
dmi
Guest
 
Сообщения: n/a

Текущие версии:

релиз Infty Editor 2.03e (11 ноября 2004)
бэта Infty Editor 2.04 beta 3 (13 декабря 2004)

Infty Reader 2.4.2z (13 октября 2004)

Обсуждение последних версий на Ру-Борде:
_http://forum.ru-board.com/topic.cgi?forum=5&topic=12982&start=0
 


Ваши права в разделе
Вы НЕ можете создавать новые темы
Вы не можете отвечать в темах.
Вы НЕ можете прикреплять вложения
Вы НЕ можете редактировать свои сообщения

BB код Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Часовой пояс GMT +4, время: 03:06.




Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.