IMHO.WS

IMHO.WS (http://www.imho.ws/index.php)
-   Обсуждение программ (http://www.imho.ws/forumdisplay.php?f=3)
-   -   распознание текста из pdf, ps, djvu - форматов (http://www.imho.ws/showthread.php?t=30721)

lesha1974 28.05.2003 21:57

распознание текста из pdf, ps, djvu - форматов
 
Часто читаю статьи на английском в формате pdf и ps. И не удобно каждый раз по отдельности переводить и «подписывать» непонятное слово. Точнее подписывать в формате pdf - невозможно (в этом формате документ не редактируется или, во всяком случае, мне не известно с помощью какой программы это можно сделать). Но встретил недавно в интернете возможность переводить из формата pdf в формат djvu. А для редактирования формата pdf у меня есть программа: в ней можно перевод подписать: сделать так, что когда поднесёшь курсор к слову, которое нужно перевести - «выскочит» перевод. Однако это тоже не удобно: переводить и подписывать каждое слово отдельно. Я подумал, что хорошо бы если перевести английский текст из pdf, djvu или ps - форматов текстовый. А потом уже с помощью промта - переводить: у него тоже есть удобная возможность итерактивного первода: выделяешь слово, подносишь к нему курсор - и «выскакивает» перевод.
Но для этого нужен подходящий распознаватель текста. Т.е. распознавалка из формата pdf либо djvu, либо - из ps - форматов.

Как упростить задачу перевода?
Либо как распознать текст либо из pdf либо из djvu, либо - из ps - форматов?

YK 28.05.2003 22:20

ну если есть пакет Adobe Acrobat (не путать с Reader ), то просто открываешь
файл в pdf формате, а затем save us - и выбираешь к примеру .rtf

nick.ddd 28.05.2003 22:47

Если не ошибаюсь, FineReader распознает ПэДээФы.

renreg 30.05.2003 08:57

nick.ddd
НЕ ошибаешься и очень прилично это делает

PrayeR 30.05.2003 13:58

lesha1974
зачем?!
PromtXT прекрасно переводит pdf!
в самом же акробате!

lesha1974 30.05.2003 21:40

PrayeR

Вот так да! Замечательно!
Однако PromtXT наверно не будет переводить если первоначально текст был не в цифровом, а в графическом формате? Или же он сначала расспознаёт текст, а потом переводит? То есть могут возникнуть ошибки (точнее - не переведённые слова) в связи с неправельным расспознанием?

Ссылку не подскажете?

PrayeR 31.05.2003 12:54

lesha1974
не понял, ты юморишь или нет.. ладно
естественно PromtXT переводит текст, графику он не распознает.

renreg 31.05.2003 12:57

PrayeR
Текст до помещения в PDF может быть переведен в "кривые" и помещен в PDF, как графика

PrayeR 31.05.2003 13:08

renreg
ну и...
можно во много чего перевести,
нормально в ПДФ тесткт это текст.
так делают обычно...
все, до свидания.

renreg 31.05.2003 13:28

PrayeR
Ты не прав. В некоторых случаях нужно перевести текст в кривые.
Это применяется довольно часто при оформлении в графических программах.
Не будем спорить - кадый работает как ему удобно. Я также встраиваю "текст как текст", но не всем это удоно. Кроме того, люди хотят так защитить свои файлы от возможных изменений.
Видимо с таким случаем и сталкивается lesha1974 . Тут ему поможет только Finereader (или подобная программа).

PrayeR 31.05.2003 13:39

renreg
я прав. потому что текст - по умолчанию. а текст в виде графики - это отдельный случай. и если у него имеено он...
так надо писать про это в вопросе.
чтобы люди не занимались гаданием.

пы.сы. почитай вопрос. еще увидишь нестыковку.

renreg 31.05.2003 13:52

PrayeR
Слишком частый "отдельный случай". Так это я знаю что текст может быть таким, а он не знает. Да и нен нужно это человеку. Он хочетьб перевести PDF. Безусловно, PROMT использовать удобно, но если не получается? Вот он и ищет способы.
Я не люблю PROMT - уж очень он стал громоздским. Если приспичит - первожу Сократиком. Если не могу вставить текст, то мне проще пропустить файл через FineReader и затем перевести.

Конечно, самый точный совет можно дать, если видеть исходный файл.

PrayeR 31.05.2003 14:18

renreg
мне по-барабану. я ответил на вопрос ЗАДАННЫЙ.
ему не нравиться или не подходит?
пусть тогда вопрос будет в коректной форме либо не обращает внимания на мой пост.
и если тебе хочется обсуждать такие вещи, то для этого есть приват. у меня нет желания получать нагоняй от модов.

lesha1974 01.06.2003 21:34

Спасибо друзья!
Я очень доволен. Полностью получил ответы которые искал и даже больше.

Bazilevs 19.06.2003 19:30

Adobe Acrobat умеет сохранять PDF во множестве форматов.
Если сохранение в *.rtf не помогает (причин может быть много:
текст в кривых, вставлен не текст а сканированое изображение и т.д.)
я сохраняю в *.tif без сжатия 300 - 600 dpi. Получаю по одной картинке на страницу. Потом всё это дело просто перетягиваю в Fine Reader и распознаю.
За две недели обработал сидюк с документацией (ок 800 документов от 20 до 200 страниц в каждом).

organix 16.10.2004 15:37

Мне нравится как работает ABBYY PDF Transformer. Не реклама :) на самом деле часто пользуюсь.
url deleted by Plague (платная ;) )

ABBYY PDF Transformer 1.0 предлагает несколько сценариев быстрого конвертирования PDF–файла в один из редактируемых
форматов (RTF, DOC, TXT, XLS, HTML).
1. Открытие PDF–документов в Microsoft Word и Microsoft Excel для их последующего редактирования.
2. Открытие и конвертирование PDF–файлов из Проводника.
3. Конвертирование PDF–файлов в приложении Microsoft Outlook.
Для большего удобства проведения конвертирования файлов в программе есть Мастер конвертирования ABBYY PDF
Transformer, объединяющий все возможности программы и на каждом этапе подсказывающий, что и как сделать.
Если конвертируемый PDF–документ содержит фрагменты текста на нескольких языках, или вам требуется конвертировать
только выборочные страницы PDF–файла, воспользуйтесь дополнительными настройками программы.
Программа позволяет сохранить исходный файл с полным сохранением оформления всего документа или без сохранения
форматирования (по желанию пользователя).

Plague 16.10.2004 15:44

organix
правила прочти. ссылки на софт в этом разделе запрещены. максимум - хомпейдж.

Madchild 11.02.2005 23:05

Блин, столько тем по PDF... Попробую здесь спросить.

А вот что делать с файлом после распознавания?
Был PDF файл (текст в нем не распознан) - прогнал его через FineReader - надо опять в PDF. Попробовал через Acrobat PDF принтер, но FineReader на каждую страницу ругается, типа размер не подходит. А страниц 60 штук. Пробовал разные параметры распечатки - тоже самое. :(
Adobe acrobat pro пакет от FineReader'а не воспринимает. :(
Подскажите, как можно проще обратно пакет в PDF перегнать.
Зы. Пробовал через MS Word - все форматирование слетает...

renreg 12.02.2005 00:18

Цитата:

Сообщение от Madchild
Блин, столько тем по PDF... Попробую здесь спросить.

А вот что делать с файлом после распознавания?
Был PDF файл (текст в нем не распознан) - прогнал его через FineReader - надо опять в PDF. Попробовал через Acrobat PDF принтер, но FineReader на каждую страницу ругается, типа размер не подходит. А страниц 60 штук. Пробовал разные параметры распечатки - тоже самое. :(
Adobe acrobat pro пакет от FineReader'а не воспринимает. :(
Подскажите, как можно проще обратно пакет в PDF перегнать.
Зы. Пробовал через MS Word - все форматирование слетает...


Ты не мог бы объяснить сначала ЧТО ты делаешь: распознаешь PDF, который потом опять конвертируешь в PDF? :idontnow:
Непонятна твой фраза: "Adobe acrobat pro пакет от FineReader'а не воспринимает" :idontnow:
Объясни свою задачу: ЧТО :yees: имеется и ЧТО :yees: нужно получить.

Madchild 12.02.2005 00:25

renreg
Есть файл, распознанный в FineReader. Надо его сконвертить в PDF. Через PDF принтер не получается...

renreg 12.02.2005 08:22

Цитата:

Сообщение от Madchild
renreg
Есть файл, распознанный в FineReader. Надо его сконвертить в PDF. Через PDF принтер не получается...

Что значит "файл, распознанный в FineReader" - в каком формате? Word, Excel...

Что значит "Через PDF принтер не получается" - как ты делаешь?

Какой Acrobat утановлен (Reader или Full), установлен ли Postscript-драйвер, для какой цели изготавливаешь PDF...

Чем подробней ответишь, тем быстрее помогу. Ты же пишешь так, словно я сиэжу за твоим компьютером.

Madchild 12.02.2005 22:31

Цитата:

renreg:
Ты же пишешь так, словно я сиэжу за твоим компьютером.
:)
1. Был PDF файл, состоящий из одних картинок (текст тоже как картинки).
2. Открыл его в FineReader'е.
3. Распознал весь текст.
4. Теперь в FineReader'е есть пакет в котором графика и распознанный текст из изначального PDF файла.
Надо из этого пакета создать PDF файл.
Цитата:

renreg:
Что значит "Через PDF принтер не получается" - как ты делаешь?
Меню Файл -> Печать текста -> Adobe PDF. Постоянно ругается, что страница не влезет. Пробовал менять размер страницы вплоть до A2 - все равно ругается. Acrobat pro 7.0.0 (full естественно) и драйвер принтера Adobe PDF установленны и работают.
Цитата:

renreg:
для какой цели изготавливаешь PDF...
Книжка. Хочется, чтобы занимала меньше места.

renreg 12.02.2005 22:56

Цитата:

Сообщение от Madchild
:)
1. Был PDF файл, состоящий из одних картинок (текст тоже как картинки).
2. Открыл его в FineReader'е.
3. Распознал весь текст.
4. Теперь в FineReader'е есть пакет в котором графика и распознанный текст из изначального PDF файла.
Надо из этого пакета создать PDF файл.
Меню Файл -> Печать текста -> Adobe PDF. Постоянно ругается, что страница не влезет. Пробовал менять размер страницы вплоть до A2 - все равно ругается. Acrobat pro 7.0.0 (full естественно) и драйвер принтера Adobe PDF установленны и работают.
Книжка. Хочется, чтобы занимала меньше места.

Как я понимаю, книжка для личного пользования, то есть читать будешь на экране.
Это значит, что разрешение картинок можно уменьшить до 72 dpi (максимум до 96). А разрешение картинок FineReader поднимает до 300 dpi, чтобы распознать хорошо. Соответственно меняется и размер картинки в пикселах. Используя виртуальный принтер Adobe PDF, ты не регулируешь его установки и в этом месте получается сбой.

Двай попробуем так - выложи на webfile.ru или еще куда-то свой файл. У меня установлен Fine Reader 7.0 и посмотрю, что там можно сделать. Если я правильно понимаю, то тебе нужно было установить не Adobe PDF, а профессиональный принтер (ФНА- фотонаборный автомат), затем печатать в файл и полученный таким образом Postscript-файл (*.ps) пропустить через Ascrobat Distiller, соответственно настроив его.

Если же хочешь сам, то я могу прислать тебе инструкцию по созданию PDF и настройки для Acrobat Distiller 7.0

Решение за тобой.

Madchild 13.02.2005 00:50

renreg
Что-то я жестоко стормозил... :idontnow:
Оказывается в FineReader'е можно просто выбрать файл -> сохранить текст как... И выбрать PDF. Наверно все это от того, что всю жизнь из FineReader'а просто в word передавал. :)
Так что все решилось. В результате файл похудел с 17 до 4 мегов. Это еще учитывая, что картинок в нем 60%...
Спасибо тебе огромное за помощь. :yees: Буду теперь знать, к кому обращаться если возникнут заморочки с PDF.


Часовой пояс GMT +4, время: 08:39.

Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.