![]() |
распознание текста из pdf, ps, djvu - форматов
Часто читаю статьи на английском в формате pdf и ps. И не удобно каждый раз по отдельности переводить и «подписывать» непонятное слово. Точнее подписывать в формате pdf - невозможно (в этом формате документ не редактируется или, во всяком случае, мне не известно с помощью какой программы это можно сделать). Но встретил недавно в интернете возможность переводить из формата pdf в формат djvu. А для редактирования формата pdf у меня есть программа: в ней можно перевод подписать: сделать так, что когда поднесёшь курсор к слову, которое нужно перевести - «выскочит» перевод. Однако это тоже не удобно: переводить и подписывать каждое слово отдельно. Я подумал, что хорошо бы если перевести английский текст из pdf, djvu или ps - форматов текстовый. А потом уже с помощью промта - переводить: у него тоже есть удобная возможность итерактивного первода: выделяешь слово, подносишь к нему курсор - и «выскакивает» перевод.
Но для этого нужен подходящий распознаватель текста. Т.е. распознавалка из формата pdf либо djvu, либо - из ps - форматов. Как упростить задачу перевода? Либо как распознать текст либо из pdf либо из djvu, либо - из ps - форматов? |
ну если есть пакет Adobe Acrobat (не путать с Reader ), то просто открываешь
файл в pdf формате, а затем save us - и выбираешь к примеру .rtf |
Если не ошибаюсь, FineReader распознает ПэДээФы.
|
nick.ddd
НЕ ошибаешься и очень прилично это делает |
lesha1974
зачем?! PromtXT прекрасно переводит pdf! в самом же акробате! |
PrayeR
Вот так да! Замечательно! Однако PromtXT наверно не будет переводить если первоначально текст был не в цифровом, а в графическом формате? Или же он сначала расспознаёт текст, а потом переводит? То есть могут возникнуть ошибки (точнее - не переведённые слова) в связи с неправельным расспознанием? Ссылку не подскажете? |
lesha1974
не понял, ты юморишь или нет.. ладно естественно PromtXT переводит текст, графику он не распознает. |
PrayeR
Текст до помещения в PDF может быть переведен в "кривые" и помещен в PDF, как графика |
renreg
ну и... можно во много чего перевести, нормально в ПДФ тесткт это текст. так делают обычно... все, до свидания. |
PrayeR
Ты не прав. В некоторых случаях нужно перевести текст в кривые. Это применяется довольно часто при оформлении в графических программах. Не будем спорить - кадый работает как ему удобно. Я также встраиваю "текст как текст", но не всем это удоно. Кроме того, люди хотят так защитить свои файлы от возможных изменений. Видимо с таким случаем и сталкивается lesha1974 . Тут ему поможет только Finereader (или подобная программа). |
renreg
я прав. потому что текст - по умолчанию. а текст в виде графики - это отдельный случай. и если у него имеено он... так надо писать про это в вопросе. чтобы люди не занимались гаданием. пы.сы. почитай вопрос. еще увидишь нестыковку. |
PrayeR
Слишком частый "отдельный случай". Так это я знаю что текст может быть таким, а он не знает. Да и нен нужно это человеку. Он хочетьб перевести PDF. Безусловно, PROMT использовать удобно, но если не получается? Вот он и ищет способы. Я не люблю PROMT - уж очень он стал громоздским. Если приспичит - первожу Сократиком. Если не могу вставить текст, то мне проще пропустить файл через FineReader и затем перевести. Конечно, самый точный совет можно дать, если видеть исходный файл. |
renreg
мне по-барабану. я ответил на вопрос ЗАДАННЫЙ. ему не нравиться или не подходит? пусть тогда вопрос будет в коректной форме либо не обращает внимания на мой пост. и если тебе хочется обсуждать такие вещи, то для этого есть приват. у меня нет желания получать нагоняй от модов. |
Спасибо друзья!
Я очень доволен. Полностью получил ответы которые искал и даже больше. |
Adobe Acrobat умеет сохранять PDF во множестве форматов.
Если сохранение в *.rtf не помогает (причин может быть много: текст в кривых, вставлен не текст а сканированое изображение и т.д.) я сохраняю в *.tif без сжатия 300 - 600 dpi. Получаю по одной картинке на страницу. Потом всё это дело просто перетягиваю в Fine Reader и распознаю. За две недели обработал сидюк с документацией (ок 800 документов от 20 до 200 страниц в каждом). |
Мне нравится как работает ABBYY PDF Transformer. Не реклама :) на самом деле часто пользуюсь.
url deleted by Plague (платная ;) ) ABBYY PDF Transformer 1.0 предлагает несколько сценариев быстрого конвертирования PDF–файла в один из редактируемых форматов (RTF, DOC, TXT, XLS, HTML). 1. Открытие PDF–документов в Microsoft Word и Microsoft Excel для их последующего редактирования. 2. Открытие и конвертирование PDF–файлов из Проводника. 3. Конвертирование PDF–файлов в приложении Microsoft Outlook. Для большего удобства проведения конвертирования файлов в программе есть Мастер конвертирования ABBYY PDF Transformer, объединяющий все возможности программы и на каждом этапе подсказывающий, что и как сделать. Если конвертируемый PDF–документ содержит фрагменты текста на нескольких языках, или вам требуется конвертировать только выборочные страницы PDF–файла, воспользуйтесь дополнительными настройками программы. Программа позволяет сохранить исходный файл с полным сохранением оформления всего документа или без сохранения форматирования (по желанию пользователя). |
organix
правила прочти. ссылки на софт в этом разделе запрещены. максимум - хомпейдж. |
Блин, столько тем по PDF... Попробую здесь спросить.
А вот что делать с файлом после распознавания? Был PDF файл (текст в нем не распознан) - прогнал его через FineReader - надо опять в PDF. Попробовал через Acrobat PDF принтер, но FineReader на каждую страницу ругается, типа размер не подходит. А страниц 60 штук. Пробовал разные параметры распечатки - тоже самое. :( Adobe acrobat pro пакет от FineReader'а не воспринимает. :( Подскажите, как можно проще обратно пакет в PDF перегнать. Зы. Пробовал через MS Word - все форматирование слетает... |
Цитата:
Ты не мог бы объяснить сначала ЧТО ты делаешь: распознаешь PDF, который потом опять конвертируешь в PDF? :idontnow: Непонятна твой фраза: "Adobe acrobat pro пакет от FineReader'а не воспринимает" :idontnow: Объясни свою задачу: ЧТО :yees: имеется и ЧТО :yees: нужно получить. |
renreg
Есть файл, распознанный в FineReader. Надо его сконвертить в PDF. Через PDF принтер не получается... |
Цитата:
Что значит "Через PDF принтер не получается" - как ты делаешь? Какой Acrobat утановлен (Reader или Full), установлен ли Postscript-драйвер, для какой цели изготавливаешь PDF... Чем подробней ответишь, тем быстрее помогу. Ты же пишешь так, словно я сиэжу за твоим компьютером. |
Цитата:
1. Был PDF файл, состоящий из одних картинок (текст тоже как картинки). 2. Открыл его в FineReader'е. 3. Распознал весь текст. 4. Теперь в FineReader'е есть пакет в котором графика и распознанный текст из изначального PDF файла. Надо из этого пакета создать PDF файл. Цитата:
Цитата:
|
Цитата:
Это значит, что разрешение картинок можно уменьшить до 72 dpi (максимум до 96). А разрешение картинок FineReader поднимает до 300 dpi, чтобы распознать хорошо. Соответственно меняется и размер картинки в пикселах. Используя виртуальный принтер Adobe PDF, ты не регулируешь его установки и в этом месте получается сбой. Двай попробуем так - выложи на webfile.ru или еще куда-то свой файл. У меня установлен Fine Reader 7.0 и посмотрю, что там можно сделать. Если я правильно понимаю, то тебе нужно было установить не Adobe PDF, а профессиональный принтер (ФНА- фотонаборный автомат), затем печатать в файл и полученный таким образом Postscript-файл (*.ps) пропустить через Ascrobat Distiller, соответственно настроив его. Если же хочешь сам, то я могу прислать тебе инструкцию по созданию PDF и настройки для Acrobat Distiller 7.0 Решение за тобой. |
renreg
Что-то я жестоко стормозил... :idontnow: Оказывается в FineReader'е можно просто выбрать файл -> сохранить текст как... И выбрать PDF. Наверно все это от того, что всю жизнь из FineReader'а просто в word передавал. :) Так что все решилось. В результате файл похудел с 17 до 4 мегов. Это еще учитывая, что картинок в нем 60%... Спасибо тебе огромное за помощь. :yees: Буду теперь знать, к кому обращаться если возникнут заморочки с PDF. |
Часовой пояс GMT +4, время: 08:39. |
Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.