какие виды текста может распознавать abbyy finereader pdf 15

07.07.202215.07.2022 admin 0 Comments

ABBYY FineReader 15: искусственный интеллект в действии

Первая версия ABBYY FineReader увидела свет более четверти века тому назад, когда компания представила рыночную OCR-систему, которая работала с любыми видами шрифтов и могла одновременно распознавать символы на разных языках. С тех пор эта программа стала чуть ли не стандартом «де-факто» в сегменте соответствующих решений: приобретению сканера сопутствовала установка на ПК FineReader. Сейчас речь пойдет о возможностях, которые предоставляет пятнадцатая версия продукта — разумеется, никто не собирается сравнивать ее с первыми релизами, за 26 лет математическая модель не только прошла путь «от самоката до сверхзвукового истребителя», но и обзавелась элементами искусственного интеллекта и стала универсальной программой для работы с PDF-документами.

Предыдущим версиям программы уже было под силу многое: например, с помощью ABBYY FineReader уже удалось оцифровать все 90 томов из собрания сочинений Л. Н. Толстого. Решением ABBYY люди давно пользуются не только дома, но и на работе. Например, в «Ростелекоме» с программой работают более 700 сотрудников – юристов и специалистов отдела кадров. В последней версии продукт ABBYY превратился в мощный офисный пакет, поддерживающий работу с PDF-файлами, где OCR-модуль является лишь одной из частей. Ныне он позиционируется, как «многофункциональный редактор для решения любых задач с PDF и бумажными документами», причем слово — «любых» всячески акцентируется.

Сперва о создании первичного манускрипта. Для его формирования пользователю предлагается скомпоновать различные источники и документы разных типов, и не только электронные, но и бумажные. Выполнив компиляцию, к ней можно добавить водяные знаки и цифровые подписи, провести окончательное форматирование документов, внести комментарии, скрыть конфиденциальную информацию, установить парольную защиту и проделать множество других действий для того, чтобы получить на выходе полностью готовый документ.

И сделать это можно так быстро, как только позволит квалификация работника. Наивысшая продуктивность пятнадцатой версии достигнута во многом благодаря технологиям машинного обучения и искусственного интеллекта, построенных на базе нейросетей. Искаженные кодировки и испорченные места в исходных документах для таких механизмов перестали быть неразрешимой проблемой, также успешнее распознаются тексты на языках Востока — японском и корейском, например. В частности, при обнаружении искаженного (испорченного) участка в PDF-документе, будет задействован механизм оптического распознавания, что существенно повышает качество переноса информации. Также улучшена работа с электронными таблицами с текстом на языках с записью справа налево.

Тестовые исследования показывают, что ускорение работы в сопоставлении с предыдущей версией может достигать 40% даже при работе с объемными документами (в т.ч. PDF), изобилующих изображениями, диаграммами и таблицами. Ускорит работу и новая возможность извлечения текста из полей для заполнения и элементов типа «текстовый блок» в комментариях — теперь это не придется делать полностью вручную. Да и со структурой текста меньше проблем: при удалении, изменении или добавлении слов в абзацах (многострочное редактирование) текст автоматически равномерно перераспределяется по строкам.

Доработки коснулись и модуля сравнения документов: результаты сравнения можно сразу перемещать в документ Microsoft Word и отображать их в режиме отслеживания изменений: такая функция востребована при работе с бухгалтерскими, юридическими и проектными документами. Причем для разных форматов — важно, чтобы они входили в список поддерживаемых.

Внедрение искусственного интеллекта позволило реализовать даже такие возможности редактирования, которые до этого были невообразимыми: как PDF-документ (который вообще не предназначен для правки) можно подредактировать? Сейчас это не проблема: тот же искусственный интеллект способен определять практически любые элементы форматирования, в том числе заголовки и подзаголовки, отдельные абзацы и колонтитулы, ячейки таблиц и прочее, позволяя изменять их содержимое так, как будто бы в обыкновенном текстовом документе. Изменения можно вносить даже в отсканированные оригиналы, даже с отсутствующим текстовым слоем.

И, наконец, о приятном дополнении в предложениях для организаций: введено лицензирование для удаленных пользователей. Отныне, с идентификацией только по имени последнего, допускается использовать ABBYY FineReader 15 совместно с продуктами для виртуализации, в том числе, с Microsoft Remote Desktop Services, Citrix XenApp, Citrix Virtual Apps and Desktops. Также расширены возможности использования групповых политик (GPO), в частности, администраторы смогут управлять максимальным количеством ядер CPU, которые могут использоваться программой на каждом компьютере и задавать лимит времени простоя, по истечении которого Concurrent-лицензия будет освобождена и доступна другим рабочим станциям.

Ну и о приятном для всех пользователей: до самого нового года, 30 декабря, купить FineReader и другие продукты можно со скидкой 40%.

Источник

Как распознать текст в PDF

Что вы выберете из двух вариантов: кропотливо перепечатывать несколько часов статью из редкого журнала, 10 страниц бумажного договора, главу из энциклопедического справочника? Или за несколько минут перевести необходимый материал в редактируемый формат с помощью сканера и программы для оптического распознавания символов, а освободившееся время посвятить себе, семье и друзьям? Ответ очевиден!

Применение современных OCR-технологий для распознавания текста помогает сэкономить много сил и времени при работе с любыми документами – будь то PDF-файлы, сканы, цифровые фотографии, бумажные договоры, справки, инструкции, а также книги, журналы и учебники. Например, с ABBYY FineReader PDF 15 можно отсканировать юридический отчет, портфолио или научный доклад, а затем просто и удобно редактировать их. Чтобы не перепечатывать статьи из журналов, фрагменты и цитаты из книг, достаточно воспользоваться программой для распознавания текста и быстро получить нужный материал у себя на компьютере в удобном формате.

С помощью цифровой фотокамеры, которая почти всегда есть под рукой, вы можете моментально сделать снимок любого постера или афиши, а также страниц и картинок из инструкции, а потом распознать текст с изображения в ABBYY FineReader PDF 15. После оцифровки документ можно использовать для дальнейшей работы. Составьте отчет, сделайте подборку или соберите портфолио. Кстати, программа позволяет объединить текст, изображения, таблицы, видео, интерактивные заполняемые формы и гиперссылки в единый PDF. Вы также легко найдете нужную информацию в этом многосоставном файле благодаря удобной строке поиска. Пробную версию можно скачать бесплатно здесь, срок ее действия – 30 дней.

КАК РАСПОЗНАТЬ ТЕКСТ ИЗ PDF

В основе технологии распознавания символов ABBYY OCR используются механизмы, позаимствованные у природы. Это три фундаментальных принципа IPA: целостность (integrity), целенаправленность (purposefulness) и адаптивность (adaptability). Согласно первому из них, изображение интерпретируется как объект, только если в нем заключены все структурные части этого объекта и все они находятся в соответствующих отношениях. То есть ABBYY FineReader PDF 15 не перебирает десятки тысяч эталонов в поисках наиболее подходящего. Программа выдвигает гипотезы, на что похоже найденное изображение, а затем последовательно проверяет каждую их них. Например, предполагая, что обнаруженный объект может быть буквой А, ABBYY FineReader PDF 15 будет искать у него именно те особенности, которые должны быть у изображения этой буквы. Таким образом, программа следует принципу целенаправленности. Исходя из принципа адаптивности, она умеет самообучаться, то есть каждый раз проверяет, верна ли выдвинутая гипотеза, опираясь на накопленные ранее сведения о возможных начертаниях символа.

Основываясь на результатах многолетних исследований, компания ABBYY воплотила принципы IPA в компьютерной программе FineReader. Именно поэтому она получилась гибкой и интеллектуальной, а ее работа максимально похожа на то, как распознает символы человек. Теперь, благодаря ABBYY FineReader, распознать текст и преобразовать его в редактируемый формат, например, Microsoft® Word – дело нескольких минут.

ВОЗМОЖНОСТИ РАСПОЗНАВАНИЯ И КОНВЕРТИРОВАНИЯ

Благодаря высокому качеству технологий распознавания текста ABBYY OCR всего за несколько минут происходит точная конвертация бумажных сканов, фотографий, а также PDF-файлов в редактируемые форматы. Конвертировать офисные деловые бумаги (отчет, приказ, план работ) в один клик поможет меню с предустановленными задачами. В программу включены и различные профессиональные инструменты, которые позволят точно воспроизвести внешний вид документов с более сложной структурой – с примечаниями, сносками, формулами и другими объектами.

Программа для распознавания текста ABBYY FineReader PDF 15 позволяет:

Быстро и легко конвертировать различные файлы в редактируемые форматы.

Сканы, фотографии страниц, PDF можно преобразовать в Microsoft® Word, Excel®, PowerPoint®, OpenOffice™ Writer, HTML, в форматы электронных книг и др.;

Создать PDF с возможностью поиска.

Для этого отсканируйте страницы из договора, книги или журнала, а затем выберете в меню «Конвертация документов» функцию «Конвертировать в PDF» с возможностью поиска. Исходный вид файла останется прежним, но его содержимое станет доступным для поиска или копирования. Это позволяет удобно работать с документами в электронном виде;

Использовать профессиональные инструменты для распознавания.

Они пригодятся, если вам необходимо распознать текст в PDF: например, преобразовать в электронный вид многостраничную научную статью, диссертацию или сборник исследовательских работ и сохранить расположение абзацев, таблиц, колонтитулов, примечаний, нумерацию страниц, содержание, оглавление и др. Для повышения качества распознавания можно вручную задать типы областей – «Текст», «Картинка» или «Таблица».

Провести предобработку изображений для повышения качества распознавания.

Чтобы повысить качество снимков с фотоаппарата, камеры мобильного телефона или планшета, программа автоматически обрабатывает изображения. Это помогает улучшить результат распознавания. Кроме того, при необходимости пользователь может вручную обработать фотографии документов в Редакторе изображений. Он позволяет отрегулировать яркость и контрастность, выбрать уровни интенсивности света и тени, исправить трапециевидные искажения, которые происходят во время съемки цифровой камерой, осветлить фон, обрезать лишние границы у изображения и др.

СЦЕНАРИИ ПРИМЕНЕНИЯ ПРОГРАММЫ ДЛЯ РАСПОЗНАВАНИЯ ТЕКСТА

С помощью ABBYY FineReader можно освободиться от ежедневных рутинных задач, выполняя привычные операции намного быстрее и легче. Вы можете:

Внести правки в бумажные документы и PDF-файлы.

Для этого достаточно распознать текст со сканов или из PDF и сохранить результат в необходимом вам формате, например, в Word, Excel или PowerPoint. После этого можно откорректировать любые слова, строчки или предложения, а затем заново распечатать отчет или статью, отправить коллегам, опубликовать на сайте или положить в папку на компьютере, чтобы отредактировать его потом.

Извлечь информацию из книг, статей, рефератов, отчетов и многого другого.

В результате распознавания к документу добавляется текстовый слой, благодаря которому возможно копирование любых предложений, строк и абзацев и поиск по ключевым словам. Выделите в отсканированных страницах или PDF-файле фрагмент текста, таблицы или изображения, скопируйте его в буфер обмена и вставляйте в любые другие приложения. Это позволит вам создать собственные документы на основе информации из различных источников – договоров, инструкций, статей из журналов и др.

Сделать электронные копии документов для удобного хранения и поиска.

Книги, статьи и деловые бумаги удобно хранить на компьютере, например, в формате PDF. У него есть несколько преимуществ: такой файл занимает мало места на жестком диске, его удобно создавать и легко открывать. Его содержание всегда одинаково отображается и на ПК, и на смартфонах с разными операционными системами.

С помощью ABBYY FineReader легко сделать электронную копию книги, статьи из журнала или договора. При создании такой копии программа запускает фоновое распознавание. Оно автоматически добавляет текстовый слой. Благодаря ему в документе легко найти нужную информацию по любым ключевым словам. ABBYY FineReader также позволяет преобразовать сканы и фотографии в формат PDF/A, который является международным стандартом для долгосрочного хранения.

Сохранить культурное наследие.

Технологии распознавания текста помогают не только в бизнесе и учебе, но и в такой важной области, как сохранение культурного наследия. Например, благодаря ABBYY FineReader и усердной работе 3000 волонтеров из 49 стран были оцифрованы все 90 томов сочинений и дневников Льва Николаевича Толстого. О проекте «Весь Толстой в один клик» можно прочитать здесь.

Вместе с Большим театром, компанией КАМИС, тысячами неравнодушных волонтеров и с помощью ABBYY FineReader мы помогаем оцифровать, сохранить и сделать доступной каждому 250-летнюю историю главного театра страны. Это 48 000 афиш, 120 000 программок и 100 000 фотографий. О проекте «Открой историю Большого» можно узнать здесь.

Программа для распознавания текста пригодится и частным пользователям. Она позволит им оцифровать домашние архивы, редкие или старинные книги и журналы.

Источник

Инструкция: как редактировать документы и распознавать тексты с иероглифами в ABBYY FineReader 15

PDF-документы давно стали необходимой составляющей офисной работы. В этом формате хранятся цифровые архивы, юристы согласуют договоры, дизайнеры верстают брошюры, издательства публикуют электронные книги. До недавнего времени главным достоинством и одновременно с этим недостатком PDF-документов было отсутствие возможности редактировать текст в них. Благодаря развитию технологий эту и другие задачи научилась решать программа ABBYY FineReader, которая стала многофункциональным редактором любых документов. «Хайтек» вместе с ABBYY рассказывает, как технологически устроено редактирование PDF-документов в новой версии FineReader 15, каким образом программа сравнивает версии документов и как работает распознавание иероглифов с помощью нейросетей.

Читайте «Хайтек» в

Диджитализация документооборота массово началась еще во второй половине ХХ века. Многие предприятия переходили на электронные документы. В офисах устанавливали первые компьютеры со специальным софтом для обработки и хранения важной информации. Тогда и появились популярные текстовые редакторы. Сотрудники набирали вручную документы, а затем, с появлением в 1993 году PDF, стали экспортировать их в этот формат.

На первый взгляд казалось: если весь документооборот станет электронным, то о шкафах с бумажными каталогами и завалах на рабочих столах можно будет забыть. На практике оказалось, что чем больше организация использует компьютеры для цифрового документооборота, тем больше документов она печатает. 64% крупных компаний уверены, что по крайней мере до 2025 года печать будет значимой частью их бизнеса. С другой стороны, если сегодня в офис по традиционной почте приходит бумажный документ, его немедленно отсканируют и переведут в цифру. Как правило, сканы документов хранят в виде PDF-файлов.

Документом в формате PDF удобнее пользоваться — его можно послать по электронной почте с уверенностью, что информация дойдет до адресата без искажений (если, конечно, кто-то не решит внести изменения собственноручно), и, в отличие от DOC, его трудно изменить. Это особенно важно, если речь идет о контрактах или коммерческих предложениях.

Офисные сотрудники отмечают рост объемов использования PDF: каждый второй респондент ответил, что регулярно работает с документами в этом формате и нуждается в специализированной программе. За последние два года количество таких рабочих файлов в мире выросло в три раза — эти данные приводят эксперты IDC в исследовании «Addressing the document disconnect». В России PDF также пользуется популярностью. Также по результатам исследования ABBYY выяснилось, что в наиболее частые сценарии работы с PDF-документами вошли совершенно не типичные для этого формата ранее задачи: 52% респондентов вносят мелкие правки в текст PDF, исправляют ошибки или опечатки; 62% опрошенных часто ищут информацию в тексте PDF и 60% копируют текст из документа. Поэтому от программ, работающих с PDF, требуются новые возможности для редактирования, сравнения и распознавания текстов. Все они есть в новом FineReader 15.

Почему так сложно редактировать текст в PDF?

Изначально PDF не предназначался для того, что его каким-либо образом изменяли. Что было и его преимуществом — это безопасность, одинаковое отображение на любом устройстве и удобный способ обмена информацией, и недостатком — невозможность внесения правок, поиска по тексту и сравнения документов.

Особенности отображения текста в PDF

Несмотря на то, что PDF — это формат текста, в цифровом виде эти буквы, слова и предложения на самом деле не существуют, они «нарисованы». Содержимое хранится в виде потоков — это могут быть текст, изображения и векторная графика. Типичных для формата DOC слов, строчек, абзацев и таблиц в PDF нет. В формате нет и букв как таковых, а есть коды символов. Такие коды с одинаковыми характеристиками объединяются в группы по виду и размеру шрифта. Этот шрифт определяет, как символ должен отображаться в документе, сопоставляя код символа и глиф — набор команд для отрисовки. Еще одно отличие от обычного текстового документа — объекты в PDF существуют в трех измерениях. По координате Z судят о глубине расположения объекта на странице, ведь текст может находиться поверх изображения или наоборот.

Текст в PDF- документе напоминает «мешочек букв», который нужно правильно отобразить в конкретных местах документа с соответствующим форматированием.

С 2008 года PDF стал открытым форматом, что позволило разработчикам без проблем и дополнительных отчислений создавать программы для чтения файлов PDF, конвертеры и другие полезные вещи. Развитие OCR привело к тому, что у ранее неизменного PDF-документа появилась возможность редактирования — сначала построчного, а затем и в пределах абзацев.

Как ABBYY FineReader помогает редактировать PDF

Чтобы редактировать PDF-документ, его необходимо сначала подготовить к этому. Главная задача этого процесса — понять и проанализировать структуру текста. А ключевая сложность — отсутствие как абзацев, так и вообще форматирования в PDF. Поэтому сразу после того, как программа распознала текст, она начинает воссоздавать абзацы.

Если речь идет о digital-born-документе (изначально созданный на компьютере, а не отсканированный бумажный документ — «Хайтек»), то в режиме редактирования подключаются фоновые процессы, и программа приступает к анализу структуры документа. Для этого используется технология, которая строит блоки на основе данных, записанных в PDF, а не на основе распознавания. За считанные доли секунды технология должна пройти всю цепочку по определению параметров текста: места, где находятся заголовки, подзаголовки, отдельные абзацы и другие элементы. Потом — распихать «мешочки букв» по этим блокам, сформировать строки.

Следующий этап — синтез. Специальные технологии определяют внешние параметры текста — отступы и межстрочные интервалы. Благодаря этому из хаотичной структуры снова появляется текстовый документ с форматированием. И уже в него можно вносить правки — менять слова и целые абзацы, исправлять форматирование, сохранять изменения и так далее.

Функция построчного редактирования уже была в предыдущей версии FineReader (ABBYY FineReader 14 вышла в январе 2017 года — «Хайтек»). Этого было достаточно, чтобы внести небольшие исправления в текст: заменить несколько букв или цифр. Новый ABBYY FineReader 15 стал универсальным текстовым редактором, в котором вносить изменения можно в целые абзацы.

Как отредактировать текст в отсканированном документе

Отдельная офисная задача — отредактировать скан-копию бумажного документа. Раньше для этого пользователю приходилось конвертировать файл в редактируемый формат или просто искать исходник.

Когда пользователь редактирует скан, ABBYY FineReader 15 в первую очередь распознает документ и создает временный текстовый слой на тех страницах, которые пользователь просматривает. В режиме редактирования создается текстовое представление страницы — именно его редактирует пользователь. Затем эти правки встраиваются в изображение страницы в отсканированном документе.

Как найти в PDF внесенные правки и избежать обмана

Сравнение документов — особо важный для бизнеса сегмент офисных задач. Прежде всего, потому что неожиданные правки могут стоить очень больших денег. Иногда их незаметно пытаются внести в уже подписанный договор и воспользоваться человеческой невнимательностью — такие документы обычно сравнивают юристы, внимательно вычитывая распечатки оригинала, созданного в Word, и ответа контрагента — отсканированный вариант.

Поиск отличий в текстовых документах может быть полезен еще и в том случае, если над ними работают одновременно несколько человек или со временем один и тот же файл периодически изменяют. Это позволяет быстро найти последние правки, которые внесли в файл коллеги. В файлах DOCX для этого есть режим Track Changes, создающий на основе двух версий документа третью — с подсвеченными отличиями в тексте. В новом ABBYY FineReader 15 можно сохранить результаты сравнения любых документов в таком DOCX c Track Changes и в привычном режиме увидеть все различия.

Сравнивать в ABBYY FineReader 15 можно практически что угодно — PDF, сканы или изображения, файлы DOC, DOCX и даже таблицы из Excel. В программу загружаются оба документа, которые при необходимости распознаются с помощью OCR. На основе извлеченного текста в документе определяются дополнительные элементы форматирования — например, колонтитулы, нумерация списков. В программе используется специальный алгоритм, который позволяет быстро выявлять отличия в версиях документов.

Разностный алгоритм принимает два файла на вход. Первый, обычно более ранний — файл А, второй — файл B. Алгоритм определяет количество вставок или удалений, необходимых для превращения одного файла в другой, находя для этого кратчайший путь.

Сравнение проходит в три этапа. Сначала текст, полученный в результате распознавания, разбивается на параграфы. Алгоритм считает, что один параграф — это один объект для сравнения. Все несовпадающие фрагменты обрабатываются во время второго прохода алгоритма — уже по строчкам. Программа определяет, какие строки внутри параграфа совпадают не полностью.

Остается последний проход, уже в рамках несовпадающих строк, который сравнивает отдельные буквы. Этот процесс чуть сложнее: дополнительно используются различные эвристики — варианты распознавания. Если буквы совпадают по вариантам распознавания и процент уверенности распознавания этого элемента превышает 50%, то считается, что они эквивалентны. Не учитываются в качестве различий разные виды кавычек, скобок и маркеры списка.

Для каждого символа существует несколько вариантов распознавания: иногда их число доходит до 20. У каждого из этих вариантов есть процент уверенности, на сколько, по оценке технологии, буква соответствует отсканированному изображению. Затем в ходе анализа документа часть вариантов исключается, так как они не соответствуют эталону или не подходят по морфологии.

На этапе сравнения в программе запускается проверка: совпадает ли эта буква с той, что в документе? Если буква получена в результате распознавания, то проверяется похожесть символов в версиях и рассматриваются варианты распознавания. Возможно, «А» в бумажном документе распозналась ошибочно, и из-за этого при сравнении могут возникнуть разночтения. Тогда в вариантах распознавания ищется другая буква, у которой тоже высокий процент вероятности. Если вероятность больше 50%, в распознанном документе происходит замена. Это помогает избежать ошибок из-за плохого качества сканов.

Но поиск отличий в тексте — лишь один из этапов сравнения документов. Необходимо представить найденные отличия в том виде, в котором пользователю будет комфортно с ними работать. Например, слово «мама» заменили на «папа». По факту изменились только две буквы. Но более наглядно для пользователя будет выглядеть полная замена одного слова на другое, а не замененные на «п» буквы «м». Поэтому программа дорабатывает различия: растягивает и объединяет их до конца слова, строки или параграфа. Программа пытается восстановить логику, по которой действовал человек, вносивший исправления. И сделать так, чтобы различие выглядело более естественно и читалось понятно.

В завершении работы с документами программа объединяет обнаруженные различия в группы. Это необходимо, например, чтобы отделить внесенные исправления в основном тексте от колонтитулов и нумерации списка. В большинстве случаев колонтитулы не интересуют пользователя с точки зрения сравнения, за исключением вставок. Например, если у вас есть список на 100 позиций, в середине которого добавили или изменили один из пунктов. Чтобы работать с документом было удобнее, различия в нумерации попадают в отдельную группу.

В финале пользователь может посмотреть все исправления в документе так, как ему удобно. На выбор есть несколько способов: сохранить новую версию документа в формате DOCX, где все изменения уже подсвечиваются в режиме Track Changes, получить PDF с комментариями в местах изменений или создать таблицу с перечнем правок в Word.

Среди поддерживаемых ABBYY FineReader 15 функций:

Как работают нейросети для распознавания иероглифов и арабской вязи

Распознавание иероглифов осложняется тем, что в отличие от европейских языков, они состоят из большого количества черточек, палочек, наклонов. Но размер иероглифов вполне сопоставим с размером европейских букв. В низком разрешении сканов иероглифы могут и вовсе выглядеть как кляксы. Носитель языка поймет символ, исходя из контекста. Программа же работает поэтапно: сначала анализирует изображение всего документа, определяет абзацы, разбивает распознанные строки на слова, а слова — на отдельные символы. На этом этапе алгоритмы опираются не на контекст, как человек, а на внешний вид иероглифа, и здесь многое зависит от качества изображения. Для распознавания японского, китайского и корейского языков компания ABBYY внедрила нейросети. Они решают две главные задачи при работе с иероглифами — улучшение качества распознавания и «модернизацию» языков.

Качество и скорость в быстром и нормальном режиме

Внедрение нейросетей значительно повысило качество распознавания японского и китайского в быстром режиме, но скорость работы на начальном этапе разработки снизилась. Для клиентов, работающих с большим потоком документов, даже небольшая просадка по скорости может привести к сильному замедлению в обработке данных. Оказалось, что скорость проседает в документах с большим количеством символов с простой структурой — таких, как японская буквенная азбука (в современном японском языке используется три основных системы письма: кандзи — иероглифы китайского происхождения и две слоговые азбуки, созданные в Японии — хирагана и катакана — «Хайтек»).

Эту проблему решили с помощью кэша. Когда программа распознает страницу, одна и та же буква может попадаться на ней несколько раз. Встретив букву «А», написанную одним и тем же шрифтом, ABBYY FineReader анализирует и запоминает ее особенности. Этот принцип оптимизации позволяет не тратить время на распознавание одинаковых символов. Для японского и китайского ранее не использовался кэш, потому что встретить один и тот же иероглиф на странице, написанной естественным языком, можно очень редко. Но для символов с простой структурой это оказалось полезным. Включение кэша позволило ускорить и нормальный, и быстрый режим распознавания.

Почему важно следить за развитием языка

В предыдущих версиях FineReader в японском языке присутствовали иероглифы, которые уже не используются в современных документах. Это заметили сотрудники японского офиса ABBYY: время от времени программа вставляла при распознавании один-два устаревших символа. Для рядового носителя языка это воспринимается как буквы из русского дореволюционного алфавита для нас. Чтобы исправить эту ошибку, потребовалось создать в программе «новый язык» — Japanese Modern. Легко заставить программу не отображать те или иные устаревшие символы. Но необходимо было не просто выбросить ненужное, но и оставить всё необходимое, найти множество иероглифов, которые отображают всё богатство современного японского языка.

Новое множество символов формировалось в несколько этапов. Для тестирования создавали подходящие наборы изображений документов. Если в пакет попадала хотя бы одна страница с устаревшими формами, весь комплект оказывался непригодным. Приходилось вынимать эту страничку и формировать новый комплект материалов. Наконец удалось добиться того, чтобы в результатах распознавания почти не было устаревших символов и при этом правильно отображались все современные иероглифы.

Для китайского в FineReader всегда поддерживали традиционный и упрощенный языки. При этом по составу символов они не отличались. Получить разный результат распознавания всё равно было возможно, потому что в программе было заложено разное распределение вероятностей. В новой версии в результате экспериментов удалось выделить символы, необходимые для распознавания упрощенного китайского. В FineReader заложена возможность создавать пользовательский язык. Используя этот инструмент и внося изменения в состав, специалисты сравнивали результаты распознавания на разных образцах документов, и в результате в упрощенном китайском остался только необходимый набор иероглифов.

Корейская письменность, хангыль — нечто среднее между китайским и европейским письмом. Внешне это квадратные символы, напоминающие иероглифы, и на одной странице текста можно насчитать больше сотни уникальных. С другой стороны, это фонетическая письменность, то есть основанная на записывании звуков. Имеется алфавит, содержащий 24 буквы (плюс можно дополнительно посчитать диграфы и дифтонги). Но, в отличие от латиницы или кириллицы, звуки пишутся не в линию, а объединяются в блоки. Каждый блок может состоять из двух, трех или четырех букв. Первой всегда идет согласная, затем одна или две гласных, и в конце может стоять еще одна согласная. Для корейского обучили отдельную нейросеть, которая, помимо корейских слогов, распознает и некоторые иероглифы. Вместо распознавания символов целиком технология определяет отдельные буквы в них.

Как резать арабскую вязь на фрагменты

Арабский язык отличается от других тем, что найти линии порезки между символами в арабской вязи очень сложно. Даже гистограмма при распознавании арабского отличается: выглядит как бесконечный набор горбиков и ямочек.

Варианты разделения текста на символы создаются всегда, даже для европейских языков. В процессе работы программа выбирает наиболее вероятный путь распознавания. В случае с арабским языком таких вариантов очень много, и это приводило к ошибкам. Поэтому для повышения точности программу научили видеть не отдельную букву, а всё слово целиком. Для этого была разработана сеть end-to-end (e2e). Она полезна не только для арабского, но и для европейских языков — например, в дизайнерских шрифтах, когда на изображениях сложно построить путь для распознавания.

При e2e-подходе на вход в нейросеть поступает набор изображений — фрагментов, состоящих из отдельных слов. На выходе такая нейросеть выдает последовательность графем, которые затем проходят дополнительную обработку: проводится словарный анализ, корректируются пробелы.

Для обучения использовался набор из нескольких сотен тысяч фрагментов — отдельные слова из отсканированных газет, журналов, официальных документов. Они были выбраны в несколько итераций: сначала собирали базу из слов, которые удачно распознали, и обучали нейросеть на этом датасете. Потом еще раз обучали, корректировали, выявляли ошибки. Часть, которую не смогли распознать, отдельно отдавали на доразметку и корректировку фрагментов. В результате всё больше очищали датасет для обучения, улучшая общее качество распознавания.

Кроме того, часть данных для обучения была создана искусственно. Это было необходимо для распознавания шрифтов, для которых было собрано мало образцов. В таких случаях использовался корпус текста, в который добавлялись различные искажения, типичные для этапа сканирования документа: шум, размытие символа. Это делала в автоматическом режиме специальная программа — генератор синтетики, или «портилка».

Сначала в ходе обучения такой подход привел к тому, что потерялась информация об охватывающих прямоугольниках символов, которые необходимо отображать для пользователя на этапе верификации. Отказавшись от посимвольного распознавания, пришлось внедрить альтернативный механизм, который дополнял результаты распознавания информацией об охватывающих прямоугольниках и резал слова на отдельные символы.

Сочетание новых алгоритмов машинного обучения сделало возможным создание многофункционального текстового редактора для работы с PDF, сканами и digital-born-документами. Внесение правок, сравнение файлов и распознавание сложных языков дает пользователю возможность полноценно работать с файлами вне зависимости от их формата. По сути, это позволяет охватить все спектры офисных задач по работе с электронными и даже бумажными документами, максимально упрощая работу сотрудникам и снижая вероятность ошибок из-за человеческого фактора.

Источник

Портал vesb.ru

какие виды текста может распознавать abbyy finereader pdf 15

ABBYY FineReader 15: искусственный интеллект в действии