ОПИСАНИЕ ПРОГРАММЫ

Насколько хорош Иероглиф?

Иероглиф является первым и последним бесплатным редактором с таким широким набором функций при таком небольшом размере. Иероглиф нельзя сравнивать с другими редакторами по той простой причине, что он уникален в своем классе. Это первая в мире программа направления авто-редактор, позволяющая автоматически переключать раскладку клавиатуры при печати, автоматически предлагать варианты исправления слов с ошибками, автоматически проверять и исправлять испорченные тексты, автоматически переформатировать старые тексты с жесткими переносами и выравниванием, безошибочно переводить транслит в кириллицу, исполнять многие функции по горячим клавишам в других приложениях и многое другое. В основе редактора лежит более 50 алгоритмов искусственного интеллекта, каждый из которых мог быть воплощен в отдельной программе. Причем в коммерческой программе. Но Иероглиф бесплатен. Что к этому можно еще добавить? 

Чем Иероглиф отличается от других редакторов?

Основным достоинством редактора "Иероглиф" и других наших программ является наличие Hieroglyph Translation Engine (в дальнейшем просто "Иероглиф"). Иероглиф - это мощный блок функций осуществляющих осмысленную конверсию между разными стилями написания слов. Если взять к примеру русское слово "щучий" и попробовать написать его разными способами, то можно получить такие варианты: щучий, shuchii, tshuchiy, tschuchy, shuchiy, LIIy4uu, LIIychiy и т.д. Число вариантов написания некоторых слов может быть очень большим. Но несмотря на это, человек легко читает слова в любом написании. Обычный редактор конечно же не может увидеть в этом наборе букв слово. Иероглиф - может!!!

Как это делают другие?

Другие программы перекодировки из транслита в кириллицу используют длинные грамматики, составленные человеком и описывающие аномалии перевода. Например последовательность sh может переводиться как "ш", "щ" и "сх" в зависимости от положения в слове и окружающих букв. Эти особенности анализируются и записываются в виде правил и исключений. По мере появления новой информации грамматика пополняется новыми правилами. Очевидный недостаток такого подхода - это необходимость помнить предыдущие правила в грамматике, чтобы новые правила не конфликтовали со старыми и не возникало двусмысленных переводов. Другой недостаток - грамматика с каждым дополнением становится лучше и лучше но никогда не достигает идеала. При этом она сильно растет и это сказывается на скорости обработки текста. Представьте себе просмотр нескольких тысяч правил на каждом слове и вы поймете почему процесс может быть достаточно медленным. Конечно есть алгоритмы оптимизации поиска, позволяющие добиться приемлемой скорости, но сам подход к решению задач трудно назвать универсальным. Ведь разработка грамматики становится целым проектом для каждого нового языка.

Как это делаем мы?

Уникальность алгоритмов Иероглифа состоит в копировании интеллекта человека при распозновании образа. Иероглиф как и человек оперирует тремя понятиями - 

1. он знает, как выглядят и пишутся буквы, 
2. он знает какие сочетания букв имеют смысл в каком языке
3. он знает какие слова есть в каких языках. 

Если рассматривать эти три составляющие по отдельности, то первая представляет из себя около 200 коротких правил описывающих 33 буквы русского алфавита в разных способах написаниях, второе - это бинарный файл размером около 30 КБ полученный на основе автоматического анализа большого числа разных текстов (в данном случае была взята Библиотека Мошкова - около миллиона слов). Только вдумайтесь - больше чем 1 Гигабайта информации оказалось сжато в 30 килобайт. В интеллекте человека происходит что-то подобное. Если у вас спросить может ли буква "м" быть в слове между буквами "ш" и "щ" вы не станете перебирать в уме все слова языка. Вы сразу знаете ответ. Так же работает и Иероглиф. Он моментально определяет какие слова могут соответствовать написанию, а какие нет. Например слову schuchy  может соответствовать слова "щучий" и "шучу", а слово "сцхусху" явно не вариант. Человеку нужна микросекунда, чтобы знать это. У Иероглифа это занимает не больше. Но человек определяет реальность слов не только по возможности их произношения. Для проверки выбора человек привлекает свое знание языка. Для Иероглифа знание языка заменяет стандартный спелл-чекер, который подсказывает, есть ли такое слово в языке. Таким образом Иероглиф точно копирует весь процесс мышления человека при обработке образа и практически не требует дальнейшей настройки и улучшения грамматики.

Неужели все так просто?

Процесс перевода перестает быть простым, когда в тексте начинают встречаться слова на другом языке, разные символы, сокращения, имена файлов, формулы, римские цифры и прочие неучтенные спелл-чекером аномалии. Здесь вступают в работу другие алгоритмы, помогающие отфильтровать такие аномалии и оставлять их непереведенными. Для отлавливания английских слов тоже используется спелл-чекер. 

Пытливый читатель может спросить - а что делать, если слово есть и в русском и в английском языке? Например слово "net" означает в английском "сеть". Переводить его в русское слово "нет" или оставить как есть? Здесь на помощь приходит анализ контекста фразы. Выясняется какие слова стоят вокруг и делает правильный выбор. 

Вот пример перевода текста из транслита в кириллицу, сделанный обычными методами и с привлечением Иероглифа:

Исходный текст:
Privet! Ia tut nedavno nashel ves'ma prikolnuu programmy Hieroglyph (http://www.adelaida.net/hieroglyph). Ona pozvoliaet perevodit' teksty iz translita v cyrillitsu virtually flawless

Текст после перевода обычным переводчиком:
Привет! Я тут недавно нашел весьма приколнуу программы Хиероглипх (хттп://ввв.аделаида.нет/хиероглипх). Она позволиает переводить тексты из транслита в цыриллитсу виртуалли флавлесс

Текст после перевода Иероглифом:
Привет! Я тут недавно нашел весьма прикольную программу Hieroglyph (http://www.adelaida.net/hieroglyph). Она позволяет переводить тексты из транслита в кириллицу virtually flawless

А в чем, собственно, универсальность?

Иероглиф является мощным инструментом не только для перевода из транслита в кириллицу, но и позволяет работать над исправлением текстов испорченных ошибками набора или распознавания текста. Метафора человеческого интеллекта опять приходит в голову. Человек, видя слово "iiустота", моментально определяет, что двойная буква i в начале на самом деле русская буква "п", а в слове "прадва" буквы "д" и "в" поменяны местами. Аналогичный принцип "мышления" Иероглифа и здесь оказывается очень кстати. 

Обучением Иероглифа обработке ошибок распознавания занимается Сергей  Москалев - один из крупнейших специалистов по распознаванию сосканированных текстов, работавший над такими  проектами,  как  распознавание Энциклопедического словаря Брокгауз, Интернет-проект "Брокгауз On-line", эксперт, знающий все известные программы распознавания текста и знающий какие ошибки они совершают. 

Программа AfterScan

Программа AfterScan включает в себя огромный опыт специалистов помноженный на гибкость и универсальность алгоритмов Иероглифа. Даже первая бета-версия программы позволила легко найти в словаре ошибки не замеченные многочисленными корректорами. Другой пример - на распознанном одной из коммерческих программ тексте длиной в 10 страниц, AfterScan делает больше 3200 исправлений. И это после того, как программа распознавания пропустила текст через свои алгоритмы верификации и сравнила все со своим словарем. Представьте, что вы исправляете эти ошибки руками. Пусть исправление одной ошибки занимает 5 секунд. Помножьте 3200 на 5 и получите почти 5 часов напряженной работы и нечеловеческой концентрации. А сколько ошибок будет просто пропущено?

Вот фрагмент сосканированного и распознанного текста, после обработки программами Иероглиф и AfterScan. Слова с ошибками и старорусские слова выделены цветом: 

Вот исходный текст:

Попудярная  Библейская  Эициклопедiя отв^чаетъ почти на большую
часть   вопросовъ   библейской  археологiи,  архитектуры,  астрономiи,
географiи,   бiографiи   библейскихъ  д^Ьятелей,  ботаники,  священной
библiографiи,   военной   науки,   зоологiи,   землед^лiяискусствъ,
минералогiи,    метеорологiи,   медицины,   математики,   нумизматики,
педагогики,  физики,  этнографiи  и  друг.  Богосдовскiе  термины,  за
исключенiемъ терминовъ строгобибдейскаго значенiя, опущены. Объясненiе
подробностей библейскихъ терминовъ касается какъ каноническихъ, такъ и
неканоническихъ  книгъ  Свящ.  Писанiясъ тбмъ однако что объясненiя
сихъ  посл^днихъ отдичаются своею значительною краткостiю сравнительно
съ первыми.


Вот текст после обработки Иероглифом:

Попудярная  Библейская  Эициклопедия  отвечает  почти на большую часть
вопросов  библейской  археологии,  архитектуры, астрономии, географии,
биографии   библейских  деятелей,  ботаники,  священной  библиографии,
военной    науки,   зоологии,   земледелия,   искусств,   минералогии,
метеорологии,  медицины,  математики, нумизматики, педагогики, физики,
этнографии  и  друг.  Богословские  термины,  за  исключением терминов
строгобиблейского    значения,    опущены.   Объяснение   подробностей
библейских  терминов  касается  как канонических, так и неканонических
книг  Свящ.  Писания,  с  тем  однако  что  объяснение  сих  последних
отдичаются своей значительною краткостию сравнительно с первыми.


и наконец, после обработки программой AfterScan:

Популярная  Библейская  Энциклопедия  отвечает  почти на большую часть
вопросов  библейской  археологии,  архитектуры, астрономии, географии,
биографии   библейских  деятелей,  ботаники,  священной  библиографии,
военной    науки,   зоологии,   земледелия,   искусств,   минералогии,
метеорологии,  медицины,  математики, нумизматики, педагогики, физики,
этнографии  и  друг.  Богословские  термины,  за  исключением терминов
строгобиблейского    значения,    опущены.   Объяснение   подробностей
библейских  терминов  касается  как канонических, так и неканонических
книг  Свящ.  Писания,  с  тем  однако  что  объяснение  сих  последних
отличаются своей значительной краткостью сравнительно с первыми.


И ВСЕ ЭТО АВТОМАТИЧЕСКИ!!!

В данном примере приведен фрагмент текста в старорусской орфографии. На самом деле AfterScan может подчистить любой текст, даже многократно проверенный корректорами. AfterScan видит ошибки не заметные для глаз - использование латинских букв с одинаковыми начертанием в русских словах, лишние пробелы, несоответствия знаков препинания типографским нормам и т.д. Если Вы работает с большими массивами текста, часто используете программы распознавания, то вам необходим серьезный инструмент для работы. Таким инструментом является AfterScan. По вопросам приобретения обращайтесь по адресу morozov@adelaida.net и заходите на www.afterscan.com

Я не работаю с распознаванием текстов. Как еще я могу извлечь пользу из Иероглифа? 

Если вы любите IRC-чаты, то вам понравится другая наша программа  IRC-3PO, осуществляющая синхронный перевод в между кириллицей и транслитом.. Программа названа в честь робота C-3PO из фильма "Звездные Войны", который как известно был универсальным переводчиком. Читайте об уникальных свойствах этой программы на ее страничке 

Как выглядит Иероглиф?

Снизу - исходный текст, сверху - результат. Темно-синим цветом выделены однозначные замены. Голубым - неоднозначные, то есть те, которым соответствовало более одного правильного слова. Коричневый цвет показывает слова между которыми был убран дефис. Иероглиф сомневается в этой замене (и правильно делает). Поэтому слова выделены коричневым. В нижней части окна видно часть исходного текста в позиции курсора (как раз на слове "бело-светло".