ДОБРО ПОЖАЛОВАТЬ ! WELCOME ! BIENVENIDO ! HERZLICH WILLKOMMEN ! BIENVENUE ! TERVETULOA ! ΚΑΛΏΣ ΉΡΘΑΤΕ ! FÁILTE ! VELKOMMEN ! VÍTEJTE !
СЕТЕВОЙ ОБЗОР ИНСТРУМЕНТОВ МАШИННОГО АНАЛИЗА ТЕКСТА

В данном обзоре представлен ряд вычислительных систем промышленных, академических и частных решений (Eureka Engine, RCO Fact Extractor SDK, ЭТАП-3, MF Text Analyst R10, DictaScope Syntax, MaltParser, ABBYY Compreno, ИАС "АРИОН", ITFRU, Solarix, libmorphrus, SDK Pullenti, JHON), либо демон- стрирующих, либо автоматизи- рующих процесс лингвистиче- ского анализа текста, и кото- рые на взгляд автора могут представлять интерес для спе- циалистов в области инжене- рии знаний. В рамках описания основных особенностей сис- тем производится
ТЕХНОЛОГИЯ СОГЛАСОВАНИЯ МЫСЛЕ- ОБРАЗОВ В ПРЕДПРОЕКТНОЙ ДЕЯТЕ...

В статье раскрывается суть знания, скрываемого за повсе- дневным информационным по- током. Для этого приводится классификация объектов инф- ормационного пространства с их разделением на представ- ления, образы и понятия. До- стижение эффективности пере- дачи знания посредством язы- ка общения должно обеспечи- ваться соблюдением участни- ками коммуникативного акта основных тезисов Закона эво- люции знания, выявленного и сформулированного автором данной статьи в процессе уг- лублённого анализа инноваци- онно-экономической
СПОСОБ РЕШЕНИЯ ПРОБЛЕМЫ АВТО- МАТИЗАЦИИ  ПРОЦЕССОВ ИЗВЛЕЧЕ...

Связи между сущностями ин- формационного пространства составляют смыслы семанти- ческих структур. Любая иссле- довательская деятельность со- пряжена с извлечением таких смыслов и последующим их анализом. В статье доказыва- ется, что объединяющим нача- лом любой исследовательской деятельности в промышленных целях является работа с тексто- выми документами. Следующая за нею реализация способа решения задачи смысловой обработки текстовых источни- ков данных доказывает воз- можность автоматизации вы- шеобозначенной
Дата поступления:
Февраль 2018
Н. В. БОЧАРОВ
Дата опубликования:
Март 2018
Статья. СПОСОБ РЕШЕНИЯ ПРОБЛЕМЫ АВТОМАТИЗАЦИИ ПРОЦЕССОВ ИЗВЛЕЧЕНИЯ СВЯЗЕЙ В ИНФОРМАЦИОННОМ ПРОСТРАНСТВЕ

КРАТКАЯ АННОТАЦИЯ

Связи между сущностями информационного пространства составляют смыслы семантических структур. Любая исследовательская деятельность сопряжена с извлечением таких смыслов и последующим их анализом. В статье доказывается, что объединяющим началом любой исследовательской деятельности в промышленных целях является работа с текстовыми документами. Следующая за нею реализация способа решения задачи смысловой обработки текстовых источников данных доказывает возможность автоматизации вышеобозначенной исследовательской деятельности.
Способ извлечения связей строится на базе понятия "семантика" из лингвистической теории семиотики. Семантическая связь является отражением объективной реальности взаимодействующих объектов физического пространства в понятийной системе координат субъекта. Лингвистический анализ текстовых первоисточников фиксирует акт существования связи и определяет пространство имён (свойств физической среды, обстоятельств коммуникативного акта, коммуницирующие объекты), при которых такая связь считается правдоподобной. Согласование пространства имён описываемого в первоисточнике явления с пространством имён подвергнутого исследованию явления и приводит к ожидаемому результату, а именно к фиксации новых свойств и характеристик объекта, недостающих в предмете исследования. Таким выводом подтверждается целесообразность использования автоматических средств извлечения связей в информационном пространстве, а сами автоматизированные средства становятся мощным инструментом в руках исследователя.

ВВЕДЕНИЕ

В настоящий момент мир переживает бум информационных технологий. Повсеместная автоматизация подменяет прежние технологии производства, создавая нишу под многочисленные проектные процессы чуть ли не во всех сферах экономической деятельности. При этом любая проектная деятельность не обходится без этапа исследований. Однако международная стандартизация в вычислительных технологиях снимает необходимость в большом количестве проектных процессов, позволяя единожды разработанную технологию тиражировать в качестве готового решения на множество однотипных предприятий, разбросанных по всему миру. Так глобализация захватывает рынок сбыта услуг и, в результате, снижается настоятельная потребность в исследованиях на местах. По большому счёту, полноценными заказчиками полномасштабных исследований остаются только транснациональные корпорации.
Однако у крупных корпораций, живущих за счёт крупных финансовых потоков на технологически простых процессах, отсутствует необходимость в таких интеллектуально сложных решениях, с которыми сталкиваются средние и малые производства. Например, когда ради собственного выживания предприятию необходимо принять неординарное решение по изменению физических характеристик выпускаемой продукции. В такой ситуации на отдел исследований и разработки предприятия (R&D) накладывается огромная ответственность за будущее компании. Как будет показано далее, проектная деятельность всегда сопровождается обработкой разнородной текстовой информации. В данной статье будет освещена тема вспомогательного инструментария для исследователей, занимающихся первичным анализом информационного потока, представленного в текстовой форме. Но сначала высветим основные моменты работы с текстовой информацией, которая требует исследовательского подхода в её раскрытии.

I. ИССЛЕДОВАТЕЛЬСКИЕ ЗАДАЧИ ПРИ РАБОТЕ C ТЕКСТОВОЙ ИНФОРМАЦИЕЙ

Для начала отметим прикладную сторону исследовательской деятельности в производственной компании. В отличии от фундаментального исследования, в котором изучение информационного поля производится с целью выявления новых закономерностей либо выявления границ наибольшей эффективности того или иного физического процесса, либо поиска новых эффективных способов решения той или иной задачи, особый акцент в прикладном исследовании делается на прототипирование новой версии существующего объекта исследования. Это значит, что цель и задачи исследования предопределены и могут лежать в границах существующих технологических процессов и форм-факторов.
Исследовательская деятельность при создании нового продукта сопряжена со следующим перечнем работ:
— описание текущего состояния объекта или предмета исследования и обоснование по сути требуемой модификации;
— подбор и обработка первоисточников информации;
— планирование новой исследовательской разработки;
— выбор и обоснование стратегии исследования;
— проведение прикладных исследовательских работ со сбором статистики осуществлённых модификаций с последующей разработкой для промышленных образцов методов контроля, выявленных в результате исследования свойств и характеристик;
— проработка технологического процесса создания нового образца объекта исследования;
— разработка тестового образца по новому технологическому процессу;
— разработка технической документации к новому техническому решению.

Как видно из представленного перечня работ, огромный объём времени затрачивается на обработку текстовых источников информации. Причём эта деятельность осуществляется на протяжении всего цикла проведения исследований. В качестве источников могут выступать: техническая документация, статьи, книги и т.п. Текстовые ресурсы могут поступать из всевозможных корпоративных баз данных, из сети Интернет и из библиотечных фондов. Преимущество работы с письменными источниками состоит в охвате больших объёмов данных, а также в предрасположении исследователей к последовательной аналитической деятельности. В результате такой обработки текстовых источников осуществляются следующие операции:
— извлечение сведений;
— систематизации сведений;
— научное абстрагирование от сведений, как способ построения понятий;
— классификация понятий;
— логическое манипулирование понятиями;
— сборка новых определений на понятиях.

Способ извлечение сведений напрямую зависит от языка первоисточника. Существует несколько способов подачи информации. Первичным по значимости является реальный физический эксперимент. Однако такой источник более не является первоисточником. Обычно эксперименты ставят только лишь для подтверждения аналитически выведенных физических явлений. И к моменту проведения эксперимента у исследователя уже имеется большое количество систематизированных материалов с ожидаемыми результатами. Поэтому более мы не будем останавливаться на физических экспериментах.
Наиболее наглядным из первоисточников является графический способ подачи информации. Сюда относятся все цвето-ориентированные изображения от плоскостных графиков до видео контента. Работа с такими источниками подразумевает конспектирование непосредственно исследователем наблюдаемого в источнике явления.
Кроме графического контента значительный объём сведений может передаваться через математический язык формул. Данный контент напрямую малосущественен для исследователя, поскольку скрывает в себе общие законы физических явлений. Прикладное значение такие первоисточники обретают в специализированных математических программных комплексах, строящих графический контент на базе входных данных. В конечном итоге практическое значение от математического языка первоисточника возникает только после фиксации выводов, сформулированных инженерами-исследователями на статистической выборке графических данных, собранных в специализированных программных комплексах. Эти выводы к исследователю поступают в форме текстовых документов по внутрикорпоративному документообороту.
Другим способом подачи информации является табулированная информация. Эта разновидность первоисточников является альтернативой графической форме подачи информации, но с объективно более высокой точностью поставляемых данных вплоть до конкретного знака числа и конкретного термина в определяемом таблицей понятии. Здесь необходимо отдельно подчеркнуть, что сами таблицы не являются поставщиками научно значимых знаний, а таковыми являются непосредственно аналитики, производящие логические обоснования содержащихся в таблицах сведений.

Последним и самым обширным по объёму источником информации является такой естественно-языковой текстовый массив данных, как специализированная литература. В идеале этот источник в эру цифровых технологий должен быть заменён базой знаний. На сегодня в публичном доступе такой базы не существует и каждая компания формирует её самостоятельно. И как следствие персональная внутрикорпоративная база знаний не сможет сравниться с мировым опытом передаваемых и обновляемых в реальном времени знаний через иные письменные источники.
Любые письменные источники имеют ряд особенностей для их автоматизированной обработки. О них будет рассказано ниже. В данный момент отметим проблему естественного человеческого языка общения, которая заключается в следующем.
Любая производственная деятельность, как правило, осуществляется на одном языке. Поэтому информационные базы знаний для практических целей собираются также на одном языке, что обеспечивает защиту от попадания в неё очевидно недостоверных или "мусорных" данных. Однако в такие базы не попадает огромная масса сведений, выявленных в разное время в мировой практике многочисленными исследованиями и зафиксированные во множестве других языков.
Итак, мы выяснили, что весь объём исходных данных в научно-исследовательских работах проходит стадию письменной речи на естественном языке. Причём источники информации имеют не только высококачественный, систематизированный, специальным образом оформленный контент, но и оперативно подготовленные материалы на базе сведений, собранных непосредственно во время проведения научного исследования.
Теперь можно обозначить прикладные задачи исследователей (без учёта технических вопросов, связанных с языковой адаптацией обрабатываемых данных). Таковыми являются:
1. Сбор сведений о предмете исследования в единую базу данных (БД).
2. Классификация (категоризация) собранных данных в соответствии с целями прикладного исследования.
3. Извлечение из БД сведений по естественно-языковым запросам.
4. Построение семантической сети предмета исследования на оперативных данных.
5. Анализ модификаций семантической сети предмета исследования от вновь поступающих сведений (проверка на достоверность, непротиворечивость и новизну).

II. СПОСОБ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ИСТОЧНИКОВ ДАННЫХ

Под целью автоматической обработки текстовых источников будем понимать извлечение смыслов, содержащихся внутри текстов. Чтобы понять способы достижения обозначенной цели нам следует расшифровать все понятия, скрывающиеся за лингвистической категорией "смысл". В этом нам поможет лингвистический энциклопедический словарь. В общепринятом понимании за "смыслом" скрывается понятие или представление о предмете. При этом следует помнить, что "смысл" является вложенной категорией воображаемой структурной ячейки "семантика", состоящей собственно из самого слова, как знаковой единицы, и связанной с его "значением" и "смыслом".

                    Значение
Семантика    Слово  <
                    Смысл

Рис. 1. Структура семантики

Поскольку здесь мы отталкиваемся от знаковой системы "слова", обратим особое внимание на тот факт, что мы работаем в системе алфавитных, неиероглифических языков, от чего и строим все последующие рассуждения.
Обозначенная на рисунке 1 структура должна стать базовой информационной единицей в автоматизированной информационной системе. Далее расшифруем содержание этой структуры.
Под "словом" в структуре семантики понимаем "структурно-семантическую единицу языка, служащую для именования предметов и их свойств, явлений, отношений действительности, обладающую совокупностью семантических, фонетических и грамматических признаков, специфичных для языка". Поскольку за "словом" скрываются морфологические признаки, приводящие к различиям в его написании для одного и того же "смысла" и "значения", в автоматизированной системе необходимо предусмотреть функцию нормализации слов, а именно для существительных, местоимений и прилагательных — приведение слова к именительному падежу единственного числа и для глаголов — приведение к инфинитивной форме глагола.
Под "значением" в структуре семантики будем понимать грамматическую категорию (название части речи) и лексическое значение слова (денотат — обозначаемый предмет, естественно-научная/семантическая категория; референт — обобщенное название предмета сопоставления). Для автоматизированной информационной системы категория "значение" является списком констант из предопределённых массивов данных. Если с грамматической категорией всё относительно просто, поскольку толковые словари по умолчанию содержат подобную информацию, которая легко переносится в новое программное обеспечение, то с семантической категорией всё гораздо сложнее. "Денотат" иногда может быть извлечён из толкового словаря как название семантической категории понятия. Если в словаре за термином закреплено несколько понятий, то и категорий будет несколько. Если "денотат" из толкового словаря не извлекается, то работу по определению категорий тех или иных понятий должен проделать специалист-предметник составлением онтологии предметной области. Отсюда следует вывод, что автоматизированная информационная система автоматической обработки текстовых источников данных должна обладать вспомогательным инструментарием для создания и редактирования онтологий.

Выбор "референта" в качестве лексического значения слова является следствием существования ещё одного научного подхода к определению категории в качестве значения слова, когда уже определена онтология предметной области. Возьмём к примеру онтологический ряд категорий "человек>сотрудник>инженер", где каждая следующая категория в ряду является одной из составляющих для предыдущей категории. "Референтом" для слова "инженер" является категория "сотрудник", в то время как "денотатом", составленным из толковых словарей для того же слова может оказаться категория "человек".
Перед определением "смысла" в структуре семантики отметим один очень важный момент. Он заключается в том, что для каждого "смысла" слова существует только одно лексическое значение. Поэтому главное здесь не название категории лексического значения слова — "референт" или "денотат", а внедрённая в автоматизированную систему методология, по которой определяется категория слова. В дальнейшем по тексту статьи для краткости мы будет обращаться к "денотату".
"Смысл" для слова из структуры семантики являются переменной, которую автоматизированная информационная система должна заполнить данными из первоисточника, то есть понятием или представлением о предмете, составленным в произвольной форме. "Понятие" в соответствии с лингвистическим энциклопедическим словарём есть "мысль, отражающая в обобщённой форме предметы и явления действительности посред­ством фиксации их свойств и отношений". В случае наличия у слова нескольких смыслов-понятий в соответствии с толковыми словарями их варианты могут быть присоединены к "денотатам" в статусе возможного "смысла" у значения. Методологически "смысл" может быть извлечён как "сигнификат", "экстенсионал", "интенсионал" или "коннотат". Расшифровку этих понятий оставим за скобками данной статьи, а здесь лишь остановимся на способе сборки "понятия" из первоисточника по морфо-синтаксическим признакам.

Итак, мы подошли к задаче лингвистического анализа естественно-языкового текста в автоматизированной информационной системе. Для начала у нас имеется словарь "слов" со всеми словоформами и их классификация по семантическим категориям (денотация), а также массив данных со связной письменной речью. Поскольку поступающий для лингвистической обработки текст имеет назначенный признак связности, то мы можем воспользоваться морфо-синтаксическими правилами установления связей между словами входного текста.
Морфо-синтаксические правила для предмета исследования, выраженного существительными, определяются следующим перечнем тезисов:
1. Предмет сообщения (предложения) содержится в существительных (подлежащее и дополнение).
2. Синтаксическая связь между существительными устанавливается с помощью сказуемых и причастий.
3. Существительное в роли подлежащего может управлять несколькими сказуемыми.
4. Существительное вне зависимости от его роли в качестве члена предложения может управлять несколькими причастиями.
5. Существительное в роли дополнения всегда зависит от одного сказуемого, или от одного деепричастия, или от одного причастия.
6. Существительное вне зависимости от его роли в качестве члена предложения может быть связано с придаточным предложением через союзное местоимение (в сложноподчинённом предложении).
7. Существительные вступают в ассоциативные связи с другими существительными (в предложениях определительного типа).
8. Существительные вступают в отношения с другими существительными (управление родительным и дательным падежами).
9. Существительные определяются прилагательными, местоимениями, числительными.
10. Существительные собираются в именные конструкты (по семантической категории Имя, Адрес, Название).
11. Существительные определяются другими существительными через предлоги.
12. Существительные дополняются обстоятельствами (для денотатов "Процесс", "Действие").
13. Существительные управляют дополнениями (для денотатов "Процесс", "Действие").

Результатом морфо-синтаксического анализа текста мы получаем массив связей существительных с прилагательными, глаголами, наречиями, местоимениями, числительными и другими существительными. Массив этих связей для каждого слова в отдельности составляет "смысл" слова в структуре семантики. Сборка определительных структур для каждого слова (в нашем случае, существительного) должна осуществляться по предложениям.
В текстовых сообщениях может осуществляться упоминание нескольких одноимённых предметов. Тогда встаёт проблема физического разделения определительных структур для одинаковых "слов". Такое разделение одноимённых предметов может осуществляться:
— по местоимениям и по числительным (тезис 9 морфо-синтаксических правил);
— по причастиям (тезис 4 морфо-синтаксических правил);
— по союзным местоимениям (тезис 6 морфо-синтаксических правил).

Таким образом мы получили полное описание процедуры автоматической сборки сведений о предмете исследования в единую базу данных в качестве решения 1-ой прикладной задачи исследователей. 2-я задача исследователей, связанная с классификацией собранных данных в соответствии с целями прикладного исследования, получит автоматическое решение, если в автоматизированной информационной системе обработки текстовых данных будет заполнена онтология предметной области. Напомним, что классификация данных осуществляется через семантические категории — "денотаты" в структуре семантики.
Как следует из описанного способа заполнения базовой информационной единицы автоматизированной системы все её константы и переменные хранят свои значения в естественно-языковой форме. В свою очередь переменная "смысл" структуры "семантика" содержит массив слов определительной структуры, каждое слово из которой также имеет в БД автоматизированной системы собственную структуру семантики. Фактически каждая определительная структура "смысла" представляет собой семантический шаблон, а именно ряд слов с набором данных, таких как слово в нормализованной форме, грамматическую и семантическую категорию. Этот шаблон можно построить на любом объёме текстовых данных, в том числе и на поисковом запросе, сформулированном на естественном языке. Шаблоны из БД легко могут быть подвергнуты сопоставлению между собой. Это значит, что в автоматизированной информационной системе обработки текстовых данных имеются все условия для решения 3-ей прикладной задачи исследователей, а именно извлечение из БД сведений по естественно-языковым запросам.
4-я и 5-я задачи исследователей в широком обсуждении не нуждаются, поскольку имеются готовые, но очень разные инструментальные решения, с которыми читатели могут самостоятельно ознакомиться, при желании апробировать и сделать соответствующие для себя выводы. В открытой сети их не так много. Наиболее интересными на взгляд автора статьи представляются следующие разработки:
1. СЕМАНТИК.
2. ИАС "АРИОН".
3. Компьютерная грамматика русского языка: лексика, морфология, синтаксис.
4. Технологии автоматического анализа текстов.
5. Семантический парсер "JHON".
6. RCO Fact Extractor SDK.
7. ABBYY InfoExtractor SDK.

III. ПРИКЛАДНЫЕ АСПЕКТЫ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ИСТОЧНИКОВ ДАННЫХ

Как было заявлено во "Введении", в этом разделе приступим к освещению темы вспомогательного лингвистического инструментария для исследователей, занимающихся первичным анализом информационного потока, представленного в текстовой форме.

Из вышеприведённых лингвистических программных решений конкретно остановимся на семантическом парсере "JHON". Опираясь на эту разработку, затронем основные вопросы, с которыми сталкиваются разработчики подобных продуктов.

При программной обработке текстовых данных первоисточником для любого семантического парсера является текстовый электронный документ или просто текст с сообщением на естественном языке (в зависимости от реализованного в парсере программного интерфейса для входных данных). Под семантической обработкой или семантическим анализом первоисточника будем понимать процесс по извлечению из текста сущностей и процесс по определению смысла их упоминания в сообщении, где под "сущностью" понимается "семантически содержательная единица данных, состоящая из одного слова или совокупности слов", а под "смыслом упоминания" понимается "совокупность лексических связей для сущности".
Задача семантического анализа, по единодушному мнению разработчиков, разрешима только при полном морфо-синтаксическом разборе текста. Перед морфо-синтаксическим разбором любой текст подлежит графематическому анализу. На этом предварительном этапе текст разбивается на лексемы: слова, знаки препинания, иные символьные конструкты. На этой процедуре перед разработчиком появляется условие, осложняющее её решение. Этим условием является метаразметка текста в первоисточнике.
Метаразметка текста бывает двух типов: внешняя (без поддержки международных стандартов) и внутренняя (с поддержкой международных стандартов). Примером внешней разметки являются всевозможные форматы нумерованных списков. Примером внутренней разметки являются всевозможные XML-ориентированные языки разметки. В любом случае с присутствием в разбираемом тексте метаразметки для графематического анализатора приходится разрабатывать отдельный словарь метаданных и дополнительный алгоритм их обработки. В результате обработки метаданных производится преобразование первоисточника в документ без метаразметки.
Основными задачами графематического анализатора являются:
— словоопределительный анализ, а именно выделение в тексте односложных и многосложных лексем, в том числе инициалов,   а также сокращений с точкой и с косой чертой (при их наличии в словаре сокращений);
— числоопределительный анализ, а именно выделение в тексте чисел, дат, цифросодержащих сущностей;
— знакоопределительный анализ, а именно выделение в тексте знаков препинания, символов ("№", "$", и т.п.) и знакосодержащих сущностей.

Дополнительно решаемые вопросы в графематическом анализе:
1. Слова в ненациональном алфавите могут быть разобраны либо в словоопределительном анализе (если планируется их семантический разбор), либо в знакоопределительном анализе (если не планируется их семантический разбор). Выбор способа работы с ненациональным алфавитом зависит от задачи семантического сервиса.
2. Графематический анализатор должен правильно обращаться со знаками "дефис" и "косая черта", то есть оставлять их частью слова, если возле них находится знак алфавита. Здесь разработчики решают задачу полисемии печатного знака "минус", используемого как в качестве знака тире, так и в качестве знака "дефис", а также задачу полисемии печатного знака "косая черта", используемого как в качестве признака "отношения" сущностей, так и в качестве союза "или".

Итогом графематического анализа является одномерный массив лексем. Этот массив передаётся в морфологический анализатор, который извлекает из словаря морфологические признаки слов. Поскольку морфологические словари содержат информацию о многосложных частях речи, то массив лексем сжимается на многосложных частях речи. В морфологический анализатор разработчики по собственной инициативе для отсутствующих в словарной базе слов часто встраивают модуль с вероятностными моделями определения их морфологических признаков. Результат морфологического анализа передаётся в синтаксический анализатор.

Первая часть синтаксического анализа связана с разделением текста на предложения. На данном этапе определяются категории предложений из следующих вариантов: повествовательное, вопросительное, повелительное, вводное, перечисляемое событие (как часть сложносочинённого предложения), контекстное дополнение (в скобках или в кавычках).
Вторая часть синтаксического анализа связана с сегментацией уже самого предложения. Варианты синтаксических конструктов (синтагм):
— устойчивое словосочетание;
— именной конструкт;
— предложный конструкт;
— перечисляемые сущности на различных частях речи;
— определительный конструкт на прилагательном, на причастии и на союзном местоимении;
— обстоятельственный конструкт на деепричастии;
— ассоциативный конструкт на тире;
— конструкт сказуемого;
— отдельное слово.
На данном этапе разработчики снимают омонимию с различных частей речи.

Третья часть синтаксического анализа связана с определением членов предложения. Наибольшие проблемы для разработчика на данном этапе создают безличные предложения, а также отдельные местоимения и существительные с неразрешённой морфологической парадигмой (когда нужно определить падеж из двух вариантов: Кому?, Чему? или Кем?, Чем?).
После завершения морфо-синтаксического анализа осуществляется переход к семантическому анализу. Выделенные во второй части синтаксического анализа сущности передаются в семантический анализатор. Здесь разработчики останавливаются лишь на формальной стороне вопроса семантического анализа, а именно на определении связей между сущностями. Ниже представлена классификация связей, использованная в семантическом парсере "JHON".

Классификация связей:
— определительная (Какой?);
— притяжательная (Чей?);
— указательная (Кого?, Чего?);
— количественная (Сколько?);
— подлежащее (Кто?, Что?);
— дополнение (Кого?, Чего?, Кому?, Чему?, Кого?, Чего?, Кем?, Чем?, О Ком?, О Чём?);
— обстоятельственная (Как?, где?, Куда?, Откуда?, Когда?, Зачем?, Почему?, Насколько?);
— метаразметка ("Индекс");
— ассоциативная (отношения: равнозначности — "синонимия"; противоположности — "антонимия";
соположенности — "определение"; включения — "гиперонимия" /родовое понятие/ и "гипонимия" /частное понятие/);
— коммуникативная ("звательный падеж");
— качественная (со сравнительной степенью прилагательного);
— логическая (на союзах);
— вводное (без связи).

Ниже приводится список рассмотренных в III разделе данной статьи проблем, выявленных на всех этапах лингвистического разбора текста (графематика, морфология, синтаксис, семантика) и непосредственно связанных с разработкой семантического парсера "JHON". Под названием каждой из них приводится её частное решение.

ПРОБЛЕМА ИНФОБЛОКОВ
При обработке текстовых данных неминуемо происходит соприкосновение парсера со структурой документа. Инфологическая разметка текста на структурные элементы является частной проблемой графематики. Для семантического парсера "JHON" структурообразующие признаки — спецсимволы и др. (см. ниже по списку) — должны быть предварительно исключены из входного текста. Эта функция в данном парсере перекладывается с разработчика на специалистов, использующих семантический парсер на постоянной основе. Им следует отдельно позаботиться о чистоте вводимых текстовых данных, а именно исключать из текстов следующие признаки разбивки текста на информационные блоки:
— спецсимволы (невизуальные символы из таблицы символов Unicode в окружении алфавитного шрифта);
— метаразметка текста (ключевые слова атрибутивных данных к информационным блокам);
— язык разметки текста (RDF, XML, HTML и т.п.);
— таблицы;
— письмо в разрядку;
— стихотворный формат (строфико-синтаксическая анафора);
— формат юридических документов, допускающий вложенные списки из вариантов синтаксических конструктов.

ПРОБЛЕМА ГРАФЕМАТИКИ
В графематике с точки зрения синтаксиса из текста вычленяются алфавитосодержащие лексемы, числосодержащие лексемы и всевозможные символьные лексемы. Среди последних выделяются знаки препинания и универсальные знаковые сущности. С точки зрения кодировки пробелов в электронных документах пробелы тоже являются символами. Это символы одиночного пробела, табуляции, конца строки и перевода каретки. При графематическом разборе из текста должны быть удалены лишние пробельные знаки. Проблема заключается в выборке из текстовой цепочки данных лексем таким образом, чтобы они соответствовали синтаксическим нормам языка с учётом сохранения пробельных знаков в многосложных лексемах.
Разработанные специально для семантического парсера "JHON" правила членения текста на лексемы и есть решение указанной проблемы.
Правила членения текста на лексемы:
— выделение в одну лексему ФИО (полного и с инициалами);
— выделение в одну лексему электронных адресов и имён файлов;
— объединение многосложных конструктов на латинице в одну лексему;
— объединение любых числовых данных через точку, двоеточие или тире в одну лексему;
— выделение в одну лексему текста в кавычках;
— выделение в одну лексему текста в скобках любого вида;
— выделение в одну лексему неалфавитных и непунктуационных символов (например: "№", "%", "§", "$" и т.д.).

ПРОБЛЕМА ДЕФИСА
С точки зрения морфологии части речи бывают односложными и многосложными. Существуют многосложные лексемы, пишущиеся через дефис (например: "жили-были", "пол-листа", "научно-технический" и т.п.). Для отсутствующих в морфологическом словаре слов с дефисом морфологический анализатор парсера пытается найти в словаре слово из его правой части после дефиса. Так в парсере решается проблема распознавания синтетически сгенерированных слов с дефисом.

ПРОБЛЕМА АНАФОРЫ
Часто предложения содержат местоимения, ассоциирующиеся с упомянутыми ранее в тексте существительными. Такие местоимения называются анафористичными. В синтаксическом анализаторе парсера разрешена проблема анафоры для определительно-придаточного оборота. В случае появления анафоры (местоимения или ассоциативной именной группы), обращающейся к предыдущему предложению, в обсуждаемом парсере семантическая связь не обнаруживается.

ПРОБЛЕМА ОНТОЛОГИИ
Семантический парсер не предусматривает работы с онтологией. Вместо онтологии в парсере "JHON" используется экспериментальная технология морфо-семантических словарей, когда семантическая категория ("денотат") дописывается в словарную статью с морфологическими признаками. По этим признакам разрешаются некоторые вопросы семантической классификации лексических связей, например, для сущностей с признаком "процесс, действие" может быть выявлена связь с любым обстоятельством. Предметную классификацию сущностей с помощью экспериментальной технологии осуществить, как представляется, нельзя.

ПРОБЛЕМА ОМОНИМИИ
Если в тексте обнаруживается омонимия (одинаковое "слово", разное "значение") или омоформия (разные "слова", одинаковая морфологическая "парадигма"), то проводится эвристический анализ синтаксиса предложения. Очень часто через синтаксически обусловленные лексические связи удаётся снять проблему омонимии. И тогда пользователь не узнает о разрешённой омонимичной ситуации. Однако эвристический подход может дать неверный результат, тогда о выявленной проблеме можно сообщить разработчику парсера "JHON" с целью доработки эвристического анализатора омонимов.

ПРОБЛЕМА ЗАПРЕТОВ ПРИ УСТАНОВЛЕНИИ ЛЕКСИЧЕСКИХ СВЯЗЕЙ
Установление лексических связей является одной из центральных задач синтаксического анализатора парсера. Существует множество признаков для установления лексической связи между словами (см. тезисы морфо-синтаксических правил). Связи, как мы уже понимаем, возникают как между соседними, так и между удалёнными словами. Порой связанные слова разделены не только однородными членами предложения или определительными конструктами, но и целыми придаточными предложениями. И хорошо, если связь со словом одна. Однако часто встречается особая ситуация с замыканием нескольких вложенных синтаксических конструктов на одном слове. Например, в таком как вхождение причастного оборота внутри предложного обстоятельства. В парсере учтена возможность существования таких синтаксически многокомпонентных связей. Но поскольку не существует перечня всех синтаксических правил установления связей от нескольких членов предложения с одной сущностью, то возможность обнаружения всех синтаксически многокомпонентных связей не стопроцентна.
Иногда внешние связи накладывают ограничение на продолжение связей для внутренних синтаксических конструктов. В этом случае проблема разрешается, в первую очередь, очерёдностью обработки конструктов. Но очерёдность не всегда снимает проблему. Именно поэтому, во вторую очередь, на каждом этапе возникновения условий для установления очередной связи проводится эвристический анализ её допустимости для "значений" слов (см. рис. 1, "значения" берутся из экспериментальной технологии морфо-семантических словарей). Внутри эвристического анализатора признаком на запрет по установлению очередной связи являются семантические категории, например, такие как "действие", "числительное", "имя".

Итак, на примере семантического парсера "JHON" описанные выше решения лингвистических проблем раскрывают глубину проработки 1-й прикладной задачи исследователей, состоящей в сборе сведений о предмете исследования в единую базу данных. Исследователям, проникшимся идеей автоматизации процесса обработки текстовых первоисточников, рекомендуется обратить внимание на другие программные решения, описанные в качестве примеров в статье Сетевой обзор инструментов машинного анализа текста.