ДОБРО ПОЖАЛОВАТЬ ! WELCOME ! BIENVENIDO ! HERZLICH WILLKOMMEN ! BIENVENUE ! TERVETULOA ! ΚΑΛΏΣ ΉΡΘΑΤΕ ! FÁILTE ! VELKOMMEN ! VÍTEJTE !
СЕТЕВОЙ ОБЗОР ИНСТРУМЕНТОВ МАШИННОГО АНАЛИЗА ТЕКСТА

В данном обзоре представлен ряд вычислительных систем промышленных, академических и частных решений (Eureka Engine, RCO Fact Extractor SDK, ЭТАП-3, MF Text Analyst R10, DictaScope Syntax, MaltParser, ABBYY Compreno, ИАС "АРИОН", ITFRU, Solarix, libmorphrus, SDK Pullenti, JHON), либо демон- стрирующих, либо автоматизи- рующих процесс лингвистиче- ского анализа текста, и кото- рые на взгляд автора могут представлять интерес для спе- циалистов в области инжене- рии знаний. В рамках описания основных особенностей сис- тем производится
ТЕХНОЛОГИЯ СОГЛАСОВАНИЯ МЫСЛЕ- ОБРАЗОВ В ПРЕДПРОЕКТНОЙ ДЕЯТЕ...

В статье раскрывается суть знания, скрываемого за повсе- дневным информационным по- током. Для этого приводится классификация объектов инф- ормационного пространства с их разделением на представ- ления, образы и понятия. До- стижение эффективности пере- дачи знания посредством язы- ка общения должно обеспечи- ваться соблюдением участни- ками коммуникативного акта основных тезисов Закона эво- люции знания, выявленного и сформулированного автором данной статьи в процессе уг- лублённого анализа инноваци- онно-экономической
СПОСОБ РЕШЕНИЯ ПРОБЛЕМЫ АВТО- МАТИЗАЦИИ ПРОЦЕССОВ ИЗВЛЕЧЕ...

Связи между сущностями ин- формационного пространства составляют смыслы семанти- ческих структур. Любая иссле- довательская деятельность со- пряжена с извлечением таких смыслов и последующим их анализом. В статье доказыва- ется, что объединяющим нача- лом любой исследовательской деятельности в промышленных целях является работа с тексто- выми документами. Следующая за нею реализация способа решения задачи смысловой обработки текстовых источни- ков данных доказывает воз- можность автоматизации вы- шеобозначенной
Национальный корпус русского языка
Данный ресурс адресован тем, кто интересуется вопросами, связанными с русским языком, а именно: профессиональным лингвистам, преподавателям, школьникам, студентам, а также иностранцам, изучаю- щим русский язык, и другим заинтересованным лицам.
Краткое описание вашего ресурса (не более 200 знаков).
Краткое описание вашего ресурса (не более 200 знаков).
Краткое описание вашего ресурса (не более 200 знаков).
Краткое описание вашего ресурса (не более 200 знаков).
Дата поступления:
Февраль 2018
Н. В. БОЧАРОВ
Дата опубликования:
Март 2018
Статья.  СЕТЕВОЙ ОБЗОР ИНСТРУМЕНТОВ МАШИННОГО АНАЛИЗА ТЕКСТА

КРАТКАЯ АННОТАЦИЯ

В данном обзоре представлен ряд вычислительных систем промышленных, академических и частных решений (Eureka Engine, RCO Fact Extractor SDK, MF Text Analyst R10, DictaScope Syntax, ITFRU, Solarix, ABBYY Compreno, ЭТАП—3, ИАС "АРИОН", MaltParser, libmorphrus, SDK Pullenti, JHON), либо просто демонстрирующих, либо автоматизирующих процесс лингвистического анализа текста, и которые на взгляд автора могут представлять интерес для специалистов в области инженерии знаний. В рамках описания основных особенностей систем производится классификация подходов в области машинной обработки текста, а также расстановка акцентов на достигаемые при этом результаты. Эти результаты сравниваются с запросами специалистов, основной функцией которых является анализ текста на естественном языке.

ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТА

Основными объектами лингвистического анализа текста в соответствии со словарём лингвистических терминов Т.В. Жеребило являются:
— система языковых средств;
— характеристика стилистических ресурсов текста;
— стилистически маркированные языковые средства в соотнесении со структурной композицией текста;
— типологические черты текста;
— коммуникативные качества речи.

Перед проведением обзора систем машинного анализа текста сначала разберём понятия из вышеприведённого перечня, определяющего предмет лингвистического анализа.

В "систему языковых средств" входят:
— лексика и фразеологизмы;
— морфология;
— синтаксис.
Где "лексика" – словарный состав языка; "фразеологизмы" – устойчивые словосочетания и фразы; "морфология" – система механизмов языка, обеспечивающая построение словоформ; "синтаксис" – система правил сочетания слов и построения предложений.

Полнота идентификации "языковых средств" является основой для семантического анализа текста. Как будет показано ниже, чрезвычайно огромный объём информации в перечисленных разделах языкознания подталкивает разработчиков лингвистических систем к применению математического моделирования с целью эмуляции процесса логического анализа лингвистической информации с неопределёнными данными.

"Стилистические ресурсы текста" представляют собой лексические единицы текста с маркированным стилистическим значением (окраской). Стилистическую маркировку разделяют на два вида: "эмоционально-стилистическую" и "функционально-стилистическую". "Эмоционально-стилистическая" маркировка является основой для лингвистического анализа с целью определения "тональности" при упоминании объектов сообщения. Отсутствие стилистической маркировки в лексических единицах текста является признаком нейтральной лексики, то есть не выражающей эмоциональной оценки.
"Функционально-стилистическая" маркировка должна анализироваться в контексте структуры текста, то есть влиять на "структурную композицию текста". В частности, обнаружение в тексте коммуникативного стиля сообщения должно приводить к структурной декомпозиции текста с повествовательным стилем. Такая операция относится к "прагматическому" анализу, когда из участка текста следует понимание того, к чему обязывает или призывает читателя автор сообщения. В частности, к "функционально-стилистической" маркировке относится морфологический признак повелительного наклонения у глаголов.

К "типологические чертам" текста по И.Р. Гальперину относятся связность текста, проспекция и ретроспекция. Краткая характеристика этих категорий такова. "Связность текста" представляет собой один из важнейших признаков текста, который означает сочетаемость частей речи и обеспечивается на многих уровнях:
— лексическом (синонимы, антонимы, анафоры);
— морфологическом (по роду, по числу, по падежу, по наклонению);
— синтаксическом (порядок слов, использование союзов).
Понятия "ретроспекция" и "проспекция" определяют "обращение читателя к предшествующей в тексте содержательно-фактуальной информации" и "подготовку читателя к последующей в тексте содержательно-фактуальной информации" соответственно. Идентификация таких речевых оборотов является поводом для установления семантических связей между удалёнными участками текста. Практическая реализация таких связей может вылиться в наложение семантических сетей из этих участков текста друг на друга с установлением категориальных признаков (гиперонимов), упомянутых в тексте сущностей.

"Коммуникативные качества речи" характеризуют её культурную составляющую при использовании "языковых средств".
В них входят:
1) структурно-смысловые характеристики текста:
— "чистота" (свобода речи от любых загрязняющих её элементов);
— "правильность" (соответствие нормам речи);
— "богатство" (разнообразие в определениях одинаковых предметов, явлений, событий).
2) функционально-смысловые характеристики текста:
— "логичность" (индукция и дедукция в рассуждениях);
— "точность" (предметная и понятийная);
— "доступность" (личностное понимание, подача информации через собственное к ней отношение);
— "уместность" (стилевая, контекстуальная, ситуативная, личностно-психологическая);
— "ясность" (включение в сообщение разъяснений).
Можно сказать, что критерии вышеперечисленных структурно- и функционально-смысловых характеристик текста определяют степень близости текста к "идеальной" форме подачи информации.

Таким образом, анализ текста на естественном языке может быть сведён к решению следующих лингвистических задач (ЛЗ):
1. Разбиение текста на морфо-синтаксические элементы (графематический разбор).
2. Морфологический анализ (части речи).
3. Синтаксический анализ (члены предложения).
4. Семантический анализ (связность текста).
5. Прагматический анализ (классификация текста, признаки его целевого назначения).
6. Тональность текста (стилистическая карта сущностей).
7. Идеальность текста (коммуникативные критерии).

Далее в обзоре будет использованы ссылки на данный перечень лингвистических задач (формат ссылки: ЛЗ.№). Теперь, когда определены задачи лингвистического анализа текста, перейдём к обзору систем машинного анализа текста, отражающих текущее состояние компьютерной лингвистики.

СИСТЕМЫ МАШИННОГО АНАЛИЗА ТЕКСТА

 СИСТЕМА ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ "Eureka Engine"
Система представляет собой комплекс программных модулей (их описание даётся чуть ниже), осуществляющих:
— разметку частей речи (ЛЗ.2);
— определение тематики — TextClassifier (ЛЗ.5);
— автоматическое определение тональности документа — SentiFinder (ЛЗ.6);
— выделение именований и имен собственных (ЛЗ.7 частично).

"Модуль морфологического анализа русского языка" предназначен для морфологического анализа слов предложения — определения частей речи и их морфологических характеристик.
Морфологический анализ реализован на основе морфологических словарей и комбинаторных алгоритмов. Наряду с морфологическими характеристиками слова возможен вывод всех его словоформ и его основы (стемминг). Анализатор разрешает омонимию и согласует словосочетания по морфоатрибутам.

"Модуль автоматической классификации текстов" (TextClassifier) реализован на основе машинного обучения. Модуль автоматически классифицирует русскоязычные документы любого объема и любой тематики по заранее определенным классам. Он разработан таким образом, что может быть полуавтоматически переобучен на любые тематические классы для текстов на любом языке за короткое время. В настоящее время сервис определяет следующие тематические категории:
— "Авто";
— "Экономика и бизнес";
— "Шоу-бизнес и развлечения";
— "Семья";
— "Мода";
— "Компьютерные игры";
— "Здоровье и медицина";
— "Политика";
— "Недвижимость";
— "Наука и технологии";
— "Спорт";
— "Туризм и путешествия";
— "Кулинария".

"Модуль автоматического определения тональности" (SentiFinder) — высокоскоростной сервис автоматического определения тональности как русскоязычных, так и англоязычных текстов.
В модуле предусмотрено определение двух типов тональности:
— относительно заданного пользователем объекта;
— автоматически определенного системой объекта на основе совокупности знаний о нём.
Если говорить о видах тональности, то модуль определяет три вида тональности сообщения (позитивную, негативную и нейтральную) относительно заданного объекта как в пределах одного предложения, так и усреднённую по всему документу.
Особенностью данного модуля является то, что он позволяет оценить силу эмоциональности. Таким образом, пользователю системы предоставляется возможность не только получить качественную эмотивную оценку документа в целом относительно интересующего объекта тональности, но и количественное соотношение негативного и позитивного отношения к нему.

"Модуль автоматического определения именованных сущностей" (Named Entity Recognition, NER) реализован в виде отдельного сервиса, который позволяет классифицировать именованные объекты в тексте на пять классов для русского языка (физические лица, юридические лица, географические объекты, названия продуктов и брендов, а также именованные события) и на три класса для английского языка (физические лица, юридические лица и географические объекты). Система умеет определять числовые показатели "точности" и "полноты" типа именованных сущностей для русскоязычных текстов.
Доступ к полному набору лингвистических сервисов "Eureka Engine" предоставляется по протоколу REST.

 БИБЛИОТЕКА ЛИНГВИСТИЧЕСКОГО РАЗБОРА ТЕКСТА "RCO Fact Extractor SDK"
Области применения библиотеки лингвистического разбора текста:
— очистка информации в базах данных — RCO Database Record Cleaner (ЛЗ.1);
— морфологической анализ слов русского языка — RCO Morphology SDK (ЛЗ.2);
— поиск на естественном языке в базах данных — RCO Query Parser (ЛЗ.4);
— классификация текстов — RCO Text Categorization Engine (ЛЗ.5).

Инструмент компьютерного анализа текстовой информации "RCO Fact Extractor SDK" предназначен для разработчиков информационно-аналитических и поисковых систем. Библиотека производит лингвистический разбор текста с учетом грамматики и семантики языка. Результатом анализа текста являются:
— выделенные из текста сущности (наименования организаций, персоны, географические объекты, различные символьно-цифровые конструкции — такие как номера автомобилей или полисов страхования, адреса) и классы сущностей;
— сеть синтактико-семантических отношений между сущностями текста;
— структуры данных, описывающие упомянутые в тексте события и факты.

Анализ текста состоит из 8-ми последовательных этапов обработки текста:
— извлечение содержательного портрета текста (имена событий и предметов);
— извлечение упоминаний персон и организаций (ФИО, организационно-правовая форма, форма хозяйственной деятельности, название, географические атрибуты и т.д.);
— извлечение упоминаний особых объектов (адресов, реквизитов документов, марки товаров, модели устройств, ссылки на статьи нормативно-правовых документов);
— установление связей между объектами (имена существительные, привязанные к одному глаголу);
— распознавание ситуаций (событий или фактов заданного типа);
— установление отношения к объекту (использование тонально-окрашенной лексики);
— анализ предметной области (фиксация областей интереса и сбор фактического языкового материала — термины, названия, характеристики, ситуации по ситуативному словарю);
— обработка знаний (детализация отсутствует).

На каждом этапе задействованы специальные словари, описания объектов и правила, составленные лингвистами для максимально полного и точного извлечения информации в соответствии с заданной задачей и форматами текстов. Таким образом, решение задачи лингвистического разбора в серии программных решений "RCO" носит фактологический характер и не содержит глубокого синтаксического анализатора.

К числу основных решаемых задач RCO Database Record Cleaner относятся:
— разбор и стандартизация записей ФИО и наименований организаций;
— идентификация типов реквизитов, разбор смешения различных реквизитов в одном поле, извлечение реквизитов из несоответствующих им полей или из текста;
— идентификация записей о физических и юридических лицах с опорной базой на основе процедур нечеткого сравнения наименований и комплексов реквизитов;
— формирование единого реестра физических и юридических лиц из различных источников, консолидация реквизитов и устранение дубликатов.

Библиотека RCO Morphology Professional SDK предназначена для морфологического анализа слов русского языка и позволяет решать следующие задачи:
— определять все грамматические характеристики словоформ (часть речи, падеж, спряжение и т.п.) и лексико-семантические разряды (имя, отчество, фамилия, наименование организации, географическое название);
— приводить различные грамматические формы слова к нормальной форме;
— получать все грамматические формы слова.
Библиотека включает в себя:
— точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
— высокодостоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
— вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.

Модуль RCO Query Parser разбирает контекстный поисковый запрос на русском языке и, с учетом грамматики и семантики, строит оптимальное поисковое выражение для обработки в поисковой машине, которая индексирует текст, ничего не зная о языке, за исключением того, что слова разделяются пробелами.
Основные особенности RCO Query Parser:
1. Возможность грамматического анализа неизвестных слов, синтез всех словоформ.
2. Снятие омонимии слов в запросе. Для многословных запросов за счет учета синтаксических связей между словами запроса. Для однословных запросов за счет системы приоритетов, отражающей де-факто принятые нормы формулирования запросов: высокий приоритет на именительный падеж существительных, низкий — на формы первого лица и повелительного наклонения глаголов, краткие формы прилагательных и причастий и т.п. Влияние регистра написания на приоритет имя собственное/имя нарицательное.
3. Формирование базовой структуры оптимального поискового выражения: сегментация запроса на фрагменты, которые ищутся КАК ФРАЗА, комбинация таких фрагментов с использованием операторов NEAR и AND. Так, связки прилагательных или причастий и существительных в составе согласованных именных групп следует искать как единые фразы; сочетания предложно-падежных и свободных словоформ (именных групп) следует связывать через AND; связки предикатов (глаголы в личной форме и событийные существительные) с аргументами следует связывать через NEAR; и т.п.
4. Расширение поискового выражения корректными грамматическими формами слов с использованием синонимов. Не исключено порождение нетривиальных синонимических трансформаций с модификацией синтаксической структуры (указ президента = президентский указ).
5. Возможность включения специальных режимов обработки запросов, например, выделение из запроса и стандартизация формальных атрибутов искомых документов.

RCO Text Categorization Engine позволяет решать следующие задачи:
— на основании лексических профилей эффективно определять принадлежность текста к заданному множеству категорий;
— для каждого термина из лексических профилей, обнаруженного в тексте, получить количество его вхождений в текст, а также позиции терминов в тексте.
В библиотеке реализована векторная модель категоризации, которая включает в себя четыре настраиваемых компонента:
— весовые коэффициенты терминов профиля (значения задаются пользователем);
— весовые коэффициенты терминов документа (способ вычисления задается пользователем: бинарные, частотные);
— нормирующий множитель (способ вычисления задается пользователем: евклидова норма, длина текста);
— пороговое значение (задается пользователем системы).
Библиотека лингвистический разбора текста RCO Fact Extractor SDK поставляется в виде динамической библиотеки, работающей с текстовыми форматами TXT или HTML. Дополнительные прикладные решения, перечисленные в этом обзоре, ориентированы на работу с СУБД Oracle.

 АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ "МетаФраз Текстовый аналитик R10" (MF Text Analyst R10)
Программный продукт MF Text Analyst R10, входящий в состав автоматизированных систем МетаФраз, предназначен для:
— ведения персональной электронной библиотеки документов в форматах TXT, DOC, DOCX, PDF;
— лингвистической обработки и семантического анализа неструктурированных текстовых документов посредством автоматического создания формализованного представления документов (ЛЗ.4);
— поиска и отбора документов с использованием технологий семантического поиска и установления степени семантической близости документов (ЛЗ.5).

Система "МетаФраз Текстовый аналитик R10" предназначена для автоматизации рабочего места аналитика.
Примечание автора обзора: Полнофункциональная многопользовательская сетевая версия автоматизированной системы на момент написания обзора находилась в стадии разработки.
Особенность технического решения к осуществлению обработки текстов строго из документов универсальных текстовых форматов снимает с графематического анализатора проблему токенизации входных данных (разбивку текста на лексемы). То есть фактически на входе в такой системе уже имеется массив лексем, подготовленный к морфологическому анализу, а именно ко второму этапу лингвистической обработки текстов. Такой массив требует только незначительной доработки для учёта особенностей работы на уровне синтаксиса с числовыми данными и именными группами, а также с определением границ предложений.
Как утверждают разработчики системы, в процессе морфологического анализа производится поиск в таблице служебных и коротких слов, а также в таблице окончаний слов. Так выполняется назначение словам грамматической информации.

На этапе "автоматического формирования формализованного представления документов" в системе "МетаФраз Текстовый аналитик R10" осуществляется:
— семантико-синтаксический анализ текстов (процедуры анализатора адаптированы к функциональным требованиям смысловых связей и к заложенной в систему для разбора понятийной модели);
— концептуальный анализ текстов (обработка семантических признаков, извлекаемых из эталонного словаря наименований понятий);
— дистрибутивно-статистический анализ текстов (установление статистических закономерностей совместной встречаемости наименований понятий).
Здесь понятийные модели используются в качестве средства достижения результатов семантического разбора текста, что снимает необходимость в повсеместном синтаксическом анализе текста.

Перед следующим этапом семантического поиска в системе с каждым вновь добавляемым в систему документом производится специальная процедура его "автоматической классификации (рубрицирования)". При этом используются экспертные наработки отраслевых рубрикаторов, которые также должны быть выполнены по специально разработанной методологии.

На этапе "семантического поиска, отбора и сравнения документов" в системе "МетаФраз Текстовый аналитик R10" осуществляется:
— семантический поиск (создание формализованного представления естественно-языкового запроса и сравнение его с формализованным представлением документа);
— полнотекстовый поиск (пословная нормализация простого запроса из ключевых слов в связку "лемм" и её сравнение с формализованным представлением документа);
— сравнение нескольких документов между собой по смыслу (сравнение по формализованным концептуальным представлениям документов).

Создание формализованного концептуального представления документа возможно только при использовании тематического концептуального словаря предметной области. Такие словари отдельно не поставляются, но каждый пользователь данной системы может самостоятельно воспользоваться технологией автоматизированного создания тематического словаря предметной области, свободно распространяемой разработчиками системы вместе с лицензируемым программным обеспечением.

 СИНТАКСИЧЕСКИЙ АНАЛИЗАТОР "DictaScope Syntax"
Синтаксический анализатор, программа "DictaScope Syntax" строит дерево зависимостей для входного предложения на естественном языке (ЛЗ.3).
Для работы программы используются только морфологический словарь и лексический анализатор.

Синтаксический анализатор создаёт синтаксическую разметку предложения русского языка. Разметка в себя включает:
— дерево зависимостей слов;
— информацию о типе связей;
— информацию о морфологических значениях слов;
— информацию о ролях знаков препинания.

При построении дерева снимается морфологическая омонимия, словам (лексемам) присваиваются грамматические значения, для каждой подчинительной связи определяется её тип.
Сегментация предложения включает в себя:
— выделение простых предложений в составе сложного;
— выделение оборотов, в т.ч. вложенных — причастных, деепричастных, адъективных;
— определение рядов однородных членов;
— снятие функциональной омонимии знаков препинания;
— определение роли знаков препинания.
Учет пунктуации позволяет добиться правильного анализа длинных предложений со сложной структурой.

Синтаксический анализатор выделяет некоторые составные текстовые объекты (организации, даты и т.д.). Каждый составной объект представлен в дереве одной вершиной, имеющей синтаксические связи. Дополнительно к синтаксическому анализу в программе производится поверхностно-семантический анализ, включающий в себя определение действия, субъекта и объекта.

Разработчик синтаксического анализатора предлагает также несколько вспомогательных инструментов обработки текстов:
— компонент по анализу структуры документа DictaScope Structure (выявления в неразмеченном тексте его иерархической структуры);
— компонент по лексическому анализу текста DictaScope Tokenizer (выявление в тексте объектов специального вида, таких как персоны, даты, организации, адреса и т.д.);
— компонент по обработке словосочетаний DictaScope Phrase Modifier (извлечение из текста именных и глагольных словосочетаний).
Программное решение поставляется в виде динамической библиотеки.

 СЕМАНТИЧЕСКИЙ АНАЛИЗАТОР "ITFRU"
Демонстрационная площадка ITFRU "Интеллектуальная обработка текста" представляет программные решения, построенные на открытых технологиях, предназначенных для решения следующих задач:
— разбиение текста на предложения (ЛЗ.1);
— проверка правописания слов;
— морфологический анализ (ЛЗ.2);
— синтаксический анализ (ЛЗ.3);
— семантический анализ (ЛЗ.4).

На примере задачи "разбиения текста на предложения" показывается роль графематического этапа на лингвистический анализ текста.
На примере задачи по "проверке правописания" демонстрируется функциональная возможность устойчивости систем лингвистического анализа текста к орфографическим ошибкам в текстовых данных.
На примере задачи "морфологического анализа" текста демонстрируются различные способы нотации морфологических признаков лексем.
На примере задачи "синтаксического анализа" текста демонстрируется способ сегментации предложения и пример классификации синтаксических групп на сущностях.
На примере задачи "семантического анализа" текста демонстрируется техническая сторона в описании содержания семантических связей между словами.
Цель демонстрационной Web-площадки — осветить различные грани задачи лингвистического анализа текста, а также модульность её решения.

 ПАРСЕР "Solarix"
Парсер решает следующие задачи:
1. Лексический анализ — разбивка текста на предложения и слова (ЛЗ.1).
2. Морфологический анализ слов — определение части речи, падежа, рода, числа и других грамматических признаков с учетом контекста слова (ЛЗ.2).
3. Лемматизацию — приведение слова к начальной форме (лемме).
4. Синтаксический анализ — определение синтаксических связей слов в предложении, поиск подлежащего, сказуемого и так далее (ЛЗ.3).

Парсер выполнен в двух форматах: настольного приложения и локально-сетевого сервиса. Парсер способен разбирать от одного предложения до сотен мегабайт текста.
Приложение отличает собственный, достаточно подробный грамматический словарь русского языка с синонимами, антонимами, гиперонимами, гипонимами и переводами на английский язык.

 СИСТЕМА СЕМАНТИКО-СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТА "ABBYY Compreno"
Технология анализа и понимания текстов на естественном языке, реализованная в программном решении "ABBYY Compreno", решает следующие задачи:
— лексико-морфологический анализ текста (ЛЗ.1+ЛЗ.2);
— синтаксический анализ текста (ЛЗ.3);
— семантический анализ текста (ЛЗ.4);
— прагматический анализ текста (ЛЗ.5).

Перечисленные задачи составляют четыре последовательных этапа технологии полного семантико-синтаксического анализа текста с созданием его универсального представления, а также с извлечением сущностей, событий и связей между ними.
На первом этапе исходный текст делится на абзацы, предложения и слова. Технология определяет части речи и морфологические признаки слов (род, число, падеж и другие).
На втором этапе технология выделяет предложения в тексте, определяет их структуру и связи между словами в предложении.
На третьем этапе "ABBYY Compreno" определяет значения каждого слова, строит семантическую структуру предложения на основе связей, которые были установлены на прошлом этапе.
На четвертом этапе на семантическую структуру накладывается прагматический слой анализа текста, применяются онтологии (терминология для конкретной предметной области анализа) и правила извлечения нужных объектов.
Результатом полного семантического анализа является универсальное представление информации.

"ABBYY Compreno" умеет:
— определять смыслы многозначных слов (разрешать омонимию);
— восстанавливать пропущенные слова в тексте (разрешать эллипсис);
— анализировать сложные лингвистические связи между словами (преодолевать большие расстояния, определять анафорические связи).
Отличительной особенность технологии "ABBYY Compreno" является отсутствие необходимости в статистических методах обработки текстов из предметных областей и отсутствие необходимости пользовательской настройки каких-либо правил семантического разбора и классификации текста.

Технология "ABBYY Compreno" применяется в таких программных решениях, как:
— ABBYY InfoExtractor SDK (извлечение информации из неструктурированных текстовых ресурсов);
— ABBYY Intelligent Search SDK (интеллектуальный поиск информации в массивах неструктурированных ресурсов);
— ABBYY Smart Classifier SDK (классификация документов вне зависимости от особенностей естественного языка).
В системе присутствует полноценная поддержка английского языка. Доступ к полному набору лингвистических сервисов на базе "ABBYY Compreno" предоставляется по протоколу REST.

 ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР "ЭТАП—3"
Система "ЭТАП—3", предназначенная для анализа естественного текста на русском и английском языке, позволяет производить полный синтаксический анализ текста (ЛЗ.3).
Результатом полного синтаксического анализа является синтаксическая структура предложения в виде дерева зависимостей со всеми потенциальными синтаксическими связями (синтаксическая омонимия). Полученная структура предназначена для её проверки и при необходимости для её редактирования экспертом-лингвистом. В таком функциональном исполнении программа "ЭТАП—3" применяется при создании морфо-синтаксической разметки в корпусе русского языка. Синтаксически размеченный корпус русского языка используется для целей машинного обучения статистических анализаторов русского текста.
Демонстрационная Web-площадка синтаксического анализатора лингвистического процессора размещена на сайте Лаборатории компьютерной лингвистики ИППИ РАН .

 ИАС "АРИОН"
Разработчики ИАС "АРИОН" в своём программном решении сделали акцент на проблемный (семантический) анализ текстов на естественном языке, а именно на извлечение из них сведений об "интересующих" объектах, фактах и событиях (ЛЗ.4).

В состав ИАС "АРИОН" входит специальный модуль — "Лингвистический процессор АРИОН-ЛИНГВО". На входе "Лингвистический процессор" получает текстовый документ. Результатом его работы является массив связной фактографической информации, который далее передается в модуль идентификации для выделения похожих и слияния совпадающих объектов.

Выделение "интересующей" фактографической информации осуществляется с помощью специализированных правил, которые описывают процедуры выделения объектов и связей на внутрисистемном языке "Лингвистического процессора", построенном на базе XML.
Полученные таким образом сведения представляются в формализованном виде в качестве объектов предметной области и связей между ними.

В соответствии с ранее прописанными принципами обработки лингвистической информации "Лингвистический процессор" также проводит графематический, морфологический, синтаксический и семантический анализ текста с акцентом на "интересующие" пользователя объекты, факты и события.
Программа поставляется в серверном исполнении. Вся генерируемая "Лингвистическим процессором" информация выгружается в XML-файл, который может быть либо передан в систему генерации отчётов, либо выгружен в файл, либо передан в нужную веб-службу (web-service).

 АНАЛИЗАТОР "MaltParser"
Анализатор "MaltParser" реализует метод автоматического семантико-синтаксического анализа текстов на естественном языке (ЛЗ.4).
Особенностью данного метода перед остальными состоит в выполнении синтаксического и семантического анализа текстов за один проход, а именно в одной процедуре с использованием единой структуры данных. Анализатор "MaltParser" является обучаемым анализатором. Он принимает на вход текст с разметкой, на выходе получается обученная модель, которая применяется для анализа новых текстов. Получаемая модель отделена от алгоритма анализа, её можно использовать с другими реализациями анализатора. При обучении на вход анализатору подаётся текст с синтаксической и семантической разметкой, при этом семантическая разметка является разновидностью синтаксической разметки, т.е. можно говорить о семантико-синтаксической разметке текста. Так обученная модель позволяет выполнять семантический и синтаксический анализ текстов за один проход.

Демонстрационная Web-площадка семантико-синтаксического анализатора "MaltParser" размещена на сайте Института системного анализа РАН.
Анализатор "MaltParser" используется в интеллектуальной поисково-аналитической машине Exactus.

 МОДУЛЬ МОРФОЛОГИЧЕСКОГО АНАЛИЗА РУССКОГО ЯЗЫКА "libmorphrus"
Модуль морфологического анализа русского языка представляет собой высокопроизводительный конечный автомат, в который преобразован собственно словник и система окончаний, используемая в одном из возможных описаний грамматики языка (ЛЗ.2).
Отличительной особенностью этого анализатора является высокая производительность его работы, которая измеряется десятками тысяч слов в секунду в режиме отождествления (лемматизации) с построением текстов нормальных форм слов и грамматических описаний, что является идеальным показателем для работы в составе индексирующих и поисковых машин.

Морфологический анализатор "libmorphrus" имеет богатую предысторию своего развития, поскольку его алгоритм оттачивался в таких поисковых системах, как "Апорт" и "Мета". Помимо морфологического анализатора для русского языка имеются версии анализаторов, поддерживающих английскую и украинскую морфологию. Также имеется программная библиотека проверки орфографии, обнаруживающая такие ошибки, как:
— ошибка капитализации ("москва" вместо "Москва");
— опечатка с подменой буквы ("подовица" вместо "половица");
— пропущенная буква ("мужесво" вместо "мужество");
— удвоенная буква (серебрянный вместо серебряный);
— "опоздавшая" буква ("янсость" вместо "ясность");
— "слипшиеся" слова ("подому" вместо "по дому").

Морфологический анализатор реализован в виде динамической библиотеки с экспортируемыми функциями. Он обеспечен собственным словарём в двоичном формате, что позволяет операционным системам оптимальным образом подгружать и выгружать его страницы по мере надобности. Имеется демонстрационная версия морфологического анализатора для ознакомления.

 ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР "SDK Pullenti"
"SDK Pullenti" — встраиваемый модуль лингвистического анализа документов, обрабатывающий в них неструктурированные текстовые данные на естественном языке. Этот модуль производит выделение сущностей и структурирование информации (ЛЗ.4).
Структуризация осуществляется в двух вариантах:
— по списку заданных атрибутов (выделение сущностей определённых типов — Named Entity Recognition);
— построение семантических сетей.
Для второго случая лингвистический процессор "SDK Pullenti" осуществляет морфологический, синтаксический и семантический анализ текста. Практическим примером применения семантического анализатора служит задача автоматического аннотирования текста.

Модуль лингвистического процессора ориентирован на Web-приложения и имеет две демонстрационные Web-площадки.
На страницах pullenti.ru можно ознакомиться с прикладными аспектами лингвистического анализа текста, такими как:
— выделение именованных сущностей;
— семантический анализ;
— анализ заголовка статьи;
— анализ договора или нормативно-правового акта.

На страницах semantick.ru можно ознакомиться с технологическими решениями, такими как:
— морфологический анализ русского, украинского и английского языков;
— извлечение именованных сущностей: персон, организаций и пр.;
— семантический анализ: построение семантических сетей;
— анализ нормативно-правовых актов;
— анализ происшествий;
— поиск плагиата;
— классификация текста;
— автоматическое аннотирование.

 СЕМАНТИЧЕСКИЙ ПАРСЕР "JHON"
Семантический парсер "JHON" извлекает смыслы из естественно-языковых текстов на русском языке. В основе лингвистической разработки лежат четыре фундаментальных этапа обработки лингвистической информации: графематика, морфология, синтаксис, семантика. На этих этапах семантический парсер "JHON" решает следующие задачи:
1. Лексический анализ текста — разбивка текста на предложения и лексемы (ЛЗ.1).
2. Морфологический анализ слов — определение части речи, падежа, рода, числа и других грамматических признаков с учетом контекста слова (ЛЗ.2).
3. Синтаксический анализ предложения — идентификация всех членов предложения и определение синтаксических связей лексем в предложении (ЛЗ.3).
4. Семантический анализ — извлечение триплетов субъект-объектных отношений, построение семантической сети текста, построение инфокарты событий (ЛЗ.4).

Доступ к функциям семантического парсера "JHON" предоставляется через Web-интерфейс и по протоколу REST. Демонстрационный режим Web-сервиса имеет ограничение на объём обрабатываемых данных.

Результаты лингвистического разбора текста в Web-интерфейсе представляются в форме аналитических отчётов:
— МОРФО-СИНТАКСИЧЕСКИЙ — цветовые карты с выделенными морфологическими признаками слов и синтаксическими конструкциями;
— АННОТИРОВАННЫЙ СЕМАНТИЧЕСКИЙ — табулированные данные о межтерминологических связях в предложениях, выявленные на основе анализа синтаксических признаков членов предложения.
— ФОРМАЛЬНЫЙ СЕМАНТИЧЕСКИЙ — цветовые карты с результатом синтаксического анализа текста, полученные на основе морфологических признаков составляющих его слов.

Каждый из трёх перечисленных аналитических отчётов содержит по несколько информационных блоков, раскрывающих ту или иную грань семантического содержания, скрытого за лексическим наполнением текста, например, такую как:
— определительные конструкты упомянутых в тексте сущностей;
— обстоятельства, сопровождающие те или иные события;
— ассоциативные конструкты, включённые в текст;
— синтаксические обороты, применённые для передачи информации;
— количественные показатели и даты, упомянутые в тексте;
— обстоятельственные и дополнительные определения в предложных оборотах;
— места описанных в тексте событий и имена собственные;
— перечень всех процессов, описанных не только через сказуемые, но и через существительные в семантической категории "событие-действие" (названные "Оперантами");
— обнаруженная в тексте омонимия;
— облако сущностей в заданной семантической категории;
— и многое другое.

Задача отчётов — в формировании быстрой презентации скрытого содержания, необходимого для принятия одномоментного решения.

ССЫЛКИ НА ПЕРВОИСТОЧНИКИ:

 1. http://eurekaengine.ru/ru/description/ — Система лингвистического анализа текстов "Eureka Engine".
 2. http://www.rco.ru/?page_id=3554 — Библиотека лингвистического разбора текста "RCO Fact Extractor SDK".
 3. http://www.metafraz.ru/index/0-32 — Автоматизированная система обработки текстовой информации     "МетаФраз Текстовый аналитик R10" (MF Text Analyst R10).
 4. http://dictum.ru/ru/syntax-analysis/blog — Синтаксический анализатор "DictaScope Syntax".
 5. http://itfru.ru/index.php/semantic-analize/semantic-analize-itfru — Семантический анализатор "ITFRU".
 6. http://www.solarix.ru/ — Парсер "Solarix".
 7. https://www.abbyy.com/ru-ru/infoextractor/compreno/ — Система семантико-синтаксического анализа       текста "ABBYY Compreno".
 8. http://iitp.ru/ru/science/works/452.htm — Лингвистический процессор "ЭТАП—3".
 9. http://www.sytech.ru/about.php?id=149 — ИАС "АРИОН".
10. http://nlp.isa.ru/index.php/component/portal/?view=projsintsemanalysisАнализатор "MaltParser".
11. http://www.keva.ru/?cat=ling-morph-rus — Модуль морфологического анализа русского языка     "libmorphrus".
12. http://www.pullenti.ru — Лингвистический процессор "SDK Pullenti".
13. http://dworq.com — Семантический парсер "JHON".

Дата поступления:
Февраль 2018
Н. В. БОЧАРОВ
Дата опубликования:
Март 2018
Статья. ТЕХНОЛОГИЯ СОГЛАСОВАНИЯ МЫСЛЕОБРАЗОВ В ПРЕДПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ

КРАТКАЯ АННОТАЦИЯ

Ниже в статье раскрывается суть знания, скрываемого за повседневным информационным потоком. Для этого приводится классификация объектов информационного пространства с их разделением на представления, образы и понятия. Достижение эффективности передачи знания посредством языка общения должно обеспечиваться соблюдением участниками коммуникативного акта основных тезисов Закона эволюции знания, выявленного и сформулированного автором данной статьи в процессе углублённого анализа инновационно-экономической среды. При этом предполагается, что общение потребителя знания с поставщиком знаний должно происходить на одном языке образов. Именно такой подход к их взаимоотношениям и является залогом успешной коммуникации. Согласованные коммуникативные процессы на исследовательской стадии производственной деятельности в современном мире имеют большое экономическое значение. Именно поэтому владельцы бизнесов должны обратить особое внимание на критерии подбора участников проектной команды во имя воплощения бизнес-идей в жизнь.

ЯЗЫК КАК СРЕДСТВО ПЕРЕДАЧИ ОБРАЗОВ-ПРЕДСТАВЛЕНИЙ ЧЕЛОВЕКА

В нормальном состоянии человек пребывает в некотором бульоне собственных образов-представлений, наложенных на физическую картину объектов окружающей его среды. Имеющее место быть рассогласование представлений человека с реальными состояниями наблюдаемых через органы чувств объектов формирует фокус его внимания непосредственно на выявленную им рассогласованность. Пропорциональные количественно-качественные отношения мыслимых образов с реалиями образует устойчивый мыслительный поток. Перекос в сторону непропорциональности отношения физической картины мира с мыслимыми образами вызывает ту или иную эмоциональную реакцию человека — смех, радость, страх, гнев и т.п. В случае проявления таковых человек сам становится возмутителем пропорциональности соотношения мыслимых образов с физическими реалиями у других субъектов. Так устанавливается коммуникативный акт в человеческом обществе. Подтверждением установления коммуникативного акта служит проявление у людей реактивной деятельности, такой как одобрение, сопротивление, согласие и т.п. Дальнейшее поддержание коммуникативного акта определяется намерениями коммуницирующего общества и выливается либо в планирование будущей деятельности, либо в непосредственное включение в процесс изменения физической картины мира.
Описанная короткими штрихами модель возникновения осмысленной человеческой деятельности выделяет важные для языковой среды моменты, характеризующие Закон эволюции знания и являющиеся по сути постулатами данного закона. Первый постулат закона описывает среду, в которой адсорбируется Знание. Второй постулат определяет элементы Знания. Третий постулат характеризует механизм шлифовки Знания. И напоследок, четвертый постулат определяет способ неоднократной апробации Знания.

1. Причиной реакции человека на состояние физического пространства является его нескончаемая мыслительная деятельность.
2. Мыследеятельность оперирует образами-представлениями.
3. Передача мыслеобразов от одного субъекта к другому осуществляется посредством системы знаков, называемой языком коммуникации.
4. Язык коммуникации допускает отложенную деятельность.

О СОГЛАСОВАНИИ МЫСЛЕОБРАЗОВ СУБЪЕКТОВ ЭКОНОМИЧЕСКОГО ПРОСТРАНСТВА

В четвертом постулате Закона эволюции знания мы подошли к обнаружению очередного источника возмущения мыследеятельности человека, а именно к языку коммуникации. Здесь важно отметить тот факт, что человек воспринимает язык коммуникации в качестве достоверного источника сведений. В процессе коммуникации происходит установление связей между прообразами, стоящими за системой знаков, и объектами физического пространства. Признак "достоверности" прообразов языка коммуникации изначально человеком никак не опровергается, во-первых, по причине знаковости (ассоциативной сопоставимости по причине или следствию) существования воображаемого явления в физическом мире, а во вторых, по причине того, что знаки сами по себе существуют в физическом пространстве, как следы реальных объектов. Важность или второстепенность ассоциируемой характеристики объекта не имеет значения.
Возьмём, к примеру, "якобы" физический объект "солнце". Притом, что солнца в руках никто не держал, все знают, что от него можно обжечься. Тепло в данном случае выступает знаком понятия "солнце", то есть физически ощущаемым "объектом" (здесь мы имеем сопоставимость по следствию: существует объект, нагретый от солнца). Другим сопоставимым с "солнцем" по физическим ощущениям объектом при определённом перечне допущений является "двигатель внутреннего сгорания". Однако в данном случае существование объекта не подвергаться сомнению не по причине знаковости явления с учётом его физических характеристик, а по причине существования огромного количества его разновидностей, а также вследствие его экономической значимости для человечества в целом (массовость тиражируемого явления).
Итак, в приведённых выше примерах мы попытались абстрагироваться от реального объекта через его физическую характеристику и идентифицировать её в качестве знаковой системы для коммуникации. Однако человеческий организм, как объект физического пространства, пошёл дальше в способе абстрагирования и воспользовался другими системами знаков для идентификации тех же самых объектов, сохранив при этом принцип универсальности для знаковой системы. Таковыми системами являются голосовая и письменная речь. Поскольку более долговечными и значимыми носителями на данный исторический момент человечества являются письменные источники, то далее мы сконцентрируемся на характеристике письменной речи с его знаковой системой "алфавит", на котором строится базовая семантическая единица информации "понятие" (нарицательное имя объекта и его образа).

Опуская детали всего пути трансформации информации из мира физических объектов в мир абстракций, а также способы её искажения на каждом переходном этапе и не забывая при этом всю сложность поднятого вопроса, разберём, к примеру, случай с образом инновационной идеи "вечного двигателя" и покажем, почему это не то, о чём вы подумали.
Начнём с термина "вечный" в качестве автономного понятия "вечность". Правомерность существования этого понятия подтверждается его ассоциативной связью с понятием "солнце", которое даёт жизнь всему живому и влияет на все физические циклы на Земле. Однако, "вечный", как и понятия "месячный", "секундный", "фемтосекундный" буквально должно ассоциироваться с временным интервалом. Признак бесконечности, принимаемый оппонентами в качестве ключевого для критической оценки обсуждаемого образа, понятию "вечный" придаёт лишь тот факт, что этот срок длиннее средней продолжительности жизни человека.
Следующим в двусложном понятии "вечный двигатель" является термин "двигатель", который также не содержит в себе ничего сверхъестественного. Под понятием, согласно толковым словарям, скрывается устройство, преобразующее какой-либо вид энергии в механическую. Двигателестроению больше 100 лет, и достаточно продолжительная история продемонстрировала экономическую значимость данного направления в технике. Развитие устройств данного типа от стационарных установок в производственных цехах, генерирующих вращательные движения, до многоразовых установок в ракетоносителях, генерирующих поступательное движение, показывает многогранность понятия "двигатель". Отсюда можно сделать вывод, что образ "двигателя" сочетает в себе огромное количество технологий, наделяющих соответствующие материалы и формы отличительными характеристиками, обеспечивающими заявленные сроки выполнения работы в заявленных условиях. А понятие "вечный" лишь конкретизирует один из перечисленных параметров образа "вечный двигатель".

Разобранный выше фразеологический оборот "вечный двигатель" в действительности имеющий место быть в околонаучной публицистике уже давно обрёл статус табу в научной среде. Однако идея вышеописанного образа-представления не содержит в себе неизвестных величин, что оправдывает попадание человеческой мысли в бесконечную петлю концентрации на данном предмете исследования. Заблуждением изобретателей является тот факт, что учёное звание может послужить основой для экспертного мнения. В действительности это не так. Экспертом в предметной области может выступать только тот специалист, который обладает соответствующими образами-представлениями в соответствии со вторым постулатом Закона эволюции знания. И только в этом случае возможна либо продуктивная оценка заблуждений автора очередного изобретения, либо предметная дискуссия вокруг упущений, достоинств и недостатков в образе "вечного двигателя". Разумеется, сложившаяся дискуссия с поступательным раскрытием обсуждаемого понятия обязана завершиться тиражируемостью результатов в соответствии с четвёртым постулатом Закона эволюции знания.
Итак, мы концептуально описали двухэтапный путь трансформации представления человека о некоем явлении в образ физической модели. Первый этап состоит в переложении частного представления о физическом явлении на язык понятий, где предполагается повествовательное описание явления и всех взаимосвязанных процессов. Второй этап основан на сборке образа физической модели на языке понятий в логически связанное структурированное описание физического процесса, то есть в развернутое определение образа. В идеале второй этап должен завершиться составлением формулы изобретения или полезной модели, пригодной для проведения физического эксперимента. На этом итерацию теоретического обоснования образа-представления человека о физическом явлении, предназначенного для его последующего воплощения в жизнь, можно считать завершенной.

СПОСОБ ГЕНЕРАЦИИ НОВОГО ЗНАНИЯ В ИННОВАЦИОННОЙ ДЕЯТЕЛЬНОСТИ

Систематическое соблюдение предложенного подхода к способу передачи образов представлений в исследовательской деятельности должно обеспечить более глубокое её проникновение в экономическую среду, где инновации играют решающую роль не только с точки зрения приобретения преимуществ перед конкурентами, но и с точки зрения более чёткого позиционирования бизнес-решения. Именно чёткое определение воспроизводимой задачи позволяет говорить о возможности его переложения на рельсы легко коммерциализируемой проектной деятельности.
Здесь встаёт вопрос о том, как понять, что некая изложенная в произвольной форме идея содержит в себе образ реальной физической модели. Ответ на данный вопрос может дать предпроектная деятельность, которая должна быть проведена в соответствии с постулатами Закона эволюции знания. Бизнес в этом случае выступает заказчиком таких работ. Дальнейшие рассуждения построим на условии, что автор инновационной идеи со своим представлением-образом доступен для коммуникации.
Прямой контакт с автором мыслеобраза заказчику предпроектных работ необходим в соответствии с первым постулатом Закона эволюции знания, поскольку только носитель актуального состояния представления мыслеобраза способен передать истинный смысл планируемой к воплощению идеи. Этот человек и станет новатором в инновационном проекте. Вторым шагом в предпроектной деятельности необходимо найти специалиста-предметника, понимающего идею, и готового критически и пунктуально отнестись к процедуре составления образа планируемого к воплощению физического процесса. Как правило, такую роль на себя берёт первое лицо компании, принимающее на себя весь риск перевода бизнеса на новые технологии и решения. Однако, если первое лицо окажется не в состоянии выступить в роли патентного доверенного лица, на которого ложится вся ответственность за формулирование развернутого определения образа будущего технического решения, то такое лицо — специалиста-предметника с передачей ему вышеописанных полномочий нужно обязательно найти. Ведущим субъектом инновационного процесса является лицо, способное не только составить техническое описание новации, но и готовое к обсуждению и оценке идеи новации на одном языке с её автором.

Фактически второй шаг предпроектной деятельности может считаться завершенным только вместе с третьим шагом, по завершению которого состыкуются понятийные системы координат новатора и специалиста-предметника. Здесь речь идёт о дословном переносе физической картины новации на язык понятий технологов, от которых будет зависеть реальное воплощение идеи в жизнь. На третьем шаге инновационного управления возможны два исхода. Отрицательный, говорящий о несостоятельности идеи, принятой прежде к рассмотрению. И положительный, когда новатором при поддержке технического специалиста формулируется развёрнутая концепция инновационного решения. Роль специалиста-предметника на этом шаге — в донесении до новатора требований заказчика новации.
На четвертом шаге специалистом-предметником составляется функциональное описание новации с описанием решаемых задач. По итогам работ на данном шаге заказчику выдаётся техническое определение образа новации с возможными сроками воплощения идеи в жизнь и с перечнем необходимых ресурсов для её реализации. Конечный документ можно назвать техническим паспортом на инновационную идею. Роль новатора на последнем шаге предпроектной деятельности — в осуществлении контроля определения образа новации.
Описанная предпроектная деятельность над инновационными решениями может быть обеспечена современной технологической поддержкой, основанной на семантических парсерах, способных к структуризации естественно-языкового поля и извлечению из него специальных данных. Более подробно см. статью — Способ решения проблемы автоматизации процессов извлечения связей в информационном пространстве.
Дата поступления:
Февраль 2018
Н. В. БОЧАРОВ
Дата опубликования:
Март 2018
Статья. СПОСОБ РЕШЕНИЯ ПРОБЛЕМЫ АВТОМАТИЗАЦИИ ПРОЦЕССОВ ИЗВЛЕЧЕНИЯ СВЯЗЕЙ В ИНФОРМАЦИОННОМ ПРОСТРАНСТВЕ

КРАТКАЯ АННОТАЦИЯ

Связи между сущностями информационного пространства составляют смыслы семантических структур. Любая исследовательская деятельность сопряжена с извлечением таких смыслов и последующим их анализом. В статье доказывается, что объединяющим началом любой исследовательской деятельности в промышленных целях является работа с текстовыми документами. Следующая за нею реализация способа решения задачи смысловой обработки текстовых источников данных доказывает возможность автоматизации вышеобозначенной исследовательской деятельности.
Способ извлечения связей строится на базе понятия "семантика" из лингвистической теории семиотики. Семантическая связь является отражением объективной реальности взаимодействующих объектов физического пространства в понятийной системе координат субъекта. Лингвистический анализ текстовых первоисточников фиксирует акт существования связи и определяет пространство имён (свойств физической среды, обстоятельств коммуникативного акта, коммуницирующие объекты), при которых такая связь считается правдоподобной. Согласование пространства имён описываемого в первоисточнике явления с пространством имён подвергнутого исследованию явления и приводит к ожидаемому результату, а именно к фиксации новых свойств и характеристик объекта, недостающих в предмете исследования. Таким выводом подтверждается целесообразность использования автоматических средств извлечения связей в информационном пространстве, а сами автоматизированные средства становятся мощным инструментом в руках исследователя.

ВВЕДЕНИЕ

В настоящий момент мир переживает бум информационных технологий. Повсеместная автоматизация подменяет прежние технологии производства, создавая нишу под многочисленные проектные процессы чуть ли не во всех сферах экономической деятельности. При этом любая проектная деятельность не обходится без этапа исследований. Однако международная стандартизация в вычислительных технологиях снимает необходимость в большом количестве проектных процессов, позволяя единожды разработанную технологию тиражировать в качестве готового решения на множество однотипных предприятий, разбросанных по всему миру. Так глобализация захватывает рынок сбыта услуг и, в результате, снижается настоятельная потребность в исследованиях на местах. По большому счёту, полноценными заказчиками полномасштабных исследований остаются только транснациональные корпорации.
Однако у крупных корпораций, живущих за счёт крупных финансовых потоков на технологически простых процессах, отсутствует необходимость в таких интеллектуально сложных решениях, с которыми сталкиваются средние и малые производства. Например, когда ради собственного выживания предприятию необходимо принять неординарное решение по изменению физических характеристик выпускаемой продукции. В такой ситуации на отдел исследований и разработки предприятия (R&D) накладывается огромная ответственность за будущее компании. Как будет показано далее, проектная деятельность всегда сопровождается обработкой разнородной текстовой информации. В данной статье будет освещена тема вспомогательного инструментария для исследователей, занимающихся первичным анализом информационного потока, представленного в текстовой форме. Но сначала высветим основные моменты работы с текстовой информацией, которая требует исследовательского подхода в её раскрытии.

I. ИССЛЕДОВАТЕЛЬСКИЕ ЗАДАЧИ ПРИ РАБОТЕ C ТЕКСТОВОЙ ИНФОРМАЦИЕЙ

Для начала отметим прикладную сторону исследовательской деятельности в производственной компании. В отличии от фундаментального исследования, в котором изучение информационного поля производится с целью выявления новых закономерностей либо выявления границ наибольшей эффективности того или иного физического процесса, либо поиска новых эффективных способов решения той или иной задачи, особый акцент в прикладном исследовании делается на прототипирование новой версии существующего объекта исследования. Это значит, что цель и задачи исследования предопределены и могут лежать в границах существующих технологических процессов и форм-факторов.
Исследовательская деятельность при создании нового продукта сопряжена со следующим перечнем работ:
— описание текущего состояния объекта или предмета исследования и обоснование по сути требуемой модификации;
— подбор и обработка первоисточников информации;
— планирование новой исследовательской разработки;
— выбор и обоснование стратегии исследования;
— проведение прикладных исследовательских работ со сбором статистики осуществлённых модификаций с последующей разработкой для промышленных образцов методов контроля, выявленных в результате исследования свойств и характеристик;
— проработка технологического процесса создания нового образца объекта исследования;
— разработка тестового образца по новому технологическому процессу;
— разработка технической документации к новому техническому решению.

Как видно из представленного перечня работ, огромный объём времени затрачивается на обработку текстовых источников информации. Причём эта деятельность осуществляется на протяжении всего цикла проведения исследований. В качестве источников могут выступать: техническая документация, статьи, книги и т.п. Текстовые ресурсы могут поступать из всевозможных корпоративных баз данных, из сети Интернет и из библиотечных фондов. Преимущество работы с письменными источниками состоит в охвате больших объёмов данных, а также в предрасположении исследователей к последовательной аналитической деятельности. В результате такой обработки текстовых источников осуществляются следующие операции:
— извлечение сведений;
— систематизации сведений;
— научное абстрагирование от сведений, как способ построения понятий;
— классификация понятий;
— логическое манипулирование понятиями;
— сборка новых определений на понятиях.

Способ извлечение сведений напрямую зависит от языка первоисточника. Существует несколько способов подачи информации. Первичным по значимости является реальный физический эксперимент. Однако такой источник более не является первоисточником. Обычно эксперименты ставят только лишь для подтверждения аналитически выведенных физических явлений. И к моменту проведения эксперимента у исследователя уже имеется большое количество систематизированных материалов с ожидаемыми результатами. Поэтому более мы не будем останавливаться на физических экспериментах.
Наиболее наглядным из первоисточников является графический способ подачи информации. Сюда относятся все цвето-ориентированные изображения от плоскостных графиков до видео контента. Работа с такими источниками подразумевает конспектирование непосредственно исследователем наблюдаемого в источнике явления.
Кроме графического контента значительный объём сведений может передаваться через математический язык формул. Данный контент напрямую малосущественен для исследователя, поскольку скрывает в себе общие законы физических явлений. Прикладное значение такие первоисточники обретают в специализированных математических программных комплексах, строящих графический контент на базе входных данных. В конечном итоге практическое значение от математического языка первоисточника возникает только после фиксации выводов, сформулированных инженерами-исследователями на статистической выборке графических данных, собранных в специализированных программных комплексах. Эти выводы к исследователю поступают в форме текстовых документов по внутрикорпоративному документообороту.
Другим способом подачи информации является табулированная информация. Эта разновидность первоисточников является альтернативой графической форме подачи информации, но с объективно более высокой точностью поставляемых данных вплоть до конкретного знака числа и конкретного термина в определяемом таблицей понятии. Здесь необходимо отдельно подчеркнуть, что сами таблицы не являются поставщиками научно значимых знаний, а таковыми являются непосредственно аналитики, производящие логические обоснования содержащихся в таблицах сведений.

Последним и самым обширным по объёму источником информации является такой естественно-языковой текстовый массив данных, как специализированная литература. В идеале этот источник в эру цифровых технологий должен быть заменён базой знаний. На сегодня в публичном доступе такой базы не существует и каждая компания формирует её самостоятельно. И как следствие персональная внутрикорпоративная база знаний не сможет сравниться с мировым опытом передаваемых и обновляемых в реальном времени знаний через иные письменные источники.
Любые письменные источники имеют ряд особенностей для их автоматизированной обработки. О них будет рассказано ниже. В данный момент отметим проблему естественного человеческого языка общения, которая заключается в следующем.
Любая производственная деятельность, как правило, осуществляется на одном языке. Поэтому информационные базы знаний для практических целей собираются также на одном языке, что обеспечивает защиту от попадания в неё очевидно недостоверных или "мусорных" данных. Однако в такие базы не попадает огромная масса сведений, выявленных в разное время в мировой практике многочисленными исследованиями и зафиксированные во множестве других языков.
Итак, мы выяснили, что весь объём исходных данных в научно-исследовательских работах проходит стадию письменной речи на естественном языке. Причём источники информации имеют не только высококачественный, систематизированный, специальным образом оформленный контент, но и оперативно подготовленные материалы на базе сведений, собранных непосредственно во время проведения научного исследования.
Теперь можно обозначить прикладные задачи исследователей (без учёта технических вопросов, связанных с языковой адаптацией обрабатываемых данных). Таковыми являются:
1. Сбор сведений о предмете исследования в единую базу данных (БД).
2. Классификация (категоризация) собранных данных в соответствии с целями прикладного исследования.
3. Извлечение из БД сведений по естественно-языковым запросам.
4. Построение семантической сети предмета исследования на оперативных данных.
5. Анализ модификаций семантической сети предмета исследования от вновь поступающих сведений (проверка на достоверность, непротиворечивость и новизну).

II. СПОСОБ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ИСТОЧНИКОВ ДАННЫХ

Под целью автоматической обработки текстовых источников будем понимать извлечение смыслов, содержащихся внутри текстов. Чтобы понять способы достижения обозначенной цели нам следует расшифровать все понятия, скрывающиеся за лингвистической категорией "смысл". В этом нам поможет лингвистический энциклопедический словарь. В общепринятом понимании за "смыслом" скрывается понятие или представление о предмете. При этом следует помнить, что "смысл" является вложенной категорией воображаемой структурной ячейки "семантика", состоящей собственно из самого слова, как знаковой единицы, и связанной с его "значением" и "смыслом".

                    Значение
Семантика    Слово  <
                    Смысл

Рис. 1. Структура семантики

Поскольку здесь мы отталкиваемся от знаковой системы "слова", обратим особое внимание на тот факт, что мы работаем в системе алфавитных, неиероглифических языков, от чего и строим все последующие рассуждения.
Обозначенная на рисунке 1 структура должна стать базовой информационной единицей в автоматизированной информационной системе. Далее расшифруем содержание этой структуры.
Под "словом" в структуре семантики понимаем "структурно-семантическую единицу языка, служащую для именования предметов и их свойств, явлений, отношений действительности, обладающую совокупностью семантических, фонетических и грамматических признаков, специфичных для языка". Поскольку за "словом" скрываются морфологические признаки, приводящие к различиям в его написании для одного и того же "смысла" и "значения", в автоматизированной системе необходимо предусмотреть функцию нормализации слов, а именно для существительных, местоимений и прилагательных — приведение слова к именительному падежу единственного числа и для глаголов — приведение к инфинитивной форме глагола.
Под "значением" в структуре семантики будем понимать грамматическую категорию (название части речи) и лексическое значение слова (денотат — обозначаемый предмет, естественно-научная/семантическая категория; референт — обобщенное название предмета сопоставления). Для автоматизированной информационной системы категория "значение" является списком констант из предопределённых массивов данных. Если с грамматической категорией всё относительно просто, поскольку толковые словари по умолчанию содержат подобную информацию, которая легко переносится в новое программное обеспечение, то с семантической категорией всё гораздо сложнее. "Денотат" иногда может быть извлечён из толкового словаря как название семантической категории понятия. Если в словаре за термином закреплено несколько понятий, то и категорий будет несколько. Если "денотат" из толкового словаря не извлекается, то работу по определению категорий тех или иных понятий должен проделать специалист-предметник составлением онтологии предметной области. Отсюда следует вывод, что автоматизированная информационная система автоматической обработки текстовых источников данных должна обладать вспомогательным инструментарием для создания и редактирования онтологий.

Выбор "референта" в качестве лексического значения слова является следствием существования ещё одного научного подхода к определению категории в качестве значения слова, когда уже определена онтология предметной области. Возьмём к примеру онтологический ряд категорий "человек>сотрудник>инженер", где каждая следующая категория в ряду является одной из составляющих для предыдущей категории. "Референтом" для слова "инженер" является категория "сотрудник", в то время как "денотатом", составленным из толковых словарей для того же слова может оказаться категория "человек".
Перед определением "смысла" в структуре семантики отметим один очень важный момент. Он заключается в том, что для каждого "смысла" слова существует только одно лексическое значение. Поэтому главное здесь не название категории лексического значения слова — "референт" или "денотат", а внедрённая в автоматизированную систему методология, по которой определяется категория слова. В дальнейшем по тексту статьи для краткости мы будет обращаться к "денотату".
"Смысл" для слова из структуры семантики являются переменной, которую автоматизированная информационная система должна заполнить данными из первоисточника, то есть понятием или представлением о предмете, составленным в произвольной форме. "Понятие" в соответствии с лингвистическим энциклопедическим словарём есть "мысль, отражающая в обобщённой форме предметы и явления действительности посред­ством фиксации их свойств и отношений". В случае наличия у слова нескольких смыслов-понятий в соответствии с толковыми словарями их варианты могут быть присоединены к "денотатам" в статусе возможного "смысла" у значения. Методологически "смысл" может быть извлечён как "сигнификат", "экстенсионал", "интенсионал" или "коннотат". Расшифровку этих понятий оставим за скобками данной статьи, а здесь лишь остановимся на способе сборки "понятия" из первоисточника по морфо-синтаксическим признакам.

Итак, мы подошли к задаче лингвистического анализа естественно-языкового текста в автоматизированной информационной системе. Для начала у нас имеется словарь "слов" со всеми словоформами и их классификация по семантическим категориям (денотация), а также массив данных со связной письменной речью. Поскольку поступающий для лингвистической обработки текст имеет назначенный признак связности, то мы можем воспользоваться морфо-синтаксическими правилами установления связей между словами входного текста.
Морфо-синтаксические правила для предмета исследования, выраженного существительными, определяются следующим перечнем тезисов:
1. Предмет сообщения (предложения) содержится в существительных (подлежащее и дополнение).
2. Синтаксическая связь между существительными устанавливается с помощью сказуемых и причастий.
3. Существительное в роли подлежащего может управлять несколькими сказуемыми.
4. Существительное вне зависимости от его роли в качестве члена предложения может управлять несколькими причастиями.
5. Существительное в роли дополнения всегда зависит от одного сказуемого, или от одного деепричастия, или от одного причастия.
6. Существительное вне зависимости от его роли в качестве члена предложения может быть связано с придаточным предложением через союзное местоимение (в сложноподчинённом предложении).
7. Существительные вступают в ассоциативные связи с другими существительными (в предложениях определительного типа).
8. Существительные вступают в отношения с другими существительными (управление родительным и дательным падежами).
9. Существительные определяются прилагательными, местоимениями, числительными.
10. Существительные собираются в именные конструкты (по семантической категории Имя, Адрес, Название).
11. Существительные определяются другими существительными через предлоги.
12. Существительные дополняются обстоятельствами (для денотатов "Процесс", "Действие").
13. Существительные управляют дополнениями (для денотатов "Процесс", "Действие").

Результатом морфо-синтаксического анализа текста мы получаем массив связей существительных с прилагательными, глаголами, наречиями, местоимениями, числительными и другими существительными. Массив этих связей для каждого слова в отдельности составляет "смысл" слова в структуре семантики. Сборка определительных структур для каждого слова (в нашем случае, существительного) должна осуществляться по предложениям.
В текстовых сообщениях может осуществляться упоминание нескольких одноимённых предметов. Тогда встаёт проблема физического разделения определительных структур для одинаковых "слов". Такое разделение одноимённых предметов может осуществляться:
— по местоимениям и по числительным (тезис 9 морфо-синтаксических правил);
— по причастиям (тезис 4 морфо-синтаксических правил);
— по союзным местоимениям (тезис 6 морфо-синтаксических правил).

Таким образом мы получили полное описание процедуры автоматической сборки сведений о предмете исследования в единую базу данных в качестве решения 1-ой прикладной задачи исследователей. 2-я задача исследователей, связанная с классификацией собранных данных в соответствии с целями прикладного исследования, получит автоматическое решение, если в автоматизированной информационной системе обработки текстовых данных будет заполнена онтология предметной области. Напомним, что классификация данных осуществляется через семантические категории — "денотаты" в структуре семантики.
Как следует из описанного способа заполнения базовой информационной единицы автоматизированной системы все её константы и переменные хранят свои значения в естественно-языковой форме. В свою очередь переменная "смысл" структуры "семантика" содержит массив слов определительной структуры, каждое слово из которой также имеет в БД автоматизированной системы собственную структуру семантики. Фактически каждая определительная структура "смысла" представляет собой семантический шаблон, а именно ряд слов с набором данных, таких как слово в нормализованной форме, грамматическую и семантическую категорию. Этот шаблон можно построить на любом объёме текстовых данных, в том числе и на поисковом запросе, сформулированном на естественном языке. Шаблоны из БД легко могут быть подвергнуты сопоставлению между собой. Это значит, что в автоматизированной информационной системе обработки текстовых данных имеются все условия для решения 3-ей прикладной задачи исследователей, а именно извлечение из БД сведений по естественно-языковым запросам.
4-я и 5-я задачи исследователей в широком обсуждении не нуждаются, поскольку имеются готовые, но очень разные инструментальные решения, с которыми читатели могут самостоятельно ознакомиться, при желании апробировать и сделать соответствующие для себя выводы. В открытой сети их не так много. Наиболее интересными на взгляд автора статьи представляются следующие разработки:
1. СЕМАНТИК.
2. ИАС "АРИОН".
3. Компьютерная грамматика русского языка: лексика, морфология, синтаксис.
4. Технологии автоматического анализа текстов.
5. Семантический парсер "JHON".
6. RCO Fact Extractor SDK.
7. ABBYY InfoExtractor SDK.

III. ПРИКЛАДНЫЕ АСПЕКТЫ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ИСТОЧНИКОВ ДАННЫХ

Как было заявлено во "Введении", в этом разделе приступим к освещению темы вспомогательного лингвистического инструментария для исследователей, занимающихся первичным анализом информационного потока, представленного в текстовой форме.

Из вышеприведённых лингвистических программных решений конкретно остановимся на семантическом парсере "JHON". Опираясь на эту разработку, затронем основные вопросы, с которыми сталкиваются разработчики подобных продуктов.

При программной обработке текстовых данных первоисточником для любого семантического парсера является текстовый электронный документ или просто текст с сообщением на естественном языке (в зависимости от реализованного в парсере программного интерфейса для входных данных). Под семантической обработкой или семантическим анализом первоисточника будем понимать процесс по извлечению из текста сущностей и процесс по определению смысла их упоминания в сообщении, где под "сущностью" понимается "семантически содержательная единица данных, состоящая из одного слова или совокупности слов", а под "смыслом упоминания" понимается "совокупность лексических связей для сущности".
Задача семантического анализа, по единодушному мнению разработчиков, разрешима только при полном морфо-синтаксическом разборе текста. Перед морфо-синтаксическим разбором любой текст подлежит графематическому анализу. На этом предварительном этапе текст разбивается на лексемы: слова, знаки препинания, иные символьные конструкты. На этой процедуре перед разработчиком появляется условие, осложняющее её решение. Этим условием является метаразметка текста в первоисточнике.
Метаразметка текста бывает двух типов: внешняя (без поддержки международных стандартов) и внутренняя (с поддержкой международных стандартов). Примером внешней разметки являются всевозможные форматы нумерованных списков. Примером внутренней разметки являются всевозможные XML-ориентированные языки разметки. В любом случае с присутствием в разбираемом тексте метаразметки для графематического анализатора приходится разрабатывать отдельный словарь метаданных и дополнительный алгоритм их обработки. В результате обработки метаданных производится преобразование первоисточника в документ без метаразметки.
Основными задачами графематического анализатора являются:
— словоопределительный анализ, а именно выделение в тексте односложных и многосложных лексем, в том числе инициалов,   а также сокращений с точкой и с косой чертой (при их наличии в словаре сокращений);
— числоопределительный анализ, а именно выделение в тексте чисел, дат, цифросодержащих сущностей;
— знакоопределительный анализ, а именно выделение в тексте знаков препинания, символов ("№", "$", и т.п.) и знакосодержащих сущностей.

Дополнительно решаемые вопросы в графематическом анализе:
1. Слова в ненациональном алфавите могут быть разобраны либо в словоопределительном анализе (если планируется их семантический разбор), либо в знакоопределительном анализе (если не планируется их семантический разбор). Выбор способа работы с ненациональным алфавитом зависит от задачи семантического сервиса.
2. Графематический анализатор должен правильно обращаться со знаками "дефис" и "косая черта", то есть оставлять их частью слова, если возле них находится знак алфавита. Здесь разработчики решают задачу полисемии печатного знака "минус", используемого как в качестве знака тире, так и в качестве знака "дефис", а также задачу полисемии печатного знака "косая черта", используемого как в качестве признака "отношения" сущностей, так и в качестве союза "или".

Итогом графематического анализа является одномерный массив лексем. Этот массив передаётся в морфологический анализатор, который извлекает из словаря морфологические признаки слов. Поскольку морфологические словари содержат информацию о многосложных частях речи, то массив лексем сжимается на многосложных частях речи. В морфологический анализатор разработчики по собственной инициативе для отсутствующих в словарной базе слов часто встраивают модуль с вероятностными моделями определения их морфологических признаков. Результат морфологического анализа передаётся в синтаксический анализатор.

Первая часть синтаксического анализа связана с разделением текста на предложения. На данном этапе определяются категории предложений из следующих вариантов: повествовательное, вопросительное, повелительное, вводное, перечисляемое событие (как часть сложносочинённого предложения), контекстное дополнение (в скобках или в кавычках).
Вторая часть синтаксического анализа связана с сегментацией уже самого предложения. Варианты синтаксических конструктов (синтагм):
— устойчивое словосочетание;
— именной конструкт;
— предложный конструкт;
— перечисляемые сущности на различных частях речи;
— определительный конструкт на прилагательном, на причастии и на союзном местоимении;
— обстоятельственный конструкт на деепричастии;
— ассоциативный конструкт на тире;
— конструкт сказуемого;
— отдельное слово.
На данном этапе разработчики снимают омонимию с различных частей речи.

Третья часть синтаксического анализа связана с определением членов предложения. Наибольшие проблемы для разработчика на данном этапе создают безличные предложения, а также отдельные местоимения и существительные с неразрешённой морфологической парадигмой (когда нужно определить падеж из двух вариантов: Кому?, Чему? или Кем?, Чем?).
После завершения морфо-синтаксического анализа осуществляется переход к семантическому анализу. Выделенные во второй части синтаксического анализа сущности передаются в семантический анализатор. Здесь разработчики останавливаются лишь на формальной стороне вопроса семантического анализа, а именно на определении связей между сущностями. Ниже представлена классификация связей, использованная в семантическом парсере "JHON".

Классификация связей:
— определительная (Какой?);
— притяжательная (Чей?);
— указательная (Кого?, Чего?);
— количественная (Сколько?);
— подлежащее (Кто?, Что?);
— дополнение (Кого?, Чего?, Кому?, Чему?, Кого?, Чего?, Кем?, Чем?, О Ком?, О Чём?);
— обстоятельственная (Как?, где?, Куда?, Откуда?, Когда?, Зачем?, Почему?, Насколько?);
— метаразметка ("Индекс");
— ассоциативная (отношения: равнозначности — "синонимия"; противоположности — "антонимия";
соположенности — "определение"; включения — "гиперонимия" /родовое понятие/ и "гипонимия" /частное понятие/);
— коммуникативная ("звательный падеж");
— качественная (со сравнительной степенью прилагательного);
— логическая (на союзах);
— вводное (без связи).

Ниже приводится список рассмотренных в III разделе данной статьи проблем, выявленных на всех этапах лингвистического разбора текста (графематика, морфология, синтаксис, семантика) и непосредственно связанных с разработкой семантического парсера "JHON". Под названием каждой из них приводится её частное решение.

ПРОБЛЕМА ИНФОБЛОКОВ
При обработке текстовых данных неминуемо происходит соприкосновение парсера со структурой документа. Инфологическая разметка текста на структурные элементы является частной проблемой графематики. Для семантического парсера "JHON" структурообразующие признаки — спецсимволы и др. (см. ниже по списку) — должны быть предварительно исключены из входного текста. Эта функция в данном парсере перекладывается с разработчика на специалистов, использующих семантический парсер на постоянной основе. Им следует отдельно позаботиться о чистоте вводимых текстовых данных, а именно исключать из текстов следующие признаки разбивки текста на информационные блоки:
— спецсимволы (невизуальные символы из таблицы символов Unicode в окружении алфавитного шрифта);
— метаразметка текста (ключевые слова атрибутивных данных к информационным блокам);
— язык разметки текста (RDF, XML, HTML и т.п.);
— таблицы;
— письмо в разрядку;
— стихотворный формат (строфико-синтаксическая анафора);
— формат юридических документов, допускающий вложенные списки из вариантов синтаксических конструктов.

ПРОБЛЕМА ГРАФЕМАТИКИ
В графематике с точки зрения синтаксиса из текста вычленяются алфавитосодержащие лексемы, числосодержащие лексемы и всевозможные символьные лексемы. Среди последних выделяются знаки препинания и универсальные знаковые сущности. С точки зрения кодировки пробелов в электронных документах пробелы тоже являются символами. Это символы одиночного пробела, табуляции, конца строки и перевода каретки. При графематическом разборе из текста должны быть удалены лишние пробельные знаки. Проблема заключается в выборке из текстовой цепочки данных лексем таким образом, чтобы они соответствовали синтаксическим нормам языка с учётом сохранения пробельных знаков в многосложных лексемах.
Разработанные специально для семантического парсера "JHON" правила членения текста на лексемы и есть решение указанной проблемы.
Правила членения текста на лексемы:
— выделение в одну лексему ФИО (полного и с инициалами);
— выделение в одну лексему электронных адресов и имён файлов;
— объединение многосложных конструктов на латинице в одну лексему;
— объединение любых числовых данных через точку, двоеточие или тире в одну лексему;
— выделение в одну лексему текста в кавычках;
— выделение в одну лексему текста в скобках любого вида;
— выделение в одну лексему неалфавитных и непунктуационных символов (например: "№", "%", "§", "$" и т.д.).

ПРОБЛЕМА ДЕФИСА
С точки зрения морфологии части речи бывают односложными и многосложными. Существуют многосложные лексемы, пишущиеся через дефис (например: "жили-были", "пол-листа", "научно-технический" и т.п.). Для отсутствующих в морфологическом словаре слов с дефисом морфологический анализатор парсера пытается найти в словаре слово из его правой части после дефиса. Так в парсере решается проблема распознавания синтетически сгенерированных слов с дефисом.

ПРОБЛЕМА АНАФОРЫ
Часто предложения содержат местоимения, ассоциирующиеся с упомянутыми ранее в тексте существительными. Такие местоимения называются анафористичными. В синтаксическом анализаторе парсера разрешена проблема анафоры для определительно-придаточного оборота. В случае появления анафоры (местоимения или ассоциативной именной группы), обращающейся к предыдущему предложению, в обсуждаемом парсере семантическая связь не обнаруживается.

ПРОБЛЕМА ОНТОЛОГИИ
Семантический парсер не предусматривает работы с онтологией. Вместо онтологии в парсере "JHON" используется экспериментальная технология морфо-семантических словарей, когда семантическая категория ("денотат") дописывается в словарную статью с морфологическими признаками. По этим признакам разрешаются некоторые вопросы семантической классификации лексических связей, например, для сущностей с признаком "процесс, действие" может быть выявлена связь с любым обстоятельством. Предметную классификацию сущностей с помощью экспериментальной технологии осуществить, как представляется, нельзя.

ПРОБЛЕМА ОМОНИМИИ
Если в тексте обнаруживается омонимия (одинаковое "слово", разное "значение") или омоформия (разные "слова", одинаковая морфологическая "парадигма"), то проводится эвристический анализ синтаксиса предложения. Очень часто через синтаксически обусловленные лексические связи удаётся снять проблему омонимии. И тогда пользователь не узнает о разрешённой омонимичной ситуации. Однако эвристический подход может дать неверный результат, тогда о выявленной проблеме можно сообщить разработчику парсера "JHON" с целью доработки эвристического анализатора омонимов.

ПРОБЛЕМА ЗАПРЕТОВ ПРИ УСТАНОВЛЕНИИ ЛЕКСИЧЕСКИХ СВЯЗЕЙ
Установление лексических связей является одной из центральных задач синтаксического анализатора парсера. Существует множество признаков для установления лексической связи между словами (см. тезисы морфо-синтаксических правил). Связи, как мы уже понимаем, возникают как между соседними, так и между удалёнными словами. Порой связанные слова разделены не только однородными членами предложения или определительными конструктами, но и целыми придаточными предложениями. И хорошо, если связь со словом одна. Однако часто встречается особая ситуация с замыканием нескольких вложенных синтаксических конструктов на одном слове. Например, в таком как вхождение причастного оборота внутри предложного обстоятельства. В парсере учтена возможность существования таких синтаксически многокомпонентных связей. Но поскольку не существует перечня всех синтаксических правил установления связей от нескольких членов предложения с одной сущностью, то возможность обнаружения всех синтаксически многокомпонентных связей не стопроцентна.
Иногда внешние связи накладывают ограничение на продолжение связей для внутренних синтаксических конструктов. В этом случае проблема разрешается, в первую очередь, очерёдностью обработки конструктов. Но очерёдность не всегда снимает проблему. Именно поэтому, во вторую очередь, на каждом этапе возникновения условий для установления очередной связи проводится эвристический анализ её допустимости для "значений" слов (см. рис. 1, "значения" берутся из экспериментальной технологии морфо-семантических словарей). Внутри эвристического анализатора признаком на запрет по установлению очередной связи являются семантические категории, например, такие как "действие", "числительное", "имя".

Итак, на примере семантического парсера "JHON" описанные выше решения лингвистических проблем раскрывают глубину проработки 1-й прикладной задачи исследователей, состоящей в сборе сведений о предмете исследования в единую базу данных. Исследователям, проникшимся идеей автоматизации процесса обработки текстовых первоисточников, рекомендуется обратить внимание на другие программные решения, описанные в качестве примеров в статье Сетевой обзор инструментов машинного анализа текста.

О ПРОЕКТЕ

  Настоящий ресурс является представительной площадкой для интересных решений в области информационных технологий, разработанных в настоящее время и могущих вызвать заинтересованность со стороны тех или иных специалистов в области искусственного интеллекта.

  Одним из таких решений, как представляется на наш взгляд, является семантический парсер «JHON», в котором своеобразно реализована идея машинной обработки текста на русском языке, на базе которого создан Web-сервис на DWORQ.COM, и воспользовавшись которым пользователь может пропустить через парсер любой текст и на выходе по выбору получить один из трёх типов смыслового разбора: морфо-синтаксический, аннотированный семантический или формальный семантический.

  Также на данном ресурсе в качестве информационной поддержки DWORQ.COM опубликованы обзорные и публицистические статьи разработчика семантического парсера «JHON» по современным проблемам компьютерной лингвистики. Здесь же предполагается публиковать статьи и других авторов по обозначенной тематике, а также выпускать аналитические материалы, непосредственно затрагивающие вопросы развития как технологической площадки DWORQ.COM, так и семантического парсера "JHON".

  Если у Вас возникнет желание поделиться с посетителями нашего ресурса определёнными наработками в области компьютерной лингвистики, мы примем Вашу статью к рассмотрению и в случае удовлетворения её содержанием с удовольствием опубликуем её на нашем ресурсе. К рассмотрению принимаются нигде ранее не публиковавшиеся статьи обзорного, научно-популярного или публицистического плана объёмом от 10 до 40 тысяч знаков.

ВИКТОР ЯМ
X
X