ДОБРО ПОЖАЛОВАТЬ ! WELCOME ! BIENVENIDO ! HERZLICH WILLKOMMEN ! BIENVENUE ! TERVETULOA ! ΚΑΛΏΣ ΉΡΘΑΤΕ ! FÁILTE ! VELKOMMEN ! VÍTEJTE !
СЕТЕВОЙ ОБЗОР ИНСТРУМЕНТОВ МАШИННОГО АНАЛИЗА ТЕКСТА

В данном обзоре представлен ряд вычислительных систем промышленных, академических и частных решений (Eureka Engine, RCO Fact Extractor SDK, ЭТАП-3, MF Text Analyst R10, DictaScope Syntax, MaltParser, ABBYY Compreno, ИАС "АРИОН", ITFRU, Solarix, libmorphrus, SDK Pullenti, JHON), либо демон- стрирующих, либо автоматизи- рующих процесс лингвистиче- ского анализа текста, и кото- рые на взгляд автора могут представлять интерес для спе- циалистов в области инжене- рии знаний. В рамках описания основных особенностей сис- тем производится
ТЕХНОЛОГИЯ СОГЛАСОВАНИЯ МЫСЛЕ- ОБРАЗОВ В ПРЕДПРОЕКТНОЙ ДЕЯТЕ...

В статье раскрывается суть знания, скрываемого за повсе- дневным информационным по- током. Для этого приводится классификация объектов инф- ормационного пространства с их разделением на представ- ления, образы и понятия. До- стижение эффективности пере- дачи знания посредством язы- ка общения должно обеспечи- ваться соблюдением участни- ками коммуникативного акта основных тезисов Закона эво- люции знания, выявленного и сформулированного автором данной статьи в процессе уг- лублённого анализа инноваци- онно-экономической
СПОСОБ РЕШЕНИЯ ПРОБЛЕМЫ АВТО- МАТИЗАЦИИ  ПРОЦЕССОВ ИЗВЛЕЧЕ...

Связи между сущностями ин- формационного пространства составляют смыслы семанти- ческих структур. Любая иссле- довательская деятельность со- пряжена с извлечением таких смыслов и последующим их анализом. В статье доказыва- ется, что объединяющим нача- лом любой исследовательской деятельности в промышленных целях является работа с тексто- выми документами. Следующая за нею реализация способа решения задачи смысловой обработки текстовых источни- ков данных доказывает воз- можность автоматизации вы- шеобозначенной
Дата поступления:
Февраль 2018
Н. В. БОЧАРОВ
Дата опубликования:
Март 2018
Статья. СЕТЕВОЙ ОБЗОР ИНСТРУМЕНТОВ МАШИННОГО АНАЛИЗА ТЕКСТА

КРАТКАЯ АННОТАЦИЯ

В данном обзоре представлен ряд вычислительных систем промышленных, академических и частных решений (Eureka Engine, RCO Fact Extractor SDK, MF Text Analyst R10, DictaScope Syntax, ITFRU, Solarix, ABBYY Compreno, ЭТАП—3, ИАС "АРИОН", MaltParser, libmorphrus, SDK Pullenti, JHON), либо просто демонстрирующих, либо автоматизирующих процесс лингвистического анализа текста, и которые на взгляд автора могут представлять интерес для специалистов в области инженерии знаний. В рамках описания основных особенностей систем производится классификация подходов в области машинной обработки текста, а также расстановка акцентов на достигаемые при этом результаты. Эти результаты сравниваются с запросами специалистов, основной функцией которых является анализ текста на естественном языке.

ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТА

Основными объектами лингвистического анализа текста в соответствии со словарём лингвистических терминов Т.В. Жеребило являются:
— система языковых средств;
— характеристика стилистических ресурсов текста;
— стилистически маркированные языковые средства в соотнесении со структурной композицией текста;
— типологические черты текста;
— коммуникативные качества речи.

Перед проведением обзора систем машинного анализа текста сначала разберём понятия из вышеприведённого перечня, определяющего предмет лингвистического анализа.

В "систему языковых средств" входят:
— лексика и фразеологизмы;
— морфология;
— синтаксис.
Где "лексика" – словарный состав языка; "фразеологизмы" – устойчивые словосочетания и фразы; "морфология" – система механизмов языка, обеспечивающая построение словоформ; "синтаксис" – система правил сочетания слов и построения предложений.

Полнота идентификации "языковых средств" является основой для семантического анализа текста. Как будет показано ниже, чрезвычайно огромный объём информации в перечисленных разделах языкознания подталкивает разработчиков лингвистических систем к применению математического моделирования с целью эмуляции процесса логического анализа лингвистической информации с неопределёнными данными.

"Стилистические ресурсы текста" представляют собой лексические единицы текста с маркированным стилистическим значением (окраской). Стилистическую маркировку разделяют на два вида: "эмоционально-стилистическую" и "функционально-стилистическую". "Эмоционально-стилистическая" маркировка является основой для лингвистического анализа с целью определения "тональности" при упоминании объектов сообщения. Отсутствие стилистической маркировки в лексических единицах текста является признаком нейтральной лексики, то есть не выражающей эмоциональной оценки.
"Функционально-стилистическая" маркировка должна анализироваться в контексте структуры текста, то есть влиять на "структурную композицию текста". В частности, обнаружение в тексте коммуникативного стиля сообщения должно приводить к структурной декомпозиции текста с повествовательным стилем. Такая операция относится к "прагматическому" анализу, когда из участка текста следует понимание того, к чему обязывает или призывает читателя автор сообщения. В частности, к "функционально-стилистической" маркировке относится морфологический признак повелительного наклонения у глаголов.

К "типологические чертам" текста по И.Р. Гальперину относятся связность текста, проспекция и ретроспекция. Краткая характеристика этих категорий такова. "Связность текста" представляет собой один из важнейших признаков текста, который означает сочетаемость частей речи и обеспечивается на многих уровнях:
— лексическом (синонимы, антонимы, анафоры);
— морфологическом (по роду, по числу, по падежу, по наклонению);
— синтаксическом (порядок слов, использование союзов).
Понятия "ретроспекция" и "проспекция" определяют "обращение читателя к предшествующей в тексте содержательно-фактуальной информации" и "подготовку читателя к последующей в тексте содержательно-фактуальной информации" соответственно. Идентификация таких речевых оборотов является поводом для установления семантических связей между удалёнными участками текста. Практическая реализация таких связей может вылиться в наложение семантических сетей из этих участков текста друг на друга с установлением категориальных признаков (гиперонимов), упомянутых в тексте сущностей.

"Коммуникативные качества речи" характеризуют её культурную составляющую при использовании "языковых средств".
В них входят:
1) структурно-смысловые характеристики текста:
— "чистота" (свобода речи от любых загрязняющих её элементов);
— "правильность" (соответствие нормам речи);
— "богатство" (разнообразие в определениях одинаковых предметов, явлений, событий).
2) функционально-смысловые характеристики текста:
— "логичность" (индукция и дедукция в рассуждениях);
— "точность" (предметная и понятийная);
— "доступность" (личностное понимание, подача информации через собственное к ней отношение);
— "уместность" (стилевая, контекстуальная, ситуативная, личностно-психологическая);
— "ясность" (включение в сообщение разъяснений).
Можно сказать, что критерии вышеперечисленных структурно- и функционально-смысловых характеристик текста определяют степень близости текста к "идеальной" форме подачи информации.

Таким образом, анализ текста на естественном языке может быть сведён к решению следующих лингвистических задач (ЛЗ):
1. Разбиение текста на морфо-синтаксические элементы (графематический разбор).
2. Морфологический анализ (части речи).
3. Синтаксический анализ (члены предложения).
4. Семантический анализ (связность текста).
5. Прагматический анализ (классификация текста, признаки его целевого назначения).
6. Тональность текста (стилистическая карта сущностей).
7. Идеальность текста (коммуникативные критерии).

Далее в обзоре будет использованы ссылки на данный перечень лингвистических задач (формат ссылки: ЛЗ.№). Теперь, когда определены задачи лингвистического анализа текста, перейдём к обзору систем машинного анализа текста, отражающих текущее состояние компьютерной лингвистики.

СИСТЕМЫ МАШИННОГО АНАЛИЗА ТЕКСТА

 СИСТЕМА ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ "Eureka Engine"
Система представляет собой комплекс программных модулей (их описание даётся чуть ниже), осуществляющих:
— разметку частей речи (ЛЗ.2);
— определение тематики — TextClassifier (ЛЗ.5);
— автоматическое определение тональности документа — SentiFinder (ЛЗ.6);
— выделение именований и имен собственных (ЛЗ.7 частично).

"Модуль морфологического анализа русского языка" предназначен для морфологического анализа слов предложения — определения частей речи и их морфологических характеристик.
Морфологический анализ реализован на основе морфологических словарей и комбинаторных алгоритмов. Наряду с морфологическими характеристиками слова возможен вывод всех его словоформ и его основы (стемминг). Анализатор разрешает омонимию и согласует словосочетания по морфоатрибутам.

"Модуль автоматической классификации текстов" (TextClassifier) реализован на основе машинного обучения. Модуль автоматически классифицирует русскоязычные документы любого объема и любой тематики по заранее определенным классам. Он разработан таким образом, что может быть полуавтоматически переобучен на любые тематические классы для текстов на любом языке за короткое время. В настоящее время сервис определяет следующие тематические категории:
— "Авто";
— "Экономика и бизнес";
— "Шоу-бизнес и развлечения";
— "Семья";
— "Мода";
— "Компьютерные игры";
— "Здоровье и медицина";
— "Политика";
— "Недвижимость";
— "Наука и технологии";
— "Спорт";
— "Туризм и путешествия";
— "Кулинария".

"Модуль автоматического определения тональности" (SentiFinder) — высокоскоростной сервис автоматического определения тональности как русскоязычных, так и англоязычных текстов.
В модуле предусмотрено определение двух типов тональности:
— относительно заданного пользователем объекта;
— автоматически определенного системой объекта на основе совокупности знаний о нём.
Если говорить о видах тональности, то модуль определяет три вида тональности сообщения (позитивную, негативную и нейтральную) относительно заданного объекта как в пределах одного предложения, так и усреднённую по всему документу.
Особенностью данного модуля является то, что он позволяет оценить силу эмоциональности. Таким образом, пользователю системы предоставляется возможность не только получить качественную эмотивную оценку документа в целом относительно интересующего объекта тональности, но и количественное соотношение негативного и позитивного отношения к нему.

"Модуль автоматического определения именованных сущностей" (Named Entity Recognition, NER) реализован в виде отдельного сервиса, который позволяет классифицировать именованные объекты в тексте на пять классов для русского языка (физические лица, юридические лица, географические объекты, названия продуктов и брендов, а также именованные события) и на три класса для английского языка (физические лица, юридические лица и географические объекты). Система умеет определять числовые показатели "точности" и "полноты" типа именованных сущностей для русскоязычных текстов.
Доступ к полному набору лингвистических сервисов "Eureka Engine" предоставляется по протоколу REST.

 БИБЛИОТЕКА ЛИНГВИСТИЧЕСКОГО РАЗБОРА ТЕКСТА "RCO Fact Extractor SDK"
Области применения библиотеки лингвистического разбора текста:
— очистка информации в базах данных — RCO Database Record Cleaner (ЛЗ.1);
— морфологической анализ слов русского языка — RCO Morphology SDK (ЛЗ.2);
— поиск на естественном языке в базах данных — RCO Query Parser (ЛЗ.4);
— классификация текстов — RCO Text Categorization Engine (ЛЗ.5).

Инструмент компьютерного анализа текстовой информации "RCO Fact Extractor SDK" предназначен для разработчиков информационно-аналитических и поисковых систем. Библиотека производит лингвистический разбор текста с учетом грамматики и семантики языка. Результатом анализа текста являются:
— выделенные из текста сущности (наименования организаций, персоны, географические объекты, различные символьно-цифровые конструкции — такие как номера автомобилей или полисов страхования, адреса) и классы сущностей;
— сеть синтактико-семантических отношений между сущностями текста;
— структуры данных, описывающие упомянутые в тексте события и факты.

Анализ текста состоит из 8-ми последовательных этапов обработки текста:
— извлечение содержательного портрета текста (имена событий и предметов);
— извлечение упоминаний персон и организаций (ФИО, организационно-правовая форма, форма хозяйственной деятельности, название, географические атрибуты и т.д.);
— извлечение упоминаний особых объектов (адресов, реквизитов документов, марки товаров, модели устройств, ссылки на статьи нормативно-правовых документов);
— установление связей между объектами (имена существительные, привязанные к одному глаголу);
— распознавание ситуаций (событий или фактов заданного типа);
— установление отношения к объекту (использование тонально-окрашенной лексики);
— анализ предметной области (фиксация областей интереса и сбор фактического языкового материала — термины, названия, характеристики, ситуации по ситуативному словарю);
— обработка знаний (детализация отсутствует).

На каждом этапе задействованы специальные словари, описания объектов и правила, составленные лингвистами для максимально полного и точного извлечения информации в соответствии с заданной задачей и форматами текстов. Таким образом, решение задачи лингвистического разбора в серии программных решений "RCO" носит фактологический характер и не содержит глубокого синтаксического анализатора.

К числу основных решаемых задач RCO Database Record Cleaner относятся:
— разбор и стандартизация записей ФИО и наименований организаций;
— идентификация типов реквизитов, разбор смешения различных реквизитов в одном поле, извлечение реквизитов из несоответствующих им полей или из текста;
— идентификация записей о физических и юридических лицах с опорной базой на основе процедур нечеткого сравнения наименований и комплексов реквизитов;
— формирование единого реестра физических и юридических лиц из различных источников, консолидация реквизитов и устранение дубликатов.

Библиотека RCO Morphology Professional SDK предназначена для морфологического анализа слов русского языка и позволяет решать следующие задачи:
— определять все грамматические характеристики словоформ (часть речи, падеж, спряжение и т.п.) и лексико-семантические разряды (имя, отчество, фамилия, наименование организации, географическое название);
— приводить различные грамматические формы слова к нормальной форме;
— получать все грамматические формы слова.
Библиотека включает в себя:
— точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
— высокодостоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
— вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.

Модуль RCO Query Parser разбирает контекстный поисковый запрос на русском языке и, с учетом грамматики и семантики, строит оптимальное поисковое выражение для обработки в поисковой машине, которая индексирует текст, ничего не зная о языке, за исключением того, что слова разделяются пробелами.
Основные особенности RCO Query Parser:
1. Возможность грамматического анализа неизвестных слов, синтез всех словоформ.
2. Снятие омонимии слов в запросе. Для многословных запросов за счет учета синтаксических связей между словами запроса. Для однословных запросов за счет системы приоритетов, отражающей де-факто принятые нормы формулирования запросов: высокий приоритет на именительный падеж существительных, низкий — на формы первого лица и повелительного наклонения глаголов, краткие формы прилагательных и причастий и т.п. Влияние регистра написания на приоритет имя собственное/имя нарицательное.
3. Формирование базовой структуры оптимального поискового выражения: сегментация запроса на фрагменты, которые ищутся КАК ФРАЗА, комбинация таких фрагментов с использованием операторов NEAR и AND. Так, связки прилагательных или причастий и существительных в составе согласованных именных групп следует искать как единые фразы; сочетания предложно-падежных и свободных словоформ (именных групп) следует связывать через AND; связки предикатов (глаголы в личной форме и событийные существительные) с аргументами следует связывать через NEAR; и т.п.
4. Расширение поискового выражения корректными грамматическими формами слов с использованием синонимов. Не исключено порождение нетривиальных синонимических трансформаций с модификацией синтаксической структуры (указ президента = президентский указ).
5. Возможность включения специальных режимов обработки запросов, например, выделение из запроса и стандартизация формальных атрибутов искомых документов.

RCO Text Categorization Engine позволяет решать следующие задачи:
— на основании лексических профилей эффективно определять принадлежность текста к заданному множеству категорий;
— для каждого термина из лексических профилей, обнаруженного в тексте, получить количество его вхождений в текст, а также позиции терминов в тексте.
В библиотеке реализована векторная модель категоризации, которая включает в себя четыре настраиваемых компонента:
— весовые коэффициенты терминов профиля (значения задаются пользователем);
— весовые коэффициенты терминов документа (способ вычисления задается пользователем: бинарные, частотные);
— нормирующий множитель (способ вычисления задается пользователем: евклидова норма, длина текста);
— пороговое значение (задается пользователем системы).
Библиотека лингвистический разбора текста RCO Fact Extractor SDK поставляется в виде динамической библиотеки, работающей с текстовыми форматами TXT или HTML. Дополнительные прикладные решения, перечисленные в этом обзоре, ориентированы на работу с СУБД Oracle.

 АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ "МетаФраз Текстовый аналитик R10" (MF Text Analyst R10)
Программный продукт MF Text Analyst R10, входящий в состав автоматизированных систем МетаФраз, предназначен для:
— ведения персональной электронной библиотеки документов в форматах TXT, DOC, DOCX, PDF;
— лингвистической обработки и семантического анализа неструктурированных текстовых документов посредством автоматического создания формализованного представления документов (ЛЗ.4);
— поиска и отбора документов с использованием технологий семантического поиска и установления степени семантической близости документов (ЛЗ.5).

Система "МетаФраз Текстовый аналитик R10" предназначена для автоматизации рабочего места аналитика.
Примечание автора обзора: Полнофункциональная многопользовательская сетевая версия автоматизированной системы на момент написания обзора находилась в стадии разработки.
Особенность технического решения к осуществлению обработки текстов строго из документов универсальных текстовых форматов снимает с графематического анализатора проблему токенизации входных данных (разбивку текста на лексемы). То есть фактически на входе в такой системе уже имеется массив лексем, подготовленный к морфологическому анализу, а именно ко второму этапу лингвистической обработки текстов. Такой массив требует только незначительной доработки для учёта особенностей работы на уровне синтаксиса с числовыми данными и именными группами, а также с определением границ предложений.
Как утверждают разработчики системы, в процессе морфологического анализа производится поиск в таблице служебных и коротких слов, а также в таблице окончаний слов. Так выполняется назначение словам грамматической информации.

На этапе "автоматического формирования формализованного представления документов" в системе "МетаФраз Текстовый аналитик R10" осуществляется:
— семантико-синтаксический анализ текстов (процедуры анализатора адаптированы к функциональным требованиям смысловых связей и к заложенной в систему для разбора понятийной модели);
— концептуальный анализ текстов (обработка семантических признаков, извлекаемых из эталонного словаря наименований понятий);
— дистрибутивно-статистический анализ текстов (установление статистических закономерностей совместной встречаемости наименований понятий).
Здесь понятийные модели используются в качестве средства достижения результатов семантического разбора текста, что снимает необходимость в повсеместном синтаксическом анализе текста.

Перед следующим этапом семантического поиска в системе с каждым вновь добавляемым в систему документом производится специальная процедура его "автоматической классификации (рубрицирования)". При этом используются экспертные наработки отраслевых рубрикаторов, которые также должны быть выполнены по специально разработанной методологии.

На этапе "семантического поиска, отбора и сравнения документов" в системе "МетаФраз Текстовый аналитик R10" осуществляется:
— семантический поиск (создание формализованного представления естественно-языкового запроса и сравнение его с формализованным представлением документа);
— полнотекстовый поиск (пословная нормализация простого запроса из ключевых слов в связку "лемм" и её сравнение с формализованным представлением документа);
— сравнение нескольких документов между собой по смыслу (сравнение по формализованным концептуальным представлениям документов).

Создание формализованного концептуального представления документа возможно только при использовании тематического концептуального словаря предметной области. Такие словари отдельно не поставляются, но каждый пользователь данной системы может самостоятельно воспользоваться технологией автоматизированного создания тематического словаря предметной области, свободно распространяемой разработчиками системы вместе с лицензируемым программным обеспечением.

 СИНТАКСИЧЕСКИЙ АНАЛИЗАТОР "DictaScope Syntax"
Синтаксический анализатор, программа "DictaScope Syntax" строит дерево зависимостей для входного предложения на естественном языке (ЛЗ.3).
Для работы программы используются только морфологический словарь и лексический анализатор.

Синтаксический анализатор создаёт синтаксическую разметку предложения русского языка. Разметка в себя включает:
— дерево зависимостей слов;
— информацию о типе связей;
— информацию о морфологических значениях слов;
— информацию о ролях знаков препинания.

При построении дерева снимается морфологическая омонимия, словам (лексемам) присваиваются грамматические значения, для каждой подчинительной связи определяется её тип.
Сегментация предложения включает в себя:
— выделение простых предложений в составе сложного;
— выделение оборотов, в т.ч. вложенных — причастных, деепричастных, адъективных;
— определение рядов однородных членов;
— снятие функциональной омонимии знаков препинания;
— определение роли знаков препинания.
Учет пунктуации позволяет добиться правильного анализа длинных предложений со сложной структурой.

Синтаксический анализатор выделяет некоторые составные текстовые объекты (организации, даты и т.д.). Каждый составной объект представлен в дереве одной вершиной, имеющей синтаксические связи. Дополнительно к синтаксическому анализу в программе производится поверхностно-семантический анализ, включающий в себя определение действия, субъекта и объекта.

Разработчик синтаксического анализатора предлагает также несколько вспомогательных инструментов обработки текстов:
— компонент по анализу структуры документа DictaScope Structure (выявления в неразмеченном тексте его иерархической структуры);
— компонент по лексическому анализу текста DictaScope Tokenizer (выявление в тексте объектов специального вида, таких как персоны, даты, организации, адреса и т.д.);
— компонент по обработке словосочетаний DictaScope Phrase Modifier (извлечение из текста именных и глагольных словосочетаний).
Программное решение поставляется в виде динамической библиотеки.

 СЕМАНТИЧЕСКИЙ АНАЛИЗАТОР "ITFRU"
Демонстрационная площадка ITFRU "Интеллектуальная обработка текста" представляет программные решения, построенные на открытых технологиях, предназначенных для решения следующих задач:
— разбиение текста на предложения (ЛЗ.1);
— проверка правописания слов;
— морфологический анализ (ЛЗ.2);
— синтаксический анализ (ЛЗ.3);
— семантический анализ (ЛЗ.4).

На примере задачи "разбиения текста на предложения" показывается роль графематического этапа на лингвистический анализ текста.
На примере задачи по "проверке правописания" демонстрируется функциональная возможность устойчивости систем лингвистического анализа текста к орфографическим ошибкам в текстовых данных.
На примере задачи "морфологического анализа" текста демонстрируются различные способы нотации морфологических признаков лексем.
На примере задачи "синтаксического анализа" текста демонстрируется способ сегментации предложения и пример классификации синтаксических групп на сущностях.
На примере задачи "семантического анализа" текста демонстрируется техническая сторона в описании содержания семантических связей между словами.
Цель демонстрационной Web-площадки — осветить различные грани задачи лингвистического анализа текста, а также модульность её решения.

 ПАРСЕР "Solarix"
Парсер решает следующие задачи:
1. Лексический анализ — разбивка текста на предложения и слова (ЛЗ.1).
2. Морфологический анализ слов — определение части речи, падежа, рода, числа и других грамматических признаков с учетом контекста слова (ЛЗ.2).
3. Лемматизацию — приведение слова к начальной форме (лемме).
4. Синтаксический анализ — определение синтаксических связей слов в предложении, поиск подлежащего, сказуемого и так далее (ЛЗ.3).

Парсер выполнен в двух форматах: настольного приложения и локально-сетевого сервиса. Парсер способен разбирать от одного предложения до сотен мегабайт текста.
Приложение отличает собственный, достаточно подробный грамматический словарь русского языка с синонимами, антонимами, гиперонимами, гипонимами и переводами на английский язык.

 СИСТЕМА СЕМАНТИКО-СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТА "ABBYY Compreno"
Технология анализа и понимания текстов на естественном языке, реализованная в программном решении "ABBYY Compreno", решает следующие задачи:
— лексико-морфологический анализ текста (ЛЗ.1+ЛЗ.2);
— синтаксический анализ текста (ЛЗ.3);
— семантический анализ текста (ЛЗ.4);
— прагматический анализ текста (ЛЗ.5).

Перечисленные задачи составляют четыре последовательных этапа технологии полного семантико-синтаксического анализа текста с созданием его универсального представления, а также с извлечением сущностей, событий и связей между ними.
На первом этапе исходный текст делится на абзацы, предложения и слова. Технология определяет части речи и морфологические признаки слов (род, число, падеж и другие).
На втором этапе технология выделяет предложения в тексте, определяет их структуру и связи между словами в предложении.
На третьем этапе "ABBYY Compreno" определяет значения каждого слова, строит семантическую структуру предложения на основе связей, которые были установлены на прошлом этапе.
На четвертом этапе на семантическую структуру накладывается прагматический слой анализа текста, применяются онтологии (терминология для конкретной предметной области анализа) и правила извлечения нужных объектов.
Результатом полного семантического анализа является универсальное представление информации.

"ABBYY Compreno" умеет:
— определять смыслы многозначных слов (разрешать омонимию);
— восстанавливать пропущенные слова в тексте (разрешать эллипсис);
— анализировать сложные лингвистические связи между словами (преодолевать большие расстояния, определять анафорические связи).
Отличительной особенность технологии "ABBYY Compreno" является отсутствие необходимости в статистических методах обработки текстов из предметных областей и отсутствие необходимости пользовательской настройки каких-либо правил семантического разбора и классификации текста.

Технология "ABBYY Compreno" применяется в таких программных решениях, как:
— ABBYY InfoExtractor SDK (извлечение информации из неструктурированных текстовых ресурсов);
— ABBYY Intelligent Search SDK (интеллектуальный поиск информации в массивах неструктурированных ресурсов);
— ABBYY Smart Classifier SDK (классификация документов вне зависимости от особенностей естественного языка).
В системе присутствует полноценная поддержка английского языка. Доступ к полному набору лингвистических сервисов на базе "ABBYY Compreno" предоставляется по протоколу REST.

 ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР "ЭТАП—3"
Система "ЭТАП—3", предназначенная для анализа естественного текста на русском и английском языке, позволяет производить полный синтаксический анализ текста (ЛЗ.3).
Результатом полного синтаксического анализа является синтаксическая структура предложения в виде дерева зависимостей со всеми потенциальными синтаксическими связями (синтаксическая омонимия). Полученная структура предназначена для её проверки и при необходимости для её редактирования экспертом-лингвистом. В таком функциональном исполнении программа "ЭТАП—3" применяется при создании морфо-синтаксической разметки в корпусе русского языка. Синтаксически размеченный корпус русского языка используется для целей машинного обучения статистических анализаторов русского текста.
Демонстрационная Web-площадка синтаксического анализатора лингвистического процессора размещена на сайте Лаборатории компьютерной лингвистики ИППИ РАН .

 ИАС "АРИОН"
Разработчики ИАС "АРИОН" в своём программном решении сделали акцент на проблемный (семантический) анализ текстов на естественном языке, а именно на извлечение из них сведений об "интересующих" объектах, фактах и событиях (ЛЗ.4).

В состав ИАС "АРИОН" входит специальный модуль — "Лингвистический процессор АРИОН-ЛИНГВО". На входе "Лингвистический процессор" получает текстовый документ. Результатом его работы является массив связной фактографической информации, который далее передается в модуль идентификации для выделения похожих и слияния совпадающих объектов.

Выделение "интересующей" фактографической информации осуществляется с помощью специализированных правил, которые описывают процедуры выделения объектов и связей на внутрисистемном языке "Лингвистического процессора", построенном на базе XML.
Полученные таким образом сведения представляются в формализованном виде в качестве объектов предметной области и связей между ними.

В соответствии с ранее прописанными принципами обработки лингвистической информации "Лингвистический процессор" также проводит графематический, морфологический, синтаксический и семантический анализ текста с акцентом на "интересующие" пользователя объекты, факты и события.
Программа поставляется в серверном исполнении. Вся генерируемая "Лингвистическим процессором" информация выгружается в XML-файл, который может быть либо передан в систему генерации отчётов, либо выгружен в файл, либо передан в нужную веб-службу (web-service).

 АНАЛИЗАТОР "MaltParser"
Анализатор "MaltParser" реализует метод автоматического семантико-синтаксического анализа текстов на естественном языке (ЛЗ.4).
Особенностью данного метода перед остальными состоит в выполнении синтаксического и семантического анализа текстов за один проход, а именно в одной процедуре с использованием единой структуры данных. Анализатор "MaltParser" является обучаемым анализатором. Он принимает на вход текст с разметкой, на выходе получается обученная модель, которая применяется для анализа новых текстов. Получаемая модель отделена от алгоритма анализа, её можно использовать с другими реализациями анализатора. При обучении на вход анализатору подаётся текст с синтаксической и семантической разметкой, при этом семантическая разметка является разновидностью синтаксической разметки, т.е. можно говорить о семантико-синтаксической разметке текста. Так обученная модель позволяет выполнять семантический и синтаксический анализ текстов за один проход.

Демонстрационная Web-площадка семантико-синтаксического анализатора "MaltParser" размещена на сайте Института системного анализа РАН.
Анализатор "MaltParser" используется в интеллектуальной поисково-аналитической машине Exactus.

 МОДУЛЬ МОРФОЛОГИЧЕСКОГО АНАЛИЗА РУССКОГО ЯЗЫКА "libmorphrus"
Модуль морфологического анализа русского языка представляет собой высокопроизводительный конечный автомат, в который преобразован собственно словник и система окончаний, используемая в одном из возможных описаний грамматики языка (ЛЗ.2).
Отличительной особенностью этого анализатора является высокая производительность его работы, которая измеряется десятками тысяч слов в секунду в режиме отождествления (лемматизации) с построением текстов нормальных форм слов и грамматических описаний, что является идеальным показателем для работы в составе индексирующих и поисковых машин.

Морфологический анализатор "libmorphrus" имеет богатую предысторию своего развития, поскольку его алгоритм оттачивался в таких поисковых системах, как "Апорт" и "Мета". Помимо морфологического анализатора для русского языка имеются версии анализаторов, поддерживающих английскую и украинскую морфологию. Также имеется программная библиотека проверки орфографии, обнаруживающая такие ошибки, как:
— ошибка капитализации ("москва" вместо "Москва");
— опечатка с подменой буквы ("подовица" вместо "половица");
— пропущенная буква ("мужесво" вместо "мужество");
— удвоенная буква (серебрянный вместо серебряный);
— "опоздавшая" буква ("янсость" вместо "ясность");
— "слипшиеся" слова ("подому" вместо "по дому").

Морфологический анализатор реализован в виде динамической библиотеки с экспортируемыми функциями. Он обеспечен собственным словарём в двоичном формате, что позволяет операционным системам оптимальным образом подгружать и выгружать его страницы по мере надобности. Имеется демонстрационная версия морфологического анализатора для ознакомления.

 ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР "SDK Pullenti"
"SDK Pullenti" — встраиваемый модуль лингвистического анализа документов, обрабатывающий в них неструктурированные текстовые данные на естественном языке. Этот модуль производит выделение сущностей и структурирование информации (ЛЗ.4).
Структуризация осуществляется в двух вариантах:
— по списку заданных атрибутов (выделение сущностей определённых типов — Named Entity Recognition);
— построение семантических сетей.
Для второго случая лингвистический процессор "SDK Pullenti" осуществляет морфологический, синтаксический и семантический анализ текста. Практическим примером применения семантического анализатора служит задача автоматического аннотирования текста.

Модуль лингвистического процессора ориентирован на Web-приложения и имеет две демонстрационные Web-площадки.
На страницах pullenti.ru можно ознакомиться с прикладными аспектами лингвистического анализа текста, такими как:
— выделение именованных сущностей;
— семантический анализ;
— анализ заголовка статьи;
— анализ договора или нормативно-правового акта.

На страницах semantick.ru можно ознакомиться с технологическими решениями, такими как:
— морфологический анализ русского, украинского и английского языков;
— извлечение именованных сущностей: персон, организаций и пр.;
— семантический анализ: построение семантических сетей;
— анализ нормативно-правовых актов;
— анализ происшествий;
— поиск плагиата;
— классификация текста;
— автоматическое аннотирование.

 СЕМАНТИЧЕСКИЙ ПАРСЕР "JHON"
Семантический парсер "JHON" извлекает смыслы из естественно-языковых текстов на русском языке. В основе лингвистической разработки лежат четыре фундаментальных этапа обработки лингвистической информации: графематика, морфология, синтаксис, семантика. На этих этапах семантический парсер "JHON" решает следующие задачи:
1. Лексический анализ текста — разбивка текста на предложения и лексемы (ЛЗ.1).
2. Морфологический анализ слов — определение части речи, падежа, рода, числа и других грамматических признаков с учетом контекста слова (ЛЗ.2).
3. Синтаксический анализ предложения — идентификация всех членов предложения и определение синтаксических связей лексем в предложении (ЛЗ.3).
4. Семантический анализ — извлечение триплетов субъект-объектных отношений, построение семантической сети текста, построение инфокарты событий (ЛЗ.4).

Доступ к функциям семантического парсера "JHON" предоставляется через Web-интерфейс и по протоколу REST. Демонстрационный режим Web-сервиса имеет ограничение на объём обрабатываемых данных.

Результаты лингвистического разбора текста в Web-интерфейсе представляются в форме аналитических отчётов:
— МОРФО-СИНТАКСИЧЕСКИЙ — цветовые карты с выделенными морфологическими признаками слов и синтаксическими конструкциями;
— АННОТИРОВАННЫЙ СЕМАНТИЧЕСКИЙ — табулированные данные о межтерминологических связях в предложениях, выявленные на основе анализа синтаксических признаков членов предложения.
— ФОРМАЛЬНЫЙ СЕМАНТИЧЕСКИЙ — цветовые карты с результатом синтаксического анализа текста, полученные на основе морфологических признаков составляющих его слов.

Каждый из трёх перечисленных аналитических отчётов содержит по несколько информационных блоков, раскрывающих ту или иную грань семантического содержания, скрытого за лексическим наполнением текста, например, такую как:
— определительные конструкты упомянутых в тексте сущностей;
— обстоятельства, сопровождающие те или иные события;
— ассоциативные конструкты, включённые в текст;
— синтаксические обороты, применённые для передачи информации;
— количественные показатели и даты, упомянутые в тексте;
— обстоятельственные и дополнительные определения в предложных оборотах;
— места описанных в тексте событий и имена собственные;
— перечень всех процессов, описанных не только через сказуемые, но и через существительные в семантической категории "событие-действие" (названные "Оперантами");
— обнаруженная в тексте омонимия;
— облако сущностей в заданной семантической категории;
— и многое другое.

Задача отчётов — в формировании быстрой презентации скрытого содержания, необходимого для принятия одномоментного решения.

ССЫЛКИ НА ПЕРВОИСТОЧНИКИ:

 1. http://eurekaengine.ru/ru/description/ — Система лингвистического анализа текстов "Eureka Engine".
 2. http://www.rco.ru/?page_id=3554 — Библиотека лингвистического разбора текста "RCO Fact Extractor SDK".
 3. http://www.metafraz.ru/index/0-32 — Автоматизированная система обработки текстовой информации     "МетаФраз Текстовый аналитик R10" (MF Text Analyst R10).
 4. http://dictum.ru/ru/syntax-analysis/blog — Синтаксический анализатор "DictaScope Syntax".
 5. http://itfru.ru/index.php/semantic-analize/semantic-analize-itfru — Семантический анализатор "ITFRU".
 6. http://www.solarix.ru/ — Парсер "Solarix".
 7. https://www.abbyy.com/ru-ru/infoextractor/compreno/ — Система семантико-синтаксического анализа       текста "ABBYY Compreno".
 8. http://iitp.ru/ru/science/works/452.htm — Лингвистический процессор "ЭТАП—3".
 9. http://www.sytech.ru/about.php?id=149 — ИАС "АРИОН".
10. http://nlp.isa.ru/index.php/component/portal/?view=projsintsemanalysisАнализатор "MaltParser".
11. http://www.keva.ru/?cat=ling-morph-rus — Модуль морфологического анализа русского языка     "libmorphrus".
12. http://www.pullenti.ru — Лингвистический процессор "SDK Pullenti".
13. http://dworq.com — Семантический парсер "JHON".