Мetafraz.ru - Сайт компании МетаФраз
Гость | Вход
Системы машинного перевода
и смысловой обработки текстов,
информационно-аналитические
и поисковые системы

Metafraz.ru / Технологии / Базовые лингвистические технологии

Базовые лингвистические технологии

Платформенное лингвистическое ПО МетаФраз, построенное на базе теоретической концепции фразеологического концептуального анализа текстов, обеспечивает весь технологический цикл преобразования текстового представления документа в его формализованное смысловое описание и обладает рядом характеристик, отличающих его от других аналогичных программных комплексов анализа содержания текстов, а именно:

  • базируется на концепции фразеологического концептуального анализа текстов;
  • оперирует мощными концептуальными политематическими и тематическими словарями;
  • предоставляет пользователю единый инструментарий, позволяющий автоматизировать все этапы обработки и анализа документов;
  • настраивается на обработку и анализ текстов по любой тематике с возможностью автоматизированного пополнения интегрального концептуального словаря.

Автоматическая обработка текстовой информации

В системах автоматической обработки текстовой информации основной задачей является формализация представления смысловой структуры текстов – выделения в них смысловых единиц и установления связей между ними. Центральной процедурой при решении этой задачи является процедура семантико-синтаксического концептуального (понятийного) анализа текстов. Важнейшим средством автоматической смысловой обработки текстовой информации являются словари наименований понятий, представленные преимущественно фразеологическими словосочетаниями.

При анализе текстов необходимо также учитывать, что в них одни и те же объекты и процессы могут описываться с различной степенью общности и c помощью различных языковых средств. Поэтому при решении задач автоматической смысловой обработки текстовой информации необходимо учитывать такие явления как синонимия, гипонимия (родовидовые отношения), разнообразие средств выражения межфразовых связей.

Основной структурной единицей текста традиционно считается предложение. Предложения выступают в тексте не изолированно друг от друга, а в тесной смысловой связи. В основе этой связи лежат мыслительные образы тех конкретных или абстрактных объектов (ситуаций, явлений), которые человек имеет в виду, когда он порождает текст. Образы этих объектов имеют определенную структуру. Кроме того, они дополнительно структурируются человеком при их описании на естественном языке. Соответственно этому структурируется и текст.

Исходя из вышесказанного, при решении задачи формализации смыслового содержания текстов необходимо методами семантико-синтаксического и концептуального анализа обработать текст, разделить его на предложения, выделить из него единицы смысла (наименования понятий) – слова и словосочетания, выражающие понятия.

Эти задачи в лингвистическом ПО МетаФраз выполняет базовый набор процедур семантико-синтаксического и концептуального анализа, а также декларативные средства, обеспечивающие их функционирование.

Базовые процедуры автоматической обработки текстов

Основным назначением базовых процедур автоматической обработки текстовой информации является структурирование и формализация смыслового содержания текстов, выявление понятийного состава предметной области, установление парадигматических, синтагматических и ассоциативных связей между наименованиями понятий и установление их контекстного окружения.

Графематический анализ текста

Графематический анализ предназначен для предварительного анализа текста по представляющей его последовательности символов. В результате этого анализа определяется язык текста, устанавливаются местоположения слов, предложений, абзацев, фамильно-именной группы, дат, адресов и т.п. Для автоматического определения указанной информации по формальной структуре текста в соответствующих методах графематического анализа используется следующий набор грамматических таблиц и словарей:

  • словарь для установления языка текста;
  • таблица признаков для выделения слов и разделителей в тексте;
  • таблица признаков для выделения дат в цифровых форматах;
  • таблица признаков для выделения фамильно-именной группы;
  • таблица признаков для выделения адресных реквизитов;
  • таблица признаков для разделения текста на предложения.

Морфологический анализ слов

Морфологический анализ слов естественных языков предназначен для определения структуры слов и назначения им грамматических признаков, необходимых для выполнения различных процедур автоматической обработки текстовой информации, таких, например, как процедур морфологического синтеза слов, синтаксического анализа текстов, синтаксического синтеза текстов и концептуального анализа.

Используемый в наших продуктах морфологический анализ основан на методе лингвистической аналогии и базируется на разработанной профессором Г.Г. Белоноговым системе флективных классов русских слов.

В процессе морфологического анализа производится поиск в таблице «служебных» и коротких слов и в таблице концов слов, а также выполняется назначение словам грамматической информации. Вероятность правильного анализа слов при обработке текстов любой тематики в лингвистическом ПО МетаФраз превышает 99%.

На основе описанного алгоритма разработана процедура лемматизации – процедура замены текстовой формы слова на его каноническую форму. Обычно под нормализованной (канонической) формой слова понимается та его форма, которая традиционно указывается в словарях. Например, для существительного это – форма именительного падежа единственного или (в случае pluralia tantum) множественного числа; для глагола – форма инфинитива; для прилагательного – форма именительного падежа единственного числа мужского рода.

При нормализации слов на словообразовательном уровне каноническая форма слова должна представлять всю его словообразовательную парадигму.

Морфологический анализ, основанный на методе аналогии, применяемый в ПО МетаФраз позволяет правильно проводить процедуры распознавания различных форм для любых новых слов, не занесенных непосредственно в комплекс декларативных средств.

Семантико-синтаксический анализ текстов

Семантико-синтаксический анализ текстов проводится с целью формализованного представления их структуры – выделения в них смысловых единиц и установления связей между ними.

При этом структура текстов может интерпретироваться по-разному и описываться на различных формализованных языках. Для решения конкретных задач, в частности, задачи построения понятийной модели текста, результаты анализа должны быть ориентированы на решение этой задачи. В связи с этим процедуры семантико-синтаксического анализа текстов, реализованные в ПО МетаФраз, должны быть адаптированы к функциональным требованиям и понятийной модели, используемой в Системе.

В результате анализа в тексте должны быть выделены составные части текста, которыми являются речевые отрезки, обозначающие понятия: слова, словосочетания, фразы, сверхфразовые единства. В процессе семантико-синтаксического анализа должны быть также выполнено членение на простые предложения, установлены главные и второстепенные члены предложения, сформирована формализованная структура предложения, определены однородные члены предложения и установлены синтаксические связи между словами предложения.

Концептуальный анализ текстов

Концептуальный анализ текстов предназначен для определения смысловой структуры текстов, выявления их понятийного (концептуального) состава текстов и установления смысловых связей между наименованиями понятий. В более узком понимании концептуальный анализ можно рассматривать как процедуру выявления наименований понятий в текстах.

Эту задачу невозможно решить только путем анализа синтаксической структуры текстов. Для решения этой задачи необходимо также привлекать семантические признаки. Совокупность таких признаков, относящихся к предметной области, заносится в эталонный словарь наименований понятий.

Дистрибутивно-статистический анализ текстов

Дистрибутивно-статистический анализ текстов естественных языков предназначен для установления статистических закономерностей совместной встречаемости наименований понятий. Полученные в результате такого анализа закономерности позволяют не только автоматически распознавать омонимичные наименования понятий, но и использовать их для установления системы взаимосвязей понятий при формировании предварительных словарей парадигматических и ассоциативных связей.

Традиционный дистрибутивно-статистический анализ текстов, применяемый для установления совместной встречаемости различных слов в текстах, в наших исследованиях был трансформирован в соответствие с базовой концепцией и усложнен применением методов семантико-синтаксического и концептуального анализа. В результате выполненного дистрибутивно-статистического анализа текстов выявляется сочетаемость ключевых наименований понятий и производится преобразование полученных результатов в структуру метаданных.

Определение тождественных документов

Механизм установления смысловой близости документов базируется на автоматической генерации формализованного концептуального описания документа (ФКОД) и процедур их сопоставления. ФКОД представляет собой перечень значимых наименований понятий, выделенных их документа. Для каждого наименования понятия определяется его весовой коэффициент, характеризующий степень его смысловой значимости в тексте. Степень смысловой близости документов определяется их понятийным составом и семантико-синтаксической структурой.

При реализации технологии установления смысловой близости документов первоначально формируется тематический концептуальный словарь. Этот словарь формируется по вышеописанной технологии и должен содержать основной понятийный состав предметной области. Каждое наименование понятия словаря должно сопровождаться его относительной частотой встречаемости в предметной области. В процессе обработки текст членится на всевозможные фрагменты, которые сопоставляются с элементами словаря. Опознанные фрагменты текста приводятся к нормальной форме и подсчитывается их частота встречаемости в этом тексте. Далее из них формируется ФКОД, с помощью которого и выполняется процедура установления смысловой близости документов.

Автоматическая классификация (рубрицирование) документов

Автоматическая классификация (рубрицирование) документов также выполняется на основе анализа их смыслового содержания. В процессе анализа документов должно выполняться распознавание их принадлежности к различным рубрикам, в соответствие с тематическими классам используемой системы классификации. Этот процесс основан на процессе распознавания смысловой близости классифицируемых документов и предметных рубрик классификатора. При этом для классифицируемых документов и рубрик классификатора необходимо будет составить их формализованные концептуальные образы.

Формализованные описания тематических рубрик классификаторов могут создаваться путем автоматического концептуального анализа ранее расклассифицированных массивов документов. Для реализации этой технологии необходимо располагать отраслевым классификатором и обучающей выборкой – заранее расклассифицированным массивом документов. В процессе такого автоматизированного обучения тексты, относящиеся к различным рубрикам, объединяются в несколько различных массивов, далее по каждому массиву составляется частотный словарь наименований понятий и для каждого понятия устанавливается весовой коэффициент смысловой значимости в этом массиве документов, который, как было выше указано, соответствует конкретной рубрике. Далее все эти концептуальные словари объединяются, но при этом сохраняются значения весовых коэффициентов для каждой рубрики. Результатом такого объединения будет создание классификационного словаря, соответствующего рубрикам отраслевого классификатора.

Процесс классификации реализуется путем автоматического сопоставления наименований понятий текста и классификационного словаря и подсчета полного веса документа по отношению к каждому рубрикатору. Набольший вес будет соответствовать искомой рубрике.

Создания отраслевого рубрикатора по корпусу текстов

Эта технология более трудоемкая, требует представительного отраслевого корпуса текстов и наличия экспертов в данной предметной области. Общая идея создания отраслевого рубрикатора заключается в том, что по реальным отраслевым текстам создаются кластеры близких по своему смысловому содержанию документов. Дальше для каждого кластера создается обобщенное формализованное концептуальное описание, которому эксперт может поставить в соответствие название рубрики. Это может быть верхний уровень классификатора. Аналогично такие действия можно выполнить и для каждого кластера. Таким образом, будут также сформированы более глубокие уровни классификатора. Далее, если этим текстам поставить в соответствие сформированные рубрики, по всем этим текстам можно создать классификационный словарь и реализовать аналогичный процесс автоматической классификации.

Семантический поиск

Использование стандартных механизмов контекстного поиска позволяют получить только ту информацию, которая в явном виде задана в запросе. Между тем часто требуемая информация в текстах представлена в различных формах. Для решения таких задач требуются более сложные механизмы поиска и анализа смыслового содержания текстов. Семантический поиск это один из таких подходов решения проблемы интеллектуализации поиска. Его суть – в привлечении семантической информации и семантических связей при поиске ответа на запрос. Семантический анализ запроса существенно усложняет процедуру поиска. Семантический поиск базируется на процедурах семантико-синтаксического и концептуального анализа текстов и поисковых запросов. Наиболее эффективной процедурой реализующей эти возможности является процедура семантического расширения поискового запроса.

Основная идея этой процедуры заключается в автоматической генерации для каждого наименования понятия всех возможных форм его представления путем последовательной замены каждого слова наименования понятия на его синонимы, гипонимы или гиперонимы (при этом необходимо иметь ввиду, что для некоторых наименований понятий, состоящих из нескольких слов, количество таких инвариантов может достигать нескольких десятков тысяч). Далее все эти инварианты приводятся к их каноническим формам и сравниваются со всеми наименованиями понятий, полученным по текстам. В случае совпадения какого-либо инварианта анализируемого наименования понятия с другим наименованием понятия, эти понятия считаются находящимися в смысловой связи. Таким образом, можно наиболее полно установить смысловые отношения между запросом и искомым текстом.

Полнотекстовый поиск, базирующийся на пословной нормализации

Применение сложного механизма семантического поиска не всегда оправдано. Например, при ответе на простые запросы не требуется привлечения дополнительной семантической информации и для этого достаточно возможностей полнотекстового поиска. Поэтому необходимо совершенствовать механизмы этого поиска. Одним из таких механизмов является замена механизма усечения слов механизмом пословной нормализации. Это позволяет не только существенно повысить точность поиска, но и существенно повысить его полноту за счет использования словообразовательной нормализации. Кроме того, только эти механизмы позволяют частично или полностью реализовать семантический поиск.

Технология автоматизированного создания декларативных средств

При решении задач автоматизированного составления словарей важно выявить понятийный состав предметной области для его последующей обработки и включения в состав эталонного концептуального словаря.

Общая технологическая схема составления эталонного концептуального словаря представляется в следующем виде. Предварительно составленный корпус текстов подвергается обработке процедурой семантико-синтаксического и концептуального анализа текстов, в результате чего из текстов выделяются отдельные слова и словосочетания различной длины. После этого по массиву выделенных из текстов слов и словосочетаний составляется частотный словарь. Полученный словарь обрабатывается процедурой орфографического и синтаксического контроля, в результате чего из этого словаря исключаются некорректные слова и словосочетания. Частотная часть словаря подвергается лингвистической обработке, в результате которой из словаря исключается малоинформативная и некорректная лексика. Далее выполняется автоматическое приведение наименований понятий к их канонической форме и формируется частотный словарь наименований понятий.

На завершающем этапе выполняется семантико-статистический анализ частотного словаря на основе статистических данных о количественном и качественном составе этого словаря. С этой целью автоматически формируется характеристическая таблица частотного словаря. Для этого частотный словарь предварительно упорядочиваются по убыванию частот встречаемости слов в текстах и для каждой частоты вычисляются такие параметры как его кратность, накопленная частота, накопленная кратность и относительная накопленная частота. Эти параметры позволяют выявить частотный понятийный состав предметной области и соотнести его с параметром покрытием этой частотой текстов предметной области.

 
© OOO "МетаФраз", 2018 г.
Москва, ул. Бауманская, 7, стр. 1