Мetafraz.ru - Сайт компании МетаФраз
Гость | Вход
Системы машинного перевода
и смысловой обработки текстов,
информационно-аналитические
и поисковые системы

Metafraz.ru / Технологии / Программно-лингвистическая платформа МетаФраз

Программно-лингвистическая платформа МетаФраз

Платформенное лингвистическое ПО МетаФраз, построенное на базе теоретической концепции фразеологического концептуального анализа разноязычных текстов, обеспечивает весь технологический цикл преобразования текстового представления документа в его формализованное смысловое представление.

Это лингвистическое ПО разработано в виде единого интегрированного многофункционального программного комплекса, состоящего из нескольких подсистем, предназначенных для решения отдельных функциональных задач по обработке, формализации, переводу и анализу смыслового содержания разноязычных документов. При этом в состав ПО включены также программные модули, позволяющие создавать и адаптировать декларативные средства для настройки на заданную предметную область путем быстрого автоматизированного создания словарей по корпусу текстов.

В этом ПО также обеспечена возможность независимой массово-параллельной обработки данных, осуществляемой распределенно на различных узлах инфраструктуры Hadoop, как на уровне текстов сообщений (т.е. каждый документ обрабатывается независимо друг от друга), так и на уровне стадий обработки отдельного документа (т.е. извлечение данных из одного документа одной функцией производится независимо от извлечения данных из этого же документа другой функцией).

В состав ПО входят следующие подсистемы:

  • Подсистема анализа текстов.
  • Подсистема администрирования и визуализации процесса обработки текстов.
  • Подсистема формализации текстов.
  • Подсистема создания декларативных средств.
  • Подсистема машинного перевода.
  • Подсистема хранения декларативных средств.

Подсистема анализа текстов

Подсистема анализа текстов предназначена для реализации всего цикла автоматической обработки текста.

В состав этой подсистемы входят:

Модуль формально-логического контроля текстов – обеспечивает возможность проверки буквенного кода слов на предмет включения нечитаемых символов и символов других алфавитов.

Модуль графематического анализа текстов – обеспечивает возможность выделения слов и предложений в тексте, а также электронных адресов, фамильно-именной группы и других формально определяемых ситуаций.

Модуль морфологического анализа слов – обеспечивает возможность определения их структуры и набора грамматических признаков.

Модуль семантико-синтаксического анализа текстов – обеспечивает возможность определения синтаксической структуры текста и установления синтагматических связей между элементами этой структуры.

Модуль концептуального анализа текстов – обеспечивает возможность выявления в текстах наименований понятий и установление связей между ними.

Модуль установления смысловых отношений между наименованиями понятий обеспечивает возможность автоматического установления типа смысловых отношений и роли участников этих отношений.

Подсистема администрирования и визуализации процесса обработки текстов

Подсистема администрирования и визуализации процесса обработки текстов предназначена для обеспечения управления процессами обработки текстов, настройки параметров обработки и визуализации основных этапов и результатов этой обработки.

Подсистема включает комплекс графических интерфейсов процессов обработки текстов:

Графический интерфейс администратора – обеспечивает возможность контроля и управления основными процессами функционирования программного комплекса.

Интерфейс процесса обработки и анализа текстов - обеспечивает возможность управления, настройки и контроля процессы обработки и анализа разноязычных текстов.

Интерфейс процесса создания декларативных средств – обеспечивает возможность управления, настройки и контроля процессы создания декларативных средств.

Интерфейс администрирования комплекса словарей – обеспечивает возможность управления, настройки и контроля администрирования комплекса словарей.

Интерфейс процесса машинного перевода – обеспечивает возможность управления, настройки и контроля процессов и режимов выполнения процесса перевода разноязычных текстов.

Интерфейс процесса обработки и анализа текстов – обеспечивает возможность управления, настройки и контроля процессов обработки и анализа разноязычных текстов.

Подсистема формализации текстов

Подсистема формализации текстов предназначена для реализации процессов приведения текстовых форм представления наименований понятий и самих текстов к их формализованным представлениям.

Подсистема включает следующие программные модули:

Модуль нормализации слов на уровне словоизменения – обеспечивает трансформацию исходной формы слова в его нормализованную форму на уровне словоизменения.

Модуль нормализации слов на уровне словообразования – обеспечивает трансформацию исходной формы слова в его нормализованную форму на уровне словообразования.

Модуль формализации наименований понятий на уровне словоизменения – обеспечивает приведение исходных форм наименований понятий к их формализованному представлению на уровне словоизменения.

Модуль формализации наименований понятий на уровне словообразования – обеспечивает приведение исходных форм наименований понятий к их формализованному представлению на уровне словообразования.

Модуль формализации наименований понятий на уровне синонимии и гипонимии – обеспечивает приведение исходных форм наименований понятий к их унифицированному формализованному представлению на уровне синонимии и гипонимии.

Модуль автореферирования разноязычных текстов - обеспечивает возможность получения по исходному тексту его автореферата (автоматического конспекта). При этом обеспечивается возможность получать автореферат различного объема и тематической направленности.

Подсистема создания декларативных средств

Подсистема создания декларативных средств предназначена для автоматизированного создания, проверки, контроля, формирования и конвертации декларативных средств для автоматической обработки, анализа, формализации и машинного перевода разноязычных текстов.

Подсистема включает следующие программные модули:

Модуль формирования корпуса текстов – обеспечивает конвертацию в заранее обусловленный формат совокупности текстов по одной предметной области, их слияние в один текстовый файл и выполнение его формально-логического и графематического анализа.

Модуль получения частотного словаря по текстам – реализует процесс автоматического формирования частного словаря по корпусу текстов и возможность его лингвистической обработки.

Модуль формирования характеристической таблицы – обеспечивает возможность получения количественных характеристик частотного словаря, связанных с покрытием текстов, объемом необходимых словарей и требуемых трудозатрат на создание такого ресурса.

Модуль обработки словарей – обеспечивает возможность реализации ряда операций над массивами словарей: сортировка в прямом и обратном порядке, слияние и вычитание словарей и получение общей части заданной совокупности словарей.

Модуль составления словарей по параллельным текстам – обеспечивает возможность реализации процесса автоматизированного составления двуязычных словарей по параллельным текстам (билингвам).

Модуль формирования и конвертации словарей – обеспечивает возможность преобразования словарей из внутренних форматов обработки в форматы хранения и обмена словарными ресурсами между модулями и подсистемами платформы.

Подсистема машинного перевода

Подсистема машинного перевода предназначена для реализации различных режимов процесса перевода с одних естественных языков на другие языки.

Подсистема включает следующие программные модули:

Модуль автоматического перевода – обеспечивает реализацию процесса автоматического перевода следующих направлений.

Модуль интерактивного перевода – обеспечивает реализацию процесса интерактивного перевода. При этом обеспечивается возможность коррекции промежуточных результатов перевода и формирования по результатам этой коррекции грамматических таблиц и пользовательских словарей.

Модуль семантико-синтаксического синтеза предложений – обеспечивает реализацию процесса семантико-синтаксического предложений на основе формализованной системы правил строя соответствующих языков и информации о синтаксической структуре выходного текста.

Модуль трансфера (соотнесения наименований понятий на исходном и выходном языках) – обеспечивает реализацию процесса поиска в двуязычных словарях переводных эквивалентов и выбор по соответствующим критериям тех переводных эквивалентов, которые лучше отражают смысловое содержание текста.

Подсистема хранения декларативных средств

Подсистема хранения декларативных средств предназначена для обеспечения процессов загрузки, актуализации и хранения декларативных средств – различного рода словарей и грамматических таблиц, а также обеспечения поиска в этих словарях и грамматических таблицах.

Подсистема включает следующие программные модули:

Модуль загрузки в базу данных и актуализации декларативных средств – обеспечивает загрузку и актуализацию декларативных средств в базу данных.

Модуль поиска в базе данных – обеспечивает поиск в различного рода словарях и грамматических таблицах, хранящихся в базе данных. Процедуры поиска разработаны для каждой группы словарей и таблиц.

Взаимодействие подсистем

Все программные модули платформы включены в соответствии с их функциональным назначением в несколько программных библиотек (DLL). Взаимодействие с этими библиотеками производится через соответствующие программные интерфейсы, включенные с состав подсистемы администрирования.

Информационный обмен между подсистемами платформы и отдельными программными модулями осуществляется через единое информационное пространство и на основе использования стандартизированных протоколов и форматов обмена данными. Информационная совместимость со смежными системами обеспечивается на уровне экспорта-импорта XML-документов.

 
© OOO "МетаФраз", 2018 г.
Москва, ул. Бауманская, 7, стр. 1