Лингвистическое ПО МетаФраз R10
История разработки и апробации ПО МетаФраз
Общие системные требования к установке ПО МетаФраз R10
Система фразеологического машинного перевода
Система создания и верификации словарей
Metafraz.ru / Технологии / Программно-лингвистическая платформа МетаФраз
Платформенное лингвистическое ПО МетаФраз, построенное на базе теоретической концепции фразеологического концептуального анализа разноязычных текстов, обеспечивает весь технологический цикл преобразования текстового представления документа в его формализованное смысловое представление.
Это лингвистическое ПО разработано в виде единого интегрированного многофункционального программного комплекса, состоящего из нескольких подсистем, предназначенных для решения отдельных функциональных задач по обработке, формализации, переводу и анализу смыслового содержания разноязычных документов. При этом в состав ПО включены также программные модули, позволяющие создавать и адаптировать декларативные средства для настройки на заданную предметную область путем быстрого автоматизированного создания словарей по корпусу текстов.
В этом ПО также обеспечена возможность независимой массово-параллельной обработки данных, осуществляемой распределенно на различных узлах инфраструктуры Hadoop, как на уровне текстов сообщений (т.е. каждый документ обрабатывается независимо друг от друга), так и на уровне стадий обработки отдельного документа (т.е. извлечение данных из одного документа одной функцией производится независимо от извлечения данных из этого же документа другой функцией).
В состав ПО входят следующие подсистемы:
Подсистема анализа текстов предназначена для реализации всего цикла автоматической обработки текста.
В состав этой подсистемы входят:
Модуль формально-логического контроля текстов – обеспечивает возможность проверки буквенного кода слов на предмет включения нечитаемых символов и символов других алфавитов.
Модуль графематического анализа текстов – обеспечивает возможность выделения слов и предложений в тексте, а также электронных адресов, фамильно-именной группы и других формально определяемых ситуаций.
Модуль морфологического анализа слов – обеспечивает возможность определения их структуры и набора грамматических признаков.
Модуль семантико-синтаксического анализа текстов – обеспечивает возможность определения синтаксической структуры текста и установления синтагматических связей между элементами этой структуры.
Модуль концептуального анализа текстов – обеспечивает возможность выявления в текстах наименований понятий и установление связей между ними.
Модуль установления смысловых отношений между наименованиями понятий обеспечивает возможность автоматического установления типа смысловых отношений и роли участников этих отношений.
Подсистема администрирования и визуализации процесса обработки текстов предназначена для обеспечения управления процессами обработки текстов, настройки параметров обработки и визуализации основных этапов и результатов этой обработки.
Подсистема включает комплекс графических интерфейсов процессов обработки текстов:
Графический интерфейс администратора – обеспечивает возможность контроля и управления основными процессами функционирования программного комплекса.
Интерфейс процесса обработки и анализа текстов - обеспечивает возможность управления, настройки и контроля процессы обработки и анализа разноязычных текстов.
Интерфейс процесса создания декларативных средств – обеспечивает возможность управления, настройки и контроля процессы создания декларативных средств.
Интерфейс администрирования комплекса словарей – обеспечивает возможность управления, настройки и контроля администрирования комплекса словарей.
Интерфейс процесса машинного перевода – обеспечивает возможность управления, настройки и контроля процессов и режимов выполнения процесса перевода разноязычных текстов.
Интерфейс процесса обработки и анализа текстов – обеспечивает возможность управления, настройки и контроля процессов обработки и анализа разноязычных текстов.
Подсистема формализации текстов предназначена для реализации процессов приведения текстовых форм представления наименований понятий и самих текстов к их формализованным представлениям.
Подсистема включает следующие программные модули:
Модуль нормализации слов на уровне словоизменения – обеспечивает трансформацию исходной формы слова в его нормализованную форму на уровне словоизменения.
Модуль нормализации слов на уровне словообразования – обеспечивает трансформацию исходной формы слова в его нормализованную форму на уровне словообразования.
Модуль формализации наименований понятий на уровне словоизменения – обеспечивает приведение исходных форм наименований понятий к их формализованному представлению на уровне словоизменения.
Модуль формализации наименований понятий на уровне словообразования – обеспечивает приведение исходных форм наименований понятий к их формализованному представлению на уровне словообразования.
Модуль формализации наименований понятий на уровне синонимии и гипонимии – обеспечивает приведение исходных форм наименований понятий к их унифицированному формализованному представлению на уровне синонимии и гипонимии.
Модуль автореферирования разноязычных текстов - обеспечивает возможность получения по исходному тексту его автореферата (автоматического конспекта). При этом обеспечивается возможность получать автореферат различного объема и тематической направленности.
Подсистема создания декларативных средств предназначена для автоматизированного создания, проверки, контроля, формирования и конвертации декларативных средств для автоматической обработки, анализа, формализации и машинного перевода разноязычных текстов.
Подсистема включает следующие программные модули:
Модуль формирования корпуса текстов – обеспечивает конвертацию в заранее обусловленный формат совокупности текстов по одной предметной области, их слияние в один текстовый файл и выполнение его формально-логического и графематического анализа.
Модуль получения частотного словаря по текстам – реализует процесс автоматического формирования частного словаря по корпусу текстов и возможность его лингвистической обработки.
Модуль формирования характеристической таблицы – обеспечивает возможность получения количественных характеристик частотного словаря, связанных с покрытием текстов, объемом необходимых словарей и требуемых трудозатрат на создание такого ресурса.
Модуль обработки словарей – обеспечивает возможность реализации ряда операций над массивами словарей: сортировка в прямом и обратном порядке, слияние и вычитание словарей и получение общей части заданной совокупности словарей.
Модуль составления словарей по параллельным текстам – обеспечивает возможность реализации процесса автоматизированного составления двуязычных словарей по параллельным текстам (билингвам).
Модуль формирования и конвертации словарей – обеспечивает возможность преобразования словарей из внутренних форматов обработки в форматы хранения и обмена словарными ресурсами между модулями и подсистемами платформы.
Подсистема машинного перевода предназначена для реализации различных режимов процесса перевода с одних естественных языков на другие языки.
Подсистема включает следующие программные модули:
Модуль автоматического перевода – обеспечивает реализацию процесса автоматического перевода следующих направлений.
Модуль интерактивного перевода – обеспечивает реализацию процесса интерактивного перевода. При этом обеспечивается возможность коррекции промежуточных результатов перевода и формирования по результатам этой коррекции грамматических таблиц и пользовательских словарей.
Модуль семантико-синтаксического синтеза предложений – обеспечивает реализацию процесса семантико-синтаксического предложений на основе формализованной системы правил строя соответствующих языков и информации о синтаксической структуре выходного текста.
Модуль трансфера (соотнесения наименований понятий на исходном и выходном языках) – обеспечивает реализацию процесса поиска в двуязычных словарях переводных эквивалентов и выбор по соответствующим критериям тех переводных эквивалентов, которые лучше отражают смысловое содержание текста.
Подсистема хранения декларативных средств предназначена для обеспечения процессов загрузки, актуализации и хранения декларативных средств – различного рода словарей и грамматических таблиц, а также обеспечения поиска в этих словарях и грамматических таблицах.
Подсистема включает следующие программные модули:
Модуль загрузки в базу данных и актуализации декларативных средств – обеспечивает загрузку и актуализацию декларативных средств в базу данных.
Модуль поиска в базе данных – обеспечивает поиск в различного рода словарях и грамматических таблицах, хранящихся в базе данных. Процедуры поиска разработаны для каждой группы словарей и таблиц.
Все программные модули платформы включены в соответствии с их функциональным назначением в несколько программных библиотек (DLL). Взаимодействие с этими библиотеками производится через соответствующие программные интерфейсы, включенные с состав подсистемы администрирования.
Информационный обмен между подсистемами платформы и отдельными программными модулями осуществляется через единое информационное пространство и на основе использования стандартизированных протоколов и форматов обмена данными. Информационная совместимость со смежными системами обеспечивается на уровне экспорта-импорта XML-документов.