Мetafraz.ru - Сайт компании МетаФраз
Гость | Вход
Системы машинного перевода
и смысловой обработки текстов,
информационно-аналитические
и поисковые системы

Metafraz.ru / Технологии / Теоретические основы разработок МетаФраз

Теоретические основы разработок МетаФраз

В системах автоматической обработки текстовой информации основной задачей является формализация текстового представления смысловой структуры текстов – выделения в них смысловых единиц и установления связей между ними. Эти задачи могут быть решены на основе современных представлений о смысловой структуре текстов.

Эти представления получены в процессе многолетних широкомасштабных исследований больших объемов разноязычной текстовой информации и сформулированы в теоретической концепции фразеологического концептуального анализа текстов, предложенной профессором Г.Г. Белоноговым в 1975 г.

Основной идей этой концепции является обоснование использования в качестве основных единиц смысла устойчивых фразеологических и терминологических словосочетаний, обозначающих понятия, отношения между понятиями и типовые ситуации, представленные в предметной области. Эта концепция базируется на широком использовании принципов лингвистической аналогии и определяет принципы и методы выявления статистически обоснованного понятийного состава предметной области.

Эта теоретическая концепция получила свое дальнейшее развитие в трудах его учеников (Калинина Ю.П., династии Хорошиловых, Степанова В.Н., Козичева В.Н., Ширманова А.В., Никитина Ю.В., Козачука М.В. и др.).

На базе этой концепции в 1970–1990 годах разработан базовый набор процедур семантико-синтаксического и концептуального анализа и синтеза разноязычных текстов, входящих в состав современных систем автоматической обработки текстовой информации.

Разработанные на основе этой концепции методы лингвистической аналогии и методы семантико-статистические и концептуального анализа текстовой информации позволяют в значительной степени сократить временные издержки и снизить трудозатраты на создание комплекса программных и декларативных средств систем фразеологического машинного перевода и автоматического смыслового анализа документов.

Декларативные средства в соответствии с этой концепцией должны включать в свой состав интегральную словарную базу, содержащую политематические концептуальные словари и дополнительные тематические словари. Эти словари должны создаваться на основе автоматической обработки и анализа лексического состава и семантико-синтаксического анализа репрезентативных корпусов политематических и тематических текстов.

Разработанные технологии и процедуры создания концептуальных словарей обеспечивают включение в эти словари статистически обоснованного основного понятийного состава предметной области. Последние могут также создаваться в процессе адаптации словарной базы к лексике различных тематических областей по конкретным текстам документов. При этом также широко используются средства автоматизации, позволяющие выявить слова и словосочетания, наиболее часто используемые в текстах.

Все эти средства и технологии реализованы в базовом платформенном лингвистическом программном обеспечении МетаФраз.

 
© OOO "МетаФраз", 2018 г.
Москва, ул. Бауманская, 7, стр. 1