Friday, June 29, 2007

Лексическая семантика

Вспомнить, что ли, прочитанное полгода назад... Итак, Rick Morneau, The Lexical Semantics of a Machine Translation Interlingua.

Прикольно. Очень. Хоть и по-английски, а читается легко, как Гарри Поттер. Может, потому, что тема лично мне актуальна, но мне кажется, что не только. Книга помогла мне придумать функциональную модель языка. Ту самую, что до меня уже придумал Тузов, причем с небольшими улучшениями. Правда, Тузов их считает ухудшениями... но не будем о грустном.

Замыслил автор построить промежуточный язык-интерлингву для машинного перевода. Причем именно в виде обычного языка. Буковки, пробельчики, значки препинания, одномерный текст и т.п. В связи с этим у него куча проблем с синтаксисом и порядком слов, которые ухудшают впечатление, но его семантические идеи безусловно достойны отдельного упоминания. Существительные у него расположены просто в рассклассифицированном по категориям виде, как у Тузова, ни от чего они не зависят, причем о принципах классификации он говорит как-то типа "у всех свои бзики, они же категории, так что не приставайте, мне просто нравится именно такой способ". Основной же частью речи у него является глагол.

Глагол в общем виде имеет до трех параметров, они же аргументы. Агенс, пациенс и фокус. Агенс - тот, кто что-то делает, пациенс - тот, с кем что-то делают, фокус - все остальное. У многих глаголов аргументов меньше, у некоторых - больше (например, менять (я меняю тебе доллары на евро - тут 2 фокуса). Далее, глаголы бывают состояния и действия. Во вторых всегда есть агенс. Первые делятся на статические (констатация состояния), и динамические (изменение состояния). Пациенс у глагола есть всегда.

Самое интересное начинается, когда мы разбираем другие интересные части речи. Например, предлоги. Предлог, по мнению Морно, это глагол. Например, предлог with, "посредством". Самый хороший пример, на нем все красиво получается. "Я пишу текст посредством ручки". По сути здесь два утверждения - "Я пишу текст" и "Я использую ручку", причем первое основное. Достаточно очевидно и так, а после этого примера и совсем, что творительный падеж выполняет ровно ту же функцию в "Я пишу ручкой", да и вообще предлоги и падежи очень сходны, это просто разные способы в разных языках выразить одно и то же. С деепричастиями и многими наречиями можно обойтись аналогично.

Что же за различия это навевает по сравнению с моделью Тузова? Писать у него определяется как (Z1: !Им,Z2: !Вин,Z3: !Вопр\!Про\!обПред,Z4: !Дат\!Куда\!кДат,Z5: !наПред,Z6: !Тв). Видим 6 аргументов про всякие падежи, которые умеют сочетаться с этим словом. И слово "писать" рассматривается как функция, зависящая от 6 аргументов. Причем многие из них могут быть незаполнены.

Мы же с Морно считаем жизненно необходимыми только два (агенс и пациенс, именительный и винительный), остальные побоку. "Писать" становится функцией от двух непустых аргументов, выдающей некую структуру данных, а предлоги... Допустим, "на". В данном случае это будет функция, принимающая существительное Х в предложном падеже с семантикой такой, что на этом можно писать, и выдающая в ответ функцию, принимающую ту самую структуру данных "писать", и дописывающую к ней, что процесс этот происходит на Х. Это можно распространить и на морфемы. "-ой" - штука, берущая основу существительного и выдающая функцию, дописывающую инструмент действия. Это я про творительный падеж, если кто не понял. И очень многие морфемы можно оформить так же.

А вот проблемы с тем, как же нам парсить всевозможные союзы, штука сия все равно не решает. Но красиво же! Лямбды жгут!

No comments: