Friday, June 29, 2007

Взрыв мозга. И аккумулятора

Вот написал я в предыдущем посте "сами зависимости тоже могут рассматриваться как знаки" как-то так, не подумав. То есть, подумав, но не сильно. А ведь это концепция. У меня в процессе размышлений над проапгрейженной тузовской проблемой, помнится, была баальшая проблема: как представить слово "красота". Есть глагол "быть красивым", статический глагол состояния с одним аргументом - пациенсом. И с помощью этого глагола можно говорить о том, что икс красив, либо об иксе, который красив. Нексус и юнкция это называется. Или наоборот, не помню уже. А вот как выразить саму концепцию того, что икс участвует в отношении между иксом и "красив"? Например, "красота икса". Во-от. Неясно.

Таким образом, вырисовывается примерно следующее. Будем рассматривать некое пространство. Назовем его элементы знаками. Например, есть базовые понятия модели мира, они будут считаться знаками. Насколько они базовые, вопрос тот еще, лично мне кажется, что таковых быть не должно вообще, ну да неважно. Здесь будет вполне достаточно рассматривать их как базовые. Есть отношения между базовыми понятиями, которые представляют из себя имя типа предиката и упорядоченное множество аргументов. Назовем их предикатами. При этом вся эта конструкция тоже является знаком. Наконец, отношение принадлежности знака к определенному предикату само будет являться предикатом специального типа (а значит, и знаком), с двумя аргументами, кто принадлежит и куда. Хотя с другой стороны, кто мешает быть предикатом не менее специального типа тому факту, что какие-нибудь икс и игреком находятся в отношении зет... или даже еще более сложной деревянной структуре. Вот так вот в модели мира появляются метауровни.

А сабж тут ни при чем.

Йа феллосаф

С чего бы это я про Lexical Semantics вспомнил? А вот с чего. Стали тут меня мысли преследовать на тему всяких Сэпиров и Уорфов. Они ведь про что гутарят? Про то, что вот есть язык, а есть реальность (точнее, наивная модель мира в мозгу). И вообще-то еще неясно, кто главнее, кто от кого произошел. Классическая наука утверждает, что язык описывает то, что мы воспринимаем, а гипотеза лингвистической относительности - что от языка зависит, что же именно мы воспринимаем. Истина же наверняка где-то посередине...

А я вот тут и подумал, что раз в языке есть синтаксис, то почему бы ему не быть и в реальности? Надо поискать. И нашел ведь! Берем мы любой предикат (глагол в морновской интерлингве), смотрим на его аргументы, и понимаем, что вот оно. Эти аргументы выражают собой сущности, которые находятся в каком-то отношении, может быть, в процессе участвуют. И они такие разные! И у них в этом отношении-процессе разные роли. Поэтому порядок их упоминания имеет значения. А если еще семиотов вспомнить (а ви антисемиот?), то можно сказать, что наивная модель мира представляет собой набор знаков, причем некоторые знаки являются предикатами и зависят от других знаков, и порядок этих знаков имеет значение... Причем сами зависимости тоже могут рассматриваться как знаки. И про них тоже можно какой-нибудь синтаксис навести. А тут и до причастных оборотов недалеко уже. Вот так.

Интересно, это излечимо?

Лексическая семантика

Вспомнить, что ли, прочитанное полгода назад... Итак, Rick Morneau, The Lexical Semantics of a Machine Translation Interlingua.

Прикольно. Очень. Хоть и по-английски, а читается легко, как Гарри Поттер. Может, потому, что тема лично мне актуальна, но мне кажется, что не только. Книга помогла мне придумать функциональную модель языка. Ту самую, что до меня уже придумал Тузов, причем с небольшими улучшениями. Правда, Тузов их считает ухудшениями... но не будем о грустном.

Замыслил автор построить промежуточный язык-интерлингву для машинного перевода. Причем именно в виде обычного языка. Буковки, пробельчики, значки препинания, одномерный текст и т.п. В связи с этим у него куча проблем с синтаксисом и порядком слов, которые ухудшают впечатление, но его семантические идеи безусловно достойны отдельного упоминания. Существительные у него расположены просто в рассклассифицированном по категориям виде, как у Тузова, ни от чего они не зависят, причем о принципах классификации он говорит как-то типа "у всех свои бзики, они же категории, так что не приставайте, мне просто нравится именно такой способ". Основной же частью речи у него является глагол.

Глагол в общем виде имеет до трех параметров, они же аргументы. Агенс, пациенс и фокус. Агенс - тот, кто что-то делает, пациенс - тот, с кем что-то делают, фокус - все остальное. У многих глаголов аргументов меньше, у некоторых - больше (например, менять (я меняю тебе доллары на евро - тут 2 фокуса). Далее, глаголы бывают состояния и действия. Во вторых всегда есть агенс. Первые делятся на статические (констатация состояния), и динамические (изменение состояния). Пациенс у глагола есть всегда.

Самое интересное начинается, когда мы разбираем другие интересные части речи. Например, предлоги. Предлог, по мнению Морно, это глагол. Например, предлог with, "посредством". Самый хороший пример, на нем все красиво получается. "Я пишу текст посредством ручки". По сути здесь два утверждения - "Я пишу текст" и "Я использую ручку", причем первое основное. Достаточно очевидно и так, а после этого примера и совсем, что творительный падеж выполняет ровно ту же функцию в "Я пишу ручкой", да и вообще предлоги и падежи очень сходны, это просто разные способы в разных языках выразить одно и то же. С деепричастиями и многими наречиями можно обойтись аналогично.

Что же за различия это навевает по сравнению с моделью Тузова? Писать у него определяется как (Z1: !Им,Z2: !Вин,Z3: !Вопр\!Про\!обПред,Z4: !Дат\!Куда\!кДат,Z5: !наПред,Z6: !Тв). Видим 6 аргументов про всякие падежи, которые умеют сочетаться с этим словом. И слово "писать" рассматривается как функция, зависящая от 6 аргументов. Причем многие из них могут быть незаполнены.

Мы же с Морно считаем жизненно необходимыми только два (агенс и пациенс, именительный и винительный), остальные побоку. "Писать" становится функцией от двух непустых аргументов, выдающей некую структуру данных, а предлоги... Допустим, "на". В данном случае это будет функция, принимающая существительное Х в предложном падеже с семантикой такой, что на этом можно писать, и выдающая в ответ функцию, принимающую ту самую структуру данных "писать", и дописывающую к ней, что процесс этот происходит на Х. Это можно распространить и на морфемы. "-ой" - штука, берущая основу существительного и выдающая функцию, дописывающую инструмент действия. Это я про творительный падеж, если кто не понял. И очень многие морфемы можно оформить так же.

А вот проблемы с тем, как же нам парсить всевозможные союзы, штука сия все равно не решает. Но красиво же! Лямбды жгут!

А Сима тычет дулом вниз, разя его внезапно

Еще Фердинанд де Соссюр, вроде, говорил, что в языке нет ничего, кроме различий. Это я в умной книжке прочитал. А незадолго до того и сам придумал что-то похожее. Ибо когда-то давно писал я что-то про то, как определять семантику просто как множество того, на что это похоже по какому-нибудь признаку. А вот и другой способ: определять семантику слова через антоним. Что просто есть слово и его антоним. И критична для значения в данном контексте только эта пара. Тогда семантикой будет просто "первый член такой-то пары". Например, значение местоимения "он" может быть "Привалов Александр Иванович, мужской, русский и т.д.", может быть "шкаф", а может быть - "не "она"". Воть.

Tuesday, June 26, 2007

Гимн

Забил на оставшегося Лоренца и на мертворожденную филологическую герменевтику. И вернулся к художественной литературе. Ненадолго, правда. И только ради Айн Рэнд. Молодец она, все-таки. Такого "Атлант расправил плечи" написала! Но это было давно, а теперь вот нашелся и ее "Гимн". Небольшая такая повестушка, влезла в одну поездку на метро. Зато какая! Нет слов, одни эмоции. В общем, энергетика и вера в себя после нее укрепились очень сильно. Несколько странный эффект для антиутопии, но тем не менее. А смысл тот же, что и в "Атланте" - альтруизм - это хорошо, но возводить его в закон и совсем забывать о себе любимом не годится, от этого только плохо бывает. Вот. Как-то сухо и скучно получилось. Но я и не Айн Рэнд. На то и существует художественная литература, чтобы с помощью трехметрового текста доносить то же самое, причем на уровне глубокого осознания, а не просто понимания.

Thursday, June 21, 2007

Отчет

Итак, фенотип расширился, расширеннее некуда. Что я могу сказать? Ну да, читать обязательно. Вкратце теория расширенного фенотипа в моем понимании:
Есть репликаторы - это любые сущности, умеющие себя копировать каким-либо способом.
Репликатор считается успешным, если он жив. Лучше, если живо возможно больше его копий, так, чтобы если с кем-то что-то случится, остальные бы остались успешными.
Успешные репликаторы обычно кроме копирования прилагают и другие усилия к тому, чтобы оставаться успешными и далее. Точнее, они просто оказывают какие-то влияния на внешний мир, и так получается, что благодаря этим влияниям они выживают.
Влияния эти называются расширенными фенотипическими эффектами.
Например, довольно часто репликаторам выгодно объединяться в группы, которые выживают лучше одиночек. Так возникают клетки.
Чтобы сделать возможными сильные изменения фенотипов, и, как следствие, возможно, улучшить свою адаптацию, клетки могут образовывать сложные организмы, которые, тем не менее, развиваются из одной клетки-пропагулы, которая более чувствительна к изменениям, чем целый организм.
К расширенному фенотипу относится не только происходящее в организме-носителе генов-репликаторов, но и все, что хоть как-то влияет на него. Например, другие особи того же вида, симбионты, паразиты, хозяева и т.п.
Любая фича благоприятствует выживанию генов этой фичи, где бы они ни находились. Вот.

Tuesday, June 12, 2007

Делать глупости так весело

Я идиот. Убейте меня кто-нибудь. Так жить нельзя. Я сошел с ума. В руках авиабилеты в Воронеж на эти выходные...

Гонка вооружений

Несмотря на депрессию, читаю Докинза. Как и обещалось, жжот. Например, про гонку вооружений.

Есть, значить, два вида муравьев. Один живет себе и живет, как и все порядочные муравьи, в муравейнике, мирно воспитывает потомство, радуется жизни. А другой... Есть там царица, она прокрадывается каким-нибудь способом в мирный муравейник первого вида и подменяет собой их царицу. Соответственно, мирные муравьи, возможно, ничего и не подозревая, выращивают дальше потомство, которое к их генам не имеет никакого отношения.

И видим мы здесь пример проигранной гонки вооружений. Потому как эволюционными способами мирный вид не может сделать ничего для того, чтобы как-то изменить сию ситуацию. Потому что в генах захватчиков 100% поколений были успешны в том, чтобы захватывать. А в генах захватываемых 100% поколений с этим не сталкивались, и поэтому просто не приспособлены к тому, чтобы дать отпор. Даже если и возникнет случайная мутация, борящаяся против такой политики, у нее шансов немного. Во-первых, без употребления она не станет доминирующей в популяции, разве что случайно. А при употреблении... Ну выживет данный конкретный муравейник, ну и что? Может, даже уничтожит захватчиков. Он просто выживет, это не даст ему никаких других преимуществ перед другими муравейниками того же вида. Вот так и живем... Спасает только то, что такой захват - достаточно редкое событие, и выживает достаточно мирных муравьев, чтобы жить не тужа. Так вот и живут.

Thursday, June 7, 2007

Расширенный кентавр

Итого. На весьма радостной ноте закончился "Путь кентавра". Все, что было написано про эту книжку ранее, остается в силе, и сила эта только возрастает. В послесловии рецензент четко выразил мою мысль (правда, несколько по другому поводу): как жаль, что в детстве у меня не было этой книжки. "Горько сознавать, что все могло бы быть иначе" (ц).

Продолжаем тему эволюции, биологии, этологии и т.п. И продолжаем ее работой классика. Совсем недавно в Нете появился русский перевод (английский текст искать и читать лень и долго) книги Докинза Extended Phenotype. Вот он и настал мне. Полный. Только начал читать, а нравится уже очень и очень сильно. Все-таки правильный аффтар, жжот нипадеццки. О чем книшко, пока не очень ясно, пока что он только долго извинялся перед читателями и рассказывал, какой он плохой адвокат, а потом кончился заряд в покете. Вот. Но предчувствия у меня самые радужные. Побольше бы таких книг.

Tuesday, June 5, 2007

Эволюционный бред

"Демона Дарвина" я таки ниасилел. Не в моем вкусе. Авторы постоянно перескакивают между темами, пишут неясно... Может, это я такой тупой. Но в общем, не судьба.

А началась другая книжка, причем по той же теме. "Эволюция для всех, или Путь кентавра" Александра Гангнуса. Значительно понятнее и приятнее. Правда, этот креатив ушел в другую крайность: слишком просто. Что объясняется не менее просто: книга предназначена для читателей совершенно нежного возраста, школьников всяких. Был бы я таковым, заценил бы совсем. А так остается только заценять, как было бы прикольно, будь я школьником. Узнал бы про всю историю Земли и жизни на ней, и без большого количества умных слов, как в Еськове (который, кстати, тоже жжот). А получается просто приятное чтение, иногда даже какие-то новые факты узнаю.

Friday, June 1, 2007

Кот не работает

В продолжение темы. Даже не знаю, лучше или хуже стало, но поспокойнее точно, когда я осознал, что метаанализ нужен не только в переводе, а и в просто понимании тоже. Типа, нужно понять, например, что имелось на самом деле в виду в какой-нибудь прямой речи. Да и вообще, полезно.

Но пост сей совсем о другом. Известно, что знания бывают процедурными и декларативными. К первым тяготеет Тузов. Ко вторым - москвичи во главе с Леонтьевой. Саймон с Ньюэллом сумели их совмещать и изображать из себя JIT-компилятор, преобразуя часто используемые декларативные знания в процедурные. Я хочу пойти их стопами. И вот по этому поводу несколько философских мыслей.

Довольно-таки очевидно, что вообще граница между этими двумя видами знаний нечетка. Например, любой код является данными для своего интерпретатора. Текст на Яве - данные для парсера, машинный код - данные для процессора. Процессор - данные для законов физики. Про них неясно, но тоже не исключено, что это просто данные.

Интереснее обратное преобразование. Вот видим мы данные, даннее некуда. Таблицу какую-нибудь. Сейчас я попробую показать, что это тоже код. Для начала поймем, совершенно в духе квантовой механики, что сами по себе данные - это ничто, пока не придет наблюдатель и не сделает с ними что-нибудь. Прочитает, например. А может, даже, сделает выводы. Ну дык вот. В результате этого действия как минимум сам наблюдатель изменится. В памяти там останется след или еще что. Может, что-то еще произойдет. Например, данные возьмут и поменяются. Наблюдателем. По итогам наблюдения. Получается, что эти данные мы можем рассматривать как инструкцию алгоритма, приведшую к данному изменению системы. Точнее, ее действие будет эквивалентно результату соответствующего смешанного вычисления этих данных и имеющегося у нас кода. Вот мы и преобразовали данные в код. Другое дело, что нам может казаться неудобным считать все такие данные инструкциями, их получается слишком много и с ними сложно работать. Отсюда мораль - разница между кодом и данными - исключительно субъективна, в удобстве использования.

К чему бы все это? Да вот к размышлениям о том, как система может анализировать саму себя. Например, один уровень абстракции - анализировать другой. Это как человек устроен. Только вот у него далеко не все уровни являются наблюдаемыми, это начинается уже с довольно высокой ступени иерархии. Фиг проконтролируешь работу вегетативной нервной системы какой-нибудь. Ну и вот. Парсер, значит, должен уметь в какой-то момент понимать, что они с текстом только что натворили друг с другом, как преобразовали, и порефлектировать на эту тему. Сделать выводы. Возможно, перепарсить все нах. Грустно...

Гедель и К

Если воспринимать текст как алгоритм, оказывающий некое влияние на читателя, и изменяющий его в зависимости от его состояния, например, знаний, воспитания и предубеждений, то получается, что машинный перевод - это генерение текста на другом языке, который бы воздействовал на иноязычного читателя максимально похожим образом (совсем похожим вряд ли получится, ибо у того читателя изначально другая культура и другие предубеждения). Еще веселее, если нужно учитывать влияние текста на читателей нескольких типов. То есть, это даже не анализ текста, это анализ того, как и что именно текст делает. Эдакий метаанализ. По сему поводу могу только процитировать одну из совершенно замечательных Мифоложек:
"- Мама, - с неизъяснимой тоской сказал принц Датский, - Роди меня обратно."