Saturday, October 20, 2007

Теория юмора

Когда-то в детстве я прочитал "Мистер смех" Беляева про человека, который а) пропытался разобраться, почему мы смеемся, и б) плохо кончил. Первая часть меня заинтересовала. Чуть больше года назад на dirty была ссылка на исследование Мирослава Войнаровского "Алгоритм юмора". Почитал, оказалось интересно. Правдоподобно. Да и на парочку идей про языки навело. А несколько дней назад на том же dirty была ссылка уже на "Теорию юмора" Константина Глинки. Конечно, я не смог удержаться.

Автор изучил кучу литературы по этому вопросу (в том числе "Алгоритм Юмора"), которая типа не все объясняет, и попытался все это обобщить и свести в единую теорию, которая объясняет все, что предыдущие пытались, но не смогли. И вроде как даже у него это более-менее получилось. Функция у юмора получилась сугубо этологическая - поднять свой социальный статус. Посему юмор вне общества смешон намного реже, чем в оном.

В итоге автор вывел достаточно простую формулу, по которой можно посчитать, насколько сильно будешь смеяться от анекдота. Выглядит она как "ЭЮ = ЛС * С/Тр + ФН", где буквы означают соответственно Эффект Юмора, Личную Сопричастность, Сложность, Время (Т) решения, Фон Настроения. За подробностями в первоисточник, а я тут покритикую.

Во-первых, недоверие у меня к формулам, описывающим мыслительные процессы, в которых встречаются арифметические операции. Ну не работает моск так. Ну да ладно, видимо, таки моск не обязан все эти действия выполнять, а просто так получается. То есть, данная формула описывает просто некоторое эмпирическое соотношение, типа закона Ома. В таком случае хорошо бы понять, а почему же это так. Закон Ома, помнится мне, выводится из более низкоуровневых уравнений Максвелла. Тут тоже было бы неплохо что-нибудь из чего-нибудь вывести. Автор получил эту формулу исключительно умозрительным путем. Типа, "если у нас изначально хорошее настроение, то мы посмеемся, а вот в глубокой депрессии смешно нам не будет; ага, похоже на то, что надо прибавить Фон Настроения". И так вот про все.

Во-вторых, не очень ясно, что такое ЛС. Личная Сопричастность, да, я помню. Только вот в примерах предлагаются, например, такие ее значения (по убыванию, от +1 до -1):
Персонаж(и) анекдота имеют ко мне непосредственное отношение. (+1)
Активно недолюбливаю таких людей, или один из персонажей анекдота – мой герой.
Я хорошо понимаю поступки и мотивацию героев.
Герои анекдота мне безразличны. (0)
Не стоило так шутить о достойных людях.
Оскорбительный, кощунственный анекдот. (-1)

Мне кажется, или сопричастность здесть есть только при положительных значениях, а при отрицательных начинается какая-то эмоциональная оценка собственно анекдота, то есть, вотчина результирующего ЭЮ? Зато, по-моему, это весьма похоже на влияние на социальный ранг. И в примерах похоже: смеяться над Брежневым было модно и статусоповышательно, и поэтому ЛС высок, смеяться над Хоннекером эквипенисуально, а над слепой девушкой прикалываются только асоциальные элементы, и ЛС отрицателен.

Вопрос в том, какое же это именно влияние на ранг. Я могу придумать несколько вариантов. Во-первых, реальное или потенциальное (предвкушаемое). На то, чтобы представлять собой первое, претендует, собственно, ЭЮ (что не совсем похоже на правду). Во-вторых, ранг слушателя, рассказчика или жертвы. Эти три параметра не различаются никак. Точнее, два последних по идее связаны (обычно жертву унижают, за счет этого возвышая себя), а вот отличить слушателя от рассказчика не мешало бы. Хотя бы потому, что Тр (время решения загадки) в случае рассказчика подозрительно напоминает 0, на который делить не очень кошерно.

Кроме того, в процессе вывода формулы вместо С/Тр фигурировала величина УРЗ (Удовольствие от Разгадывания Загадки), имевшая знак. Даже была попытка показать, что при отрицательной ЛС и отрицательном УРЗ шутка оказывается все равно смешной. Лично я эту попытку понял достаточно слабо. А потом пропостулировалось, что УРЗ=С/Тр, и тем самым знаковость пропала.

Итого. Читать стоит, очень интересно и понятно, живой язык. Причем с немалым количеством юмора при изложении. Юмор этот немаркирован, поэтому воспринимается по чистой случайности (не включаются механизмы анализа по типу "сейчас будет смешно"), и не всегда понятно, специально так написано, или не очень. Например, долго ржал над тем, что если у читателя на каких-то примерах формула не сошлась, то "попытайтесь проанализировать, чем это вызвано: а) вы не уверены, что удалось произвести оценки объективно, б) вы действовали второпях или в) вами руководило подсознательное желание дискредитировать предлагаемую теорию".

И все равно мне непонятно, почему мне сегодня было очень смешно, когда мне по аське совершенно нерелевантно сообщили "я купила новые джинсы!"...

Tuesday, October 16, 2007

Теморема

Долгое время раздумывал я, что свободный порядок слов и интонация в русском языке даны не просто так, а для того, чтобы ими пользоваться. А именно, если человек поменял порядок слов на менее стандартный или выделил голосом какое-нибудь слово (о чем, кстати, в письменном тексте хрен догадаешься), то он, скорее всего, имел что-то в виду. Значит, при анализе надо эту метаинформацию подцепить и где-нибудь сохранить. Вот и думал я про всякие страшные схемы того, как в семантическом дереве к каждой ноде прицеплять число, насколько сильно автор ее выделил. И зело мне это не нравилось. И вообще, конкретные числа в программе - это зло. Кроме, конечно, 239 и 42.

Другая проблема. Во всяких там попсовых языках, которые все считают нужным учить, есть такая вещь, как артикль. Выражает она обычно, кроме грамматических категорий в виде родов, падежей и чисел, еще и семантическую, а именно, степень определенности. Ну все знают, артикли бывают определенные, а бывают неопределенные. Во всяких эсперантах бывают только определенные. А вот в куче других языков артиклей нет. В финском там или в русском, например. Тем не менее, указать на определенность обычно бывает полезно. По хорошему, любое "определенное" слово - это ссылка либо на другой участок текста (анафора), либо наружу, в реальный мир (дейксис). Самый очевидный вид ссылок - это местоимения, но для полного понимания текста нужно еще, оказывается, уметь найти референта огромного количества самых разных слов, в основном, существительных.

Посему русско-финские языки используют артиклезаменители. Как это устроено в финском, пока не знаю, а в русском эти средства называются туманным словом "контекст". Самый простой вариант, когда слово охарактеризовано как "этот" или "некий", тут все понятно. Только вот часто ли мы так говорим? Лично я - не очень. А если поразмыслить, то получится (по крайней мере, у меня получилось), что степень определенности выражается как раз порядком слов и логическими ударениями. И вот тут мозг начинает медленно распухать от того, что эти два и так не самых легкоопределимых параметра влияют на аж две такие важные вещи.

И тут наступает облегчение. Выясняется, что еще одна пара понятий, которые я уж года два как считал введенными филологами для своих личных гуманитарных целей, оказывается, имеет глубокий смысл и для меня, в этом конкретном контексте. Это тема и рема высказывания. Тема - это субъект, топик высказывания, то, что связывает его с предысторией, информация, уже известная получателю сообщения. Рема - то, зачем нужно высказывание, то, что оно добавляет к знаниям получателя, новая информация, некий факт-предикат про тему. Как правило, в известных мне языках тема предшествует реме. Как правило, рема в них же может выделяться интонационно. В "я еду завтра" тема - "я еду", а рема - "завтра". В "завтра я еду" тема - "завтра я", рема - "еду". "Завтра еду Я!", тема="завтра кто-то едет", рема="не кто-то, а таки я". В "я ЕДУ завтра" тема="я что-то там делаю завтра", а рема="еду, а вовсе даже не иду".

А еще в теме обычно как раз встречаются определенные артикли, они же ссылки, в реме же определяются новые объекты. Можно посравнивать "в комнату вошел старик", и "старик вошел в комнату" с разными интонациями, и понять, что в одних случаях мы ссылаемся на какого-то известного персонажа, называемого в основном "старик", в других - на него же, называемого как угодно, просто характеризуемого для разнообразия по одному из своих свойств, а иногда мы вводим в повествование нового героя, можно сказать, создаем объект, на который потом ссылаться будем. Опять же, комнату тоже можно рассматривать как тему и рему, да даже и "вошел" (хотя это уже посложнее).

Отсюда мораль: теморемовая структура должна быть очень сильно зашита в семантическое представление. И тогда не нужно изобретать произвольные числа, характеризующие степень логической ударенности и измененности порядка слов, да и артикли вполне успешно обработаются.

Воть, такая вот простая мысль. А сколько времени понадобилось для осознания...

Sunday, October 14, 2007

Rastlose Tage

Кончилось "Моральное животное" Райта. Совершенно замечательная вещь, приятная, безусловно, рекомендуется к прочтению. Иногда становится скучновато, когда поведение сапиенса исследуется на примере поведения одной конкретной низкоранговой низкопримативной особи из 19 века по имени Чарльз Дарвин, но тем не менее. К тому же теперь я про эту особь знаю сильно больше. Заставляет задуматься. Теперь довольно часто анализирую свое и чужое поведение, понимая чуть больше, почему оно именно такое. Иногда даже стал более терпим к чужим недостаткам. Воть.

"Голая обезьяна" Десмонда Морриса. Очень провокационная книга, по этологии, разумеется. Особенно для своего времени: вышла в 60х годах. Автор типа исследует поведение одного вида приматов, который он, по внешнему виду, назвал голой обезьяной. Шерсти-то нет, значит, голая. Идея хорошая, воплощение не очень. Много спорных утверждений, никак не подкрепленных, очень телеологичный стиль изложения всяких естественноотборных вещей. Последнее свойственно всем книгам на данную тему, но здесь оно выражено особенно сильно, мне не всегда удавалось перевести утверждения об адаптациях из "чтобы было А, понадобилось Б" в "случилось Б и выяснилось, что это увеличивает адаптацию, а потом случилось и А, и это увеличило адаптацию еще больше", или хотя бы "А не может без Б, поэтому, когда случилось А, каким-то образом (?) наступило и Б".

Иногда совсем какая-то фигня наблюдается. Типа, исследуем, какие животные больше нравятся голой обезьяне. Опрашиваем детей в зоопарках. И выясняется, что девочки очень любят лошадок, особенно находясь в возрасте порядка 10 лет, потом любовь идет на убыль. И аффтар начинает жечь: лошадки - это такие жывотные, на которых сидят, раздвинув ноги, и при этом во время скачки совершуют какие-то небольшие ритмичные телодвижения. Ну и, спрашивается, что? И при чем тут десятилетние девочки? Фрейдизм... Хорошо хоть автор сам обстебал другую мысль из той же серии, что мы не любим змей потому, что это ядовитые фаллические символы.

Эту книгу, кстати, читал Никонов перед написанием "Апгрейда обезьяны". В последнем очень много заимствований из "Голой обезьяны", иногда переходящих чуть ли не в копипейст. Еще тот же Райт в "Моральном животном" ее поминал как хорошую книгу для своего времени, только очень нестрогую. Собственно, ровно такое впечатление она у меня и оставила.

Дальше. Белоногов сотоварищи, "Компьютерная лингвистика и перспективные информационные технологии", 2004 год. Пока что самая интересная книга по данной теме из виденных мной. Ее идеи отличаются от ортодоксальных, и при этом похожи на мои. Сначала я вообще тихо фигел, читая свои собственные придуманные чуть ли не несколько дней назад мысли и думая, что, блин, как же полезно учить матчасть-то, оказывается. Потом понял, что все-таки авторы имели в виду чуть-чуть другое, хотя и все равно во многом совпадающее, а вычитываю я, как и любой читатель, не то, что написано, а то, что хочется вычитать, о чем думается в настоящее время.

А мысли-то очень простые. Пословный анализ с переводом - это зло, потому что слово без контекста далеко не всегда имеет хоть какой-то смысл. В моем понимании единицей текста надо считать коммуникативный фрагмент - нечто слабоопределимое, но зато правдоподобное. У Белоногова все намного определеннее, но, имхо, менее перспективно, поскольку менее общо: он считает единицами текста устойчивые словосочетания, даже с оговоркой, что у него это слово подразумевает значительно больше того, что так обычно называется. А может, наши понимания и совпадают, только пока что лично мне это неочевидно.

А в остальном - просто-таки полное согласие. Не нужно пытаться все сделать какими-то сложными алгоритмами, часто проще сделать простой алгоритм, работающий с большой базой паттернов и действующий по аналогии с уже известными вещами, в ней записанными. И морфологию, и синтаксис, и даже семантику можно вполне анализировать и синтезировать по аналогии. В книге даже приводятся описания, как именно это делать. Вот здесь опять начинаются расхождения: авторы слишком много знают про языки. Они у них и индоевропейские, и для поиска аналогии достаточно найти известные слова, кончающиеся так же... Либо это такое упрощение жизни, либо они знают какие-то лингвистические универсалии, которых не знаю я. Я бы искал (и буду искать! уже почти нашел) какие-нибудь общие подпоследовательности, и на их основе что-то думать...

Подход к предлогам тоже не мой. Предлоги в книге - это просто слова такие маленькие, которые как-то связывают слова большие и имеют определенные грамматические ограничения. Традиционный такой филологизм. Все жду