Sepulkarium

Saturday, December 22, 2007

Запруды

Ну вот как можно заниматься наукой в такой антисемитской обстановке? Вводная: нужно написать программу, которая бы делала из одних строк на произвольном языке другие по определенным правилам. Произвольный язык подразумевает под собой юникод, в частном случае хотя бы кириллицу.

Сначала, уже давно, выяснилось, что маковская консоль эту кириллицу, если и поддерживает, то для этого надо совершить какие-то магические пассы в большом количестве. Тем самым приходилось тестить камлевскую программу на каких-то нереальных нерусских абстрактных последовательностях символов. Потом программа подросла, возмужала, и захотелось ей скармиливать уже что-то более реальное. Скармливать-то оно скармливалось, только в консоли в ответ рисовало вопросики.

Пришлось пользоваться враждебным Эклипсом, под которым есть камль-плугин, который умеет в собственной эклипсовской консоли (с, о счастье, настраиваемой кодировкой!) писать output программы. Круто. После пары часов траха с эклипсом и настройки подхвата им стандартных и не очень (OUnit) библиотек, наконец, удалось скомпилить и запустить прогу из трех исходных файлов, и тут настал окончательный сокрушительный удар судьбы. Камль не поддерживает юникод. То есть, абсолютно. Символьный тип в нем занимает один байт. А моей проге по большому счету все равно, из чего состоят обрабатываемые ею последовательности, главное, чтобы это что-то членилось на составные части предсказуемым образом. А если в строке записаны символы из UTF-8 или еще чего похуже, то члениться она в абстрактной камлевой программе будет уже способом, несовместимым с общепризнанным.

Видимо, на камле надо ставить крест в данной конкретной задаче. Да, под него есть юникодовая библиотека, я ее даже поставил себе, даже попытался на нее все переделать, но теперь программа уже знает, что ей даются строки в UTF-8. И это не очень гармонирует с замыслом. Да и просто все это элементарно неудобно. Варианты камля, компилящиеся в .NET некузявы по причине того, что у меня мак. Вот.

Можно все писать на Scheme. Забавный язычок такой, интересно было бы с ним поэкспериментировать. Правда, IDE для него, хоть и сильно удобнее камлевого топлевела, все же смущает MDIшностью своего интерфейса. Еще я так до сих пор не до конца привык к динамической типизации. И, что самое главное, под имеющуюся у меня Схему нет большого количества библиотек общего назначения. В жизни вообще нужно не очень много утилит, но вот SortedSet и SortedMap были бы неплохи. Да и просто Set тоже... В чистом виде я их под Схему не нашел.

Библиотеки в избытке есть в JDK, но на Жаве я писать в принципе не хочу. Так что самый пока приемлемый вариант - это Scala. Надо будет поразбираться с эклипсовским ее плагином, пока идейский не дорос... Пока что не очень понял, как там тесты легко и просто писать, найденный мной пример легким и простым не назовешь никак. Ну и вообще, многословный язык, по сравнению с камлем, хаскелем или лиспом, хоть и сильно лучше жавы. Плохо все.

Monday, December 3, 2007

peter-mac:~ peter$

В субботу на НЛП-семинаре рассказывали нам про то, как работает система машинного перевода ПроМТ. Собственно, ничего особо неожиданного не случилось: для каждого направления перевода есть много-много заданных вручную правил, как переводить в данном направлении конкретные слова и словосочетания. Правила для последних чаще всего имеют вид шаблонов, то бишь, содержат переменные. В общем, ничего особо концептуального. Работать отлично это, видимо, не способно по определению, но можно добиться более-менее сносных результатов, что мы и имеем.

Процесс организован следующим образом. Сидит лингвист, смотрит на какой-нибудь неправильный промтовый перевод, размышляет. Придумывает новое правило, которое все разом возьмет и полечит. Идет к программисту, объясняет правило, программист это дело кодит. Далее есть 18М тестовых текстов (или текстовых тестов?), на которых прогоняются старый и новый варианты, и просматриваются отличия (hopefully их немного). Если отличия случились в плохую сторону, лингвист идет думать дальше, иначе изменения принимаются.

Если я все правильно понял, весело быть программистом в ПроМТе. Сидишь, никого не трогаешь, приходят к тебе красивые девушки и рассказывают про правила какого-нибудь экзотического языка. Кругозор, понимаешь, расширяют. Кайф!

Правила работают на словах и их сочетаниях, поэтому при вводе правил надо эти слова, что логично, вводить. Причем во всех словоформах. Получается, что надо вводить целое множество похожих слов (множество сие зовется парадигмой). Так вот, есть у них умная экспертная система, которой достаточно ввести какую-нибудь основную словоформу, и она с большой вероятностью правильно дозаполнит остальные. Что, конечно же, весьма облегчает работу по улучшению ПроМТа. Система экспертна, то бишь, насколько я помню из экзамена по специальности, представляет собой длинную последовательность правил вида if-then.

Расследование показало, что при добавлении какого-нибудь нового языка к системе подсаживается специально обученная группа экспертов, которые долго думают, а потом ее расширяют так, чтобы она нормально угадывала парадигмы и из этого языка. А именно, дописывают еще пару сотен правил. Возникает резонный вопрос - а нафига? Можно же сделать еще более умную систему, которая будет сама на основе примеров выводить те самые правила, которые сейчас в нее забиваются руками! Причем именно для данной задачи (вывод парадигмы) это, по идее, должно быть достаточно просто. И, по счастливому совпадению, это ровно та задача, про которую я туплю уже некоторое время. Так что вот, надо решать.

Thursday, November 22, 2007

Табличко

Мобильнотелефонные камеры - это зло, но самое главное видно.

Sunday, November 4, 2007

Минута на размышление

Нурали Латыпов, "Основы интеллектуального тренинга. Минута на размышление". Книга про то, как мы думаем, и как этот процесс можно улучшить. Предполагается, что прочитав эту книгу, человек, если не улучшит его, то, по крайней мере, поймет, как это надо делать. Основной метод очень прост, я с ним полностью согласен, и относится он вообще ко всему в этой жизни: чтобы научиться что-то делать, надо это делать. Чаще думайте, друзья мои, и будет вам счастье.

Только вот кроме этого все как-то достаточно туманно. Ну да, бывает ТРИЗ, синектика и ландаматика. Надо их всех освоить и применять. Искать, что же это такое, предлагается самому. Ну по ТРИЗу у меня некоторое количество книг понакачано. По слову "ландаматика" гугль выдает 5 результатов на русском языке, ничего концептуального. Синектики и то больше. Правда, вряд ли я все это изучу. Лениво как-то, с ТРИЗом пытался уже. Так и буду дальше мыслить по старинке, нетворчески...

Много наездов на российское образование, дескать, учит оно запоминать кучу сведений, а вот творчески их использовать не учит. И надо учить детей сразу творчеству. Дальше много текста, который вроде как призван описать, что же именно надо делать, только по прочтении в голове не остается вообще ничего. Интересно, камль способствует развитию творческого мышления?

Достаточное количество веселых баек из истории науки про всяких Эйнштейнов и прочих Резерфордов, как у них все было творчески. Некоторые байки взяты даже не из "Физики шутят", и я их даже раньше не знал. Спасибо автору.

Также спасибо за развеяние ложного ощущения, что я достаточно знаю про всякие экзотические искусственные языки. Оказалось, не все. Бывает язык Диал, по идее отражающие наиболее универсальные универсалии Универсума. Название происходит от слова "диалектика". Такое вот чудо создали в 80х в МИФИ, и с тех пор о нем никто не слышал. Ну, почти никто. Гугль вот крайне немного про него слышал. Зато в том же МИФИ есть УРА - Университет Русского Альтруизма. Виртуальный. В интернете выложены разные лекции по разным экзотическим курсам, вроде Теории Универсалий или этого самого диала. Попробовал почитать то и другое, как-то не пошло. Мозг успешно сопротивляется философским текстам. А жаль. Ведь если выучить диал, то, по мнению создателей, будешь изрекать исключительно творческие вещи.

Saturday, October 20, 2007

Теория юмора

Когда-то в детстве я прочитал "Мистер смех" Беляева про человека, который а) пропытался разобраться, почему мы смеемся, и б) плохо кончил. Первая часть меня заинтересовала. Чуть больше года назад на dirty была ссылка на исследование Мирослава Войнаровского "Алгоритм юмора". Почитал, оказалось интересно. Правдоподобно. Да и на парочку идей про языки навело. А несколько дней назад на том же dirty была ссылка уже на "Теорию юмора" Константина Глинки. Конечно, я не смог удержаться.

Автор изучил кучу литературы по этому вопросу (в том числе "Алгоритм Юмора"), которая типа не все объясняет, и попытался все это обобщить и свести в единую теорию, которая объясняет все, что предыдущие пытались, но не смогли. И вроде как даже у него это более-менее получилось. Функция у юмора получилась сугубо этологическая - поднять свой социальный статус. Посему юмор вне общества смешон намного реже, чем в оном.

В итоге автор вывел достаточно простую формулу, по которой можно посчитать, насколько сильно будешь смеяться от анекдота. Выглядит она как "ЭЮ = ЛС * С/Тр + ФН", где буквы означают соответственно Эффект Юмора, Личную Сопричастность, Сложность, Время (Т) решения, Фон Настроения. За подробностями в первоисточник, а я тут покритикую.

Во-первых, недоверие у меня к формулам, описывающим мыслительные процессы, в которых встречаются арифметические операции. Ну не работает моск так. Ну да ладно, видимо, таки моск не обязан все эти действия выполнять, а просто так получается. То есть, данная формула описывает просто некоторое эмпирическое соотношение, типа закона Ома. В таком случае хорошо бы понять, а почему же это так. Закон Ома, помнится мне, выводится из более низкоуровневых уравнений Максвелла. Тут тоже было бы неплохо что-нибудь из чего-нибудь вывести. Автор получил эту формулу исключительно умозрительным путем. Типа, "если у нас изначально хорошее настроение, то мы посмеемся, а вот в глубокой депрессии смешно нам не будет; ага, похоже на то, что надо прибавить Фон Настроения". И так вот про все.

Во-вторых, не очень ясно, что такое ЛС. Личная Сопричастность, да, я помню. Только вот в примерах предлагаются, например, такие ее значения (по убыванию, от +1 до -1):
Персонаж(и) анекдота имеют ко мне непосредственное отношение. (+1)
Активно недолюбливаю таких людей, или один из персонажей анекдота – мой герой.
Я хорошо понимаю поступки и мотивацию героев.
Герои анекдота мне безразличны. (0)
Не стоило так шутить о достойных людях.
Оскорбительный, кощунственный анекдот. (-1)

Мне кажется, или сопричастность здесть есть только при положительных значениях, а при отрицательных начинается какая-то эмоциональная оценка собственно анекдота, то есть, вотчина результирующего ЭЮ? Зато, по-моему, это весьма похоже на влияние на социальный ранг. И в примерах похоже: смеяться над Брежневым было модно и статусоповышательно, и поэтому ЛС высок, смеяться над Хоннекером эквипенисуально, а над слепой девушкой прикалываются только асоциальные элементы, и ЛС отрицателен.

Вопрос в том, какое же это именно влияние на ранг. Я могу придумать несколько вариантов. Во-первых, реальное или потенциальное (предвкушаемое). На то, чтобы представлять собой первое, претендует, собственно, ЭЮ (что не совсем похоже на правду). Во-вторых, ранг слушателя, рассказчика или жертвы. Эти три параметра не различаются никак. Точнее, два последних по идее связаны (обычно жертву унижают, за счет этого возвышая себя), а вот отличить слушателя от рассказчика не мешало бы. Хотя бы потому, что Тр (время решения загадки) в случае рассказчика подозрительно напоминает 0, на который делить не очень кошерно.

Кроме того, в процессе вывода формулы вместо С/Тр фигурировала величина УРЗ (Удовольствие от Разгадывания Загадки), имевшая знак. Даже была попытка показать, что при отрицательной ЛС и отрицательном УРЗ шутка оказывается все равно смешной. Лично я эту попытку понял достаточно слабо. А потом пропостулировалось, что УРЗ=С/Тр, и тем самым знаковость пропала.

Итого. Читать стоит, очень интересно и понятно, живой язык. Причем с немалым количеством юмора при изложении. Юмор этот немаркирован, поэтому воспринимается по чистой случайности (не включаются механизмы анализа по типу "сейчас будет смешно"), и не всегда понятно, специально так написано, или не очень. Например, долго ржал над тем, что если у читателя на каких-то примерах формула не сошлась, то "попытайтесь проанализировать, чем это вызвано: а) вы не уверены, что удалось произвести оценки объективно, б) вы действовали второпях или в) вами руководило подсознательное желание дискредитировать предлагаемую теорию".

И все равно мне непонятно, почему мне сегодня было очень смешно, когда мне по аське совершенно нерелевантно сообщили "я купила новые джинсы!"...

Tuesday, October 16, 2007

Теморема

Долгое время раздумывал я, что свободный порядок слов и интонация в русском языке даны не просто так, а для того, чтобы ими пользоваться. А именно, если человек поменял порядок слов на менее стандартный или выделил голосом какое-нибудь слово (о чем, кстати, в письменном тексте хрен догадаешься), то он, скорее всего, имел что-то в виду. Значит, при анализе надо эту метаинформацию подцепить и где-нибудь сохранить. Вот и думал я про всякие страшные схемы того, как в семантическом дереве к каждой ноде прицеплять число, насколько сильно автор ее выделил. И зело мне это не нравилось. И вообще, конкретные числа в программе - это зло. Кроме, конечно, 239 и 42.

Другая проблема. Во всяких там попсовых языках, которые все считают нужным учить, есть такая вещь, как артикль. Выражает она обычно, кроме грамматических категорий в виде родов, падежей и чисел, еще и семантическую, а именно, степень определенности. Ну все знают, артикли бывают определенные, а бывают неопределенные. Во всяких эсперантах бывают только определенные. А вот в куче других языков артиклей нет. В финском там или в русском, например. Тем не менее, указать на определенность обычно бывает полезно. По хорошему, любое "определенное" слово - это ссылка либо на другой участок текста (анафора), либо наружу, в реальный мир (дейксис). Самый очевидный вид ссылок - это местоимения, но для полного понимания текста нужно еще, оказывается, уметь найти референта огромного количества самых разных слов, в основном, существительных.

Посему русско-финские языки используют артиклезаменители. Как это устроено в финском, пока не знаю, а в русском эти средства называются туманным словом "контекст". Самый простой вариант, когда слово охарактеризовано как "этот" или "некий", тут все понятно. Только вот часто ли мы так говорим? Лично я - не очень. А если поразмыслить, то получится (по крайней мере, у меня получилось), что степень определенности выражается как раз порядком слов и логическими ударениями. И вот тут мозг начинает медленно распухать от того, что эти два и так не самых легкоопределимых параметра влияют на аж две такие важные вещи.

И тут наступает облегчение. Выясняется, что еще одна пара понятий, которые я уж года два как считал введенными филологами для своих личных гуманитарных целей, оказывается, имеет глубокий смысл и для меня, в этом конкретном контексте. Это тема и рема высказывания. Тема - это субъект, топик высказывания, то, что связывает его с предысторией, информация, уже известная получателю сообщения. Рема - то, зачем нужно высказывание, то, что оно добавляет к знаниям получателя, новая информация, некий факт-предикат про тему. Как правило, в известных мне языках тема предшествует реме. Как правило, рема в них же может выделяться интонационно. В "я еду завтра" тема - "я еду", а рема - "завтра". В "завтра я еду" тема - "завтра я", рема - "еду". "Завтра еду Я!", тема="завтра кто-то едет", рема="не кто-то, а таки я". В "я ЕДУ завтра" тема="я что-то там делаю завтра", а рема="еду, а вовсе даже не иду".

А еще в теме обычно как раз встречаются определенные артикли, они же ссылки, в реме же определяются новые объекты. Можно посравнивать "в комнату вошел старик", и "старик вошел в комнату" с разными интонациями, и понять, что в одних случаях мы ссылаемся на какого-то известного персонажа, называемого в основном "старик", в других - на него же, называемого как угодно, просто характеризуемого для разнообразия по одному из своих свойств, а иногда мы вводим в повествование нового героя, можно сказать, создаем объект, на который потом ссылаться будем. Опять же, комнату тоже можно рассматривать как тему и рему, да даже и "вошел" (хотя это уже посложнее).

Отсюда мораль: теморемовая структура должна быть очень сильно зашита в семантическое представление. И тогда не нужно изобретать произвольные числа, характеризующие степень логической ударенности и измененности порядка слов, да и артикли вполне успешно обработаются.

Воть, такая вот простая мысль. А сколько времени понадобилось для осознания...

Sunday, October 14, 2007

Rastlose Tage

Кончилось "Моральное животное" Райта. Совершенно замечательная вещь, приятная, безусловно, рекомендуется к прочтению. Иногда становится скучновато, когда поведение сапиенса исследуется на примере поведения одной конкретной низкоранговой низкопримативной особи из 19 века по имени Чарльз Дарвин, но тем не менее. К тому же теперь я про эту особь знаю сильно больше. Заставляет задуматься. Теперь довольно часто анализирую свое и чужое поведение, понимая чуть больше, почему оно именно такое. Иногда даже стал более терпим к чужим недостаткам. Воть.

"Голая обезьяна" Десмонда Морриса. Очень провокационная книга, по этологии, разумеется. Особенно для своего времени: вышла в 60х годах. Автор типа исследует поведение одного вида приматов, который он, по внешнему виду, назвал голой обезьяной. Шерсти-то нет, значит, голая. Идея хорошая, воплощение не очень. Много спорных утверждений, никак не подкрепленных, очень телеологичный стиль изложения всяких естественноотборных вещей. Последнее свойственно всем книгам на данную тему, но здесь оно выражено особенно сильно, мне не всегда удавалось перевести утверждения об адаптациях из "чтобы было А, понадобилось Б" в "случилось Б и выяснилось, что это увеличивает адаптацию, а потом случилось и А, и это увеличило адаптацию еще больше", или хотя бы "А не может без Б, поэтому, когда случилось А, каким-то образом (?) наступило и Б".

Иногда совсем какая-то фигня наблюдается. Типа, исследуем, какие животные больше нравятся голой обезьяне. Опрашиваем детей в зоопарках. И выясняется, что девочки очень любят лошадок, особенно находясь в возрасте порядка 10 лет, потом любовь идет на убыль. И аффтар начинает жечь: лошадки - это такие жывотные, на которых сидят, раздвинув ноги, и при этом во время скачки совершуют какие-то небольшие ритмичные телодвижения. Ну и, спрашивается, что? И при чем тут десятилетние девочки? Фрейдизм... Хорошо хоть автор сам обстебал другую мысль из той же серии, что мы не любим змей потому, что это ядовитые фаллические символы.

Эту книгу, кстати, читал Никонов перед написанием "Апгрейда обезьяны". В последнем очень много заимствований из "Голой обезьяны", иногда переходящих чуть ли не в копипейст. Еще тот же Райт в "Моральном животном" ее поминал как хорошую книгу для своего времени, только очень нестрогую. Собственно, ровно такое впечатление она у меня и оставила.

Дальше. Белоногов сотоварищи, "Компьютерная лингвистика и перспективные информационные технологии", 2004 год. Пока что самая интересная книга по данной теме из виденных мной. Ее идеи отличаются от ортодоксальных, и при этом похожи на мои. Сначала я вообще тихо фигел, читая свои собственные придуманные чуть ли не несколько дней назад мысли и думая, что, блин, как же полезно учить матчасть-то, оказывается. Потом понял, что все-таки авторы имели в виду чуть-чуть другое, хотя и все равно во многом совпадающее, а вычитываю я, как и любой читатель, не то, что написано, а то, что хочется вычитать, о чем думается в настоящее время.

А мысли-то очень простые. Пословный анализ с переводом - это зло, потому что слово без контекста далеко не всегда имеет хоть какой-то смысл. В моем понимании единицей текста надо считать коммуникативный фрагмент - нечто слабоопределимое, но зато правдоподобное. У Белоногова все намного определеннее, но, имхо, менее перспективно, поскольку менее общо: он считает единицами текста устойчивые словосочетания, даже с оговоркой, что у него это слово подразумевает значительно больше того, что так обычно называется. А может, наши понимания и совпадают, только пока что лично мне это неочевидно.

А в остальном - просто-таки полное согласие. Не нужно пытаться все сделать какими-то сложными алгоритмами, часто проще сделать простой алгоритм, работающий с большой базой паттернов и действующий по аналогии с уже известными вещами, в ней записанными. И морфологию, и синтаксис, и даже семантику можно вполне анализировать и синтезировать по аналогии. В книге даже приводятся описания, как именно это делать. Вот здесь опять начинаются расхождения: авторы слишком много знают про языки. Они у них и индоевропейские, и для поиска аналогии достаточно найти известные слова, кончающиеся так же... Либо это такое упрощение жизни, либо они знают какие-то лингвистические универсалии, которых не знаю я. Я бы искал (и буду искать! уже почти нашел) какие-нибудь общие подпоследовательности, и на их основе что-то думать...

Подход к предлогам тоже не мой. Предлоги в книге - это просто слова такие маленькие, которые как-то связывают слова большие и имеют определенные грамматические ограничения. Традиционный такой филологизм. Все жду