Tuesday, September 25, 2007

Гаааваряаат, мы юкси-какси...

После вчерашнего долгого выяснения, кто такой Kaarle Kustaa, и потом вдумчивого чтения соответствующих заметок в Википедии на финском, эстонском, испанском и идо, подумалось, что Википедия - это ж замечательное место для изучения языка. Статьи есть на разных языках, при этом в них рассказывается примерно одно и то же. Надо только подобрать статью так, чтобы на знакомом языке было написан не меньше, чем на незнакомом. И все, билингвистическое изучение рулит. А иначе хрен найдешь на финском что-нибудь с дословным переводом на русский. Самое близкое, что я видел - это Калевала такая в Петрозаводске продавалась. Но она не дословная была...

И вообще, нужна правильная программа для обучения языку. Которая бы сначала показывала б тебе какой-нибудь текст на иностранном языке, в котором немногие незнакомые слова выводились бы из контекста, либо в крайнем случае подсказывались системой, а потом бы она просила перевести какие-нибудь простые выражения с русского на другой. И вообще, нужно показывать как можно больше выражений на другом языке, просто чтобы человек запомнил основные паттерны. А то образование финского генитива запоминанием и применением правил, имхо, хрен выучишь. А эти "как можно больше выражений" система должна создавать сама из слов, которые человек уже типа знает, иногда вводя новые. Потом, прося перевести с русского, система должна контролировать знания и соответственно менять то, что требуется, приспосабливаться к нуждам. Паттерны в идеале берутся из должным образом проанализированного корпуса текстов. Потом в эти паттеры подставляются известные слова на место тех, что были в оригинале в корпусе. И система должна бы еще бы и понять, в каких случаях можно подставлять, а в каких - нет. Чтобы получилось выражение, валидное с точки зрения носителя языка.

Семантика... Тоже нужна, да. Быть может, она действительно описывается каким-то формальным языком, типа даже Тузовского, только этим текст не исчерпывается. Мы же помним, что для перевода нужно как-то формализовать эффект, который текст производит на читателя, причем даже на разных читателей с разным бэкграундом. А эффект производит не только и не столько семантика, а и какие-то знакомые словосочетания, напоминающие о каком-нибудь Пушкине, или глубокая мораль текста ("всему свое место" в случае сказки про курочку Рябу). Так что при анализе нужно в качестве промежуточного представления иметь даже не язык, описывающий семантику, а некий набор инструкций, которые, будучи примененными к человеку, произведут тот же эффект, что и текст. Инструкции от "вспомнить про Пушкина" до "подумать, что всему свое место" через "создать объект Джизус и сделать так, чтобы он послушал, что некто я (надо бы зарезолвить) не сильно в восторге от происходящего". Сие есть инвариант текста. А потом надо изобресть текст на таргетном языке с тем же эффектом. Короче, ничего нового.

2 comments:

Anton Nazarov said...

Чем не концепция для стартапа? :)
Берем, пишем такую софтину, а лучше сервис с аяксом и продаемся гуглу :)

Peter Gromov said...

Именно для стартапа, да. В смысле, что с такого можно начать работу с языком в имхо правильном направлении. Сам про такое думал. Только ведь блин все равно как-то глобально получается, сложно слишком. Надо выделить что-нибудь еще проще. Ну либо придумать, как семантику описывать.

А продаться гуглу - отказать. Фиг им. Они ведь, небось, все засекретить захотят, да еще и указывать будут, что делать. Оба пункта мну не устраивают категорически.