Компьютерная программа разоблачила мистификацию Джоан Роулинг

Компьютер подтвердил догадки о настоящем авторе криминального романа

22 августа 2013 в 12:34, просмотров: 6189

Уникальную программу разработал Патрик Джуола из Университета Дюкесна (США). Она учитывает миллионы различных параметров стиля, определяя степень вероятности того, кто из писателей, упомянутых в заданном списке, написал анализируемый текст. Но прежде он получил электронку от журналиста лондонской «Санди таймс» с просьбой помочь в решении одной загадки. Репортёру намекнули на то, что криминальный роман The Cuckoo’s Calling за авторством некоего Роберта Гэлбрейта в действительности написала Джоан Роулинг (создательница образа Гарри Потера).

Компьютерная программа разоблачила мистификацию Джоан Роулинг
фото: en.wikipedia.org
Джоан Роулинг на катании яиц перед Белым домом в США (фото: Daniel Ogren/wikipedia.org).

Издатели утверждали, что Гэлбрейт служил в Королевской военной полиции и писал, опираясь на свою собственную жизнь и рассказы коллег. Тем не менее намёк имел смысл: литературный агент и редактор у Роулинг и Гэлбрейта были одними и теми же, к тому же работа выглядела слишком зрелой для начинающего беллетриста. Вдобавок Гэлбрейт, проведший значительную часть жизни в униформе, оказался на удивление хорошим знатоком женского гардероба. Но всё это были только догадки, требовались веские доказательства. И журналист хотел знать, можно ли их получить с помощью компьютерной программы.

Программа JGAAP (Java Graphical Authorship Attibution Program) осуществляет математический анализ громадного количества нюансов, которые человек просто не в состоянии охватить. Например, Мостеллер и Уоллес за три года учли только около тридцати слов, а детище г-на Джуолы — словарный запас нескольких энциклопедий целиком.

Предстояло выбрать, что именно сравнивать в текстах Роулинг и Гэлбрейта. Джуола остановился на четырёх группах признаков, который, как было показано предшествовавшими исследованиями, могут оказаться особенно полезными. Важно, что они в некоторой степени зависели друг от друга, то есть появлялась возможность перекрёстной проверки. Одной из переменных, например, стало распределение длины слов: в каждом романе масса слов, в каждом слове некоторое количество букв, и можно посчитать, сколько слов той или иной длины.

Другой признак — распределение сотни наиболее общеупотребительных слов, то есть какой процент от общего количества слов приходится на the, of и т. п. Двумя оставшимися показателями стали тесты на авторский тезаурус. Первый был посвящён частоте употребления определённых сочетаний четырёх символов (с учётом пробелов) внутри одного слова (например, nsid, как в inside) или в двух стоящих рядом словах (например, n th, как в in the). Второй касался частоты употребления двух слов в одной связке (речь идёт о сочетаниях типа «слов в», «в одной», «одной связке») — ещё один показатель, который хорошо себя зарекомендовал в подобных исследованиях. Проблема такого подхода в том, что при анализе нескольких тысяч характеристик трудно выделить некоторые из них и сказать: вот как пишет Роулинг. «Стилометрия — она, как спорт: всё решают доли секунды и миллиметры», — подчёркивает Джуола.

Учёный и журналист выбрали для анализа роман Роулинг «Случайная вакансия» (The Casual Vacancy) и три других произведения в жанре «женского детектива»: «Общество Св. Зиты» (The St. Zita Society) Рут Ренделл, «Женщина со шрамом» (The Private Patient) Филлис Дороти Джеймс и «Тугая струна» (The Wire in the Blood) Вэл Макдермид. Только стиль Роулинг постоянно совпадал со стилем Гэлбрейта. Например, Макдермид пользуется похожими связками двух слов, но у неё совершенно иное распределение длинных и коротких слов.

Итак, все авторы, кроме Роулинг, провалили хотя бы один тест, причём кандидатура Рут Ренделл отпала самым категорическим образом. Дальнейшее было делом статистического анализа. Гипотетический автор должен быть в равной мере близок к Джеймс и Макдермид или далёк от Ренделл в той же степени, что и Роулинг. Иными словами, если мы возьмём какого-нибудь случайного писателя и сравним его стиль со стилем Гэлбрейта, то будет 50-процентная вероятность того, что у них совпадут результаты одного из четырёх вышеприведённых тестов. Следовательно, только у одного из 16 случайно выбранных литераторов (6,25%) результаты всех тестов совпадут с показателями Гэлбрейта. Выходит, стиль Роулинг имел не так уж много шансов случайно совпасть с манерой отставника.

Но это еще не доказывает авторства Роулинг. Даже анализ ДНК доказал бы только то, что здесь замешан некто, имеющий схожие с Роулинг гены, а стилометрия ещё менее надёжна, чем анализ ДНК. ДНК не изменяется в течение жизни, а если бы литература не менялась, мы сравнивали бы сейчас два абсолютно идентичных произведения. Проще говоря, Джуола пришёл к выводу, что автором «Кукушки» была либо Роулинг, либо кто-то другой с похожим стилем. Но журналисту этого было достаточно. «Санди таймс» связалась с её агентом, и 13 июля Роулинг призналась, что это действительно её роман. Она просто хотела, чтобы литературные способности автора «Гарри Поттера» оценили беспристрастно.

«Данная технология — палка о двух концах, — подводит итог Джуола. — Если Роулинг действительно можно разоблачить с помощью компьютерных расчётов, что будет с теми, кто хотел бы остаться неизвестным? Сумеет ли он скрыться от всевидящего ока современного Шерлока Холмса? Пока да. Тайну Роулинг раскрыл не мой компьютер и не газетчики, а тот человек, который шепнул журналисту и тем самым подсказал, в каком направлении двигаться». 

Источники: scientificamerican.com и computerra.ru.



Партнеры