Итак, свершилось. Редактор под ником Iskandar323 - этот цифровой Робин Гуд, этот рыцарь клавиатуры, этот неутомимый строитель нарративов - получил бан. Арбитражный комитет Википедии, этот ареопаг добровольных всезнаек в майках с принтами и хроническим дефицитом социальных навыков, наконец-то соизволил обратить внимание на то, что его "Gang of 40" - сорок апостолов новой истины - скоординировали больше одного миллиона правок. Миллиона, Карл. Это не опечатка. Это не баг. Это фича.
Миллион правок. Для контекста: "Война и мир" Толстого - это примерно 580.000 слов. То есть эти ребята переписали историю Ближнего Востока объемом, примерно равным двум томам Толстого, только вместо Наташи Ростовой там ХАМАС, вместо Бородинского сражения - сионизм, а вместо эпилога - иранская ядерная программа в максимально выгодном свете.
Поаплодируем продуктивности.
Слишком мало, дружище. Катастрофически мало.
Бан одного аккаунта - это как лечить гангрену пластырем с принтом смайлика. Это как выловить одну акулу из Марианской впадины и объявить океан безопасным. Это - простите за грубость - интеллектуальная мастурбация комитета, который хочет сказать миру: "Видите? Мы работаем. Мы бдим. Все под контролем."
Под контролем. Ага. Конечно.
Вот что на самом деле произошло за те годы, пока "Gang of 40" трудилась не покладая рук над статьями о ХАМАСе, Иране и ближневосточном конфликте: эти нарративы просочились в поисковую выдачу Google, которая вот уже двадцать лет скармливает первый результат первой страницы миллиардам людей как абсолютную истину. Просочились в обучающие датасеты языковых моделей - GPT, Gemini, Claude, всего этого зоопарка искусственных интеллектов, которые теперь уверенно и с академической интонацией воспроизводят то, что когда-то написал аноним с ником Iskandar323 в три часа ночи.
Добро пожаловать в эпоху, где анонимный редактор в своей спальне формирует то, что завтра скажет вам нейросеть.
Анатомия трупа: как умирает энциклопедия
Вики́педия - это был красивый эксперимент. Серьезно. "Давайте соберем все знание человечества и отдадим его людям бесплатно" - звучит как утопия в духе хиппи-коммуны, где все делятся и никто не врет.
Проблема в том, что люди врут. Особенно когда им за это не платят - потому что тогда это уже не ложь, это убеждение. А убеждения, как известно, никогда не подлежат проверке самими убежденными.
Структурная уязвимость Википедии была заложена архитектурно: система основана на принципе "кто больше правит - тот и прав". Это не метафора. Это буквально механика платформы. Побеждает не тот, кто знает больше, а тот, кто не спит и имеет достаточно аккаунтов. "Gang of 40" просто прочитала документацию внимательнее остальных.
Академические исследования фиксируют эту патологию давно. Исследование 2021 года в журнале PLOS ONE показало: статьи Википедии на политически чувствительные темы демонстрируют систематические смещения в зависимости от языковой версии и активности редакторских групп. Английская Википедия, которую принято считать нейтральным эталоном, в действительности отражает смещения преимущественно западной, образованной, молодой, мужской аудитории. Это называется красивым термином "системная предвзятость". В быту - это называется иначе.
Google: двадцать лет торговли чужой ложью
Отдельная история - это Google и его священный алгоритм "первого результата". Компания, рыночная капитализация которой составляет около 2 триллионов долларов, построила значительную часть своего информационного авторитета на том, что ставила Википедию первой в выдаче. Причем делала это сознательно, системно, на протяжении двух десятилетий.
Логика была понятна: Википедия - это быстрый, бесплатный, внешне нейтральный ответ почти на любой вопрос. Google получал удобный контент для Featured Snippets - тех самых вставок с ответами прямо на странице поиска, которые отучили людей кликать дальше и думать самостоятельно.
Красивый симбиоз. Паразит и хозяин менялись ролями в зависимости от угла зрения.
Теперь выясняется, что часть этого контента формировалась скоординированными группами с конкретными нарративными задачами. И Google исправно индексировал, ранжировал, подсвечивал и скармливал это миллиардам запросов ежедневно.
Усыпите его, говорю я вам. Немедленно.
ИИ и Wikipedia: считаем стоимость лоботомии
А теперь - самое смешное. Или самое страшное, в зависимости от вашего отношения к апокалипсису.
Все крупные языковые модели обучены на данных, в которые входила Википедия. Она составляла, по разным оценкам, от 1 до 3% токенов в обучающих корпусах, однако с существенным upweighting - то есть ее вес искусственно повышался как якобы надежного источника. GPT-3, GPT-4, Llama, Gemini, Grok - все они, в той или иной мере, впитали Iskandar323 вместе с Шекспиром и научными статьями.
Хотите переучить? Вот вам ценник:
Полное переобучение с нуля - от 3 до 6 месяцев на кластере из 10.000-100.000 GPU класса H100. Стоимость одного такого цикла для модели уровня Grok-3 оценивается в сотни миллионов долларов. Это не бюджет стартапа - это бюджет небольшой страны на образование.
Методы unlearning - целевого "забывания" - существуют: LoRA, градиентные методы, различные техники постобучения. Они могут приблизительно вычистить нежелательный контент за от нескольких дней до 2-3 недель при несравнимо меньших затратах вычислений. Но честные инженеры признают: это не 100% очистка. Это скорее химчистка, а не стерилизация. Пятно становится менее заметным, но ткань помнит.
На практике крупные лаборатории не делают полных очисток. Они просто используют более чистые датасеты в следующих версиях. Что это означает? Что все уже выпущенные модели несут в себе отпечаток миллиона правок Iskandar323. И будут нести его еще очень долго - пока их не заменят следующими версиями, которые тоже не будут идеальными, но хотя бы будут несколько более честно кривыми.
Читайте также
Эпилог для тех, кто еще читает некрологи
Что мы имеем в итоге?
Энциклопедию, которая позиционировала себя как "нейтральное знание человечества", но оказалась ровно тем, чем всегда является любой текст - позицией конкретных людей с конкретными интересами. Поисковик, который двадцать лет продавал эту позицию как факт. Языковые модели, которые теперь воспроизводят ее с уверенностью оракула.
Бан одного аккаунта - это жест. Красивый, своевременный, абсолютно бессодержательный жест. Гниль в системе не лечится точечными хирургическими вмешательствами. Система гнилая целиком - ее архитектура, ее стимулы, ее претензия на объективность при принципиальной невозможности таковой.
Джимми Уэйлс, основатель Википедии, любит рассказывать историю о том, как однажды его подтолкнула к созданию энциклопедии идея Просвещения - распространение знания. Красивая история. Очень красивая.
Просвещение тоже, кстати, имело своих Iskandar323. Просто они писали не анонимно - они подписывались собственными именами. Что, по большому счету, не сильно меняло природу происходящего.
Мы всегда жили в мире, который кто-то переписывал.
Теперь мы просто видим логи правок.