Російські боти навчають ChatGPT ненавидіти нас
03.07.2025

як мережа "Правда" заливає 3,6 мільйона проросійських статей у навчальні дані ШІ
Коли у березні NewsGuard опублікували своє дослідження, багато хто подумав: “Ну ось, чергова конспірологія про російських хакерів”. Тільки ось цифри виявилися реальними, а масштаб – приголомшливим.
3,6 мільйона статей за один рік. Всі з одним завданням: потрапити в навчальні дані західних ШІ-систем. Не для того, щоб хтось їх читав – сайти мережі “Правда” відвідує менше тисячі людей на місяць. Для того, щоб ChatGPT, Claude та інші “розумні” помічники всмоктали цю отруту разом з іншою інформацією.
Джон Марк Дуган і його відверті зізнання
Американець, який втік до Москви та став пропагандистом, минулого січня виступав перед російськими чиновниками. Дуган не приховував планів: “Поширюючи ці російські наративи з російської перспективи, ми можемо фактично змінити світовий ШІ”. Додав ще: “Це не інструмент, якого треба боятися, це інструмент, який можна використовувати”.
Коли дослідники NewsGuard перевірили його слова на практиці, виявилося: так, можна. 33% відповідей десяти найпопулярніших чатботів містили російські дезінформаційні наративи. Кожна третя відповідь.
У нас, представників ЛГБТІК+ спільноти, є особливі причини для занепокоєння. ШІ-системи і без російського втручання демонструють упередження проти маргіналізованих груп. А тепер уявіть, що станеться, коли ці системи додатково “навчать” кремлівськими уявленнями про “традиційні цінності” та “західну деградацію”.
LLM grooming: нова реальність інформаційних воєн
Американський проєкт Sunlight придумав термін “LLM grooming” – маніпуляція великими мовними моделями. Звучить технічно, але суть проста: зловмисники заповнюють інтернет мільйонами текстів, написаних не для людей, а для алгоритмів.
Мережа “Правда” (іронія назви очевидна) працює як гігантська фабрика копіпасти. Той самий матеріал з російських держЗМІ перепубліковується через 150 доменів у 49 країнах. Сайти виглядають жахливо – немає пошуку, навігація ламається, переклади кривобокі. Але веб-краулери цього не помічають. Вони бачать множинність джерел та роблять висновок про достовірність.
Чому саме ми під загрозою
Дослідження показують: ШІ-системи найму можуть відкидати резюме людей з “неправильними” іменами. Системи розпізнавання голосу не розуміють небінарних займенників. Алгоритми таргетованої реклами виключають ЛГБТІК+ людей з маркетингових кампаній.
Кевін МакКі з Google DeepMind пояснює проблему: квір-спільноти історично виключалися з досліджень алгоритмічної справедливості. Сексуальна орієнтація та гендерна ідентичність – це те, що не можна “побачити” в даних. А що не вимірюється, то не враховується при розробці систем.
Генеративні ШІ навчаються на тому, що знаходять в інтернеті. Якщо цей інтернет штучно заповнений російською пропагандою про “неприродність” квір-ідентичностей, здогадайтеся, що почнуть відтворювати ці системи.
Французи першими помітили проблему
Viginum – французьке агентство з моніторингу дезінформації – ще в лютому 2024-го ідентифікувало мережу “Правда”. Виявилося, що її адмініструє TigerWeb, ІТ-компанія з окупованого Криму. Власник – Євген Шевченко, веб-розробник, який раніше працював на російську окупаційну адміністрацію.
Дані SimilarWeb підтверджують: сайти мережі практично не мають живого трафіку. Зате Finnish Check First знайшла майже 2000 гіперпосилань на сайти “Правди” у Вікіпедії 44 мовами. Контент просочується скрізь.
Технічна механіка отруєння
Уявіть пральню грошей, тільки для ідей. Один кремлівський наратив потрапляє до Russian Today або іншого держЗМІ. Далі його автоматично перекладають десятками мов та розміщують на сотнях доменів з назвами типу News-Kiev.ru чи Kherson-News.ru.
Для ШІ-алгоритмів це виглядає як множинні незалежні джерела, що підтверджують один факт. Система робить логічний висновок: якщо про щось пишуть багато різних сайтів, значить, це правда.
За три роки мережа поширила щонайменше 207 фальшивих наративів. Серед них – класика російської пропаганди про американські біолабораторії в Україні та розтрату Президентом Зеленським військової допомоги.
Глобальні наслідки та відповідь Заходу
Талсі Габбард, директор національної розвідки США, попереджала: російські впливи “майже напевно зростатимуть у складності та обсязі”. Водночас адміністрація Трампа закрила Глобальний центр взаємодії Держдепу та розпустила відповідну робочу групу FBI.
Ілон Маск назвав боротьбу з дезінформацією “цензурою”. Республіканці у Конгресі підтримали цю позицію. Тож тепер, коли загроза стала реальністю, захисників майже не лишилося.
Що робити нам
Експерти пропонують кілька стратегій. ШІ-компанії мають очищати навчальні дані та уникати відомих джерел дезінформації. Законодавці – вимагати прозорості та маркування ШІ-контенту. Суспільство – вчитися інформаційній грамотності.
Але для нашої спільноти є специфічні рекомендації. МакКі наголошує: потрібно більше ЛГБТІК+ людей у розробці ШІ. “Присутність квір-дослідників може допомогти командам поставити під сумнів початкове припущення, що гендер є бінарним та фіксованим, а не плинним та спектральним”.
Також критично важливо ставити скептичні питання до ШІ-відповідей на теми, що стосуються нашої спільноти. Якщо чатбот дає дивну інформацію про ЛГБТІК+ права чи історію, перевіряйте через незалежні джерела.
Майбутнє вже тут
Дослідження Mozilla 2023 року показало: “Масштаб погіршує набори даних, посилюючи упередження та спричиняючи реальну шкоду”. The New York Times повідомляв: “В руках анонімних користувачів інтернету ШІ-інструменти можуть створювати безліч матеріалів для цькування та расистських матеріалів”.
У травні 2023-го дипфейк-відео Байдена в жіночому одязі (з антитранс підтекстом) стало вірусним в Instagram та TikTok. У лютому того ж року поширювалося фальшиве відео, де Байден робив трансфобні заяви.
Це лише початок. Якщо не зупинити отруєння ШІ-систем зараз, незабаром дискримінація проти нас може стати вбудованою в саму архітектуру цифрового світу.
Новини