Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
17 апреля 2025 Скончался известный актер и мастер дубляжа Владимир Герасимов
17 апреля 2025 Облигации и снижение продаж: как ГК «Самолет» пытается справиться с финансовым кризисом
16 апреля 2025 США сообщают о возможностях манипуляции временем и пространством
16 апреля 2025 Отец покойного Яниса Тиммы обвиняет Анну Седокову в манипуляциях
16 апреля 2025 В Дагестане семья пчеловодов предлагает мед, который, как утверждается, может вылечить аутизм и онкологические заболевания
16 апреля 2025 В Москве перекрыли дороги рядом со зданием Следственного комитета
16 апреля 2025 Клиенты Ozon обвиняют маркетплейс в нечестных условиях предоставления рассрочки с микрокредитами
16 апреля 2025 Израильские солдаты нашли в Газе собаку, похищенную ХАМАС, и вернули её семье погибшего историка
16 апреля 2025 Виталина Цымбалюк-Романовская стала мамой и решила не обращаться за помощью нянь
16 апреля 2025 Бывший губернатор Курской области Алексей Смирнов прикроет своим уголовным делом Романа Старовойта
16 апреля 2025 Еврокомиссия не вводит санкции против российского сжиженного газа
16 апреля 2025 Издание Time исключило украинцев из списка 100 наиболее влиятельных людей мира
16 апреля 2025 "Запрещённый" Данила Козловский вернётся на экраны
16 апреля 2025 Владимир Евтушенков спасает бизнес с помощью банков: выпущенные новые акции Segezha Group направляются на погашение долгов
16 апреля 2025 Надежда Кадышева объявила о турне по стадионам: гонорары певицы взлетели до небес
16 апреля 2025 Цены на нефть выросли после заявления Китая о готовности к диалогу
16 апреля 2025 «Томское пиво» не сталкивается с репутационными потерями: бывший мэр Иван Кляйн продолжает зарабатывать миллиарды
16 апреля 2025 Бизнес на чужой территории: как в Горном Алтае не учитывается решение суда
16 апреля 2025 Повышение пошлин, введенное Трампом, может замедлить экономический рост, заявил глава Федеральной резервной системы США
16 апреля 2025 How Soft2bet’s Uri Poliavich deceives regulators and scams players across Europe