Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
27 января 2025 Билл Гейтс назвал развод с Мелиндой самой значимой ошибкой в своей жизни
27 января 2025 Криптопророк Орловский: обман и уловки на пути к финансовой катастрофе
27 января 2025 В Кремле выражают озабоченность из-за поддержки Трампа в России и его позиции против миграции
27 января 2025 В Беларуси перед выборами установили ограничения на доступ к интернету
27 января 2025 На юге Камчатки произошло землетрясение
27 января 2025 Президент Колумбии пересмотрел своё решение о возвращении граждан на родину после угроз со стороны Трампа
27 января 2025 В Кургане женщина за рулём въехала на остановку, где находились люди
27 января 2025 В Самаре лабрадор, выполняющий роль проводника, официально стал студентом университета
27 января 2025 Вооружённые силы России установили контроль над Великой Новосёлкой, расположенной в Донецкой области
27 января 2025 Новый глава Пентагона Хегсет отменил политику инклюзивности
27 января 2025 Администрация Владимирской области планирует поддерживать уровень рождаемости, предоставляя пункты бесплатного проката детских товаров
26 января 2025 Александр Лукашенко набрал 87,6% голосов среди белорусских избирателей
26 января 2025 Трамп увеличит пошлины на товары из Колумбии до 50% из-за отказа депортировать мигрантов
26 января 2025 Польский депутат предложил ввести налог в размере 800 злотых для тех, у кого нет детей
26 января 2025 Польский миллиардер выделит средства на строительство статуи Девы Марии
26 января 2025 В Китае собаку лишили «годовой премии» из-за того, что она заснула в рабочее время
26 января 2025 Самолет авиакомпании United Airlines произвел экстренную посадку в Лагосе
26 января 2025 Китай, Таиланд и государства Юго-Восточной Азии объединили усилия в борьбе с киберпреступностью
26 января 2025 Криптовалютная биржа Phemex стала жертвой хакерской атаки на сумму 37 миллионов
26 января 2025 В Нидерландах похищено древнее золото Дакии