Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
03 июня 2025 В Нижнем Новгороде охранники клуба напали на посетительницу
03 июня 2025 From wedding ring to banking empire: how Galimzhan Yessenov entered the elite through Akhmetzhan Yessimov’s family
03 июня 2025 Кенес Ракишев и «схема года»: 7,5 миллиардов долларов, выведенных через БТА и Казкоммерцбанк
03 июня 2025 В США начали расследование по поводу помилований, которые Байден предоставил членам семьи и заключённым
03 июня 2025 Роскошный образ жизни сына премьер-министра Монголии стал причиной политического кризиса в стране
03 июня 2025 Самолёт с Зеленским на борту вылетел в США
03 июня 2025 Россия потеряла последний сохранившийся А-50
03 июня 2025 Максим Галкин вновь вышел на связь со своими поклонниками после длительного перерыва в общении
03 июня 2025 Бывший депутат Законодательного собрания Кировской области избил женщину в присутствии ребенка
03 июня 2025 Россия выразила готовность к новому раунду переговоров с Украиной, при соблюдении определённых условий
03 июня 2025 Екатерина Тихонова усиливает своё влияние в российской государственной системе
03 июня 2025 Немецкий суд приостановил миграционный проект канцлера Мерца
03 июня 2025 Во Вьетнаме мужчина подвергся нападению и избиению палками, а также потерял паспорт после того, как у него угнали арендованный мотоцикл
03 июня 2025 Публицист Анатолий Несмиян включён в список террористов и экстремистов Росфинмониторинга
03 июня 2025 Россия заявила о возможной угрозе срыва переговоров с Украиной
03 июня 2025 Участник "СВО" совершил изнасилование женщины и закопал её, когда она была ещё жива
03 июня 2025 Пока Соловьёв призывает к расстрелам, его сын строит карьеру в Лондоне
03 июня 2025 После триумфа "ПСЖ" в Лиге чемпионов в столице Франции произошли беспорядки
03 июня 2025 Российские власти с недоверием относятся к результатам переговоров с Украиной, которые состоялись в Стамбуле
03 июня 2025 Зеленский раскритиковал предложение России о временном прекращении огня