atomlib 23 апр в 15:06

В словарном запасе ChatGPT усмотрели влияние обучавших его африканцев

4 мин

Машинное обучение*Научно-популярноеИскусственный интеллектИзучение языковNatural Language Processing*

В последние два года в научных статьях значительно чаще употребляется слово «delve». Это слово называют одним из маркеров письма ChatGPT. Как считает автор издания Guardian, любовь ИИ к «delve» — это следствие попадания в данные дообучения модели нигерийского диалекта английского языка.

В конце марта Джереми Нгуен у себя в микроблоге обратил внимание на статистические закономерности научных публикаций. Нгуен выложил график, на котором по годам отложена частота употребления слова «delve» в статьях. Данные собраны из поисковика по биомедицинским исследованиям PubMed.

JeremyNguyenPhD

OpenAI открыла ChatGPT для всех желающих 30 ноября 2022 года. Рост популярности был резким: уже в январе 2023 сервис достиг 100 млн пользователей с активностью хотя был раз в месяц. На графике Нгуена заметен почти пятикратный всплеск употребления слова «delve» в 2023 году относительно 2022. Микроблогер затем уверенно заявил, что якобы все знают, что ChatGPT слишком часто употребляет это слово. На основе этого Нгуен поднял вопрос, а не пишут ли медицинские исследования с помощью больших языковых моделей (БЯМ).

Сомневающиеся комментаторы попросили Нгуена предоставить свидетельства любви ChatGPT к «delve». Джереми отвечал, что это его личные эмпирические наблюдения.

pshapira.net

Рост частоты употребления слова «delve» подтвердил Филип Шапира, но поиском по каталогу научных статей OpenAlex. Шапира лишь проводил статистический анализ, причин популярности слова он назвать не смог.

Не впервые письмо ChatGPT предлагают выявлять по словам-паразитам. Блог AI Phrase Finder приводит список из десяти английских слов, которые БЯМ обожает вставлять в свои ответы, и объяснения их популярности. Блог утверждает, что для составления списка были проанализированы 50 тыс. ответов ChatGPT. В промптах бота просили написать более тысячи статей длиной около 500 слов.

Explore — исследовать, изучать, разведывать, пробовать. Как считают авторы блога, это показатель, что в датасете обучения ChatGPT было слишком много сайтов с сочинениями.
Captivate — завораживать, очаровывать, пленять, увлекать. Это сильный глагол, которым БЯМ пользуется без чувства меры, считает AI Phrase Finder.
Tapestry — гобелен, узорчатая ткань. Блог объясняет, что это слово чрезмерно часто встречается не в прямом значении, а в эпитетах. К примеру, в предложении «We will guide you through the rich tapestry of Japanese culture» богатство японской культуры образно сравнивается с расшитым полотном.
Leverage — использовать что-то или кого-то с выгодой для себя, торговать с плечом; рычаг, усилие рычага, средство для достижения цели, торговля с плечом. Это слово из деловой лексики. Автора AI Phrase Finder раздражает употребление этого слова вне делового контекста.
Embrace — обнимать(ся), положительно принимать что-либо, воспользоваться чем-либо, постигать, охватывать; объятия. AI Phrase Finder утверждает, что позитивный настрой выравнивания ChatGPT приводит к переизбытку «embrace» в любых текстах.
Resonate — резонировать, вызывать одобрение, вызывать эмоции или воспоминания. Автор списка говорит, что это слово помогает ChatGPT набить в ответы нужное число слов и глубину рассказа.
Dynamic — динамический, подвижный, активный. Это слово-паразит характерно и для людей, считает AI Phrase Finder, поэтому уникального в данном случае мало.
Testament — завет, свидетельство, доказательство, завещание. «Testament» встречается в официозных речах. Блог AI Phrase Finder считает, что если попросить ChatGPT использовать неформальный тон, слово из ответа БЯМ уйдёт.
Delve — углубляться, вникать, исследовать, копаться; пустота, впадина, копание. Часто подчёркивает желание говорящего глубоко погрузиться в тематику.
Elevate — поднимать, возвышать, повышать, облагораживать, совершенствовать. По данным AI Phrase Finder, иногда встречается более одного раза в одном ответе.

Впрочем, AI Phrase Finder не приводит ни научную статью или хотя бы её препринт, ни промпты, датасеты или временные рамки исследования, ни даже имена авторов, оставаясь лишь анонимным блогом WordPress на отдельном домене. На сайте собраны похожие списки для идиом, глаголов, наречий, существительных и прилагательных.

Объяснение популярности «delve» приводит Алекс Херн [Alex Hern] для издания Guardian. Он предлагает считать высокую частоту некоторых слов не ещё одной непостижимой загадкой, а известными особенностями обучения с подкреплением.

Приложения по типу ChatGPT получаются на основе нескольких этапов. Сначала проводят предобучение на большом объёме текстовых данных. Полученная «сырая» БЯМ умеет предсказывать следующее слово в тексте, но имеет слабую практическую ценность. Чтобы превратить её в услужливого чат-бота, необходимо провести дообучение с подкреплением на основе отзывов людей. Это означает, что много тестировщиков будут задавать вопросы, предоставлять инструкции и давать обратную связь.

Датасеты для предобучения фактически бесплатны. Текст со всего веба можно собрать самостоятельно; также организация Common Crawl выложила для всех желающих архив текстовых данных всемирной паутины. А вот для дообучения нужны наёмные сотрудники, труд которых нужно оплачивать.

Для сокращения издержек компании выводят работу по модерации контента на аутсорс в развивающиеся страны. Иногда жалобы от этих сотрудников просачиваются в западную прессу. OpenAI — не исключение: в прошлом году на раннее увольнение, низкую зарплату и стресс от чтения текстов про изнасилования пожаловался житель Найроби, столицы Кении.

Херн поясняет, что частота употребления «delve» выраженно высока в деловом стиле английского языка, характерного для Нигерии. Как считает автор гипотезы, модель ChatGPT подхватила словечко из данных дообучения и в итоге общается как африканец.

Предположение Херна не имеет чёткого подтверждения. GPT-3 и более новые БЯМ компании OpenAI проприетарны, нет даже данных о процессе обучения и источниках датасетов. Однако в любви нигерийцев к слову «delve» сомневаться не приходится.

К примеру, американский предприниматель Пол Грэм рассказал про случай, когда на почту ему пришло письмо холодной рассылки с предложением сотрудничества. Грэм обратил внимание на употребление слова «delve» в письме, что посчитал признаком использования ChatGPT.

Характерно, что на твит Грэма особенно негативно отреагировали именно нигерийцы. В нескольких случаях (1, 2, 3) они писали, что это базовое слово, которым многие из них пользуются с детства и которое встречается в нигерийских газетах.

Теги:

Хабы:

Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку

В словарном запасе ChatGPT усмотрели влияние обучавших его африканцев

Другие новости

Истории

Работа

Ближайшие события