Как стать автором
Обновить

Эксперт проанализировал код рекомендательного алгоритма Twitter, опубликованный в открытом доступе на GitHub

Время на прочтение2 мин
Количество просмотров19K


Разработчик и специалист по управлению проектами Аакаш Гупта проанализировал код рекомендательного алгоритма Twitter, опубликованный в открытом доступе на GitHub.

Эксперт выяснил:

1. Лайки, ретвиты и реплаи дают неоднозначный буст (вероятность продвижения) к рейтингу публикации:

— каждый лайк х30 буст;
— каждый ретвит х20;
— каждый реплай х1.

2. Картинки и видео тоже дают буст х2.



3. Использование языка, как указано в профиле, помогает. Использование другого языка — нет. Если вы ориентируетесь на англоязычную аудиторию, то и язык профиля должен быть английским.

4. Ссылки вредят продвижению. Внешние ссылки помечаются как спам. То есть, если хотите что-то продвинуть, то лучше писать твит текстом, а в реплае к нему постить ссылку.



5. Каждый игнор, блокировка другим пользователем, анфоловинг, спам репорт и прочие жалобы снижают вероятность, что твит попадёт в рекомендации.



6. Покупная синяя галочка верификации значительно добавляет буст.



7. Любая дезинформация снижает буст. Классификация дезинформации (фейка) происходит отдельно на платформе.

8. Все профили группируются в «группы похожих». Вероятность, что конкретный твит будет показан вам гораздо больше, если твит написан кем-то из вашей «группы».



9. Публикации за пределами обычных тем пользователя вредят бусту. Если пользователь писал про IT, но потом начал публиковать твиты про свои блюда на кухне, то это уменьшает шанс буста.



10. Придумывать слова и писать с ошибками — плохо. Эти действия снижают вероятность продвижения твита.



11. Основные наборы данных для ранжирования в Twitter:

— вовлечённость (engagement) — лайки, ретвиты, реплаи;
— подписчики (Followers) — подписка/отписка, репорты;
— пользовательские данные (user data) — сколько фолловеров и граф подписчиков.



31 марта 2023 года Twitter опубликовала на GitHub часть своего исходного кода, включая код рекомендательного алгоритма. Компания выложила в открытый доступ два репозитория — main repo и ml repo.


Инструкция по работе с кодом рекомендательного алгоритма от инженеров Twitter. Там рассказывается о конвейере рекомендаций, который, как утверждается, выполняется примерно пять миллиардов раз в день.

«Мы пытаемся извлечь 1500 лучших твитов из пула сотен миллионов… Сегодня хронология ленты «Для вас» состоит в среднем из 50% (твитов от пользователей, на которых вы не подписаны) и 50% (твитов от пользователей, на которых вы подписаны). Хотя это может варьироваться от пользователя к пользователю», — уточнили в Twitter.

«Рейтинг твитов достигается с помощью нейронной сети с ~48 млн параметров, которая постоянно обучается взаимодействию с твитами, чтобы оптимизировать положительное взаимодействие, например, лайки, ретвиты и ответы», — рассказали инженеры соцсети.

Twitter попросила сообщество разработчиков изучить код алгоритма, создавать свои issue и pull request для улучшения и доработки этого проекта.

Разработчики пояснили, что текущий релиз алгоритма не включает в себя код, который приводит в действие рекомендации соцсети по рекламе. В открытых репозиториях также нет информации об обучающих данных для рекомендательного алгоритма.

Сторонние разработчики уже нашли в алгоритме несколько первоапрельских вставок.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+30
Комментарии14

Другие новости

Истории

Работа

Ближайшие события