Как устроены Яндекс.Новости

Этот материал был опубликован в феврале 2014 года и описывает сервис таким, каким он был по состоянию на то время. Как Яндекс.Новости работают сейчас — читайте здесь.
Яндекс.Новости — крупнейший в рунете агрегатор новостных сообщений. Каждый день этот сервис получает материалы от нескольких тысяч СМИ и автоматически формирует из них новостную картину дня. Это очень сложная задача: нужно структурировать огромное количество информации, выделить самое важное и предоставить результат читателям в понятном виде.
Главная и определяющая особенность Яндекс.Новостей — отсутствие человеческого вмешательства. У нас нет редакторов и модераторов. Мы не пишем собственных материалов, у нас нет «редакционной политики» и своей точки зрения. Мы не СМИ. Все новости мы получаем от партнёров. Их материалы Новости не публикуют у себя целиком, а используют только фрагменты сообщений и заголовки. На сегодняшний день у Яндекс.Новостей около 6000 партнёров. В среднем они выпускают более 110 тысяч сообщений в будний день.
Всё, что вы видите на страницах Яндекс.Новостей, — это результат работы алгоритмов. Они должны показать читателю полную и беспристрастную картину дня, сложить её из тысяч новостных сообщений. Яндекс.Новости являются входной точкой в медиапространство. Их задача — донести до вас всё, о чём пишут СМИ, говорят по радио и по телевизору. Что читать и где — вы решаете сами.
Для удобства читателей алгоритмы Яндекс.Новостей объединяют сообщения разных СМИ об одном и том же событии в сюжеты. За каждым заголовком на главной странице Новостей находится сюжет. Кроме собственно сообщений сюжет содержит дополнительную информацию: карта места события, фото- и видеоматериалы, интервью и статьи по теме, список упомянутых людей и организаций, а также ссылки по теме. Таким образом, на странице сюжета вы можете быстро понять, что произошло, где это произошло, и как новость освещают разные СМИ.
Сообщения объединяются в сюжет с помощью алгоритма кластеризации. Сначала робот Новостей анализирует все сообщения от партнёров и выделяет в них ключевые слова и факты с помощью разработанной в Яндексе технологии извлечения фактов. Затем он сравнивает выделенное и группирует сообщения по сюжетам. После того как сообщения сюжета отобраны, их необходимо отранжировать, и это самый интересный этап работы.
Даже человеку сложно решить, какая из десятков, а иногда и сотен новостей об одном и том же событии интереснее и полнее. Что говорить о компьютере. Чтобы формализовать этот выбор, робот Яндекс.Новостей рассчитывает «вес» сообщения на основе трёх критериев:
  • цитируемость (сколько ссылок на это сообщение в других сообщениях сюжета, без учёта ссылок в аффилированных СМИ и самоцитирования),
  • свежесть (время публикации сообщения по сравнению с другими источниками),
  • информативность (наполненность сообщения ключевыми фактами сюжета).
Почему критерии именно такие? Мы ориентируемся на ожидания читателей: информация должна быть актуальной, полной и достоверной. Актуальность и полноту робот измерить может, а с достоверностью помогает цитируемость. Этот параметр сродни индексу цитирования в научном мире. Он говорит о том, насколько сообщениям этого СМИ доверяют другие издания.
Из фрагментов трёх лучших по этим критериям сообщений формируется краткое описание сюжета (аннотация). Фрагменты сообщений в аннотации должны содержать основные факты: даты и числа, названия объектов и организаций, имена людей, часто цитируемые высказывания. Как правило, фрагменты подбираются таким образом, чтобы дополнять друг друга и дать читателю как можно более полную картину произошедшего.
По тому же принципу выбирается заголовок сюжета. Прочитав его, вы должны сразу понять, о чём речь, поэтому он должен наиболее полно отражать актуальную фактическую сторону сюжета и не содержать лишних слов.
Под аннотацией в сюжете расположены другие сообщения СМИ о событии. Из всех сообщений робот выбирает наиболее цитируемые и ранжирует их по свежести. Остальные новости в виде хронологической ленты можно увидеть по ссылке в конце списка новостей. Приблизительно каждые 20 минут в сюжет добавляются свежие новости.
Кроме параметров самого сообщения при ранжировании учитывается ещё один фактор — вес источника, то есть СМИ, опубликовавшего новость. Он зависит от двух показателей. Это цитируемость — количество ссылок на источник в сообщениях других СМИ за последние два месяца — и оперативность — показатель того, насколько быстро источник реагирует на то или иное событие. Эти показатели автоматически пересчитываются раз в неделю. К примеру, 20 февраля 2014 года — на момент публикации этого текста — первая двадцатка СМИ по весу выглядела так (в алфавитном порядке): Агентство спортивных новостей «Р-Спорт», «Ведомости», «Газета.Ru», «Известия», «Интерфакс», ИТАР-ТАСС, «Коммерсант», «Комсомольская правда», НТВ, ПРАЙМ, РБК, РИА Новости, «Росбалт», «Российская газета», «Спорт-Экспресс», телеканал «Дождь», «Чемпионат.com», «Эхо Москвы», Lenta.ru, REGNUM.
Вес СМИ играет незначительную роль при ранжировании сообщений. Он помогает нам в другом — ранжировать сюжеты. Как внутри сюжетов выбираются основные сообщения, так и внутри Яндекс.Новостей выбираются основные сюжеты. Вес источника помогает роботу оценить важность события. Если о каком-то событии пишут многие СМИ с большим весом, оно с высокой вероятностью важнее того события, о котором пишут менее весомые издания. Из этих важных событий и складывается новостная картина дня.

Как отбираются новости для главной страницы Яндекса?

На главной странице Яндекса должны оказаться самые важные события — такие, которые попали на главные страницы авторитетных СМИ. Поэтому при выборе новостей для главной страницы учитывается много разных параметров: количество сообщений об этом событии, вес пишущих о нём источников, плотность потока сообщений в единицу времени, а также позиция новости на сайте источника. Таким образом, на главную страницу Яндекса с большей вероятностью попадут события, о которых много пишут и которые попали на главные страницы авторитетных СМИ.

Почему в топе слишком много негативных новостей?

Яндекс.Новости собирают и структурируют информацию автоматически, они являются зеркалом медиасреды. Другими словами, мы лишь отражаем то, о чём пишут СМИ.

Почему в Яндекс.Новостях появляются опечатки?

Мы не вмешиваемся в работу алгоритмов. Все сообщения наших партнёров попадают в Яндекс.Новости в том виде, в каком они были переданы. Мы не исправляем опечатки вручную, а информируем источник об ошибке.