Семантическая разметка

Поисковым системам известны десятки миллиардов веб-страниц. Эти страницы содержат самые разные данные: тексты, картинки, видеоролики, карты, ссылки на другие страницы. Когда вам нужно что-то отыскать в Сети, вы обращаетесь к поисковой системе, и она находит веб-страницы с нужной информацией, ориентируясь на ключевые слова из запроса.
Поисковики достаточно умны, чтобы понимать, на каком языке задан запрос; они умеют учитывать морфологию языка и подбирать словам из запроса синонимы. Однако в полной мере осознать, о чём именно идет речь на найденной веб-странице, машины не в состоянии.
Представьте, к примеру, сайт поликлиники с возможностью записи на приём к врачу через интернет. Среди всех страниц сайта поисковый робот без труда найдёт нужную — ту, где выполняется запись, — но дальше возникнут трудности. Человек легко догадается, что «Иванов», «Петров» и «Сидоров» — это фамилии врачей, «окулист», «невролог» и «терапевт» — их специализации, а «9:00», «9:30» и «10:00» — возможное время начала приёма. Компьютер же самостоятельно такие выводы сделать не может.
А если бы машина могла «читать» страницы так же, как это делает человек, она бы могла помочь в решении гораздо более сложных задач. Скажем, не просто «Записаться к врачу в поликлинику №2», а «Записаться к окулисту, о котором хорошо отзываются, в поликлинику не дальше чем в пяти километрах от моей работы, на 12-13 сентября, на утро, но не позже 11:00».
Впрочем, объяснить компьютеру, о чем идёт речь на веб-странице, вполне возможно. Для этого нужно дать ему подсказку.Такой подсказкой служит семантическая разметка или микроразметка. По сути, микроразметка — это отдельный язык с собственными словарём и синтаксисом, задача которого — помочь машинам (в частности, поисковым роботам) понять концепции, используемые людьми.
Микроразметка добавляется в HTML-код веб-страницы. В глазах человека размеченная и неразмеченная страницы выглядят абсолютно одинаково, но для поисковой системы разница очень велика.
Чтобы понять, как работает микроразметка, рассмотрим простую фразу: «У Петра есть сын Иван». Несмотря на простоту человек может сделать из неё множество выводов: Пётр — отец (а также родитель) Ивана, отчество Ивана — Петрович, Пётр и Иван — мужчины и родственники, Пётр старше Ивана. Все эти факты очевидны, поскольку нам их подсказывает жизненный опыт. У машины такого опыта нет, поэтому она может воспринимать фразу только в её текущей формулировке
Это — та же самая фраза, но с микроразметкой. Теперь компьютер понимает, что Иван и Пётр — это имена людей, между которыми существует родственная связь (Иван — ребёнок, Пётр — родитель), и ему не составит труда отвечать на вопросы вида «Кто родитель Ивана?». Кроме того, если добавить в разметку уникальные идентификаторы (например, ссылки на страницы в соцсетях), машина сможет отличать конкретных Ивана и Петра от их тёзок.
Микроразметка используется не только в случаях, когда речь идёт о людях. Аналогичным образом можно разметить и музыку, и видеозаписи, и события, и товары, и многое другое.
Единого стандарта микроразметки пока нет. Существуют разные синтаксисы и разные словари. Например, социальные сети собирают данные о сайтах с помощью словаря Open Graph, разработанного в Facebook, а поисковики, включая Яндекс, чаще ориентируются на словарь Schema.org. Подробнее о том, как устроены словари и синтаксисы, можно прочитать в техноблоге Яндекса на «Хабрахабре».
В том или ином виде микроразметку используют около 30% веб-страниц, известных Яндексу. Отсутствие микроразметки не влияет ни на способность страницы попадать в результаты поиска, ни на её позицию в результатах поисковой выдачи. Однако в ряде случаев разметка способна значительно упростить жизнь — как сайтам, так и пользователям.

Сделать наглядный сниппет

Одно из главных достоинств микроразметки состоит в том, что она даёт поисковику возможность строить красивые «сниппеты» — короткие описания сайтов. Например, вы играете на гитаре и ищете в Яндексе [аккорды группа крови]. Если вебмастер сайта, публикующего аккорды, добавил к себе на ресурс семантическую разметку, то вы сможете просмотреть текст песни с аккордами прямо на странице с результатами поиска.

Узнать подробности

Партнёры Яндекс.Видео используют семантическую разметку для того, чтобы сообщить сервису подробности о своих видеозаписях: например, кто играет в том или ином фильме, когда он был снят, каков его жанр и для какой аудитории он предназначен. С помощью этой информации сервис может точней отвечать на запросы пользователей, которые ищут, например [кино с Джеки Чаном], [мультики для самых маленьких] или [комедии шестидесятых].
Аналогичным способом пополняются базы и некоторых других сервисов Яндекса – например, Справочника.

Построить Веб 3.0

В 2001 году Тим Бернерс-Ли, автор концепции Всемирной паутины, предложил идею «семантического веба». Это своего рода надстройка над «обычным» вебом, цель которой — с помощью семантической разметки объяснить машинам, о чём идёт речь на любой странице в интернете. Обладая таким знанием, машины смогут решать куда более сложные задачи, чем сейчас, и лучше понимать людей. Правда, удастся ли воплотить эту идею в жизнь, пока никто не знает.