Дописовий: Only new DivX movies to download online
Гаразд, можливо, не армія, але полк – це точно. Зі своїми ротами, відділеннями й взводами.
Властиво, автор і раніше знав, що тих роботів Яндекс має кілька видів, але що їх стільки – ні. Але от нещодавно, в зв’язку із дослідженням фільтрів Яндексу, вирішив переглянути, як накладання таких фільтрів позначається на індексації й, відповідно, на роботі пошукових роботів, і побачив, що різновидів тих роботів таки чимало. Отже, в цьому дописі, автор спробує підсумувати свої висліди щодо типології роботів, а їхню поведінку на ділянках (як під фільтрами так і в індексі) прокоментуємо окремо.
У цій роботі, мабуть, це також буде цікаво, автор використовував причепу (plugin) Восап (Wossup), який здатен показувати не лише відвідування користувачів, але й роботів, і більше того – показувати з якого вузла заходить робот, що часто залишають без уваги, зважаючи лише на рядок індетифікатор робота в параметрі User-Agent, що не дає повної інформації.
Окрім того, автор переглянув подійники (логи, log) служника. Звичайно, “неозброєним оком” то зробити складно, тому автор для пошуку заходів роботів по подійниках використовував иншу чудову й безплатну програму – PSPad. Рекомендую.
Тепер по темі.
Насамперед, слід згадати, що сам Яндекс описує своїх роботів (в тому числі, наводить ідентифікаційні рядки для параметра User-Agent) в підрозділі Как в логах сервера представляется робот і суміжних підрозділах. Хоча це мабуть найповніше й найавторитетніше джерело з цього питання, тут сказано не все.
Отже, по-перше, робота роботів-індексаторів. Цих роботів в Яндексу аби не сотня, принаймні, робот з вузла spider74.yandex.ru на одну з авторових ділянок заходить. Всі вони мають однаковий ідентифікаційний рядок “Yandex/1.01.001 (compatible; Win16; I)”, втім це не зовсім однакові роботи.
Так, більшість із них працює з вузлів із назвати на кшталт “spider??.yandex.ru”, але є принаймні три роботи, які працюють з инших вузлів:
- turbospider.yandex.ru (77.88.22.224) – це, здається, так званий быстроробот
- quicktest00.yandex.ru (95.108.142.154)
- htest01.yandex.ru (95.108.142.150)
Причому, ці два останніх, складається враження, мають якийсь стосунок до накладання фільтру. Який саме – автор ще спробує з’ясувати.
Більше того, номенклатура роботів, як показує гілка Yandex/1.01.001 Spiders, Crawlers and web robots, насправді набагато ширша. Що вони роблять, з’ясувати поки що не вдається також. (Яндекс – це взагалі велика загадка: далеко не завжди можна зрозуміти, що то в нього – чергова “фіча” (можливість) чи “глюк”. Така думка звучить рефреном по всіх форумах. Але повернімося назад, до наших “баранів”-роботів.)
Далі йде відділення зображеннєвих роботів – вони призбирують зображення для відповідного типу пошуку. Їхній ідентифікаційний рядок “Yandex/1.01.001 (compatible; Win16; P)” (де “P”, треба так розуміти, picture – зображення). Таких роботів під два десятка, наскільки може судити автор з того, що назва вузла одного з них slovo15.yandex.ru. Прикметно також, що тим вузлам Яндекс дав якісь такі назви – від противного, мабуть.
Потім іде робот призбирувач favicon – невеличких іконок для ділянок, які Яндекс відображає в своїй пошуковій видачі. Його ідентифікаційний рядок “Yandex/1.02.000 (compatible; Win16; F)”, а назва вузла доволі незграбна ysbackup4.yandex.ru.
Окремо є спеціяльні роботи для додачі й, мабуть, перевірки сторінок, що додаються через форму «Добавить URL». Таких роботів, наскільки може судити автор три:
- pray.yandex.ru (77.88.18.195)
- maelstrom.yandex.ru (77.88.59.131)
- charm.yandex.ru (77.88.59.133)
Їхній ідентифікаційний рядок “Yandex/1.03.003 (compatible; Win16; D)”.
Нарешті, є ще й мультимедійні роботи Yandex/1.01.001 (compatible; Win16; m), Yandex/1.03.000 (compatible; Win16; M), роботи для рекламної мережі Яндексу YaDirectBot/1.0 (compatible; Win16; I), в кількости НМСД п'ять штук (від nastenka01d.yandex.ru до nastenka05d.yandex.ru), робот пошуку по коментарях у плотах (блогах) YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot), і нарешті, роботи навідувачі Yandex/2.01.000 (compatible; Win16; Dyatel; ?), що перевіряють доступність ресурсів для певних сервісів Яндексу. Свого часу був також такий собі YandexSomething, але нині він, здається, “у відставці”.
Як бачите, чимало – таки справжній полк. Але, мабуть, є ще одна обставина, яка додатково заплутує ситуяцію. А саме, декотрі сторонні роботи, що не належать до мережі Яндексу, також називаються його іменем, мабуть, щоби трохи полегшити собі життя. Принаймні, в результаті недовгого знайомства зі своїми подійниками, автор знайшов трьох таких самозванців – їх можна розпізнати через зворотній запит до DNS.
Це те, що авторові відомо про предмет наразі. Чи можете ви, шановний відвідувач, прояснити щось додатково? Пишіть, будьласка в коментарі.
Доречні дописи:
Мысли вслух // Mar 15, 2010 at 09:08
Цікавий матеріал. У Google роботів напевно ще більше.
admin // Mar 21, 2010 at 04:47
Можливо, але вони якісь невиразні назви вузлів мають. Наприклад, crawl-66-249-71-225.googlebot.com – на що тут зрозумієш? Та й індексація в Гугла передбачуваніша.
Яндекс, або феномен кацапізму | Дохід у Мереживі // Apr 9, 2011 at 04:07
[...] з прикладами того, що потрапляє в видачу Яндекса, досліджуючи “роботу” того пошуковця, читаючи нарікання й просто [...]