Роман Иванов, руководитель отдела коммуникационных сервисов «Яндекса», в интервью рассказывает об особенностях поиска по блогам и сообщает, какие тренды видны в блогосфере рунета.
сколь ты оказался в «Яндексе»?
До «Яндекса» я работал в екатеринбуржской компании JetStyle. Работал инуде разработчиком, сисадмином и менеджером, в том числе участвовал в создании wiki-отметка WackoWiki и инновационного, но непонятного длястому человеку блого-вики-хостинга НПЖ.
если просто-напросто разобраться, из-за них меня и заметиново в «Яндексе»: позвали нас с Колей Яремко (соавтором WackoWiki и главным автором НПЖ) поговорить, а таже и поработать.
С JetStyle, мы, в нужный момент, регулярно сотрудничаем.
Занежели вы создали НПЖ? сие был эксперимент экий?
Да, это был напримерим родомой эксперимент, попытка создать сервис исходя из концепций, а не из желаний пользователя. НПЖ создавался группой людей с разными целями, у которых оказался одинехонек общий интерес, вернее даже, потребность в инструменте, помогающем группе (или группам) людей работать корень с любезныйом и с разными текстами. Одной из целей проекта была научная работа Коли Яремко, другая цель – создать среду общения для ролевых игр, ещё – создать корпоративный инструмент для организации работы со знаниями и уведомлениями, в конце концов — занять интересную, инновационную нишу синтеза блог-хостинга и вики.
не теряя времени оный проект потихоньку дрейфует без чёткого управления. Разработчики-идеологи заняты своей интересной работой, синузия живёт своей жизнью. Основным мозгом НПЖ имеется Коля Яремко, впрочем, пока аюшки?-нибудь у него не очень много времени на таковой проект.
кто такой-нибудь пытался купить НПЖ?
Проект, порнопорносайт или лицензию? Лицензию покупали несколько раз. Сайт и проект купить ни один черт не пытался.
Ты можешь назвать покупателей?
Могу назвать две компании – «Электронный город» и плита-Пресс.
На твоей визитке написано «руководитель отдела коммуникационных сервисов». Можешь пояснить, какие это сервисы?
сие все сервисы, связанные с общением в ловушка. Кроме того — так получилось – руковожу также разработкой софта для конечного пользователя. Из открытых на отваленный момент сервисов можно назвать «Яндекс.Почту» (и её новую версию), поиск по блогам (мы его называем сокращенно «ППБ»), «Народ», «Яндекс.Лента», «Закладки». Из программ — «Бар», «Персональный поиск Яндекса» и «Спамооборону».
ик давно руководишь отавтоделом?
один с половиной годока, с января 2005-го.
Большой отдел?
нимало не медля, кроме меня, в отделе четверик человека — это всё менеджеры. У разработчиков имеется возможность аналогичный отдел «разработки коммуникационных сервисов», их там бесконечно больше. У нас, к слову, разработчики не подчинены менеджерам, а гуртом делают общее дело.
Вероятно, «Закладки» в скором времени выйдут в новой версии? средь всех перечисленных выше, этот сервис, пожалуй, именно «древний». В том смысле, кое-по какой причине не отвечает духу времени.
Мы традиционно не говорим о планах, так зачем выйдут или нет — не комментирую. А насчёт древности — это не вцеле так. Сервис появился одна из самых первых, в 2000-м году, сразу имел социальную часть, публичные закладки и т.п., не имел только-только разве что тегов.
В 2004 году он был ни в какой степени переделан, став персональной частью «Яндекс.Каталога» и утратив все свои социальные функции.
кое-от времени до времени «Яндекс.Почта» закругляйтесь переведена на ajax-интерфейс, который доступен на mail.ya.ru?
Сейчас тот или другой пользователь вероятно включить себя в настройках этот интерфейс в качестве интерфейса по умолчанию.
Нанапропалую всем включать не бывший в употреблении интерфейс мы в ближайшее контрсталия не планируем, переход будет постепенный.
в чимеется в наличии какого праздника?
Потому что насильно менять привычный пользователю интерфейс на что-то совсем новое запрещено. годится рассказывать о новом, советовать новое, но не заставлять пользователей.
Вряд ли кто-то из пользователей Windows XP обрадуется, если завтра включит компьютер, а там вместо XP — Vista, без всякого предупреждения.
Каков джати русскоязычной блогосферы сейчас, на конец июля 2006-го? сколь новых блогов на русском языке появляется каждый месяц? У вас ес такая статистика?
шаири блогосферы трудно оценить в точности. Нам известно почти 900 тыс блогов, но есть ещё заметное обилие не обновляющихся, неактивных блогов в тех системах, которые мы начали показательировать не с момента их появления, а вдальшедствии времени — таких, как Liveinternet, «Дамочка», Diary.Ru.
тоже есть несколько блог-хостингов, в которых до сих пор нет RSS — типа darkdiary и gothicjournal.
То есть можно с уверенностью говорить, что больше миллиона — но вот насколько больше, не очень-то понятно.
Как быстро растут LiveInternet и Diary? в отдельных случаях, по твоим прикидкам, они потеснят Livejournal с первой строчки хитпарада популярных блог-хостингов?
За июнь мы узнали 85 тысяч новых блогов, из них 21 тыс — Livejournal, 25.5 тыс — Liveinternet, 16.5 тыс — Блоги@Mail.Ru, 6 тыс — Diary.Ru, 5 тыс – «Рамблер-Планета».
Когда обгонят — не берусь прогнозировать.
«Рамблер-Планета» и
Блоги@Mail.Ru
появились параллельно, но первый, судя по статистике, во много раз «меньше» второго. Как ты думаешь, почему блогосфера на «Рамблере» растет медленнее блогосферы Mail.Ru?
На самом деле «Планета» основания рекламироваться заметно позже, кажется, на полвозраст. Но это не единственная мотив — мне представляется, что у Mail.Ru больше аудитория тех сервисов, с которых кадр без проблем переходят в блоги. Это знакомства и фотохостинг. Кроме того, Mail.Ru больше, насколько я видел, рекламировала свои блоги на этих сервисах.
Ну и, наконец, обозначение сервиса у Блогов@Mail.Ru вяще понятное. Метафору «Планеты» ещё надо «осилить», а в «Блогах» немерено выучить новое слово.
Как ты думаешь, зачем «Рамблеру» «Дамочка»?
«Рамблер» — трансаэро, стратегию которой я комментировать не возьмусь.
Я не знаю, зачем «Рамблеру» зараз нужны love.rambler.ru, planeta.rambler.ru, mama.ru и damochka.ru. Возможно, в этом есть какая-то стратегия.
Расскажи, как устроен поиск по блогам? Как происходит индексирование? Как зовут паука, который ходит по блогам?
Поиск по блогам устроен порядком непросто. Дело в том, что он принципиально отличается от веб-поиска: для веб-поиска анапест накопленного за предыдущие годы материала почти не важен — база душой и телом обновляется за не очень большой срок. Для поиска по блогам, с другой стороны, удаление архивов приведёт к катастрофе, потому что поиск по блогам индексирует только новые дневной журнал — в RSS-потоках (единственном источнике для индексации) обычно присутствует только 10-20 последних записей; и старые записи взять будет неидеже.
Из чего соесть расчет поиск по блогам?
1. Робот, который называется blogindexd. Робот скачивает RSS-потоки (его user-agent — YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot;) NN readers, где NN readers — количество подписчиков на этот поток в «Яндекс.Ленте» — эта информация может оказаться интересной для автора потока) и складывает их в хранилище.
2. свеклохранилище для текста записей, называется bulca. Это основанное на файловой системе хранилище, разработка «Яндекса».
3. Хранилище для метаинформации (дата записи, id потока записи и т.п.). Для него используется mysql.
4. Полнотекстовый индекс и поисковая программа над этим индексом. Это, по сути дела, обычный «Яндекс.Сервер». Вообще говоря, индекс не один, он разбит на несколько — постоянные индексы, которые содержат архивы; статичные индексы, которые содержат записи последних недель и обновляются предостаточно редко, к примеру сказать раз в сутки, и динамические индексы, которые обновляются гораздо чаще, вплоть до раза в пять минут.
5. Планировщик, который, на основании истории потока, определяет, когда его нужно скачать в очередной раз. Это закругляйся интеллектуальная программа, цель которой состоит в том, дай вам качать потоки как можно чаще, но при этом не перегрузить сервера, с которых мы скачиваем потоки. В первые крови работы поиска по блогам бывало, что слишком активно качая RSS с Livejournal.com, мы «роняли» им сервера.
6. Большое количество дополнительных скриптов, которые отвечают за борьбу со рассылкаом (а спам в блогах есть), отключение новостных потоков (в поиске по блогам мы стараемся оставлять только потоки, содержащие мнения — блоги, форумы, группы и т.п.) и многое особь статья.
Сколько серверов обслуживают поиск по блогам?
Много. Точную цифру, во-первых, не знаю, а во-вторых, сказать не могу. Начиналось всё по крайней мере бы с десяти серверов, сейчас их больше.
сколько я знаю, каждый сервер вы называете каким-то именем, наездом смешным. Как называются «блоггерские» серверы?
Не все серверы поиска по блогам называются витиевато. гляди серверы с «постоянными» индексами зовутся puzzle1 и т.п, а остальные имеют названия в виде обычных аббревиатур (db, m1a, s1…).
однако на серверах-фронтендах (общих у поиска по блогам, с стадом других сервисов) традиционно «отрываются»: plague, earthshake, shout, steemroll, soulcry, flamestrike и т.п. Насколько я понимаю, это всё названия заклинаний из ADnD).
Как много спама в блогах? Как быстро растут его объемы? перевода нет такая статистика?
Сейчас нам известно более тысячи спамовых RSS-потоков, в основном, размещённых на крупных блог-хостингах.
До марта 2006 годы, когда поиск по блогам вышел из беты, спама на деле не было совсем, но уже на следующий день после «запуска» нам пришлось вручную разгребать первые робкие попытки. С тех пор мы сделали автоматические инструменты, которые позволяют нам говорить, что спама в поиске по блогам почти нет. Конечно, не существует предела совершенству, и я могу составить искательский интерпелляция, который покажет не менее десятка спам-блогов, но больше спама в видимой части поиска не становится, только меньше. Новых спам-потоков мы распознаем примерно десятка полтора в день.
Ещё стоит заметить, что поисковый спам в блогах почти всегда рассчитан не на посетителей, пришедших с поиска по блогам «Яндекса», а на роботов веб-поиска — как «Яндекса», так, вероятно, и других поисковых систем — это попытки познакомить роботов с новыми дорвеями или накрутить ссылочную релевантность других дорвеев.
Есть ещё непоисковый спам, когда в сообщества пишут сообщения не по теме, но он не имеет взаимоотношения к поиску по блогам.
Как изменилась блогосфера в России за последний год? Какие тренды видны? аюшки? можешь отметить?
Самое главное изменение — появление и выявление других столпов блогосферы, кроме Livejournal. Ещё год в возврат не было блогов на Mail.Ru и планеты «Рамблера», не был понятен адажио diary.ru и liveinternet.ru. За этот же год в Liveinternet больше поняли про социальные сервисы и прочий Веб 2:0, стали многое менять.
За этот же год к блогам потянулись и сотовые операторы (МТС и Мегафон).
как видно, что в блогосферу пришло много новых людей, многие из них не умеют заметано писать — они не журналисты, не литераторы и не «гики», а обычные люди с обычными заботами.
За счёт поиска по блогам сильно повысилась связность блогосферы: раньше были такие обособленные друг от друга большие блог-хостинги и единицы (ну, сотни) standalone-блоггеров, а сейчас за два клика можно найти ссылки на себя в любом блоге, собрать мнения про то или иное событие со всей блогосферы.
Я уверен, что во многих сеть-продвинутых компаниях мнения блоггеров тщательно мониторятся — во всяком случае, лично я мониторю мнения и отзывы про наиболее интересные и важные мне сервисы «Яндекса».
«Яндекс.Новости» в данное время транслируют мнения из блогов рядом с сюжетами новостей. Когда вы признали силу блогов?
Силу блогов в «Яндексе» признали раз такие пироги, когда придумали сделать поиск по блогам. То есть ещё до моего появления в компании, вероятно, в первой половине 2004 года. Признали её публично и всесторонне с выходом поиска по блогам из «беты», когда он встал в линейку поисковых «табов» под строкой поиска — в начале 2006 года.
Дальнейшая интеграция в разные сервисы — дело времени. Интегрировать с новостями — идея, лежащая на самой поверхности, её за время существования поиска по блогам придумали многие. Другое дело, что довести идею до конкретной реализации не всегда просто. В данном случае получилось, хоть и не всегда «чисто». Над этим мы работаем.
А когда ты сам лично почувствовал силу блогосферы? Ты запомнил этот момент?
По отношению лично ко мне, наверное, на опыте сразу, то есть в 2001 году, в ЖЖ.
Вопрос, заданный в своём блоге, часто получал резвоногий и хороший реакция, при этом вопрос мог быть почти на любую тему — от лекарства для сына до выбора сканера.
Силу в каком-то более широком смысле? Да в то время же. 11 сентября 2001 года больше информации о происходящем было во френдленте и ленте fif-а (переводной ленте всех русскоязычных пользователей ЖЖ, действовашей в то время), чем в любом отдельном СМИ.
Тема блогов меня увлекла, я участвовал в разработке оживка Reg][ster в 2003 году, НПЖ — в 2003-2005. А потом был «Яндекс».
Почему Reg][ster «заглох»? У движка были все шансы развиться в большую платформу, но не срослось?
По два основным причинам. Во-первых, код, написанный Димой Смирновым, был довольно неаккуратным и слаборасширяемым (почти полное отсутствие модульности, процедурный путь и т.п.). Во-вторых, не нашлось энтузиаста, который взялся бы развивать «Регистр» после того, как у создателей кончился энтузиазм. У меня, в частности, он кончился, потому что нашлись более интересные проекты — WackoWiki и впоследствии НПЖ.
В России корпоративный блоггинг не очень-то популярная фрукт, как ты думаешь, почему?
По двум причинам. Во-первых, у нас пока не так велика аудитория блогов, как на западе. Хотя рост количества людей, осведомленных о том, что такое блог, конечно, впечатляющий — см. данные РОМИР о том, что известность блогов выросла вдвое за последние девять месяцев. Во-вторых, не все руководители и реклама-службы готовы к той открытости, которую подразумевает корпоративный блог.
Кто читает комментарии к записям в корпоративном блоге?
Много кто: они попадают в общую почтовую папку, которую был в праве читать любой сотрудник. Судя по ответам, круглосуточно читают Елена Колмановская и Илья Сегалович, а также сотрудники техподдержки. Ну, и я тоже не переставая читаю.
Что люди пишут чаще всего? Попробуешь вспомнить самый диковинный фидбек?
Долгое время чаще всего писали «аффтар жжот» — в ответ на постинг про query-based speller. Регулярно встречаются комментарии вида «Я новенький явите божескую милость Вас помощи», на них, по мере возможности, стараются отвечать работники службы поддержки пользователей.
непосредственно странный?
Пожалуй, этот, но он длинный для интервью.
Почему часть хосты яндекса в ICMP Echo-reply отвечают с тем же TTL, с которым получили запрос
Просто любопытно, пример:
# traceroute -P ya.ru
7 ix2-m9.yandex.net (193.232.244.93) 55.974 ms 37.562 ms 40.819 ms
8 c3-vlan3.yandex.net (213.180.192.171) 63.987 ms 41.410 ms 80.810 ms
9 * * *
10 * * *
11 * * *
12 * * *
13 * * *
14 * * *
15 * * *
16 ya.ru (213.180.204.8) 61.545 ms ! 48.058 ms ! 49.508 ms !
хопы с 9-го по 15-ый — как я понимаю ложные, т.е. хост 213.180.204.8 (возможно до него есть что-то ещё) отвечает на ICMP с тем же самым TTL, с которым до него доходят пакеты, в отношения с чем обратно ответы не доходят, пока TTL не будет увеличен в два раза.
Для чего это? Если не сложно, дайте ответ.. Сделано это из соображений безопасности или это какое-то хитрое железо, какой-нибудь балансировщик нагрузки так себя ведёт?
А, вот покороче:
мне приходят сообщения на эл.почту на английском языке.нельзя ли чтобы письма приходили на русском?
имя Антич хочет сделать «Блогус» центральным местом для изучения русскоязычной блогосферы, что думаешь об этом?
Про «Блогус» знаю давно, мы встречались с Антоном, обсуждали, как лучше отдавать им количество ссылок по данным поиска по блогам.
Думаю, что пусть расцветает сто цветов. Любой осмысленный ресурс вокруг блогосферы — польза для неё.
Что в твоем понимании центральное место для изучения блогосферы? Вот поиск «Яндекса по блогам» — это центральное место?
Я думаю, во многом наш поиск по блогам является таким местом. Конечно, идеал недостижим, но к нему пристало стремиться. Мы много думаем о том, какие ещё сервисы надо сделать, чтобы стать таким центром изучения блогосферы; делаем эти сервисы.
Когда их стоит ожидать?
Я не могу говорить о сроках, сам понимаешь. Но, судя по тому, как поворачивайтесь все внедрялось и улучшалось на сервисе за последние полгода, можно предположить, что довольно скоро. Вот, скажем, возможность искать только в блогах или только в форумах одним щелчком, прямо со страницы поисковой выдачи, появилась где-то месяц назад, без всякого анонса. Надеюсь, она полезна нашим пользователям.