Правильный robots.txt

Тема в разделе "Обо всём", создана пользователем Zlata Jesen, 28 июл 2015.

  1. Vlad

    Vlad Эксперт

    Сообщения:
    4.129
    Симпатии:
    999
    да не обращай, это же для яндекса. Тоже самое и сайтмапом итд. Он просто игнорирует данную строку и все.
     
  2. DeExp

    DeExp Новичок

    Сообщения:
    5
    Симпатии:
    0
    Яндекс добавил в индекс страницы типа:

    Поиск - 2 страница
    smartshome.by/search/?tag=irobot&page=2
    Поиск
    smartshome.by/search/?tag=podrulivayushchee koleso dlya robotov pylesosov irobot
    Поиск
    smartshome.by/search/?tag=otvetnaya chast dlya zamkov na steklyannuyu dver samsung shs-asr200
    Поиск
    smartshome.by/search/?tag=rf karta brelok dlya dvernyh zamkov samsung
    Поиск
    smartshome.by/search/?tag=rf karta stiker dlya dvernyh zamkov samsung
    Поиск
    smartshome.by/search/?tag=ogranichitel dvizheniya dlya robotov pylesosov irobo
    и так далее.

    Те же страницы встречаются и в гугл.



    Подскажите как можно их закрыть от индексирования?
     
  3. Zlata Jesen

    Zlata Jesen Продвинутый пользователь

    Сообщения:
    165
    Симпатии:
    98
    В файле по умолчанию и так стоит
    Disallow: /*search
    Если не стоит - добавьте.
    В результате максимум, что может появиться, это

    25-11-2015 13-19-08.jpg
     
  4. DeExp

    DeExp Новичок

    Сообщения:
    5
    Симпатии:
    0
    У меня прописано:
    Disallow: /*route=product/search

    Исправить или добавить : Disallow: /*search ?
     
  5. Zlata Jesen

    Zlata Jesen Продвинутый пользователь

    Сообщения:
    165
    Симпатии:
    98
    Код:
    Disallow: /*route=product/search
    у меня тоже есть, оставьте. Но и

    Код:
    Disallow: /*search
    добавьте, если нету.
     
    Последнее редактирование: 25 ноя 2015
  6. DeExp

    DeExp Новичок

    Сообщения:
    5
    Симпатии:
    0
    Спасибо - добавил. Посмотрю что теперь получится
     
  7. ILexus

    ILexus Новичок

    Сообщения:
    20
    Симпатии:
    8
    Недавно обнаружил в индексе такие страницы: site.ru/category-name&filter=

    Это ссылки стандартного фильтра

    Думаю правильно было бы включить в сборку robots.txt
    Код:
    Disallow: /*?filter=
    Disallow: /*&filter=
     
  8. Flyingbudda

    Flyingbudda Новичок

    Сообщения:
    1
    Симпатии:
    0
    ребят правильный роботс у меня?
    User-agent: *
    Disallow: /*route=account/
    Disallow: /*route=affiliate/
    Disallow: /*route=checkout/
    Disallow: /*route=product/search
    Disallow: /index.php?route=product/product*&manufacturer_id=
    Disallow: /admin
    Disallow: /catalog
    Disallow: /download
    Disallow: /system
    Disallow: /*?sort=
    Disallow: /*&sort=
    Disallow: /*?order=
    Disallow: /*&order=
    Disallow: /*?limit=
    Disallow: /*&limit=
    Disallow: /*?filter_name=
    Disallow: /*&filter_name=
    Disallow: /*?filter_sub_category=
    Disallow: /*&filter_sub_category=
    Disallow: /*?filter_description=
    Disallow: /*&filter_description=
    Disallow: /*?tracking=
    Disallow: /*&tracking=

    User-agent: Yandex
    Disallow: /*route=account/
    Disallow: /*route=affiliate/
    Disallow: /*route=checkout/
    Disallow: /*route=product/search
    Disallow: /index.php?route=product/product*&manufacturer_id=
    Disallow: /admin
    Disallow: /catalog
    Disallow: /download
    Disallow: /system
    Disallow: /*?sort=
    Disallow: /*&sort=
    Disallow: /*?order=
    Disallow: /*&order=
    Disallow: /*?limit=
    Disallow: /*&limit=
    Disallow: /*?filter_name=
    Disallow: /*&filter_name=
    Disallow: /*?filter_sub_category=
    Disallow: /*&filter_sub_category=
    Disallow: /*?filter_description=
    Disallow: /*&filter_description=
    Clean-param: tracking
    Host: mysite.ru

    Sitemap: http://mysite.ru/index.php?route=feed/fast_sitemap
     
  9. DeExp

    DeExp Новичок

    Сообщения:
    5
    Симпатии:
    0
    Помогите, пожалуйста, с robots.txt

    1. В поиске появились дубли страниц
    http://prnt.sc/c8frkm
    Как их можно закрыть от индексации?

    2. Гугл заблокировал следующие ресурсы:
    http://prnt.sc/c8fsxs
    Как их разблокировать?
     
  10. Vlad

    Vlad Эксперт

    Сообщения:
    4.129
    Симпатии:
    999
    точно дубли??? или верим гуглу на слово?

    читаем тему с самого начала
     
  11. DeExp

    DeExp Новичок

    Сообщения:
    5
    Симпатии:
    0
    Подправил robots.txt как рекомендовали в этой теме. Но, к сожалению, блокировка не снята:
    http://prntscr.com/cbpxal
    Что можно еще предпринять?
     
  12. Коммерс

    Коммерс Новичок

    Сообщения:
    5
    Симпатии:
    0
    Спрошу тут, близко по теме ;)
    Подскажите, на домене есть поддомен с тестовым магазином для настроек. Не думаю, что поисковые боты его найдут, но на всякий случай хочу закрыть от индексации.
    Достаточно ли будет удалить все из robots.txt именно в том, который на поддомене (test.store.com) и оставить только это?
    Код:
    User-agent: *
    Disallow: /
    В robots.txt на мейн домене (store.com) ничего трогать же не надо? Они как бы по факту не связаны и рассматриваются поисковыми машинами, как разные сайты?
     
  13. Ravilr

    Ravilr Специалист

    Сообщения:
    3.879
    Симпатии:
    1.065
    да
     
  14. RomanKov

    RomanKov Активный пользователь

    Сообщения:
    275
    Симпатии:
    0
    indeks.jpg indeks 2.jpg robot.jpg indeks.jpg Добрый день. Практически все Юрл в индексе Яндекса имеют вид /cemena-tomata/debyut-f1-1000-cem-tomat-cemenic.html?filter_ocfilter=p:35-1967 в карточках товара и http://nashedelo.biz.ua/cemena/cemena-baklazhana?filter_ocfilter=s:in;p:1-67 - категориях. Если я пропишу в роботе как было сказано выше:

    Disallow: /*?filter=
    Disallow: /*&filter=

    это должно решить проблему. Сайт на опенкарте 1.5.5.1.1. Все страницы имеют тег - canonical. То есть, я так понимаю как бы я не зашел в эту карточку или категорию в выдаче будет выбивать, то что указано в каноникал, а именно - http://nashedelo.biz.ua/debyut-f1-1000-cem-tomat-cemenic.html и тогда /cemena-tomata/debyut-f1-1000-cem-tomat-cemenic.html?filter_ocfilter=p:35-1967 не будет считаться дублем. Или нет? Вообщем немного запутался как правильно поступить, чтобы не было мусорной индексации и с точки зрения seo было всё в порядке. Может тогда можно прописать в фильтрах <meta name="robots" content="noindex,follow"> - это решит индексацию с категориями и будет перекидываться вес на карточки товаров. Может что-то не правильно написал - ещё чайник совсем!
     
    Последнее редактирование модератором: 1 апр 2017
  15. Vlad

    Vlad Эксперт

    Сообщения:
    4.129
    Симпатии:
    999
    нет не решит. Вы хоть немного почитайте про правила в роботс, есть же полно информации
    как минимум должно так Disallow: /*?filter_ocfilter=
     
  16. RomanKov

    RomanKov Активный пользователь

    Сообщения:
    275
    Симпатии:
    0
    Читаю. Информации действительно много и везде разные решения. Хотелось бы услышать авторитетное мнение. Влад, подскажите - в Яндексе, также много страниц вида /index.php?route= . Если внести Disallow: /index.php?* и Disallow: /*?filter_ocfilter=. - у меня практически вся индексация (процентов - 60-70% в такой форме. Что-то останется?)))))
     
  17. RomanKov

    RomanKov Активный пользователь

    Сообщения:
    275
    Симпатии:
    0
    Доброе утро. Прислушался в вашим советам и прописал в роботе следующее:

    Allow: /catalog/view/javascript/
    Allow: /catalog/view/theme/*/

    Гугол бот просканировал - без ошибок. Но не создаст ли это лишнюю нагрузку на сервер? Многие рекомендуют закрывать хотя бы Disallow: /catalog/view/theme/default/ дефолтный шаблон. Что скажите???????????
     
    Dmsukach нравится это.
  18. Vlad

    Vlad Эксперт

    Сообщения:
    4.129
    Симпатии:
    999
    Зачем закрывать? Если нормальный хостинг, то и так не просканирует лишнее.
    Но можете закрыть, если мешает. Не принципиально все это.
     
    RomanKov нравится это.
  19. Донат

    Донат Новичок

    Сообщения:
    0
    Симпатии:
    0
    Добрый день. Столкнулся с проблемой блокировки гуглботом страниц сайта. гуглбот ссылался на закрытую для индекса строку
    "Disallow: /catalog".
    Наткнулся на Ваше обсуждение данной проблемы. Можете подсказать пожалуйста по поводу моего robots.txt? как-то много чего лишнего по ощущениям ;)

    User-agent: *
    Disallow: /*route=account/
    Disallow: /*route=affiliate/
    Allow: /catalog/view/javascript/
    Allow: /catalog/view/theme/*/
    Disallow: /*route=checkout/
    Disallow: /*route=product/search
    Disallow: /index.php?route=product/product*&manufacturer_id=
    Disallow: /admin
    Disallow: /catalog
    Disallow: /system
    Disallow: /*?sort=
    Disallow: /*&sort=
    Disallow: /*?order=
    Disallow: /*&order=
    Disallow: /*?limit=
    Disallow: /*&limit=
    Disallow: /*?filter=
    Disallow: /*&filter=
    Disallow: /*?filter_name=
    Disallow: /*&filter_name=
    Disallow: /*?filter_sub_category=
    Disallow: /*&filter_sub_category=
    Disallow: /*?filter_description=
    Disallow: /*&filter_description=
    Disallow: /*?tracking=
    Disallow: /*&tracking=

    User-agent: Yandex
    Disallow: /*route=account/
    Disallow: /*route=affiliate/
    Allow: /catalog/view/javascript/
    Allow: /catalog/view/theme/*/
    Disallow: /*route=checkout/
    Disallow: /*route=product/search
    Disallow: /index.php?route=product/product*&manufacturer_id=
    Disallow: /admin
    Disallow: /catalog
    Disallow: /system
    Disallow: /*?sort=
    Disallow: /*&sort=
    Disallow: /*?order=
    Disallow: /*&order=
    Disallow: /*?limit=
    Disallow: /*&limit=
    Disallow: /*?filter=
    Disallow: /*&filter=
    Disallow: /*?filter_name=
    Disallow: /*&filter_name=
    Disallow: /*?filter_sub_category=
    Disallow: /*&filter_sub_category=
    Disallow: /*?filter_description=
    Disallow: /*&filter_description=
    Clean-param: tracking

    Сайт на openCart если это имеет значение.
    Большое спасибо
     
  20. Ален

    Ален Эксперт

    Сообщения:
    2.056
    Симпатии:
    640
    Все нормально.