Публикации

Форумы

Дубли новостей
 

Дубли новостей

1 2 3  
Модераторы: Патрик, net1313, Predator, Perfecthus, Kapman
Автор Добавил
Offline baykboat
19.09.14 - 20:28
baykboat

Сообщений: 312
Сталкнулся вот с какой ситуацией, яшка ругается на дубли страниц новостей, покопал движек и выяснилось что новость например по адресу http://сайт.ru/news.php? extend.Х.Y ? где X- это ид новости, а Y это ид категории новостей. Так вот эта жа страница доступна по адресу http://сайт.ru/news.php? extend.Х и очень похожая страница с контентом на 99.99% доступна по адресу http://сайт.ru/news.php? item.X.Y , причем на все три варианта страницы есть ссылки на сайте, например на первый вариант с ид носости и ид категории есть ссылки из списка новостей, на второй вариант который без ид категории присутствует на ссылках "старых" и "новых" новостей на странице новости и так далее. короче получается по три дубля одной и той же страницу. Попробовал решить эту проблему через RewriteRule в хтасисе, но и тут касяк RewriteRule не хотит работать с той частью адреса которая после знака вопроса.
Как же все таки сделать редирект и желательно 301 с http://сайт.ru/news.php? extend.Х.Y на http://сайт.ru/news.php? extend.Х
и с http://сайт.ru/news.php? item.X.Y на http://сайт.ru/news.php? extend.Х
а то яшка видит три дубля и отказывается индексировать их все((((


Переезжаю в Крым на ПМЖ
Вернуться наверх
Сайт
Популярность сообщения: 1
Рекламный блок
VPS
Наверх

Offline Real
19.09.14 - 20:34
Real

Сообщений: 1236
baykboat:
Потерпи чуть-чуть, очень надеюсь скоро мой форк таки выпущу в паблик.
Там таких бед нет - полный SEF семантика, титлы, описания, крошки и всё прочее...
Демо можешь посмотреть тут
user:demo | pass:demo

p.s. именно по этой и многим другим причинам я так и не пользвался никогда встроенными новостями


Всё, что существует на свете, когда-то было мечтой.
Вернуться наверх
Популярность сообщения: 0
 
Offline baykboat
19.09.14 - 21:06
baykboat

Сообщений: 312
это все хорошо... однако, ставить такое на сайт с 40К страниц.. это же все похерится, все внешние ссылки а их много и что важно ссылки реальные, т.е оставленные живыми людями .. ТИЦ 50 сам образовался, я палец о палец не ударил )))) яшка же свехнется если все УРЛы поменяются..))))))) для нового проекта будет рулезно.. но надо что то с этим делать...

19.09.14 21:06:13  Добавлено автором к сообщению...

Real: я кстати в краснодар перебрался, из холодной сибири.. )))))))))))


Переезжаю в Крым на ПМЖ
Вернуться наверх
Сайт
Популярность сообщения: 0
 
Offline Real
19.09.14 - 21:15
Real

Сообщений: 1236
Ну тогда "ой". Как раз про это сегодня писал Predator'y
1. в robots.txt можно запретить лишнее Пример для форума: Disallow: /plugins/forum/ forum_viewtopic.php*.post - тут ключевой момент звёздочка (*)
2. погуглить mod_rewrite если у тебя сервер апач или rewrite nginx соотв-но...

И еще, из описания проблемы следует, что из 40K страниц - как минимум треть дубли.
И не будем забывать про content.php и форум - там тоже высокий % дублей

– Цитата: 
Real: я кстати в краснодар перебрался, из холодной сибири.. )))))))))))
ага, "там тепло - там яблоки" (с)


Всё, что существует на свете, когда-то было мечтой.
Вернуться наверх
Популярность сообщения: 0
 
Offline baykboat
19.09.14 - 21:32
baykboat

Сообщений: 312
да судя по индеку даже юольше, гугля в индекс берет чуть меньше половины, а яша так вообще четверть, даже меньше всего 8К, да у меня нжинкс... погуглил с наскока нифига не понял.. придется разбираться досканально, а времени нет, ремонт в новой хатке стоит в полный рост интернет то нормальный себе провел недели две назад, а до этого через 3Ж модем парился чуть ли не пол года.. , думал может кто в курсе, дык подскажет куда и какую строчку вставить ...

19.09.14 21:32:15  Добавлено автором к сообщению...

ну тут не только яблоки...)))
в роботе запрет поставил...


Переезжаю в Крым на ПМЖ
Вернуться наверх
Сайт
Популярность сообщения: 0
 
Offline Predator
19.09.14 - 23:13
Predator


Сообщений: 4037
baykboat: Файл header_default.php находишь строку
  1. echo (defined('CORE_LC')) ? '<meta http-equiv="content-language" content="'.CORE_LC.'" />'."\n" : '';
и после неё добавляешь строки
  1. # Канонические страницы
  2.    $chPage = e_SELF.(e_QUERY ? '?'.e_QUERY : '');
  3.        
  4.     if (preg_match('/(print|pdf)\.php\?news\.([0-9])/i',$chPage)) {
  5.         echo "<link rel='canonical' href='".SITEURL."news.php?".str_replace('news','item',e_QUERY)."' />\n";
  6.     }
  7.     # Запрет на индексацию дубликатов страниц поисковыми роботами
  8.    if (preg_match('/(day|month|cat|list|default)\.([0-9])+\.([0-9])/',$chPage)) {
  9.        echo "<meta name=\"robots\" content=\"nofollow\" />\n";
  10.     }

И будет тебе счастье, правда может не сразу, а как яшка свои индексы обновит


Я не матерюсь, а всего лишь употребляю ненормативную лексику в целях более полного и лаконичного выражения своих эмоций.
Вернуться наверх
Популярность сообщения: 1
 
Offline net1313
19.09.14 - 23:28
net1313


Сообщений: 2763
да, все верно. дублей полно. что касается кода, то до 9 строчки это мое решение. теперь правда переделал и запилил функцию. там же еще и категории есть, и item и, между прочим баг с feeds
Дело в том, что надо изначально решить - какая новость будет основной. то есть либо extend, либо default (советую extended).
и тогда canonical - наше все.

if (preg_match('/(day|month ...... ужос

например так будет лучше
  1. if(strstr(e_QUERY, 'default')) {
  2.         echo "<meta name='robots' content='noindex, nofollow' />\n";
  3.                 }


19.09.14 23:28:38 Добавлено автором к сообщению...

и вообще - baykboat. не слушай этих двоих. потому как код от Хищника негодный.
В двиге полно дублей. Я проблему решил с яшкой и гуглом.


Очень Добрый Админ
Жизнь в целом не такая уж и хуёвая штука, хотя конечно неплохо было бы если бы в ней было всё совершенно по-другому.
Вернуться наверх
Популярность сообщения: 0
 
Offline Predator
20.09.14 - 09:31
Predator


Сообщений: 4037
– Цитата: 
В двиге полно дублей. Я проблему решил с яшкой и гуглом.
У меня вышеприведённый код работает и ни на какие дубли гуглояшки не ругаются. И попрошу без наездов!

И кстати, так можно не писать:
  1. content='noindex, nofollow'

Достаточно написать так:
  1. content='nofollow'

Ибо яндекс научился понимать nofollow и noindex уже не актуально.


Я не матерюсь, а всего лишь употребляю ненормативную лексику в целях более полного и лаконичного выражения своих эмоций.
Вернуться наверх
Популярность сообщения: 0
 
Offline baykboat
21.09.14 - 11:18
baykboat

Сообщений: 312
Predator: спасибо..

net1313:
– Цитата: 
В двиге полно дублей. Я проблему решил с яшкой и гуглом.

а можно полюбопытствовать как???


Переезжаю в Крым на ПМЖ
Вернуться наверх
Сайт
Популярность сообщения: 0
 
Offline net1313
21.09.14 - 12:38
net1313


Сообщений: 2763
– Цитата: 
У меня вышеприведённый код работает

дык кто те его дал ?

– Цитата: 
а можно полюбопытствовать как???

К сожалению, консультации у меня не бесплатные и оплата через Пэйпал.

Хочу заметить, что на каждую страницу новостей приходится аж 4 дубля (заголовки и мета). print, default, item, extended. С категориями тож непоорядок.
В форуме по два дубля на топик.


Очень Добрый Админ
Жизнь в целом не такая уж и хуёвая штука, хотя конечно неплохо было бы если бы в ней было всё совершенно по-другому.
Вернуться наверх
Популярность сообщения: 0
 
1 2 3  
Дубли новостей

Перейти:  Вернуться наверх