Старый 11.02.2011, 08:59   #11
nikp
Banned
 
Регистрация: 05.07.2010
Сообщений: 201
Репутация: 183
По умолчанию

Цитата:
Сообщение от M_script Посмотреть сообщение
Почему рандомно с восклицательным знаком? Гугл не сравнивает интервалы между запросами. Задержка должна быть одинаковой и минимально возможной.
Мои эксперименты с Гуглом аналогичны выводам m0Hze.
Рандомная задержка между запросами увеличивает время работы скрипта до бана , но не отменяет его.
Смена юзер-агента тоже позволяет работать дольше.

Последний вариант, который работал по нескольку суток (2-3) и не прерывался Гуглом:
- куки не использовал
- юзер агент не менял
- задержка между запросами 10+rand(15) сек.
- каждый запрос дополнял иформацией, которая не мешает выдаче результатов, но уменьшает "похожесть" запросов
- парсил выдачу и отправлял дополнительный запрос (или два) из спарсенных результатов (уже без задержек), чтобы зафлудить анализатор Гугла.
nikp вне форума   Ответить с цитированием
Старый 11.02.2011, 09:19   #12
Ctacok
 
Аватар для Ctacok
 
Регистрация: 06.07.2010
Сообщений: 127
Репутация: 49
По умолчанию

Купите hrefer и не парьтесь))))
__________________
Twitter - @Ctacok
Ctacok вне форума   Ответить с цитированием
Старый 10.03.2011, 00:15   #13
scrat
 
Регистрация: 06.07.2010
Сообщений: 16
Репутация: 4
По умолчанию

http://code.google.com/intl/ru-RU/more/
__________________
Cooler than a body on ice
Hotter than the rollin dice
scrat вне форума   Ответить с цитированием
Старый 10.03.2011, 13:16   #14
NetAng
 
Аватар для NetAng
 
Регистрация: 05.01.2011
Сообщений: 34
Репутация: 1
По умолчанию

Цитата:
Сообщение от M_script Посмотреть сообщение
Задержка должна быть одинаковой и минимально возможной.
Тогда это будет больше похоже на автомат.
NetAng вне форума   Ответить с цитированием
Старый 16.03.2011, 09:53   #15
M_script
 
Регистрация: 06.07.2010
Сообщений: 113
Репутация: 33
По умолчанию

Цитата:
Сообщение от NetAng Посмотреть сообщение
Тогда это будет больше похоже на автомат.
И как это помешает выполнению поставленной задачи?
Гугл считает промежутки времени между запросами с одного компьютера и сравнивает их между собой? Есть гораздо более эффективные способы отличить программу от человека.
M_script вне форума   Ответить с цитированием
Старый 16.03.2011, 11:43   #16
nikp
Banned
 
Регистрация: 05.07.2010
Сообщений: 201
Репутация: 183
По умолчанию

Цитата:
Сообщение от M_script Посмотреть сообщение
И как это помешает выполнению поставленной задачи?
Гугл считает промежутки времени между запросами с одного компьютера и сравнивает их между собой? Есть гораздо более эффективные способы отличить программу от человека.
Точный алгоритм анализатора Гугла не известен, поэтому параметры, которые он обрабатывает, приходится вычислять экспериментальным путем. Время между запросами - один из параметров, которые мониторит анализатор. Скорее всего решение выносится на основании набора параметров, каждому присвоен вес (штраф), когда вес запросов превысит заданную величину, срабатывает бан.

Смысл в том, чтобы доступными способами уменьшить штрафы от запросов.
nikp вне форума   Ответить с цитированием
Старый 16.03.2011, 17:19   #17
M_script
 
Регистрация: 06.07.2010
Сообщений: 113
Репутация: 33
По умолчанию

nikp, я про это и спрашивал - "приходится вычислять экспериментальным путем". Кто-нибудь проводил эксперименты, доказывающие, что рандомизация таймаутов влияет на бан?
Интуитивно понятно, что чем больше действия программы будут имитировать действия человека, тем меньше вероятность бана. Но конкретно от рандомизации таймаутов я не заметил каких-либо плюсов.

p.s.: хотя согласен, что снижение скорости при рандомизации таймаута не критично, поэтому лишним не будет
M_script вне форума   Ответить с цитированием
Старый 16.03.2011, 18:06   #18
nikp
Banned
 
Регистрация: 05.07.2010
Сообщений: 201
Репутация: 183
По умолчанию

Цитата:
Сообщение от M_script Посмотреть сообщение
nikp, я про это и спрашивал - "приходится вычислять экспериментальным путем". Кто-нибудь проводил эксперименты, доказывающие, что рандомизация таймаутов влияет на бан?
Интуитивно понятно, что чем больше действия программы будут имитировать действия человека, тем меньше вероятность бана. Но конкретно от рандомизации таймаутов я не заметил каких-либо плюсов.

p.s.: хотя согласен, что снижение скорости при рандомизации таймаута не критично, поэтому лишним не будет
Есть у меня серия скриптов, по дорку стучимся в Гугл, парсим, проверяем результаты на уязвимость, заливаемся, тачим шелл, пишем лог. Некоторое время потратил на борьбу с автобаном. Первые запуски пресекались довольно быстро. Вставил паузу (пробовал от секунд до 30 сек, остановился на 15) работать дает, но все равно банит, переключаю socks, работаю, банит. Через некоторое время начал банить с любого IP (запоминает проштрафившиеся запросы, пробовал через паузу в полгода - помнит).
Модифицирую запрос, ставлю рандомную паузу, вычисляет дольше, но банит. Прикрутил список юзер-агентов (70 строк) забанил на следующий день, но работать уже можно.

Последний вариант (см. пост выше) заканчивал работу сам, Гугл не вмешивался.
Если просто флудить анализатор, а паузу убрать (или сделать маленькой) - имеем бан.
Возможно более сильный флуд спасет, но я остановился на варианте, который заработал первым.
nikp вне форума   Ответить с цитированием
Старый 16.03.2011, 18:18   #19
1nt
 
Регистрация: 21.10.2010
Сообщений: 19
Репутация: 0
По умолчанию

возможно в некоторых целях оправдано будет делать ложные запросы (как случайных, так и используя живой поиск). тогда думаю алгоритм не будет в бане дольше.
1nt вне форума   Ответить с цитированием
Старый 17.03.2011, 16:01   #20
dpe_x
 
Аватар для dpe_x
 
Регистрация: 21.02.2011
Сообщений: 4
Репутация: 0
По умолчанию

Цитата:
Сообщение от Ctacok Посмотреть сообщение
Делал как то на C#, не банит. Реализация, самая ебучая наверное. Софт нужен был что бы поюзать раз в пару дней. Так что если надо дописывай сам.
http://files.myopera.com/Ctacok/files/GoogleTopParser.zip - билд
http://files.myopera.com/Ctacok/files/GoogleTopPars3er.zip - Сорсы
я так понял он только первую страницу парсит и все ?

сам писал на перле что то вроде..
парсит около 800 ссылок с запроса..

код
Код:
#!/usr/bin/perl
#(c)dpe

use warnings;
use LWP::UserAgent;
use Fcntl ':flock';

my $file = 'links.txt';
my $delai = 40 ;    #Задержка

print "Your word : ";
my $word = <STDIN>;
chomp($word);
print "OK . Starting ...".$word."\n";

my ($ua, $ck) = &browser;
my $parse = $ua->get("http://www.google.ru/search?hl=ru&source=hp&biw=1360&bih=576&q=$word&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&aq=f&aqi=&aql=&oq=$word&gs_rfai=&")->content;
my $ei = $1 if $parse =~ /ei=(.{1,25})\&amp;start=10\&amp;sa=N"/;
my $start = 10 ;
if (defined $ei) {
	while ($start <= 800 ) {
		$parse = $ua->get('http://www.google.ru/search?q='.$word.'&hl=ru&newwindow=1&biw=1360&bih=576&prmd=ivns&ei='.$ei.'&start='.$start.'&sa=N&filter=0')->content;
		my $ei = $1 if $parse =~ /ei=(.{1,25})\&amp;start=10\&amp;sa=N"/;
		while ($parse=~ /<span class=tl><h3 class="r"><a href="(.{1,100})" target=_blank class=l onmousedown="return clk/g) {			
			print $1."\n";			
			wf($file , "$1\n");
			}
		sleep($delai);
		$start = $start+10;
		}
	}
	
	
sub browser
{
	my $ua = LWP::UserAgent->new;
	$ua->cookie_jar({});
	$ua->timeout( 20 ) ;
	$ua->agent("Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.19) Gecko/2010031422 Firefox/3.0.19");
	return $ua;
}

sub wf
{
	open my $dat, '>>', $_[0] or die "\nCould not open $_[0] file!\n";
	flock $dat, LOCK_EX;
	print $dat $_[1];
	flock $dat, LOCK_UN;
	close $dat;
}
dpe_x вне форума   Ответить с цитированием
Ответ

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2018, Jelsoft Enterprises Ltd. Перевод: zCarot