Старый 17.03.2011, 20:28   #21
Ctacok
 
Аватар для Ctacok
 
Регистрация: 06.07.2010
Сообщений: 127
Репутация: 49
По умолчанию

Цитата:
Сообщение от dpe_x Посмотреть сообщение
я так понял он только первую страницу парсит и все ?

сам писал на перле что то вроде..
парсит около 800 ссылок с запроса..

код
Не, делает опцию что-бы 100 сайтов на страницу лезло, и 5 запросами всё мутит. Глубина парсинга 500 позиций.
__________________
Twitter - @Ctacok
Ctacok вне форума   Ответить с цитированием
Старый 20.03.2011, 00:14   #22
php_master
 
Регистрация: 24.01.2011
Сообщений: 3
Репутация: 0
Exclamation

Цитата:
Сообщение от nikp Посмотреть сообщение
Мои эксперименты с Гуглом аналогичны выводам m0Hze.
Рандомная задержка между запросами увеличивает время работы скрипта до бана , но не отменяет его.
Смена юзер-агента тоже позволяет работать дольше.

Последний вариант, который работал по нескольку суток (2-3) и не прерывался Гуглом:
- куки не использовал
- юзер агент не менял
- задержка между запросами 10+rand(15) сек.
- каждый запрос дополнял иформацией, которая не мешает выдаче результатов, но уменьшает "похожесть" запросов
- парсил выдачу и отправлял дополнительный запрос (или два) из спарсенных результатов (уже без задержек), чтобы зафлудить анализатор Гугла.
nikp подскажи пожалуйста как ты дополнял запросы для уменьшения похожести и что за дополнительный запрос из спарсенных ...

пытаюсь написать рабочую парсилку но больше 72 страниц ( по 100 на каждой ) получить не получается, т.к. банит.. пытался с куками и без них, меняя юзерагент и не меняя, с рандомной задержной выпонения sleep() и без неё, засоряя запрос несуществующими словами, и все вместе, и все равно через некоторое время появляется капча

все запросы вида

inurl:"/script.php" site:com
inurl:"/script.php" site:ru
inurl:"/script.php" site:net
inurl:"/script.php" site: org
, может дело в этом ?..

что посоветуете чтобы работало подольше ? есть ли смысл приделать обращения как разным доменам типа www.google.hu
www.google.gm www.google.pl www.google.ro www.google.ae www.google.im ???
php_master вне форума   Ответить с цитированием
Старый 20.03.2011, 00:29   #23
m0Hze
 
Аватар для m0Hze
 
Регистрация: 05.07.2010
Сообщений: 326
Репутация: 129
По умолчанию

Цитата:
Сообщение от php_master Посмотреть сообщение
nikp подскажи пожалуйста как ты дополнял запросы для уменьшения похожести и что за дополнительный запрос из спарсенных ...

пытаюсь написать рабочую парсилку но больше 72 страниц ( по 100 на каждой ) получить не получается, т.к. банит.. пытался с куками и без них, меняя юзерагент и не меняя, с рандомной задержной выпонения sleep() и без неё, засоряя запрос несуществующими словами, и все вместе, и все равно через некоторое время появляется капча

все запросы вида

inurl:"/script.php" site:com
inurl:"/script.php" site:ru
inurl:"/script.php" site:net
inurl:"/script.php" site: org
, может дело в этом ?..

что посоветуете чтобы работало подольше ? есть ли смысл приделать обращения как разным доменам типа www.google.hu
www.google.gm www.google.pl www.google.ro www.google.ae www.google.im ???
Такие запросы гугл банит 100%.
Я нашел только один выход - прокси. Покупал 200 прокси, и спокойно делал 10к запросов с этим ипроксями в сутки.
__________________
multi-vpn.biz - Первый VPN на Эллиптических кривых со скоростью света.
m0Hze вне форума   Ответить с цитированием
Старый 20.03.2011, 00:55   #24
php_master
 
Регистрация: 24.01.2011
Сообщений: 3
Репутация: 0
По умолчанию

спс) а то я сижу мучаюсь, все что можно перепробовал) буду теперь знать что это только для простеньких запросов
php_master вне форума   Ответить с цитированием
Старый 20.03.2011, 13:55   #25
nikp
Banned
 
Регистрация: 05.07.2010
Сообщений: 201
Репутация: 183
По умолчанию

Цитата:
Сообщение от php_master Посмотреть сообщение
nikp подскажи пожалуйста как ты дополнял запросы для уменьшения похожести и что за дополнительный запрос из спарсенных ...
В твоем случае возможно так:
inurl:script.php site:net site net -fignya -botva
Но это атавизм от прошлых экспериментов, значимого результата он не дал, просто, когда заработало, не стал проверять без него.

Спарсили ответ Гугла
Код:
site1.com?id=bla1
...
site100.com?id=bla100
Посылаем запросы (примерно один на 10 спарсенных)
Код:
?q=site1.com?id=bla1
?q=site10.com?id=bla10
...
?q=site100.com?id=bla100
можно отсылать любые, мне так было удобнее.
Смысл в том, чтобы целевые запросы затерялись среди флуда.

Цитата:
Сообщение от m0Hze Посмотреть сообщение
Я нашел только один выход - прокси. Покупал 200 прокси, и спокойно делал 10к запросов с этим ипроксями в сутки.
Если по спарсенному включается атака, не забыть переключиться на свой канал.
Порядка 400 (возможно больше, мне выдал примерно 380) IP может предоставить Tor, чтобы выдался новый адрес, нужно убить процесс Tor`а и запустить вновь.
nikp вне форума   Ответить с цитированием
Старый 17.05.2011, 23:55   #26
Beched
 
Регистрация: 06.07.2010
Сообщений: 403
Репутация: 118
По умолчанию

Очень странно, но работе моих скриптов подобного рода (сканеры, автосплойты) не мешал этот бан. Я как-то даже не обратил на это внимание, врубал просто и всё. Работало. Или там надо очень много страниц просмотреть? Ну бывало парсил до 50 где-то..

А хотя не, я вспомнил. Я не парсил всю выдачу сразу, а парсил одну страницу и проверял на уязвимость каждый урл, лил шелл, куда возможно. Поэтому происходил естественный таймаут перед следующий запросом, и время зря не терялось =)
Beched вне форума   Ответить с цитированием
Старый 18.03.2012, 14:34   #27
Cr1minal
 
Регистрация: 14.03.2012
Сообщений: 4
Репутация: 1
По умолчанию

бро если нужно отпарсить ссылки (топ 100) для менее чем 100к ключей - напиши в 629.473.865 - помогу.
Что касается "технологии" - для парса гугла по феншую нужны:
а) хорошие прокси. гугл их забанит, конечно. Но всего на несколько дней.
б) хитрость. Хитрость в том, что во-первых гугл думает "а не забанить ли мне этот IP" 2-3 секунды. Во-вторых решение - прислать ответ/выдать капчу/отказать в установлении коннекта (антиддос, бан снимается через 1-2 минуты) гугл принимает в момент получения запроса. Т.е. если в момент, когда запрос был получен, IP с которого он пришел не был в бане - в ответ будет отправлена страница с результатами. И то, что эта страница может chunked частями передаваться хоть 30 секунд, если у "клиента" забит канал, и 27 из 30 айпишник, сделавший запрос будет уже числиться забаненным - не играет роли.

Таким методом я одно время спарсил с гугла все прокси, о которых он знает. Всего страниц, на которые можно попасть вводя в качестве запроса проксики оказалось что-то около ~6 лямов, а всего в этих ваших интернетах оказалось не более 6 с небольшим миллиона IP, когда-либо "засвеченных" в качестве проксей.
Т.е пробив то ли 4,8 то ли 5.2 ляма проксей в качестве "ключей" и спарсив содержимое выданных страниц - было собрано всего 5.5 ляма проксей.(включая случайные IP, оказывавшиеся на страницах) Дальнейший пробив уже не имел смысла. Можно сделать вывод, что суммарно гуглу известно от силы о 6+ лямах проксей, не более.
Кстати, из всех собранных 5.5 ляма стабильно можно отчекать всего две с небольшим тысячи активных прокси.
При том, что хорошим, годным проксихантом, запущенным на десятке серверов можно в течение ограниченного количества времени "достать" больше, да ещё и уникальных.

such cases.
сама идея сбора "всех паблик прокси мира" оказалась фейлом, едва оправдавшим затраты времени.
Cr1minal вне форума   Ответить с цитированием
Старый 18.03.2012, 20:13   #28
k.v
Banned
 
Регистрация: 11.01.2012
Сообщений: 19
Репутация: 4
По умолчанию

Цитата:
Сообщение от nikp Посмотреть сообщение
Порядка 400 (возможно больше, мне выдал примерно 380) IP может предоставить Tor, чтобы выдался новый адрес, нужно убить процесс Tor`а и запустить вновь.
Процесс убивать не обязательно.

Код:
#!/bin/sh
empty -f -i torin -o torout telnet 127.0.0.1 9051
empty -s -o torin "AUTHENTICATE \"tor_password\"\n"
empty -s -o torin "signal NEWNYM\n"
empty -s -o torin "quit\n"
k.v вне форума   Ответить с цитированием
Старый 12.09.2012, 09:11   #29
mironich
 
Регистрация: 21.12.2011
Сообщений: 7
Репутация: 0
По умолчанию

Цитата:
Сообщение от tipsy Посмотреть сообщение
Гугл капчу выдаст после несокльких запросов (чем подозрительнее запрос, тем быстрее)
А можно пример подозрительных запросов?
Надо каптчу гугла отловить, а он ее не выдает, уже и дорки парсил..
mironich вне форума   Ответить с цитированием
Старый 12.09.2012, 22:02   #30
Untitled
 
Аватар для Untitled
 
Регистрация: 24.06.2012
Сообщений: 131
Репутация: 30
По умолчанию

Цитата:
Сообщение от mironich Посмотреть сообщение
Надо каптчу гугла отловить, а он ее не выдает, уже и дорки парсил..
http://www.google.com/sorry/?continue=http://google.com
Untitled вне форума   Ответить с цитированием
Ответ

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2019, Jelsoft Enterprises Ltd. Перевод: zCarot