Старый 07.02.2011, 15:18   #1
st0nx
 
Регистрация: 24.01.2011
Сообщений: 5
Репутация: 0
По умолчанию Как парсить выдачу Google?

Как парсить выдачу Google без использования Google Web Search API? Не могу понять как саму сраницу с результатами получить. (С++ Asio).
st0nx вне форума   Ответить с цитированием
Старый 07.02.2011, 15:23   #2
m0Hze
 
Аватар для m0Hze
 
Регистрация: 05.07.2010
Сообщений: 326
Репутация: 129
По умолчанию

Код:
data = curl.get('http://www.google.de/search?num=30&q=Porno');
Э?
Выражайся точнее, что именно не получается, что не можеш ьпонять.
__________________
multi-vpn.biz - Первый VPN на Эллиптических кривых со скоростью света.
m0Hze вне форума   Ответить с цитированием
Старый 07.02.2011, 15:47   #3
tipsy
 
Аватар для tipsy
 
Регистрация: 10.07.2010
Сообщений: 415
Репутация: 311
По умолчанию

Гугл капчу выдаст после несокльких запросов (чем подозрительнее запрос, тем быстрее)
tipsy вне форума   Ответить с цитированием
Старый 07.02.2011, 16:07   #4
st0nx
 
Регистрация: 24.01.2011
Сообщений: 5
Репутация: 0
По умолчанию

Цитата:
Сообщение от tipsy Посмотреть сообщение
Гугл капчу выдаст после несокльких запросов (чем подозрительнее запрос, тем быстрее)
Есть варианты, как обойти?
st0nx вне форума   Ответить с цитированием
Старый 07.02.2011, 16:21   #5
napas_hd
 
Регистрация: 09.07.2010
Сообщений: 70
Репутация: 4
По умолчанию

Использовать компонент IE, задержки, прокси.
napas_hd вне форума   Ответить с цитированием
Старый 07.02.2011, 16:25   #6
m0Hze
 
Аватар для m0Hze
 
Регистрация: 05.07.2010
Сообщений: 326
Репутация: 129
По умолчанию

Задержки (рандомно! 7-30 сек), очистка куков, смена юзер агента, смена доменных зон = удачный парсинг гугла.
__________________
multi-vpn.biz - Первый VPN на Эллиптических кривых со скоростью света.
m0Hze вне форума   Ответить с цитированием
Старый 07.02.2011, 17:09   #7
ont
 
Аватар для ont
 
Регистрация: 16.12.2010
Сообщений: 57
Репутация: 92
По умолчанию

Есть еще вариант google ajax, который у меня уже работает около года без банов и прочего:
Код:
import urllib2
url_google = 'http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=' + 'test'
ans = urllib2.urlopen( url_google ).read().decode( 'utf8' )
print ans
P.S. эээ... если это google api, то сорррии, протупил
ont вне форума   Ответить с цитированием
Старый 08.02.2011, 23:32   #8
M_script
 
Регистрация: 06.07.2010
Сообщений: 113
Репутация: 33
По умолчанию

Цитата:
Сообщение от m0Hze Посмотреть сообщение
Задержки (рандомно! 7-30 сек), очистка куков, смена юзер агента, смена доменных зон = удачный парсинг гугла.
Почему рандомно с восклицательным знаком? Гугл не сравнивает интервалы между запросами. Задержка должна быть одинаковой и минимально возможной.
Куки можно вообще не принимать.
В смене юзер-агента нет необходимости, это никак не поможет.
Насчет доменных зон, возможно, правда, но я предпочитаю с серверами гугла работать по IP.
Все просто - чем больше быстрых соксов, тем лучше.
M_script вне форума   Ответить с цитированием
Старый 11.02.2011, 02:26   #9
Aels
 
Аватар для Aels
 
Регистрация: 24.12.2010
Сообщений: 16
Репутация: 2
По умолчанию

апи гугла вообще странная штука, автор видимо просил без него, потому что если брать больше 10ти результатов, то от аякса уводит на основной сайт (ну все что дальше первой страницы)

От себя советую юзать скрипт, который дает выдачу в гугл-инстант. с ним проблем никаких не было еще месяца 2 назад, при голом запросе с минимальными заголовками (и отлично настраивается количество результатов в запросе).

Пардон линк не дам... не могу найти где он у меня включается (
Aels вне форума   Ответить с цитированием
Старый 11.02.2011, 07:32   #10
Ctacok
 
Аватар для Ctacok
 
Регистрация: 06.07.2010
Сообщений: 127
Репутация: 49
По умолчанию

Делал как то на C#, не банит. Реализация, самая ебучая наверное. Софт нужен был что бы поюзать раз в пару дней. Так что если надо дописывай сам.
http://files.myopera.com/Ctacok/files/GoogleTopParser.zip - билд
http://files.myopera.com/Ctacok/files/GoogleTopPars3er.zip - Сорсы
__________________
Twitter - @Ctacok
Ctacok вне форума   Ответить с цитированием
Ответ

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2018, Jelsoft Enterprises Ltd. Перевод: zCarot