Исходник Проверка сайта на возможность к парсингу через requests.

teeshq4 · 21 Окт 2021

Скорее всего эта штука никому и нужна не будет, но, у меня возникали проблемы с парсингом через requests, решил сделать простой гайд на проверку использования сайтом капчи.
Просто некоторые сайты используют блокировку подобных запросов, и с первого взгляда хер поймёшь, тот ли там HTML или нет.

Python:

import requests
import fake_headers, fake_useragent

class Browser():
    def __init__(self):
        pass

    @classmethod
    def gethtml(cls, url):
        """Write parsed html"""
        with open('index.html', 'w', encoding='utf-8') as file:
            file.write(str(cls.request(url).text))

    @staticmethod
    def request(url):
        """Making fake information"""
        fake_header = fake_headers.Headers(browser='chrome', os='win', headers=True).generate()
        fake_header['User-Agent'] = fake_useragent.UserAgent()['google chrome']

        """Make main requests"""
        try:
            content = requests.get('{0}'.format(url), headers=fake_header)
            if content.status_code == 200:
                return content
            else:
                return -1
        except requests.exceptions.ConnectionError:
            return -1

if __name__ == '__main__':
    browser = Browser()
    browser.gethtml('https://www.blast.hk/threads/105426/')

Технология следующая:
1) Передаём ссылку в метод gethtml
2) Открываем появившийся в директории со скриптом файл index.html

Как понять?:
2) Если страница загружается, но на ней не те объекты - парсинг через requests ~~невозможен~~

3) Если на странице видите число -1, то на ссылку зайти вообще не вышло.

3) Если страница подгружает только HTML маркировку, без CSS - парсингу это никак не помешает, возможно.

4) Если страница загружается полностью со всеми стилями - преград для парсинга вообще нет.

*** Если страница долго грузится, то зайдите в html код, скорее всего там всё есть. Но для достоверности лучше подождать пока она загрузится.

MrCreepTon · 21 Окт 2021

А что за модули fake_headers и fake_useragent? Ты о них не сказал в теме, да и мне кажется можно обойтись без них, просто вписать headers в реквест сразу (User-Agent, куки и бла-бла-бла)

teeshq4 · 21 Окт 2021

MrCreepTon написал(а):
А что за модули fake_headers и fake_useragent? Ты о них не сказал в теме, да и мне кажется можно обойтись без них, просто вписать headers в реквест сразу (User-Agent, куки и бла-бла-бла)

Ты конечно прав, но желательно делая сиксилион запросов указывать разные хэдэры. Я вообще этот класс хотел сделать для своего парсера, поэтому там есть эти либы.

Кому нужно без сторонних либ:

Python:

import requests

class Browser():
    def __init__(self):
        pass

    @classmethod
    def gethtml(cls, url):
        """Write parsed html"""
        with open('index.html', 'w', encoding='utf-8') as file:
            file.write(str(cls.request(url).text))

    @staticmethod
    def request(url):
        """Make main requests"""
        try:
            content = requests.get('{0}'.format(url))
            if content.status_code == 200:
                return content
            else:
                return -1
        except requests.exceptions.ConnectionError:
            return -1

if __name__ == '__main__':
    browser = Browser()
    browser.gethtml('https://www.blast.hk')

манку хлебал · 22 Окт 2021

это же просто проверка на то, ответил ли сервер статусом 200
как оно связано с капчей?

Rei · 22 Окт 2021

сайты "не поддающиеся парсингу" скорее всего содержат джаваскрипт хрень, которую requests не в состоянии переварить. ты какой-то ерундой занимаешься, хз зачем твой инструмент нужен вообще

maketoshka написал(а):
это же просто проверка на то, ответил ли сервер статусом 200
как оно связано с капчей?

видимо, проверка на редирект, лол

teeshq4 · 22 Окт 2021

Rei написал(а):
сайты "не поддающиеся парсингу" скорее всего содержат джаваскрипт хрень, которую requests не в состоянии переварить.

Можно было просто вот так написать, я ж написал что оно может не пригодиться, а ты решил свои пять копеек вставить) При чем тут джаваскрипт когда на сайтах по типу яндекса в html есть контейнеры
captcha при парсе?

maketoshka написал(а):
это же просто проверка на то, ответил ли сервер статусом 200
как оно связано с капчей?

А много сайтов отвечают с другим статусом?) я вот просто не понимаю когда я чётко расписываю цель, а потом вижу вот это

HackerARZ1 · 22 Окт 2021

Сделай так, чтобы после парса открылась страница в selenium, ту которую ты спарсил.

teeshq4 · 22 Окт 2021

HackerARZ1 написал(а):
Сделай так, чтобы после парса открылась страница в selenium, ту которую ты спарсил.

Зачем?

laiser · 26 Окт 2021

SOLO WARRIOR написал(а):
Зачем?

Хах, мне тоже стало интересно. Зачем после открывать в селениуме? 😀
Если можно просто открыть в селениуме без всего, что написал ТС

Поиск

Поиск

Исходник Проверка сайта на возможность к парсингу через requests.

teeshq4

Известный

MrCreepTon

Неизвестный

teeshq4

Известный

манку хлебал

Потрачен

Rei

Известный

teeshq4

Известный

HackerARZ1

Активный

teeshq4

Известный

laiser

Известный

Похожие темы