hand'sdriver: 05.10.2008

2008-10-10

Twisted-клиент и веб-прокси

Как это не парадоксально, но Twisted в своем арсенале не имеет средств для работы с HTTP через прокси-сервер. Я наклепал небольшой код, который решает эту проблему. Сделано не бог весть как, но если кому-то очень нужно, то сгодится и этот код.

from twisted.web import client as _twc


class HTTPPageGetter(_twc.HTTPPageGetter):

    def sendCommand(self, command, path):
        if self.factory.proxy:
            from twisted.web.http import urlparse
            from urlparse import urlunparse

            domain = urlparse(self.factory.url)[:2]
            path   = urlparse(path)[2:]
            path   = urlunparse(domain + path)

        self.transport.write('%s %s HTTP/1.0\r\n'%(command, path))

    def handleStatus_301(self):
        location = self.headers.get('location')
        if not location:
            self.handleStatusDefault()
            return
        url = location[0]

        if self.followRedirect:
            self.factory.connect(url)

        else:
            from twisted.python.failure import Failure
            from twisted.web.error import PageRedirect

            self.handleStatusDefault()
            self.factory.noPage(Failure(
                PageRedirect(self.status, self.message,
                    location = url)))

        self.quietLoss = 1
        self.transport.loseConnection()



class HTTPClientFactory(_twc.HTTPClientFactory):

    protocol = HTTPPageGetter
    proxy = None

    def __init__(self, url, **kwargs):
        self.proxy = kwargs.pop('proxy', None)
        _twc.HTTPClientFactory.__init__(self, url, **kwargs)

    def connect(self, url = None):
        if url:
            self.setURL(url)

        if self.proxy is not None:
            try:
                host, port = self.proxy.split(':')
                host, port = str(host), int(port)
            except:
                raise Exception(
                    'Incorrect proxy address "%s"'%self.proxy)

        else:
            host, port = self.host, self.port

        from twisted.internet import reactor

        if self.scheme == 'https':
            from twisted.internet.ssl import ClientContextFactory

            contextFactory = ClientContextFactory()
            reactor.connectSSL(host, port, self, contextFactory)

        else:
            reactor.connectTCP(host, port, self)

Этот код вырван из контекста (моего проекта), так что я его не тестировал, если будут ошибки — обращайтесь, разберемся.
Для работы с этой HTTPClientFactory теперь не стоит использовать вызов reactor.connectTCP, для установления соединения вызовите метод connect этой фабрики, а так же, при создании фабрики, не забудьте указать какой прокси вы хотите использовать:

factory = HTTPClientFactory('http://python.su/',
    proxy = 'localhost:3128')
factory.connect()

2008-10-09

Кодировка в html5lib

Есть такая замечательная библиотека html5lib, а предназначена она для обработки, в том числе не валидного (не корректного) HTML. Пакет так же имеет код для сериализации DOM, ElementTree, BeautifulSoup и другой хрени в HTML, но этой его частью я не пользуюсь.

Вот простенький пример, для парсинга HTML в DOM:

from html5lib.html5parser import HTMLParser
from html5lib.treebuilders.dom import TreeBuilder

dom = HTMLParser(tree = TreeBuilder).parse(html)

Где html — файловый объект или строка. Собственно это все.

Следует отметить, что это замечательная библиотека в состоянии самостоятельно определить кодировку документа одним из нескольких способов, в том числе «самым правильным», используя значение тега meta. Но вот незадача, «самый правильный» способ берет только первые 512 байт для анализа и, если заголовок большой и тег с указанием кодировки находится за границей в 512 байт, то кодировку определить нет шансов.

Решить проблему можно таким вот хаком:

from html5lib.inputstream import HTMLInputStream

HTMLInputStream.numBytesMeta = property(
    lambda self: 1024,
    lambda self, value: None)
HTMLInputStream.numBytesChardet = property(
    lambda self: 2048,
    lambda self, value: None)

del HTMLInputStream

Где numBytesMeta это и есть ограничение при сканировании meta, а numBytesChardet это ограничение при сканировании HTML другим методом, какой анализ проводится, я не разбирался. Эти атрибуты настраиваются при инициализации экземпляра HTMLInputStream и тут же используются, так что другого способа перекрыть эти значения нет, не считая, конечно, варианта с переопределением и полным переписыванием метода __init__ и использованием «хитрых свойств». Я умолчал про цифры в лямбдах, но вы и сами о их смысле догадываетесь.