01 ДекПарсеров HTML нет!
Отстой полный! Я не нашёл HTML-парсера, который работал бы быстро, и при этом, мог перерабатывать не wellformated-документы…
Tidy оказался знатным тормозом, документ размеров в 180Кб, взятый с одного популярного сайта, он перелопачивал со скоростью порядка 6 документов в секунду, это ни в какие рамки не лезет для моих задач, где скорость должна исчисляться сотнями документов в секунду… Но зато перелопатил…
Libxml2 вообще отказался обрабатывать какие-либо документы… Опытным путём пришёл к выводу, что достаточно одной ошибки в документе чтобы он вернул ошибку…
Поиск в Google пока ничего не дал… Чувствуется придётся писать свой парсер…
