Парсеров HTML нет!
Отстой полный! Я не нашёл HTML-парсера, который работал бы быстро, и при этом, мог перерабатывать не wellformated-документы…
Tidy оказался знатным тормозом, документ размеров в 180Кб, взятый с одного популярного сайта, он перелопачивал со скоростью порядка 6 документов в секунду, это ни в какие рамки не лезет для моих задач, где скорость должна исчисляться сотнями документов в секунду… Но зато перелопатил…
Libxml2 вообще отказался обрабатывать какие-либо документы… Опытным путём пришёл к выводу, что достаточно одной ошибки в документе чтобы он вернул ошибку…
Поиск в Google пока ничего не дал… Чувствуется придётся писать свой парсер…
Tags: libxml2, tidy, программирование



в либхмл есть htmlParseDoc. он для этих делов.
Да, есть, но он ждёт на входе валидный html. Поставьте в документе знак амперсента (&) и он вывалится с ошибкой…
stokito, а вы правы, htmlParseDoc хавает документы с ошибками… Но всё равно не подходит, тесты показали что он лопатит порядка 37 документов размером в 132Кб (в формате utf8). Это лучше чем tidy, но для моих задач мало.