DOMXpath je skvělý nástroj pro zpracování XML a HTML souborů. Umožňuje dle speciální syntaxe vypsat pouze požadované části souboru dle specifických tagů, identifikátorů, tříd nebo obsahu elementů.
Obsahuje však bug, díky kterému není korektně rozpoznáno UTF8 kódování zdrojového souboru. Výsledkem je pak špatná reprezentace diakritiky.
Tento problém je však možné celkem snadno obejít. Místo metody loadHTMLfile je nutné použít loadHTML. Požadovaný soubor je nutné předem načíst a provést úpravu hlavičky.
<?php
$file = file_get_contents('http://www.example.com');
$file = preg_replace('/<head[^>]*>/','<head><META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">',$file);
$doc = new DOMDocument();
$doc->loadHTML($file);
?>

Díky moc za tip! Už jsem
Díky moc za tip! Už jsem myslel že mě z toho jebne, když se mi některý stránky zobrazí korektně a některý s rozsypanou češtinou..