Jump to content

html-seite regexpen


Recommended Posts

da bin ich mal wieder mit ner frage zu regexp :-)


und zwar sieht der input so aus (html-file):





Seitentitel


Text etc.


 

den lese ich in einen string ein und möchte nun daraus den seitentitel und den body, wobei die anderen sachen wegfallen sollen.

habs mal so probiert:

]*)body([^>]*)>(.*)!eUs', '\\3', $string);	
?>

 

da krieg ich alles aus dem body raus, aber der rest ringsum bleibt trotzdem bestehen?

irgendwer ne idee, wie preg_replace (oder andere) besser aussehen könnten?

Link to post
Share on other sites

Die "beste" Methode wäre wohl, das Einlesen des Strings per simplexml:

 

html->head->title->asXML();
$body = $xml->html->body->asXML();
?>

 

dazu muss PHP5 installiert sein und die HTML Datei sollte XHTML konform sein ;-)


Regexp: !(.+))!s und das in preg_match_all(). Keine Ahnung, ob das stimmt, ich bin ein wenig eingerostet.


Und nun werd ich weiter an meinem Geschichtsvortrag arbeiten.


Grüße, Tom

Link to post
Share on other sites

hmm, möchte schon noch php4-kompatibel bleiben :-) aber irgendwie tönt das mit der xml-funktion schon noch interessant, aber xtml-standard erfüllen.... hmmmm ;-)


preg_match funzelt gut und ist das, was ich jetzt genommen hab.

dankö für die beiden inputs!

Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...