Womit Links auslesen und Daten aus Webseiten holen?

Das Forum für Programmierer und Systemadmins. Von Shell-, Perl- und PHP-Scripts bis zur objektorientierten Programmierung mit C++.

Womit Links auslesen und Daten aus Webseiten holen?

Beitragvon michaelw » Mo 18 Jun, 2012 17:31

1. Ich möchte (unter Windows) die in einer Text-Datei gespeicherten http Links auslesen.

2. Aus den Webseiten von jedem dieser Links sollen 2 Werte ausgelesen werden.
Die Webseiten haben alle dieselbe Formatierung und Bezeichungen für HTML Elemente.

3.Die Links und die ausgelesenen Werte zusammen in eine .html-Datei(oder so) schreiben.
Es soll eine Endlos-Liste enstehen wo die Einträge untereinander nur von so ein, zwei Leerzeilen getrennt sind.
Die Links in dieser Liste soll man am besten auch anklicken können.

Mit welcher Sprache könnte ich das bitte schnell und einfach realisieren probieren, wenn ich zumindest in Sachen Online-Programmierung noch kaum was gemacht habe?
Höhere Programmiersprache, VBA, Scriptsprache, Shell, ...?

Bitte um Sprach-Empfehlungen und vielleicht auch gleich ein paar nützliche Links mit dazu passenden Programmier-Beispielen?
michaelw
Senior Board-Mitglied
Senior Board-Mitglied
 
Beiträge: 400
Registriert: So 24 Okt, 2004 04:48

Re: Womit Links auslesen und Daten aus Webseiten holen?

Beitragvon lordpeng » Mo 18 Jun, 2012 20:00

sollte sich via perl, curl, vb oder sogar als batchfile lösen lassen, es kommt halt drauf an, wie kreativ man ist bzw. wie gut man die werkzeuge beherrscht, anstelle der frage nach einer empfehlung für eine sprache, würd ich mich eher fragen, welche programmiersprache du denn beherrscht und dann die suchmaschine deines vertrauens nach beispielen befragen (und davon gibts sicherlich tausende ...)
lordpeng
Moderator
Moderator
 
Beiträge: 10198
Registriert: Mo 23 Jun, 2003 22:45

Re: Womit Links auslesen und Daten aus Webseiten holen?

Beitragvon michaelw » Di 19 Jun, 2012 04:45

Ich bitte schon um konkrete Vorschläge und nicht eine Liste aller Sprachen der Welt, wo es vielleicht auch irgendwie möglich sein mag. (Und wie liest man mit einer Batch Datei ein bestimmtes HTML Element einer online Webseite direkt aus?!)

Ich suche also was womit man möglichst direkt bestimmte Werte aus einer im Internet befindlichen Webseite ausliest.
Zusätzlich soll man damit eben lokale Textdateien auslesen und schreiben können.


Ãœbrigens die Werte die ich auslesen will stehen eines in einem <div class="...>
und der andere mehrfach vorkommend in <h2>(Ãœberschrift) oder auch dem <title>
HTML Element.

Das <h2> und <title> sind im Quelltext einmalig.

Das <div class="...> dagegen steckt tief unten in einer verschachtelten <div> und <li> Struktur.
Ich hoffe man kann das in einer Sprache anstatt dem weit verbreiteten Suchbefehl <div id=".. (mit einer eindeutigen ID) auch mit der eindeutigen Class direkt anspringen?
michaelw
Senior Board-Mitglied
Senior Board-Mitglied
 
Beiträge: 400
Registriert: So 24 Okt, 2004 04:48

Re: Womit Links auslesen und Daten aus Webseiten holen?

Beitragvon jutta » Di 19 Jun, 2012 07:40

wie waers mit der suchfunktion deines browsers und dann copy/paste?

wenn dir das zu muehsam ist, siehe tipps von lordpeng.

>Ich suche also was womit man möglichst direkt bestimmte Werte aus einer im Internet befindlichen Webseite ausliest.

woher erfaehrt das programm, in welche websites es schauen soll? wenn du die manuell eingeben musst, reicht meine copy/past methode locker.
jutta
Administrator
Administrator
 
Beiträge: 30485
Registriert: Do 15 Apr, 2004 10:48
Wohnort: wien

Re: Womit Links auslesen und Daten aus Webseiten holen?

Beitragvon lordpeng » Di 19 Jun, 2012 07:58

ich bin jetzt kein programmierer, ich persönlich würds aber mit perl machen, wo du dann die strings via regular expressions einwandfrei rauspicken kannst

aber wie schon erwähnt gehts theoretisch mit jeder programmiersprache die auf das tcp/ip protokoll zugreifen kann, deshalb auch die empfehlung etwas zu verwenden, mit dem du erfahrung hast ...

>(Und wie liest man mit einer Batch Datei ein bestimmtes
>HTML Element einer online Webseite direkt aus?!)
bsp. mit vorinstallierten hilfsmitteln, via telnet, den string filterst dann mit findstr (ab winxp ebenfalls vorinstalliert) raus - sowas hab ich jetzt als batch zwar ned umgesetzt, aber dafür andere (schrägere) sachen, die man mit batchfiles normalerweise ned machen würde ...

>Ich hoffe man kann das in einer Sprache anstatt dem weit verbreiteten Suchbefehl
><div id=".. (mit einer eindeutigen ID) auch mit der eindeutigen Class direkt anspringen?
mit regular expressions bzw. pattern matching sollte das eigentlich kein problem sein

im grunde würde das programm aus 2 wesentlichen teilen bestehen:
1. download der html datei und temporäre speicherung (auf hd oder in den arbeitsspeicher)
2. verarbeitung der strings via regex/pattern matching

der erste punkt wird sich vermutlich relativ einfach lösen lassen, der zweite könnte eventuell etwas kniffliger werden

machbar isses ohne weiteres, ich hab auf diese art schon einige sachen wie z.b. nagios-plugins, oder traffic-auswertungsscripts für kunden gemacht, die kann ich jedoch ned weitergeben

beispiele darfst dir selber suchen, wie schon erwähnt, es gibt im netz KONKRET für diese verwendung massenweise anleitungen, wo es sicherlich wesentlich besser erklärt wird, als ich es könnte ... wenn du es mit perl lösen willst suchst am besten nach perl +libwww bzw. lwp::simple
lordpeng
Moderator
Moderator
 
Beiträge: 10198
Registriert: Mo 23 Jun, 2003 22:45

Re: Womit Links auslesen und Daten aus Webseiten holen?

Beitragvon michaelw » Di 19 Jun, 2012 17:58

download der html datei und temporäre speicherung

Das ist dein grundsätzlicher Denkfehler.

Ich will kein reines Text-Parsing hier am lokalen PC, wie es schon vor so 20 Jahren möglich war.
Ich will nur online zwei Werte aus einer Webseite auselesen. Mit einer modernen Sprache die das möglichst direkt implementiert hat.
Was glaubst wieso ich extra so oft das Wort Online erwähne.


Außerdem stehen in der Textdatei fast 1000 Links aus denen ich die zwei Werte auslesen will.
michaelw
Senior Board-Mitglied
Senior Board-Mitglied
 
Beiträge: 400
Registriert: So 24 Okt, 2004 04:48

Re: Womit Links auslesen und Daten aus Webseiten holen?

Beitragvon lordpeng » Di 19 Jun, 2012 18:46

>Das ist dein grundsätzlicher Denkfehler.
na wennst meinst, aber ich hab das was du willst in der praxis schon mehrfach umgesetzt ... soviel zum denkfehler ...

>Ich will kein reines Text-Parsing hier am lokalen PC, wie es schon vor so 20 Jahren möglich war.
>Ich will nur online zwei Werte aus einer Webseite auselesen. Mit einer modernen Sprache die das möglichst direkt
>implementiert hat.
was glaubst du was so ziemlich jeder browser macht, wennst einen string auf einer website suchst? er durchsucht den arbeitsspeicher oder den lokalen cache ... nix anderes machst mit einem script oder ...

>Was glaubst wieso ich extra so oft das Wort Online erwähne.
nix zu danken ...

btw. das extra so oft erwähnte wort 'online' kam in den vorigen beiträgen genau 2x vor ...

weilst so dankbar bist mach i den thread jetzt zu ...
lordpeng
Moderator
Moderator
 
Beiträge: 10198
Registriert: Mo 23 Jun, 2003 22:45


Zurück zu PROGRAMMIER FORUM

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste