Semalt Guide On Scraper Extension pre Chrome

Aby všetky podniky prežili a nakoniec rástli, je potrebné držať sa pred konkurenciou a rôznymi rizikami. Rozhodovanie založené na analytických údajoch je istým spôsobom, ako zabudnúť na tieto problémy. Takéto údaje možno získať zošrotovaním údajov. Tu prichádza ľahké rozšírenie škrabky pre prehliadač Chrome: uľahčí to nielen proces zberu údajov, ale umožní aj zoškrabanie na cestách bez komplikovaných nastavení.

Ako používať škrabku

    1. Prvá vec, ktorú musíte urobiť, je nainštalovať rozšírenie, takže zamierte do internetového obchodu Chrome, vyhľadajte výraz „škrabka“ a kliknite na položku Pridať do prehliadača Chrome.

    2. Prejdite na webovú stránku, z ktorej chcete zoškrabať údaje , označte položku, o ktorú sa zaujímate, a zvýraznite ju. Kliknite naň pravým tlačidlom myši a v rozbaľovacej ponuke kliknite na položku „škrabka podobná“.

    3. Ak tak urobíte, otvorí sa samostatné okno konzoly škrabky. Tu uvidíte zoznam zoškrabaných údajov .

    4. Ak chcete obsah uložiť, kliknite na možnosť „uložiť do dokumentov Google“. Údaje sa automaticky exportujú do tabuľky Google.

Rozšírené zoškrabovanie

V prípade, že plánujete zoškrabať viac údajov, môžete použiť pokročilý prístup. Ak máte nejaké znalosti jazyka HTML, bude s nástrojom oveľa jednoduchšie pracovať. Predpokladajme, že chcete zoškrabať údaje zo zdroja, ktorý má archív založený na údajoch časových radov. V takom prípade, ak vyskúšate vyššie opísanú metódu, dostanete skomolené údaje.

Na vyriešenie tohto problému môžete použiť dotazovací jazyk HTML a XML známy ako XPath. Čo to robí? XPath rozpoznáva údaje týkajúce sa rôznych prvkov obsiahnutých v každom výbere. Nasleduje sprievodca, ako na to:

1. Prejdite na konzolu Scraper, v ľavom hornom rohu by ste si mali všimnúť tlačidlo „XPath“, kliknite naň a pokračujte v zostavovaní počiatočnej tabuľky.

2. Musíte napísať XPath pre správny prvok. Aktuálny XPath, ktorý obsahuje celú informáciu, sa zobrazí vo formáte, ako je tento „// div [3] / div [3] / div [2] / div“. Prvky <div> v počítači rozpozná dokument HTML.

3. Na oddelenie rozpoznaných údajov musíte použiť stĺpce stierky. Ak to chcete urobiť, musíte vyhľadať rôzne typy informácií, ktoré máte k dispozícii. V závislosti od údajov, ktoré zoškrabávate, môžete mať tituly. Tieto tituly sa nachádzajú vedľa každej sady údajov. Sú sprevádzané značkou, v tomto prípade značkou <b>.

4. Pomocou prvku preskúmania vyhľadajte a pridajte značku <b> do svojho XPath. Teraz môžete tento prvý stĺpec označiť ako „stĺpec nadpisov“, pretože bude zobrazovať nadpisy. Pokračujte vytvorením rôznych XPathov pre každý stĺpec, ktorý potrebujete.

5. Kliknite na odkaz a rozšírenie automaticky zhromaždí údaje a usporiada ich do rôznych stĺpcov, ktoré ste nastavili.