Veiledning for Chrome Web Scraper fra Semalt Expert

Hvis du bruker Google Chrome, er det en utvidelse for nettleseren din som kan bidra til å skrape websider. Det er kjent som '' Scrapper '', og det kan brukes uten problemer. Scrapper vil hjelpe deg med å skrape et nettstedinnhold og laste opp resultatene til Google-dokumenter.

Hvordan skrape et nettsted ved å bruke Scraper-utvidelsen?

1. Velg Chrome Web Store i Google Chrome;

2. I utvidelser, gjennomfør et søk etter '' Scrapper '';

3. Det første søkeresultatet er utvidelsen kjent som '' Scrapper '';

4. Velg knappen som er oppført som '' Legg til Chrome ';

5. Gå tilbake til oppføringen av de britiske parlamentsmedlemmer;

6. Klikk på følgende kobling ;

7. Se nå etter en MP og sørg for at oppføringen er merket.

8. Høyreklikk for å velge alternativet "Skrap lignende ...";

9. Konsollen for utklipperen dukker opp i et annet vindu;

10. Vis det skrapede innholdet i skrapekonsollen.

11. For å sikre at innholdet er lagret som et Google-regneark, velger du "Lagre i Google Dokumenter ..."

Utvidet skraping

Før du holder deg til denne oppskriften, er det nyttig å forstå det grunnleggende i HTML. For eksempel kan du lese en kort introduksjon til HTML via denne lenken

La oss tenke oss at vi er interessert i alle filmer som spilte Asia Argento, en berømt italiensk skuespillerinne.

1. Det er et veldig detaljert arkiv med skuespillere i IMDB. Asia Argento nettstedet er: http://www.imdb.com/name/nm0000782/;

2. Her kan du se alle rollene som skuespilleren har spilt. La oss begynne å skrape informasjonen vi er interessert i;

3. Prøv å skrape den slik den ble beskrevet ovenfor;

4. Du vil se at listen er litt forvrengt. Dette skyldes at listen her kan struktureres annerledes;

5. Gå til skrapekonsollen. Øverst til venstre ser du den lille boksen som sier XPath;

6. Xpath er et slags spørrespråk som fungerer for XML og HTML;

7. XPath kan hjelpe deg med å finne de delene av siden du er interessert i. Det neste er å finne et passende element og skrive XPath for det;

8. La oss nå ordne bordet vårt;

9. Du vil se at vår eksisterende XPath, som har alle nødvendige data, er "// div [3] / div [3] / div [2] / div";

10. XPath informerer systemet om å se HTML-dokumentet og velge det tredje elementet, deretter det andre elementet og deretter alle dem;

11. Men vi vil gjerne at våre data blir skilt ut.

12. Bruk kolonnedelen i konsollen for skraperen for å få dette til;

13. La oss først finne tittelen vår. Bruk Inspect Element for å se tittelen.

14. Kontroller tittelen i en tag. Legg til koden til XPath;

15. Uttrykket ser ut til å fungere riktig, så gjør det til vår første kolonne;

16. I delen "Kolonner" erstatter du den første kolonnens navn til "tittel";

17. Legg XPath til den;

18. I kolonnedelen er XPaths relative og det betyr at "./b" vil velge <b> elementet

19. Legg til "./b" i XPath for tittelkolonnen og velg "skrap";

20. La oss fortsette i et år. År kan finnes innen ett spenn;

21. Lag en ny kolonne ved å velge det lille plusset ved siden av kolonnen for tittelen din;

22. Bruk XPath "./span" opprett en kolonne for "år";

23. Klikk på skrap og vis hvordan året ble lagt til.

24. Ferdig!

send email