Veiledning for Chrome Web Scraper fra Semalt Expert

Hvis du bruker Google Chrome, er det en utvidelse for nettleseren din som kan bidra til å skrape websider. Det er kjent som '' Scrapper '', og det kan brukes uten problemer. Scrapper vil hjelpe deg med å skrape et nettstedinnhold og laste opp resultatene til Google-dokumenter.
Hvordan skrape et nettsted ved å bruke Scraper-utvidelsen?
1. Velg Chrome Web Store i Google Chrome;
2. I utvidelser, gjennomfør et søk etter '' Scrapper '';
3. Det første søkeresultatet er utvidelsen kjent som '' Scrapper '';
4. Velg knappen som er oppført som '' Legg til Chrome ';
5. Gå tilbake til oppføringen av de britiske parlamentsmedlemmer;
6. Klikk på følgende kobling ;
7. Se nå etter en MP og sørg for at oppføringen er merket.

8. Høyreklikk for å velge alternativet "Skrap lignende ...";

9. Konsollen for utklipperen dukker opp i et annet vindu;
10. Vis det skrapede innholdet i skrapekonsollen.
11. For å sikre at innholdet er lagret som et Google-regneark, velger du "Lagre i Google Dokumenter ..."
Utvidet skraping
Før du holder deg til denne oppskriften, er det nyttig å forstå det grunnleggende i HTML. For eksempel kan du lese en kort introduksjon til HTML via denne lenken
La oss tenke oss at vi er interessert i alle filmer som spilte Asia Argento, en berømt italiensk skuespillerinne.
1. Det er et veldig detaljert arkiv med skuespillere i IMDB. Asia Argento nettstedet er: http://www.imdb.com/name/nm0000782/;
2. Her kan du se alle rollene som skuespilleren har spilt. La oss begynne å skrape informasjonen vi er interessert i;
3. Prøv å skrape den slik den ble beskrevet ovenfor;
4. Du vil se at listen er litt forvrengt. Dette skyldes at listen her kan struktureres annerledes;
5. Gå til skrapekonsollen. Øverst til venstre ser du den lille boksen som sier XPath;
6. Xpath er et slags spørrespråk som fungerer for XML og HTML;
7. XPath kan hjelpe deg med å finne de delene av siden du er interessert i. Det neste er å finne et passende element og skrive XPath for det;
8. La oss nå ordne bordet vårt;
9. Du vil se at vår eksisterende XPath, som har alle nødvendige data, er "// div [3] / div [3] / div [2] / div";
10. XPath informerer systemet om å se HTML-dokumentet og velge det tredje elementet, deretter det andre elementet og deretter alle dem;
11. Men vi vil gjerne at våre data blir skilt ut.
12. Bruk kolonnedelen i konsollen for skraperen for å få dette til;
13. La oss først finne tittelen vår. Bruk Inspect Element for å se tittelen.
14. Kontroller tittelen i en tag. Legg til koden til XPath;

15. Uttrykket ser ut til å fungere riktig, så gjør det til vår første kolonne;
16. I delen "Kolonner" erstatter du den første kolonnens navn til "tittel";
17. Legg XPath til den;
18. I kolonnedelen er XPaths relative og det betyr at "./b" vil velge <b> elementet
19. Legg til "./b" i XPath for tittelkolonnen og velg "skrap";

20. La oss fortsette i et år. År kan finnes innen ett spenn;
21. Lag en ny kolonne ved å velge det lille plusset ved siden av kolonnen for tittelen din;
22. Bruk XPath "./span" opprett en kolonne for "år";
23. Klikk på skrap og vis hvordan året ble lagt til.
24. Ferdig!