Izmantojot Excel VBA un selēnu

Kas ir datu skrāpēšana, izmantojot selēnu?

Selēnu var klasificēt kā automatizācijas rīku, kas atvieglo informācijas nokasīšanu no HTML tīmekļa lapām, lai veiktu tīmekļa nokasīšanu, izmantojot Google Chrome.

Šajā apmācībā jūs uzzināsit:

Kā sagatavot Excel makro pirms datu skrāpēšanas, izmantojot selēnu?

Ir noteikti priekšnosacījumi, kas jāizpilda Excel makro failā, pirms sākat darbu datu skrāpēšanas procesā programmā Excel.

Šie priekšnoteikumi ir šādi: -

1. darbība) Atveriet uz Excel balstītu makro un piekļūstiet Excel izstrādātāja opcijai.

2. darbība) Sadaļā Izstrādātāja lente atlasiet opciju Visual Basic.

3. darbība) Ievietojiet jaunu moduli.

4. darbība) Inicializējiet jaunu apakšprogrammu un nosauciet to par testu2. | _+_ |

Moduļa rezultāti būs šādi: -

5. darbība) Piekļūstiet atsauces opcijai rīku cilnē un atsauces Selēna tipa bibliotēkai. Tālāk norādītās bibliotēkas ir jāatsaucas uz moduli, jo tas palīdz atvērt Google Chrome un atvieglo makro skriptu izstrādi.

Tagad Excel fails ir gatavs mijiedarbībai ar interneta pārlūku. Nākamie soļi būtu makro skripta iekļaušana, kas atvieglotu datu nokasīšanu HTML.

Kā atvērt pārlūku Google Chrome, izmantojot VBA?

Tālāk ir norādīts, kā atvērt pārlūku Google Chrome, izmantojot VBA

1. darbība) Deklarējiet un inicializējiet mainīgos apakšprogrammā, kā parādīts zemāk | _+_ |

2. darbība) Lai atvērtu Google Chrome, izmantojot selēnu un VBA, uzrakstiet driver.start 'chrome' un nospiediet F5 .

Tālāk būtu norādīts kods. | _+_ |

Moduļa rezultāts būtu šāds: -

Kā atvērt vietni Google Chrome, izmantojot VBA?

Kad varēsit piekļūt Google Chrome, izmantojot VBA, nākamais solis būtu iekļaut piekļuvi vietnei, izmantojot VBA. To atvieglo get funkcija, kur URL ir jānorāda kā pēdiņas atribūtā.

Veiciet tālāk norādītās darbības, kā parādīts

Modulis izskatīsies šādi: -

Nospiediet F5, lai izpildītu makro.

Šī tīmekļa lapa tiks atvērta Google Chrome, kā parādīts | _+_ |

Tagad Excel makro ir gatavs skrāpēšanas uzdevumu veikšanai. Nākamais solis parādīs, kā informāciju var iegūt, izmantojot selēnu un VBA.

Kā nokopēt informāciju no vietnes, izmantojot VBA?

Pieņemsim, ka dienas tirgotājs vēlas katru dienu piekļūt datiem no vietnes. Katru reizi, kad dienas tirgotājs nospiež klikšķi, tam vajadzētu automātiski ievilkt tirgus datus programmā Excel.

No iepriekš minētās vietnes būtu nepieciešams pārbaudīt kādu elementu un novērot, kā dati ir strukturēti. Piekļūstiet zemāk esošajam HTML avota kodam, nospiežot taustiņu kombināciju control + Shift + I

 Sub test2() End sub 

Avota kods būtu šāds: -

Kā redzams, dati ir strukturēti kā viena HTML tabula. Tāpēc, lai izvilktu visus datus no HTML tabulas, būtu jāizstrādā makro, kas izvelk HTML tabulas galvenes informāciju un ar tabulu saistītos atbilstošos datus. Veiciet šādus uzdevumus, kā parādīts: -

1. darbība) Izveidojiet for cilpu, kas kā kolekcija iet cauri HTML galvenes informācijai. Selēna draiverim ir jāatrod HTML tabulas galvenes informācija. Lai to izdarītu, mēs izmantojam FindElementByClass () un FindElementByTag () metodi, lai veiktu parādīto uzdevumu

VBA modulis izskatītos šādi: - | _+_ |

2. darbība) Tālāk selēna draiveris atrastu tabulas datus, izmantojot līdzīgu pieeju, kā minēts iepriekš. Jums jāraksta šāds kods: - | _+_ |

VBA modulis izskatītos šādi: -

Excel var inicializēt, izmantojot Excel lapas atribūtu Range vai izmantojot Excel lapas atribūtu šūnas. Lai samazinātu VBA skripta sarežģītību, apkopošanas dati tiek inicializēti darbgrāmatā esošās 2. lapas Excel šūnu atribūtā. Turklāt teksta atribūts palīdz iegūt teksta informāciju zem HTML taga. | _+_ |

VBA modulis izskatītos šādi: -

3. darbība) Kad makro skripts ir gatavs, nododiet un piešķiriet apakšprogrammai Excel pogu un izejiet no VBA moduļa. Iezīmējiet pogu kā atsvaidzinošu vai jebkuru citu piemērotu nosaukumu, ko tajā varētu inicializēt. Šajā piemērā poga tiek inicializēta kā atsvaidzināšana.

4. darbība) Nospiediet atsvaidzināšanas pogu, lai iegūtu zemāk minēto rezultātu

5. darbība) Salīdziniet rezultātus programmā Excel ar google chrome rezultātiem

Kopsavilkums:

  • Selēnu var klasificēt kā automatizācijas rīku, kas atvieglo informācijas nokasīšanu no HTML tīmekļa lapām, lai veiktu tīmekļa nokasīšanu, izmantojot Google Chrome.
  • Skrāpēšana internetā jāveic rūpīgi.
  • Informācijas nokasīšana parasti ir pretrunā ar vietnes noteikumiem.
  • Kad skrāpēšana tiek veikta, izmantojot selēnu, tas piedāvā vairāku pārlūkprogrammu atbalstu.
  • Citiem vārdiem sakot, skrāpis var veikt līdzīgus skrāpēšanas uzdevumus, izmantojot Firefox, arī Internet Explorer.