Python Pandas apmācība: DataFrame, datumu diapazons, pandu izmantošana

Kas ir Pandas Python?

Pandas ir atvērtā koda bibliotēka, kas ļauj jums veikt datu manipulācijas un analīzi Python. Pandas Python bibliotēka piedāvā datu manipulācijas un datu darbības ciparu tabulām un laikrindām. Pandas nodrošina vienkāršu veidu, kā izveidot, apstrādāt un izjaukt datus. Tas ir veidots virs NumPy, tas nozīmē, ka tā darbībai ir nepieciešams NumPy.

Šajā Python Pandas apmācībā jūs uzzināsit Pandas Python pamatus, piemēram:

Kāpēc izmantot pandas?

Datu zinātnieki izmanto Pandas Python, lai iegūtu šādas priekšrocības:

  • Viegli apstrādā trūkstošos datus
  • Tas izmanto Sērija viendimensiju datu struktūrai un DataFrame daudzdimensiju datu struktūrai
  • Tas nodrošina efektīvu datu sagriešanas veidu
  • Tas nodrošina elastīgu veidu, kā apvienot, savienot vai pārveidot datus
  • Tas ietver jaudīgu laikrindu rīku, ar kuru strādāt

Īsumā, Pandas ir noderīga bibliotēka datu analīze . To var izmantot, lai veiktu datu manipulācijas un analīzi. Pandas nodrošina jaudīgas un viegli lietojamas datu struktūras, kā arī līdzekļus, lai ātri veiktu darbības ar šīm struktūrām.

Kā instalēt pandas?

Tagad šajā Python Pandas apmācībā mēs iemācīsimies instalēt Pandas programmā Python.

Lai instalētu Pandas bibliotēku, lūdzu, skatiet mūsu apmācību Kā instalēt TensorFlow . Pandas ir instalētas pēc noklusējuma. Attālā gadījumā pandas nav instalētas-

Jūs varat instalēt Pandas, izmantojot:

  • Anaconda: conda install -c anaconda pandas
  • Jupyter piezīmju grāmatiņā:
import sys !conda install --yes --prefix {sys.prefix} pandas 

Kas ir Pandas DataFrame?

Pandas DataFrame ir divdimensiju masīvs ar marķētu datu struktūru ar dažādiem kolonnu veidiem. DataFrame ir standarta veids, kā uzglabāt datus tabulas formātā, ar rindām informācijas glabāšanai un slejām informācijas nosaukšanai. Piemēram, cena var būt kolonnas nosaukums, bet 2,3,4 - cenas vērtības.

Datu rāmi labi pazīst statistiķi un citi datu praktiķi.

Zem Pandas datu rāmja attēla:

Kas ir sērija?

Sērija ir viendimensiju datu struktūra. Tam var būt jebkura datu struktūra, piemēram, vesels skaitlis, pludiņš un virkne. Tas ir noderīgi, ja vēlaties veikt aprēķinus vai atgriezt viendimensiju masīvu. Sērijā pēc definīcijas nevar būt vairākas kolonnas. Pēdējā gadījumā, lūdzu, izmantojiet datu rāmja struktūru.

Python Pandas sērijai ir šādi parametri:

  • Dati: var būt saraksts, vārdnīca vai skalārā vērtība
pd.Series([1., 2., 3.]) 
 0 1.0 1 2.0 2 3.0 dtype: float64 

Indeksu var pievienot ar indeksu. Tas palīdz nosaukt rindas. Garumam jābūt vienādam ar kolonnas lielumu | _+_ |

Tālāk jūs izveidojat Pandas sēriju ar trūkstošo vērtību trešajām rindām. Ņemiet vērā, ka trūkst vērtību Python tiek atzīmēti kā “NaN”. Jūs varat izmantot numpy, lai izveidotu trūkstošo vērtību: np.nan mākslīgi | _+_ |

Izvade | _+_ |

Izveidojiet Pandas DataFrame

Tagad šajā Pandas DataFrame apmācībā mēs iemācīsimies izveidot Python Pandas datu rāmi:

Jūs varat pārvērst masīvu masīvu par pandas datu rāmi, izmantojot pd.Data frame (). Ir iespējams arī pretējais. Lai pārvērstu pandas datu rāmi par masīvu, varat izmantot np.array () | _+_ |

Pandas datu rāmja izveidošanai varat izmantot arī vārdnīcu. | _+_ |

Vecums Vārds
0 30Džons
1 40Smits

Pandas diapazona dati

Pandām ir ērta API, lai izveidotu datumu diapazonu. Mācīsimies ar Python Pandas piemēriem:

pd.data_range (datums, periods, biežums):

  • Pirmais parametrs ir sākuma datums
  • Otrais parametrs ir periodu skaits (pēc izvēles, ja ir norādīts beigu datums)
  • Pēdējais parametrs ir biežums: diena: 'D', mēnesis: 'M' un gads: 'Y.'
pd.Series([1., 2., 3.], index=['a', 'b', 'c'])

Izeja

pd.Series([1,2,np.nan])
 0 1.0 1 2.0 2 NaN dtype: float64 

Izeja

 ## Numpy to pandas import numpy as np h = [[1,2],[3,4]] df_h = pd.DataFrame(h) print('Data Frame:', df_h) ## Pandas to numpy df_h_n = np.array(df_h) print('Numpy array:', df_h_n) Data Frame: 0 1 0 1 2 1 3 4 Numpy array: [[1 2] [3 4]] 

Datu pārbaude

Jūs varat pārbaudīt datu kopas galvu vai asti ar galvu () vai asti (), pirms kuras ir pandas datu rāmja nosaukums, kā parādīts zemāk esošajā Pandas piemērā:

1. darbība) Izveidojiet nejaušu secību ar numpy. Secībai ir 4 kolonnas un 6 rindas | _+_ |

2. darbība) Tad jūs izveidojat datu rāmi, izmantojot pandas.

Datu rāmim kā rādītāju izmantojiet datumus_m. Tas nozīmē, ka katrai rindai tiks piešķirts datumam atbilstošs nosaukums vai indekss.

Visbeidzot, jūs piešķirat nosaukumu 4 kolonnām ar argumentu slejām | _+_ |

3. darbība) Izmantojot galvas funkciju | _+_ |

TO B C D
2030-01-31 1.1394331.318510-0.1813341.615822
2030-02-28 -0.081995-0.0635820.857751-0.527374
2030-03-31 -0.5191790,080984-1.4543341.314947

4. solis) Astes funkcijas izmantošana | _+_ |

TO B C D
2030-04-30 -0.685448-0.0117360,6221720.104993
2030-05-31 -0.935888-0,7731787-0.5587290,768774
2030-06-30 1.0969810,949180-0.196901-0,471556

5. solis) Lieliska prakse, lai iegūtu priekšstatu par datiem, ir apraksts (). Tas nodrošina datu kopas skaitļus, vidējo, std, min, max un procentili. | _+_ |

TO B C D
saskaitīt 6 000 0006 000 0006 000 0006 000 000
nozīmē 0,0023170,256928-0.1518960.467601
stundas 0.9081450.7469390.8346640,908910
min -0.935888-0,7731787-1.454334-0.527374
25% -0,643880-0.050621-0.468272-0,327419
piecdesmit% -0.3005870,034624-0.1891180.436883
75% 0,8022370.7321310,4212961 178404
maks 1.1394331.3185100.8577511.615822

Šķēles dati

Šīs Python Pandas apmācības pēdējais punkts ir par to, kā sagriezt pandas datu rāmi.

Varat izmantot kolonnas nosaukumu, lai iegūtu datus noteiktā slejā, kā parādīts zemāk esošajā Pandas piemērā: | _+_ |

Lai atlasītu vairākas kolonnas, divas reizes jāizmanto iekava [[.., ..]]

Pirmais kronšteina pāris nozīmē, ka vēlaties atlasīt kolonnas, otrie iekavu pāri norāda, kuras kolonnas vēlaties atgriezt. | _+_ |

TO B
2030-01-31 -0.1686550,587590
2030-02-28 0,6895850,998266
2030-03-31 0,767534-0,940617
2030-04-30 0,5572990,507350
2030-05-31 -1.5478361.276558
2030-06-30 0,5115511.572085

Jūs varat sagriezt rindas ar:

Tālāk esošais kods atgriež pirmās trīs rindas | _+_ |

TO B C D
2030-01-31 -0.1686550,5875900,572301-0.031827
2030-02-28 0,6895850,9982661.1646900,475975
2030-03-31 0,767534-0,9406170,227255-0,341532

Funkciju loc izmanto, lai atlasītu kolonnas pēc nosaukumiem. Kā parasti, vērtības pirms komas ir rindas un pēc tam attiecas uz kolonnu. Lai atlasītu vairāk nekā vienu kolonnu, izmantojiet iekavas. | _+_ |

TO B
2030-01-31 -0.1686550,587590
2030-02-28 0,6895850,998266
2030-03-31 0,767534-0,940617
2030-04-30 0,5572990,507350
2030-05-31 -1.5478361.276558
2030-06-30 0,5115511.572085

Ir vēl viena metode, lai Pandās atlasītu vairākas rindas un kolonnas. Varat izmantot iloc []. Šī metode kolonnas nosaukuma vietā izmanto indeksu. Tālāk esošais kods atgriež to pašu datu rāmi, kas norādīts iepriekš | _+_ |

TO B
2030-01-31 -0.1686550,587590
2030-02-28 0,6895850,998266
2030-03-31 0,767534-0,940617
2030-04-30 0,5572990,507350
2030-05-31 -1.5478361.276558
2030-06-30 0,5115511.572085

Nometiet kolonnu

Kolonnas var nomest, izmantojot pd.drop () | _+_ |

B D
2030-01-31 0,587590-0.031827
2030-02-28 0,9982660,475975
2030-03-31 -0,940617-0,341532
2030-04-30 0,507350-0.296035
2030-05-31 1.2765580,523017
2030-06-30 1.572085-0.594772

Saskaņošana

Pandās varat savienot divus DataFrame. Jūs varat izmantot pd.concat ()

Pirmkārt, jums ir jāizveido divi DataFrames. Līdz šim labi, jūs jau esat iepazinies ar datu rāmja izveidi | _+_ |

Visbeidzot, jūs savienojat divus DataFrame | _+_ |

Vecums vārds
0 25Džons
1 30Smits
2 piecdesmitPāvils
3 26Ādams
4 vienpadsmitSmits

Drop_duplicates

Ja datu kopā var būt dublikātu informācijas izmantošana, tad 'drop_duplicates' ir viegli izslēgt dublētas rindas. Jūs varat redzēt, ka 'df_concat' ir novērojuma dublikāts, slejā 'nosaukums' divreiz parādās 'Smith' .` | _+_ |

Vecums vārds
0 25Džons
1 30Smits
2 piecdesmitPāvils
3 26Ādams

Kārtot vērtības

Jūs varat kārtot vērtību, izmantojot sort_values ​​| _+_ |

Vecums vārds
4 vienpadsmitSmits
0 25Džons
3 26Ādams
1 30Smits
2 piecdesmitPāvils

Pārdēvēt: indeksa maiņa

Varat izmantot pārdēvēšanu, lai pārdēvētu kolonnu Pandas. Pirmā vērtība ir pašreizējās kolonnas nosaukums, bet otrā vērtība ir jaunās kolonnas nosaukums. | _+_ |

Vecums_lpp Uzvārds
0 25Džons
1 30Smits
2 piecdesmitPāvils
3 26Ādams
4 vienpadsmitSmits

Kopsavilkums

Tālāk ir sniegts datu zinātnei visnoderīgākās metodes ar Pandas kopsavilkums

importēt datusread_csv
veidot sērijasSērija
Izveidojiet datu rāmiDataFrame
Izveidojiet datumu diapazonudate_range
atgriešanās galvagalvu
atgriešanās asteasti
Aprakstietapraksta
šķēle, izmantojot nosaukumudataname ['columnname']
Sagrieziet, izmantojot rindasdata_name [0: 5]