D:\Kuliah\Tugas\Predatech\python.png

Source: www.google.com

Lini industri di era digital ini membutuhkan posisi penting dalam hal pengelolaan data perusahaan terutama posisi sebagai data scientist. Seorang data scientist sebaiknya memiliki keterampilan programming untuk membuat pekerjaannya menjadi lebih mudah. Python menjadi salah satu bahasa pemrograman yang banyak digemari oleh  data scientist maupun machine learning engineer untuk mengembangkan model serta berbagai hal terkait pengolahan data.

Sebagai bahasa pemrograman yang digunakan secara luas, Python memiliki banyak library yang memudahkan data scientist dalam menyelesaikan tugas-tugas rumit. Pada artikel ini, penulis akan mambahas tentang 3 library Python yang umum digunakan untuk data science.

1. NumPy

D:\Kuliah\Tugas\Predatech\Numpy.png

Source: https://numpy.org/

NumPy (Numerical Python) adalah library Python yang didistribusikan di bawah liberal lisensi BSD dengan focus utama pada scientific computing. NumPy Array memiliki kemampuan untuk membentuk objek N-dimensional array, mirip dengan list pada Python. Keunggulan NumPy array dibandingkan dengan list pada Python adalah penggunaan yang mudah, konsumsi memori yang lebih kecil dan juga runtime yang lebih cepat. NumPy juga memudahkan pada operasi aljabar linear, terutama operasi pada vektor (1-d array) dan matrix (2-d array). 

Adapun beberapa fungsi yang umum digunakan pada Numpy yaitu:

  1. Fungsi Arrange dan Reshape Untuk Modifikasi Data, Arrange digunakan untuk membuat array sedangkan Fungsi Reshape digunakan untuk membuat atau merubah baris kolom.
  2. Melihat Tipe Data Pada Array Dengan Fungsi Type, Fungsi type() digunakan untuk mengecek tipe data pada array. Sedangkan untuk mengecek tipe data elemen pada array bisa menggunakan fungsi dtype().
  3. Fungsi Untuk Operasi Pada Array, seperti penjumlahan, pengurangan, perkalian, pangkat, dan operasi lainnya yang bisa diterapkan pada vektor atau matriks.

2. Pandas

D:\Kuliah\Tugas\Predatech\Pandas.png

Source: https://pandas.pydata.org/

Pandas adalah library Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Pandas mudah digunakan membaca sebuah file dengan berbagai format seperti file txt, csv, tsv, dan JSON. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. Adupun beberapa fitur pada pandas adalah sebagai berikut.

  1. DataFrame Object untuk manipulasi data dengan pengindeksan terintegrasi.
  2. Alat untuk membaca dan menulis data antara struktur data dalam memori dan berbagai format file.
  3. Penyelarasan data dan penanganan terpadu pada kehilangan data.
  4. Membentuk kembali dan memutar set data.
  5. Seleksi berbasis label, pengindeksan fantastis, dan melakukan subset kumpulan data besar.
  6. Penyisipan dan penghapusan kolom struktur data.
  7. Memungkinkan operasi split-apply-combine pada Data set.
  8. Menghubugkan dan menggabungkan Data set.
  9. Pengindeksan hierarki untuk bekerja dengan data dimensi tinggi dalam struktur data dimensi rendah.
  10. Fungsionalitas seri waktu: Pembuatan rentang tanggal dan konversi frekuensi.
  11. Menyediakan penyaringan data (sorting dan filtering).

Pada pandas, series merupakan struktur data dasar pada Pandas. Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan index tersebut dapat kita kontrol dari setiap elemen tersebut. Sedangkan Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data.

3. Matplotlib

D:\Kuliah\Tugas\Predatech\Matplotlib.png

Source: https://matplotlib.org/

Matplotlib merupakan library Python yang fokus pada visualisasi data seperti membuat plot grafik. Matplotlib dapat digunakan dalam skrip Python, Python dan IPython shell, server aplikasi web, dan beberapa toolkit graphical user interface (GUI) lainnya.

Matplotlib digunakan untuk menampilkan hasil analisis berupa grafik berwarna dengan lebih rapi dan menarik. Ada dua jenis plot dalam menampilkan data yaitu secara 2D dan 3D, sehingga data bisa ditampilkan sesuai dengan kebutuhan. Adapun beberapa contoh dari plot tersebut adalah Line Plot, Multiple Subplots, Contouring & pseudocolor, Histogram, Path, Streamplot, Bar Chart, Pie Chart, Scatter Plot dan sebagainya. Selain itu, dengan Matplotlib pengguna dapat menambahkan text, label, legend, anotasi dan lainnya dalam memvisualisasikan data.

REFERENSI

  1. https://www.codepolitan.com/5-library-python-untuk-data-science-59b774b6cad97 diakses pada 16 Maret 2021
  2. https://belajarpython.com/2018/09/3-library-python-terbaik-untuk-data-science.html diakses pada 16 Maret 2021
  3. https://www.dqlab.id/belajar-pyton-dengan-pahami-3-librarynya diakses pada 16 Maret 2021
  4. https://www.dqlab.id/mengenal-library-yang-disediakan-python-untuk-data-science diakses pada 15 Maret 2021
  5. https://sutriman.com/top-10-library-python-untuk-data-science-yang-harus-kamu-tahu/ diakses pada 15 Maret 2021
  6. https://astlabmatematika.wordpress.com/2020/10/03/mengenal-library-python-untuk-data-science/ diakses pada 15 Maret 2021

Created by: Gusdizuriadi dan Akhas Rahmadeyan

Sumber gambar