Setelah melakukan proses loading dataframe ke dalam Python. Hal selanjutnya sebelum memulai analisis tentunya mengerti struktur data set tersebut. Sehingga langkah selanjutnya dari pre - analisis biasanya dilakukan untuk: Show
Hal pertama dalam mengerti struktur dari data frame adalah informasi mengenai beberapa size dari data frame yang akan digunakan termasuk berapa jumlah kolom dan jumlah baris data frame tersebut. untuk mengatasi hal tersebut bisa menggunakan fungsi berikut: Mengembalikan tuple yang mewakili dimensi dataframe.
Enter fullscreen mode Exit fullscreen mode
Enter fullscreen mode Exit fullscreen mode
order dataframe dengan menuliskan sintax python untuk melihat struktur dari order_df dengan menggunakan fungsi shape
Enter fullscreen mode Exit fullscreen mode
Untuk mendapatkan gambaran dari konten dataframe tersebut. Kita dapat menggunakan fungsi head dan tail, dengan syntax: 2 ⇒ mengembalikan n baris pertama untuk objek berdasarkan posisi. Ini berguna untuk menguji dengan cepat apakah objek anda memiliki tipe data yang tepat di dalamnya. default 5 baris. 3 ⇒ mengembalikan n baris terakhir dari objek berdasarkan posisi. Ini berguna untuk memverifikasi data dengan cepet, misalnya, setelah menyortir atau menambahkan baris. default 5 baris.
Enter fullscreen mode Exit fullscreen mode
Cek bagaimana contoh data dari dataframe tersebut, dengan fungsi 2 dengan limit 10 baris!
Enter fullscreen mode Exit fullscreen mode
Statistik deskriptif atau summary dalam Python - Pandas, dapat diperoleh dengan menggunakan fungsi 5, yaitu:ref: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html
Enter fullscreen mode Exit fullscreen mode
Enter fullscreen mode Exit fullscreen mode Fungsi describe dapat memberikan informasi mengenai nilai rataan, standar deviasi dan IQR (interquartile range). Ketentuan umum:
contoh: 0Enter fullscreen mode Exit fullscreen mode 1Enter fullscreen mode Exit fullscreen mode
Jika ingin mendapatkan summary dari kolom yang tidak benilai angka, maka dapat menambahkan command 8pada 5. 2Enter fullscreen mode Exit fullscreen mode 3Enter fullscreen mode Exit fullscreen mode
Selanjutnya, untuk mencari rataan dari suatu data dari dataframe, dapat menggunakan syntax 0[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html], 1[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html], dan 2[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mode.html] dari Pandas.wikipedia:
4Enter fullscreen mode Exit fullscreen mode 5Enter fullscreen mode Exit fullscreen mode
NOTE: dataset → https://storage.googleapis.com/dqlab-dataset/order.csv
6Enter fullscreen mode Exit fullscreen mode
Histogram merupakan salah satu cara untuk mengidentifikasi sebaran distribusi dari data. Histogram adalah grafik yang berisi ringkasan dari sebaran (dispersi atau variasi) suatu data. Pada histogram, tidak ada jarak antara batang/bar dari grafik. Hal ini dikarenakan bahwa titik data kelas bisa muncul dimana saja didaerah cakupan grafik. Sedangkan ketinggian bar sesuai dengan frekuensi atau frekuensi relatif jumlah data di kelas. Semakin tinggi bar, semakin tinggi frekuensi data. Semakin rendah bar, semakin rendah frekuensi data. syntax umum: 7Enter fullscreen mode Exit fullscreen mode
Buat histogram price dengan bins=10. 8Enter fullscreen mode Exit fullscreen mode
Varians dan standar deviasi juga merupakan suatu ukuran dispersi atau variasi. Standar deviasi merupakan ukuran dispersi yang paling banyak dipakai. Hal ini mungkin karena standar deviasi merupakan suatu ukuran yang sama dengan satuan ukuran data asalnya. Sedangkan varians memiliki satuan kuadrat dari data asalnya (misalnya cm^2). Syntaz dari standar deviasi dan varians pada Pandas: 9Enter fullscreen mode Exit fullscreen mode Contoh: 0Enter fullscreen mode Exit fullscreen mode
Tampilkan data persebaran dari product_weight_gram! NOTE: data → https://storage.googleapis.com/dqlab-dataset/order.csv 1Enter fullscreen mode Exit fullscreen mode
Outliers merupakan data observasi yang muncul dengan nilai-nilai ekstrim. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya. Pada umumnya, outliers dapat ditentukan dengan metric IQR (interquartile range). Rumus dasar dari IQR: Q3 - Q1. Dan data suatu observasi dapat dikatakan outliers jika memenuhi kedua syarat dibawah ini:
Syntax python: 2Enter fullscreen mode Exit fullscreen mode Contoh: 3Enter fullscreen mode Exit fullscreen mode jika sudah memiliki skor IQR, selanjutnya menentukan Outliers. Kode di bawah in akan memberikan output dengan beberapa nilai True atau False. Titik data di mana terdapat False yang berarti nilai-nilai ini valid sendagkan True menunjukkan adanya Ourtliers. 4Enter fullscreen mode Exit fullscreen mode
Menentukan batas IQR untuk menentukan outliers pada kolom product_weight_gram! NOTE: data → https://storage.googleapis.com/dqlab-dataset/order.csv 5Enter fullscreen mode Exit fullscreen mode
Mengganti nama kolom pada Pandas dapat dilakukan dengan 2 cara: 6Enter fullscreen mode Exit fullscreen mode
syntax: 7Enter fullscreen mode Exit fullscreen mode contoh penggunaan: 8Enter fullscreen mode Exit fullscreen mode contoh penggunaan: 9Enter fullscreen mode Exit fullscreen mode
Cobalah untuk mengubah kolom freight_value menjadi shipping_cost dalam data frame order_df, dengan menggunakan fungsi 4.DataFrame = https://storage.googleapis.com/dqlab-dataset/order.csv 0Enter fullscreen mode Exit fullscreen mode
Kegunaan 5 adalah mencari summary dari data frame dengan menggunakan aggregate dari kolom tertentu.contoh penggunaan: Diberikan dataset bernama df seperti gambar di bawah ini! Penggunaan groupby: 1Enter fullscreen mode Exit fullscreen mode Penjelasan: Komputasi di atas menggunakan kolom "Genre" sebagai aggregate dan kemudian menghitung mean dari kolom "Age" pada tiap-tiap aggregate tersebut. Contoh lainnya: 2Enter fullscreen mode Exit fullscreen mode Penjelasan: Komputasi di atas menggunakan kolom 'product_category_name', dan 'order_status' sebagai aggregate dan kemudian menggunakan menghitung sum dari kolom "freight_value" pada tiap-tiap aggregate tersebut.
Cobalah untuk mencari rata rata dari price per payment_type dari dataset order_df! NOTE: dataset → https://storage.googleapis.com/dqlab-dataset/order.csv 3Enter fullscreen mode Exit fullscreen mode
Sorting adalah sebuah metode mengurutkan data berdasarkan syarat kolom tertentu, dan biasanya digunakan untuk melihat nilai maximum dan minimum dari dataset. Library Pandas sendiri menyediakan fungsi sorting sebagai fundamental dari exploratory data analysis. Syntax untuk operasi sorting pada Pandas: 4Enter fullscreen mode Exit fullscreen mode Contoh: 5Enter fullscreen mode Exit fullscreen mode Fungsi tersebut akan secara default mengurutkan secara ascending (dimulai dari nilai terkecil). Untuk dapat mengurutkan secara descending (dimulai dari nilai terbesar). dapat menggunakan properti tambahan: 6Enter fullscreen mode Exit fullscreen mode Contoh: 7Enter fullscreen mode Exit fullscreen mode Fungsi sorting di Pandas juga dapat dilakukan menggunakan lebih dari satu kolom sebagai syarat. Contohnya pada skenario dibawah, akan mencoba mengaplikasikan fungsi Sorting menggunakan Age dan Score sekaligus: Apa itu LOC pada python?Pengindeks .loc[ ] merupakan salah satu cara yang efektif untuk memilih baris dan kolom pada dataframe sesuai dengan nama index baris atau kolom .
Apa itu ILOC python?Iloc merupakan kependekan dari index location. Sama seperti loc, digunakan untuk menyeleksi data pada lokasi tertentu saja.
3 function apa yang digunakan untuk melihat jumlah baris dan kolom dari suatu data frame?Fungsi count() akan menampilkan nama kolom dan jumlah baris/record. Seperti yang ditampilkan, semua kolom memiliki jumlah record yang sama, yaitu 34. Ini juga berarti bahwa tidak ada nilai null di semua kolom.
Apa itu Pandas Dataframe?Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada data frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.
|