Cara menggunakan PD.LOC pada Python

Setelah melakukan proses loading dataframe ke dalam Python. Hal selanjutnya sebelum memulai analisis tentunya mengerti struktur data set tersebut. Sehingga langkah selanjutnya dari pre - analisis biasanya dilakukan untuk:

  1. Melihat struktur dataframe
  2. Melihat preview data dari dataframe tersebut
  3. Membuat summary data sederhana dari dataset.
  • Melihat struktur kolom dan baris dari data frame

Hal pertama dalam mengerti struktur dari data frame adalah informasi mengenai beberapa size dari data frame yang akan digunakan termasuk berapa jumlah kolom dan jumlah baris data frame tersebut.

untuk mengatasi hal tersebut bisa menggunakan fungsi berikut:

Mengembalikan tuple yang mewakili dimensi dataframe.

print([nama_dataframe].shape)

Enter fullscreen mode Exit fullscreen mode

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3)

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 2

order dataframe dengan menuliskan sintax python untuk melihat struktur dari order_df dengan menggunakan fungsi shape

import pandas as pd order_df = pd.read_csc("//storage.googleapis.com/dqlab-dataset/order.csv") print(order_df.shape)

Enter fullscreen mode Exit fullscreen mode

  • Melihat preview data dari dataframe

Untuk mendapatkan gambaran dari konten dataframe tersebut. Kita dapat menggunakan fungsi head dan tail, dengan syntax:

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3) 2 ⇒ mengembalikan n baris pertama untuk objek berdasarkan posisi. Ini berguna untuk menguji dengan cepat apakah objek anda memiliki tipe data yang tepat di dalamnya. default 5 baris.

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3) 3 ⇒ mengembalikan n baris terakhir dari objek berdasarkan posisi. Ini berguna untuk memverifikasi data dengan cepet, misalnya, setelah menyortir atau menambahkan baris. default 5 baris.

# Menampilkan konten teratas dari [nama_dataframe] # untuk sejumlah bilangan bulat [jumlah_data] print([name_dataframe].head(jumlah_data)) # Menampilkan konten terbawah dari [nama_dataframe] # untuk sejumlah bilangan bulat [jumlah_baris] print([name_dataframe].tail(jumlah_data))

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 3

Cek bagaimana contoh data dari dataframe tersebut, dengan fungsi >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3) 2 dengan limit 10 baris!

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") print(order_df.head(10))

Enter fullscreen mode Exit fullscreen mode

  • Statistik Deskriptif dari DataFrame - part 1

Statistik deskriptif atau summary dalam Python - Pandas, dapat diperoleh dengan menggunakan fungsi >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3) 5, yaitu:

ref: //pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

print([name_dataframe].describe())

Enter fullscreen mode Exit fullscreen mode

>>> data_df.describe() data_df.describe() CustomerID Age Annual Income (k$) Spending Score (1-100) count 200.000000 200.000000 200.000000 200.000000 mean 100.500000 38.850000 60.560000 50.200000 std 57.879185 13.969007 26.264721 25.823522 min 1.000000 18.000000 15.000000 1.000000 25% 50.750000 28.750000 41.500000 34.750000 50% 100.500000 36.000000 61.500000 50.000000 75% 150.250000 49.000000 78.000000 73.000000 max 200.000000 70.000000 137.000000 99.000000

Enter fullscreen mode Exit fullscreen mode

Fungsi describe dapat memberikan informasi mengenai nilai rataan, standar deviasi dan IQR (interquartile range).

Ketentuan umum:

  • Secara umum fungsi >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3) 5 akan secara otomatis mengabaikan kolom category dan hanya memberikan summary statistik untuk kolom berjenis numerik.
  • Kita perlu menambahkan argument bernama >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3) 7 untuk mendapatkan summary statistik atau statistik deskriptif dari kolom numerik dan karakter.

contoh:

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 0

Enter fullscreen mode Exit fullscreen mode

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 1

Enter fullscreen mode Exit fullscreen mode

  • Statistik Deskriptif dari DataFrame - part 2

Jika ingin mendapatkan summary dari kolom yang tidak benilai angka, maka dapat menambahkan command >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3) 8pada >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]}) >>> df.shape (2, 2) >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4], ... 'col3': [5, 6]}) >>> df.shape (2, 3) 5.

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 2

Enter fullscreen mode Exit fullscreen mode

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 3

Enter fullscreen mode Exit fullscreen mode

  • Statistik Deskriptif dari DataFrame - part 3

Selanjutnya, untuk mencari rataan dari suatu data dari dataframe, dapat menggunakan syntax import pandas as pd order_df = pd.read_csc("//storage.googleapis.com/dqlab-dataset/order.csv") print(order_df.shape) 0[//pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html], import pandas as pd order_df = pd.read_csc("//storage.googleapis.com/dqlab-dataset/order.csv") print(order_df.shape) 1[//pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html], dan import pandas as pd order_df = pd.read_csc("//storage.googleapis.com/dqlab-dataset/order.csv") print(order_df.shape) 2[//pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mode.html] dari Pandas.

wikipedia:

  • mean → //en.wikipedia.org/wiki/Mean
  • median → //id.wikipedia.org/wiki/Median
  • mode → //id.wikipedia.org/wiki/Modus_(statistika)

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 4

Enter fullscreen mode Exit fullscreen mode

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 5

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 4

NOTE: dataset → //storage.googleapis.com/dqlab-dataset/order.csv

  • summary bulanan dari segi kuantitas, harga, freight value, dan weight
  • Medain dari total pembelian konsumen per transaksi kolom price

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 6

Enter fullscreen mode Exit fullscreen mode

  1. Exploratory Data Analysis dengan Pandas - Part 2
  2. Mengenal dan membuat distribusi data dengan Histogram

Histogram merupakan salah satu cara untuk mengidentifikasi sebaran distribusi dari data. Histogram adalah grafik yang berisi ringkasan dari sebaran (dispersi atau variasi) suatu data. Pada histogram, tidak ada jarak antara batang/bar dari grafik. Hal ini dikarenakan bahwa titik data kelas bisa muncul dimana saja didaerah cakupan grafik. Sedangkan ketinggian bar sesuai dengan frekuensi atau frekuensi relatif jumlah data di kelas. Semakin tinggi bar, semakin tinggi frekuensi data. Semakin rendah bar, semakin rendah frekuensi data.

syntax umum:

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 7

Enter fullscreen mode Exit fullscreen mode

  • bins: jumlah bins dalam histogram yang akan digunakan. Jika tidak didefinisikan jumlahbins, maka fungsi akan secara default menentukan jumlah bins sebanya 10.
  • by: nama kolom di DataFrame untuk di groub by. (valuenya berupa nama column di dataframe tersebut)
  • alpha: nilai_alpha untuk menentukan opacity dari plot di histogram. (value berupa range 0.0 - 1.0, dimana semakin kecil akan semakin kecil opacitynya)
  • figsize: tuple_ukuran_gambar yang digunakan untuk menentukan ukuran dari plot histogram. Contoh: import pandas as pd order_df = pd.read_csc("//storage.googleapis.com/dqlab-dataset/order.csv") print(order_df.shape) 3

  • [x] Tugas praktek 5

Buat histogram price dengan bins=10.

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 8

Enter fullscreen mode Exit fullscreen mode

  • Standar Deviasi dan Varians pada Pandas

Varians dan standar deviasi juga merupakan suatu ukuran dispersi atau variasi. Standar deviasi merupakan ukuran dispersi yang paling banyak dipakai. Hal ini mungkin karena standar deviasi merupakan suatu ukuran yang sama dengan satuan ukuran data asalnya. Sedangkan varians memiliki satuan kuadrat dari data asalnya (misalnya cm^2).

Syntaz dari standar deviasi dan varians pada Pandas:

import pandas as pd # Membaca file CSV variable_name = pd.read_csv("file_name.csv") # Membaca file Excel variable_name = pd.read_excel("file_name.xlsx") 9

Enter fullscreen mode Exit fullscreen mode

Contoh:

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 0

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 6

Tampilkan data persebaran dari product_weight_gram!

NOTE: data → //storage.googleapis.com/dqlab-dataset/order.csv

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 1

Enter fullscreen mode Exit fullscreen mode

  • Menemukan Outliers Menggunakan Pandas

Outliers merupakan data observasi yang muncul dengan nilai-nilai ekstrim. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya.

Pada umumnya, outliers dapat ditentukan dengan metric IQR (interquartile range).

Rumus dasar dari IQR: Q3 - Q1. Dan data suatu observasi dapat dikatakan outliers jika memenuhi kedua syarat dibawah ini:

  • data < Q1 - 1.5 * IQR
  • data > Q3 + 1.5 * IQR

Syntax python:

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 2

Enter fullscreen mode Exit fullscreen mode

Contoh:

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 3

Enter fullscreen mode Exit fullscreen mode

jika sudah memiliki skor IQR, selanjutnya menentukan Outliers. Kode di bawah in akan memberikan output dengan beberapa nilai True atau False. Titik data di mana terdapat False yang berarti nilai-nilai ini valid sendagkan True menunjukkan adanya Ourtliers.

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 4

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas Praktek 7

Menentukan batas IQR untuk menentukan outliers pada kolom product_weight_gram!

NOTE: data → //storage.googleapis.com/dqlab-dataset/order.csv

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 5

Enter fullscreen mode Exit fullscreen mode

  • Rename Kolom Data Frame

Mengganti nama kolom pada Pandas dapat dilakukan dengan 2 cara:

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 6

Enter fullscreen mode Exit fullscreen mode

  1. Rename menggunakan nama kolom

syntax:

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 7

Enter fullscreen mode Exit fullscreen mode

contoh penggunaan:

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 8

Enter fullscreen mode Exit fullscreen mode

contoh penggunaan:

import pandas as pd order_df = pd.read_csv("//storage.googleapis.com/dqlab-dataset/order.csv") 9

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 8

Cobalah untuk mengubah kolom freight_value menjadi shipping_cost dalam data frame order_df, dengan menggunakan fungsi import pandas as pd order_df = pd.read_csc("//storage.googleapis.com/dqlab-dataset/order.csv") print(order_df.shape) 4.

DataFrame = //storage.googleapis.com/dqlab-dataset/order.csv

print([nama_dataframe].shape) 0

Enter fullscreen mode Exit fullscreen mode

  • .groupby menggunakan Pandas

Kegunaan import pandas as pd order_df = pd.read_csc("//storage.googleapis.com/dqlab-dataset/order.csv") print(order_df.shape) 5 adalah mencari summary dari data frame dengan menggunakan aggregate dari kolom tertentu.

contoh penggunaan:

Diberikan dataset bernama df seperti gambar di bawah ini!

Penggunaan groupby:

print([nama_dataframe].shape) 1

Enter fullscreen mode Exit fullscreen mode

Penjelasan: Komputasi di atas menggunakan kolom "Genre" sebagai aggregate dan kemudian menghitung mean dari kolom "Age" pada tiap-tiap aggregate tersebut.

Contoh lainnya:

print([nama_dataframe].shape) 2

Enter fullscreen mode Exit fullscreen mode

Penjelasan: Komputasi di atas menggunakan kolom 'product_category_name', dan 'order_status' sebagai aggregate dan kemudian menggunakan menghitung sum dari kolom "freight_value" pada tiap-tiap aggregate tersebut.

  • [x] Tugas praktek 9

Cobalah untuk mencari rata rata dari price per payment_type dari dataset order_df!

NOTE: dataset → //storage.googleapis.com/dqlab-dataset/order.csv

print([nama_dataframe].shape) 3

Enter fullscreen mode Exit fullscreen mode

  • Sorting Menggunakan Pandas

Sorting adalah sebuah metode mengurutkan data berdasarkan syarat kolom tertentu, dan biasanya digunakan untuk melihat nilai maximum dan minimum dari dataset. Library Pandas sendiri menyediakan fungsi sorting sebagai fundamental dari exploratory data analysis.

Syntax untuk operasi sorting pada Pandas:

print([nama_dataframe].shape) 4

Enter fullscreen mode Exit fullscreen mode

Contoh:

print([nama_dataframe].shape) 5

Enter fullscreen mode Exit fullscreen mode

Fungsi tersebut akan secara default mengurutkan secara ascending (dimulai dari nilai terkecil). Untuk dapat mengurutkan secara descending (dimulai dari nilai terbesar). dapat menggunakan properti tambahan:

print([nama_dataframe].shape) 6

Enter fullscreen mode Exit fullscreen mode

Contoh:

print([nama_dataframe].shape) 7

Enter fullscreen mode Exit fullscreen mode

Fungsi sorting di Pandas juga dapat dilakukan menggunakan lebih dari satu kolom sebagai syarat. Contohnya pada skenario dibawah, akan mencoba mengaplikasikan fungsi Sorting menggunakan Age dan Score sekaligus:

Apa itu LOC pada python?

Pengindeks .loc[ ] merupakan salah satu cara yang efektif untuk memilih baris dan kolom pada dataframe sesuai dengan nama index baris atau kolom .

Apa itu ILOC python?

Iloc merupakan kependekan dari index location. Sama seperti loc, digunakan untuk menyeleksi data pada lokasi tertentu saja.

3 function apa yang digunakan untuk melihat jumlah baris dan kolom dari suatu data frame?

Fungsi count() akan menampilkan nama kolom dan jumlah baris/record. Seperti yang ditampilkan, semua kolom memiliki jumlah record yang sama, yaitu 34. Ini juga berarti bahwa tidak ada nilai null di semua kolom.

Apa itu Pandas Dataframe?

Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada data frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Postingan terbaru

LIHAT SEMUA