Cara menggunakan PD.LOC pada Python

Setelah melakukan proses loading dataframe ke dalam Python. Hal selanjutnya sebelum memulai analisis tentunya mengerti struktur data set tersebut. Sehingga langkah selanjutnya dari pre - analisis biasanya dilakukan untuk:

  1. Melihat struktur dataframe
  2. Melihat preview data dari dataframe tersebut
  3. Membuat summary data sederhana dari dataset.
  • Melihat struktur kolom dan baris dari data frame

Hal pertama dalam mengerti struktur dari data frame adalah informasi mengenai beberapa size dari data frame yang akan digunakan termasuk berapa jumlah kolom dan jumlah baris data frame tersebut.

untuk mengatasi hal tersebut bisa menggunakan fungsi berikut:

Mengembalikan tuple yang mewakili dimensi dataframe.

print([nama_dataframe].shape)

Enter fullscreen mode Exit fullscreen mode

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
>>> df.shape
(2, 2)
>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
...                    'col3': [5, 6]})
>>> df.shape
(2, 3)

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 2

order dataframe dengan menuliskan sintax python untuk melihat struktur dari order_df dengan menggunakan fungsi shape

import pandas as pd

order_df = pd.read_csc("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)

Enter fullscreen mode Exit fullscreen mode

  • Melihat preview data dari dataframe

Untuk mendapatkan gambaran dari konten dataframe tersebut. Kita dapat menggunakan fungsi head dan tail, dengan syntax:

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
>>> df.shape
(2, 2)
>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
...                    'col3': [5, 6]})
>>> df.shape
(2, 3)
2 ⇒ mengembalikan n baris pertama untuk objek berdasarkan posisi. Ini berguna untuk menguji dengan cepat apakah objek anda memiliki tipe data yang tepat di dalamnya. default 5 baris.

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
>>> df.shape
(2, 2)
>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
...                    'col3': [5, 6]})
>>> df.shape
(2, 3)
3 ⇒ mengembalikan n baris terakhir dari objek berdasarkan posisi. Ini berguna untuk memverifikasi data dengan cepet, misalnya, setelah menyortir atau menambahkan baris. default 5 baris.

# Menampilkan konten teratas dari [nama_dataframe]
# untuk sejumlah bilangan bulat [jumlah_data]
print([name_dataframe].head(jumlah_data))

# Menampilkan konten terbawah dari [nama_dataframe]
# untuk sejumlah bilangan bulat [jumlah_baris]
print([name_dataframe].tail(jumlah_data))

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 3

Cek bagaimana contoh data dari dataframe tersebut, dengan fungsi

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
>>> df.shape
(2, 2)
>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
...                    'col3': [5, 6]})
>>> df.shape
(2, 3)
2 dengan limit 10 baris!

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.head(10))

Enter fullscreen mode Exit fullscreen mode

  • Statistik Deskriptif dari DataFrame - part 1

Statistik deskriptif atau summary dalam Python - Pandas, dapat diperoleh dengan menggunakan fungsi

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
>>> df.shape
(2, 2)
>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
...                    'col3': [5, 6]})
>>> df.shape
(2, 3)
5, yaitu:

ref: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

print([name_dataframe].describe())

Enter fullscreen mode Exit fullscreen mode

>>> data_df.describe()

data_df.describe()
CustomerID         Age  Annual Income (k$)  Spending Score (1-100)
count  200.000000  200.000000          200.000000              200.000000
mean   100.500000   38.850000           60.560000               50.200000
std     57.879185   13.969007           26.264721               25.823522
min      1.000000   18.000000           15.000000                1.000000
25%     50.750000   28.750000           41.500000               34.750000
50%    100.500000   36.000000           61.500000               50.000000
75%    150.250000   49.000000           78.000000               73.000000
max    200.000000   70.000000          137.000000               99.000000

Enter fullscreen mode Exit fullscreen mode

Fungsi describe dapat memberikan informasi mengenai nilai rataan, standar deviasi dan IQR (interquartile range).

Ketentuan umum:

  • Secara umum fungsi
    >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
    >>> df.shape
    (2, 2)
    >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
    ...                    'col3': [5, 6]})
    >>> df.shape
    (2, 3)
    
    5 akan secara otomatis mengabaikan kolom category dan hanya memberikan summary statistik untuk kolom berjenis numerik.
  • Kita perlu menambahkan argument bernama
    >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
    >>> df.shape
    (2, 2)
    >>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
    ...                    'col3': [5, 6]})
    >>> df.shape
    (2, 3)
    
    7 untuk mendapatkan summary statistik atau statistik deskriptif dari kolom numerik dan karakter.

contoh:

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
0

Enter fullscreen mode Exit fullscreen mode

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
1

Enter fullscreen mode Exit fullscreen mode

  • Statistik Deskriptif dari DataFrame - part 2

Jika ingin mendapatkan summary dari kolom yang tidak benilai angka, maka dapat menambahkan command

>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
>>> df.shape
(2, 2)
>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
...                    'col3': [5, 6]})
>>> df.shape
(2, 3)
8pada
>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
>>> df.shape
(2, 2)
>>> df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],
...                    'col3': [5, 6]})
>>> df.shape
(2, 3)
5.

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
2

Enter fullscreen mode Exit fullscreen mode

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
3

Enter fullscreen mode Exit fullscreen mode

  • Statistik Deskriptif dari DataFrame - part 3

Selanjutnya, untuk mencari rataan dari suatu data dari dataframe, dapat menggunakan syntax

import pandas as pd

order_df = pd.read_csc("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)
0[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html],
import pandas as pd

order_df = pd.read_csc("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)
1[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html], dan
import pandas as pd

order_df = pd.read_csc("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)
2[https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mode.html] dari Pandas.

wikipedia:

  • mean → https://en.wikipedia.org/wiki/Mean
  • median → https://id.wikipedia.org/wiki/Median
  • mode → https://id.wikipedia.org/wiki/Modus_(statistika)

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
4

Enter fullscreen mode Exit fullscreen mode

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
5

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 4

NOTE: dataset → https://storage.googleapis.com/dqlab-dataset/order.csv

  • summary bulanan dari segi kuantitas, harga, freight value, dan weight
  • Medain dari total pembelian konsumen per transaksi kolom price

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
6

Enter fullscreen mode Exit fullscreen mode

  1. Exploratory Data Analysis dengan Pandas - Part 2
  2. Mengenal dan membuat distribusi data dengan Histogram

Histogram merupakan salah satu cara untuk mengidentifikasi sebaran distribusi dari data. Histogram adalah grafik yang berisi ringkasan dari sebaran (dispersi atau variasi) suatu data. Pada histogram, tidak ada jarak antara batang/bar dari grafik. Hal ini dikarenakan bahwa titik data kelas bisa muncul dimana saja didaerah cakupan grafik. Sedangkan ketinggian bar sesuai dengan frekuensi atau frekuensi relatif jumlah data di kelas. Semakin tinggi bar, semakin tinggi frekuensi data. Semakin rendah bar, semakin rendah frekuensi data.

syntax umum:

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
7

Enter fullscreen mode Exit fullscreen mode

  • bins: jumlah bins dalam histogram yang akan digunakan. Jika tidak didefinisikan jumlahbins, maka fungsi akan secara default menentukan jumlah bins sebanya 10.
  • by: nama kolom di DataFrame untuk di groub by. (valuenya berupa nama column di dataframe tersebut)
  • alpha: nilai_alpha untuk menentukan opacity dari plot di histogram. (value berupa range 0.0 - 1.0, dimana semakin kecil akan semakin kecil opacitynya)
  • figsize: tuple_ukuran_gambar yang digunakan untuk menentukan ukuran dari plot histogram. Contoh:

    import pandas as pd
    
    order_df = pd.read_csc("https://storage.googleapis.com/dqlab-dataset/order.csv")
    print(order_df.shape)
    
    3

  • [x] Tugas praktek 5

Buat histogram price dengan bins=10.

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
8

Enter fullscreen mode Exit fullscreen mode

  • Standar Deviasi dan Varians pada Pandas

Varians dan standar deviasi juga merupakan suatu ukuran dispersi atau variasi. Standar deviasi merupakan ukuran dispersi yang paling banyak dipakai. Hal ini mungkin karena standar deviasi merupakan suatu ukuran yang sama dengan satuan ukuran data asalnya. Sedangkan varians memiliki satuan kuadrat dari data asalnya (misalnya cm^2).

Syntaz dari standar deviasi dan varians pada Pandas:

import pandas as pd

# Membaca file CSV
variable_name = pd.read_csv("file_name.csv")

# Membaca file Excel
variable_name = pd.read_excel("file_name.xlsx")
9

Enter fullscreen mode Exit fullscreen mode

Contoh:

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
0

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 6

Tampilkan data persebaran dari product_weight_gram!

NOTE: data → https://storage.googleapis.com/dqlab-dataset/order.csv

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
1

Enter fullscreen mode Exit fullscreen mode

  • Menemukan Outliers Menggunakan Pandas

Outliers merupakan data observasi yang muncul dengan nilai-nilai ekstrim. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya.

Cara menggunakan PD.LOC pada Python

Pada umumnya, outliers dapat ditentukan dengan metric IQR (interquartile range).

Rumus dasar dari IQR: Q3 - Q1. Dan data suatu observasi dapat dikatakan outliers jika memenuhi kedua syarat dibawah ini:

  • data < Q1 - 1.5 * IQR
  • data > Q3 + 1.5 * IQR

Syntax python:

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
2

Enter fullscreen mode Exit fullscreen mode

Contoh:

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
3

Enter fullscreen mode Exit fullscreen mode

jika sudah memiliki skor IQR, selanjutnya menentukan Outliers. Kode di bawah in akan memberikan output dengan beberapa nilai True atau False. Titik data di mana terdapat False yang berarti nilai-nilai ini valid sendagkan True menunjukkan adanya Ourtliers.

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
4

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas Praktek 7

Menentukan batas IQR untuk menentukan outliers pada kolom product_weight_gram!

NOTE: data → https://storage.googleapis.com/dqlab-dataset/order.csv

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
5

Enter fullscreen mode Exit fullscreen mode

  • Rename Kolom Data Frame

Mengganti nama kolom pada Pandas dapat dilakukan dengan 2 cara:

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
6

Enter fullscreen mode Exit fullscreen mode

  1. Rename menggunakan nama kolom

syntax:

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
7

Enter fullscreen mode Exit fullscreen mode

contoh penggunaan:

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
8

Enter fullscreen mode Exit fullscreen mode

contoh penggunaan:

import pandas as pd

order_df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/order.csv")
9

Enter fullscreen mode Exit fullscreen mode

  • [x] Tugas praktek 8

Cobalah untuk mengubah kolom freight_value menjadi shipping_cost dalam data frame order_df, dengan menggunakan fungsi

import pandas as pd

order_df = pd.read_csc("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)
4.

DataFrame = https://storage.googleapis.com/dqlab-dataset/order.csv

print([nama_dataframe].shape)
0

Enter fullscreen mode Exit fullscreen mode

  • .groupby menggunakan Pandas

Kegunaan

import pandas as pd

order_df = pd.read_csc("https://storage.googleapis.com/dqlab-dataset/order.csv")
print(order_df.shape)
5 adalah mencari summary dari data frame dengan menggunakan aggregate dari kolom tertentu.

contoh penggunaan:

Diberikan dataset bernama df seperti gambar di bawah ini!

Cara menggunakan PD.LOC pada Python

Penggunaan groupby:

print([nama_dataframe].shape)
1

Enter fullscreen mode Exit fullscreen mode

Penjelasan: Komputasi di atas menggunakan kolom "Genre" sebagai aggregate dan kemudian menghitung mean dari kolom "Age" pada tiap-tiap aggregate tersebut.

Contoh lainnya:

print([nama_dataframe].shape)
2

Enter fullscreen mode Exit fullscreen mode

Penjelasan: Komputasi di atas menggunakan kolom 'product_category_name', dan 'order_status' sebagai aggregate dan kemudian menggunakan menghitung sum dari kolom "freight_value" pada tiap-tiap aggregate tersebut.

  • [x] Tugas praktek 9

Cobalah untuk mencari rata rata dari price per payment_type dari dataset order_df!

NOTE: dataset → https://storage.googleapis.com/dqlab-dataset/order.csv

print([nama_dataframe].shape)
3

Enter fullscreen mode Exit fullscreen mode

  • Sorting Menggunakan Pandas

Sorting adalah sebuah metode mengurutkan data berdasarkan syarat kolom tertentu, dan biasanya digunakan untuk melihat nilai maximum dan minimum dari dataset. Library Pandas sendiri menyediakan fungsi sorting sebagai fundamental dari exploratory data analysis.

Syntax untuk operasi sorting pada Pandas:

print([nama_dataframe].shape)
4

Enter fullscreen mode Exit fullscreen mode

Contoh:

print([nama_dataframe].shape)
5

Enter fullscreen mode Exit fullscreen mode

Fungsi tersebut akan secara default mengurutkan secara ascending (dimulai dari nilai terkecil). Untuk dapat mengurutkan secara descending (dimulai dari nilai terbesar). dapat menggunakan properti tambahan:

print([nama_dataframe].shape)
6

Enter fullscreen mode Exit fullscreen mode

Contoh:

print([nama_dataframe].shape)
7

Enter fullscreen mode Exit fullscreen mode

Fungsi sorting di Pandas juga dapat dilakukan menggunakan lebih dari satu kolom sebagai syarat. Contohnya pada skenario dibawah, akan mencoba mengaplikasikan fungsi Sorting menggunakan Age dan Score sekaligus:

Apa itu LOC pada python?

Pengindeks .loc[ ] merupakan salah satu cara yang efektif untuk memilih baris dan kolom pada dataframe sesuai dengan nama index baris atau kolom .

Apa itu ILOC python?

Iloc merupakan kependekan dari index location. Sama seperti loc, digunakan untuk menyeleksi data pada lokasi tertentu saja.

3 function apa yang digunakan untuk melihat jumlah baris dan kolom dari suatu data frame?

Fungsi count() akan menampilkan nama kolom dan jumlah baris/record. Seperti yang ditampilkan, semua kolom memiliki jumlah record yang sama, yaitu 34. Ini juga berarti bahwa tidak ada nilai null di semua kolom.

Apa itu Pandas Dataframe?

Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada data frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.