Cara menggunakan email data cleaning python


Data Cleaning

Data cleaning means fixing bad data in your data set.

Bad data could be:

  • Empty cells
  • Data in wrong format
  • Wrong data
  • Duplicates

In this tutorial you will learn how to deal with all of them.


Our Data Set

In the next chapters we will use this data set:

      Duration          Date  Pulse  Maxpulse  Calories
  0         60  '2020/12/01'    110       130     409.1
  1         60  '2020/12/02'    117       145     479.0
  2         60  '2020/12/03'    103       135     340.0
  3         45  '2020/12/04'    109       175     282.4
  4         45  '2020/12/05'    117       148     406.0
  5         60  '2020/12/06'    102       127     300.0
  6         60  '2020/12/07'    110       136     374.0
  7        450  '2020/12/08'    104       134     253.3
  8         30  '2020/12/09'    109       133     195.1
  9         60  '2020/12/10'     98       124     269.0
  10        60  '2020/12/11'    103       147     329.3
  11        60  '2020/12/12'    100       120     250.7
  12        60  '2020/12/12'    100       120     250.7
  13        60  '2020/12/13'    106       128     345.3
  14        60  '2020/12/14'    104       132     379.3
  15        60  '2020/12/15'     98       123     275.0
  16        60  '2020/12/16'     98       120     215.2
  17        60  '2020/12/17'    100       120     300.0
  18        45  '2020/12/18'     90       112       NaN
  19        60  '2020/12/19'    103       123     323.0
  20        45  '2020/12/20'     97       125     243.0
  21        60  '2020/12/21'    108       131     364.2
  22        45           NaN    100       119     282.0
  23        60  '2020/12/23'    130       101     300.0
  24        45  '2020/12/24'    105       132     246.0
  25        60  '2020/12/25'    102       126     334.5
  26        60    2020/12/26    100       120     250.0
  27        60  '2020/12/27'     92       118     241.0
  28        60  '2020/12/28'    103       132       NaN
  29        60  '2020/12/29'    100       132     280.0
  30        60  '2020/12/30'    102       129     380.3
  31        60  '2020/12/31'     92       115     243.0

The data set contains some empty cells ("Date" in row 22, and "Calories" in row 18 and 28).

The data set contains wrong format ("Date" in row 26).

The data set contains wrong data ("Duration" in row 7).

The data set contains duplicates (row 11 and 12).




Proses kerja ini sejatinya dapat ditemukan pada setiap perusahaan yang menggunakan data dalam jumlah besar.

Pasalnya, ia diperlukan supaya data yang didapatkan perusahaan bisa diolah dan disaring dengan baik.

Secara tidak langsung, ia bisa mempermudah proses data mining yang diluncurkan perusahaan.

Nah, kali ini, Glints akan paparkan serba-serbi data preprocessing, dimulai dari definisi hingga tahap kerjanya untukmu.

Yuk, simak penjelasan lengkapnya di bawah ini.

Baca Juga: Memahami Data Wrangling, Proses Mengolah data yang Efisien dan Akurat

Apa Itu Data Preprocessing?

Cara menggunakan email data cleaning python

© Freepik.com

Melansir laman Geeks for Geeks, data preprocessing adalah teknik yang digunakan untuk mengubah data mentah dalam format yang berguna dan efisien.

Inisiatif ini diperlukan karena data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten. 

Kualitas data sendiri memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatkan analisis data.

Preprocessing sendiri melibatkan validasi dan imputasi data. 

Tujuan dari validasi adalah untuk menilai tingkat kelengkapan dan akurasi data yang tersaring. 

Di sisi lain, tujuan imputasi adalah untuk memperbaiki kesalahan dan memasukkan nilai yang hilang,  baik secara manual atau otomatis melalui program business process automation (BPA).

Data preprocessing biasanya digunakan pada aplikasi rule-based dan yang berbasis database

Dalam machine learning, kegiatan ini sangat penting untuk memastikan bahwa sudah diformat dan informasi yang dikandungnya dapat ditafsirkan dan algoritma perusahaan.

Tahap Kerja Data Preprocessing

Cara menggunakan email data cleaning python

© Freepik.com

Sejatinya, data preprocessing adalah langkah awal yang wajib diterapkan sebelum perusahaan memulai penyaringan insight.

Namun, supaya bisa berjalan secara optimal, proses kerjanya dibagi menjadi 4 tahap yang berbeda.

Meskipun berbeda, masing-masing tahap kerja saling berkaitan dan memiliki peran penting dalam pembentukan kualitas proses penyaringan data.

Nah, supaya lebih jelas, berikut adalah keempat tahap kerja data preprocessing yang perlu kamu pelajari.

1. Data cleaning

Melansir laman Techopedia, tahap kerja pertama dalam data preprocessing adalah data cleaning.

Dalam tahap kerja ini, data dibersihkan melalui beberapa proses seperti mengisi nilai yang hilang, menghaluskan noisy data, dan menyelesaikan inkonsistensi yang ditemukan.

Data juga bisa dibersihkan dengan dibagi menjadi segmen-segmen yang memiliki ukuran serupa lalu dihaluskan (binning).

Kamu juga bisa menyesuaikannya dengan fungsi regresi linear atau berganda (regression), atau dengan mengelompokkannya ke dalam kelompok-kelompok data yang serupa (grouping).

Baca Juga: 5 Aplikasi Data Mining Favorit Para Spesialis

2. Data integration

Tahap kerja berikutnya dalam proses data preprocessing adalah data integration.

Di sini, data dengan representasi yang berbeda disatukan dan semua konflik dalam di dalamnya diselesaikan.

Tahap kerja satu ini merupakan proses lanjutan dari data cleansing dengan tujuan untuk membuat data lebih halus.

3. Data transformation

Data transformation adalah tahap kerja selanjutnya dalam proses data preprocessing.

Pada tahap ini, data akan dinormalisasi dan digeneralisasikan. 

Normalisasi sendiri adalah sebuah proses di mana perusahaan memastikan bahwa tidak ada data yang berlebihan.

Semua data akan disimpan dalam satu tempat dan semua dependensinya haruslah logis.

Langkah ini juga diambil untuk mentransformasikan data ke dalam bentuk yang sesuai untuk proses mining.

4. Data reduction

Tahap kerja terakhir dalam proses kerja data preprocessing adalah data reduction.

Data mining adalah sebuah teknik yang digunakan untuk menangani data dalam jumlah yang besar.

Saat bekerja dengan volume data yang besar, proses analisis akan menjadi lebih sulit.

Nah, untuk mempermudah proses , kamu bisa menggunakan teknik data reduction.

Sebab, menurut Monkey Learn, inisiatif ini bisa meningkatkan efisiensi penyimpanan dan mengurangi representasi data dalam data warehouse.

Manfaat Data Preprocessing

Cara menggunakan email data cleaning python

© Freepik.com

Setelah membaca definisinya, jelas bahwa data preprocessing adalah sebuah proses kerja yang sangat penting.

Selain memperlancar proses data mining, langkah ini juga menawarkan beberapa manfaat lain untuk perusahaan.

Seperti apa manfaat lainnya yang ditawarkan data preprocessing? Berikut adalah penjelasannya, sesuai disebutkan oleh Science Direct.

  • membuat data lebih mudah untuk dibaca
  • mengurangi beban representasi dalam data
  • mengurangi durasi data mining secara signifikan
  • mempermudah proses analisis data dalam machine learning

Baca Juga: Kenalan dengan Data Warehouse, Gudang Penting untuk Kemajuan Perusahaan

Itulah pemaparan singkat Glints mengenai serba-serbi data preprocessing yang perlu kamu ketahui.

Dikarenakan perannya penting untuk proses penyaringan insight, jangan lupa untuk kuasai inisiatif ini dengan baik, ya.

Nah, selain penjelasan di atas, kamu bisa dapatkan informasi serupa dengan mengunjungi laman data analytics di Glints Blog.

Di sana, tersedia banyak pembahasan seputar istilah dan tips dunia analisis data yang sudah Glints rangkum khusus untukmu.

Langkah langkah cleaning data?

Langkah-langkah utama pembersihan data, meliputi memodifikasi dan menghapus bidang data yang salah dan tidak lengkap, mengidentifikasi dan menghapus informasi duplikat dan data yang tidak terkait, serta mengoreksi format, nilai yang hilang, dan kesalahan ejaan.

Jelaskan 3 metode cara langkah langkah data cleaning?

Cara melakukan data cleaning.
Mendeteksi error. Langkah awal yang harus dilakukan adalah memantau notifikasi error atau corrupt. ... .
2. Hapus duplikat data atau data yang tidak perlu. ... .
Perbaiki kesalahan struktur. ... .
4. Filter outlier yang tidak diinginkan. ... .
Tangani data yang hilang. ... .
6. Validasi dan lakukan QA..

Apa itu data cleaning python?

Data cleansing atau data cleaning merupakan suatu proses mendeteksi dan memperbaiki (atau menghapus) suatu record yang 'corrupt' atau tidak akurat berdasarkan sebuah record set, tabel, atau database.

Langkah pertama dalam melakukan proses cleaning data yaitu?

Cara Melakukan Data Cleansing.
Hapus yang perlu. Kadang kala, ada data yang kurang relevan dalam dataset. Nah, dalam proses data cleaning, informasi ini boleh saja kamu hapus. ... .
2. Edit kesalahan struktur. Meski terkesan remeh, kesalahan struktur bisa menurunkan kualitas data. ... .
3. Hapus nilai ekstrem. ... .
Pikirkan data tak lengkap..