Data CleaningData cleaning means fixing bad data in your data set. Show
Bad data could be:
In this tutorial you will learn how to deal with all of them. Our Data SetIn the next chapters we will use this data set: Duration Date Pulse Maxpulse Calories 0 60 '2020/12/01' 110 130 409.1 1 60 '2020/12/02' 117 145 479.0 2 60 '2020/12/03' 103 135 340.0 3 45 '2020/12/04' 109 175 282.4 4 45 '2020/12/05' 117 148 406.0 5 60 '2020/12/06' 102 127 300.0 6 60 '2020/12/07' 110 136 374.0 7 450 '2020/12/08' 104 134 253.3 8 30 '2020/12/09' 109 133 195.1 9 60 '2020/12/10' 98 124 269.0 10 60 '2020/12/11' 103 147 329.3 11 60 '2020/12/12' 100 120 250.7 12 60 '2020/12/12' 100 120 250.7 13 60 '2020/12/13' 106 128 345.3 14 60 '2020/12/14' 104 132 379.3 15 60 '2020/12/15' 98 123 275.0 16 60 '2020/12/16' 98 120 215.2 17 60 '2020/12/17' 100 120 300.0 18 45 '2020/12/18' 90 112 NaN 19 60 '2020/12/19' 103 123 323.0 20 45 '2020/12/20' 97 125 243.0 21 60 '2020/12/21' 108 131 364.2 22 45 NaN 100 119 282.0 23 60 '2020/12/23' 130 101 300.0 24 45 '2020/12/24' 105 132 246.0 25 60 '2020/12/25' 102 126 334.5 26 60 2020/12/26 100 120 250.0 27 60 '2020/12/27' 92 118 241.0 28 60 '2020/12/28' 103 132 NaN 29 60 '2020/12/29' 100 132 280.0 30 60 '2020/12/30' 102 129 380.3 31 60 '2020/12/31' 92 115 243.0 The data set contains some empty cells ("Date" in row 22, and "Calories" in row 18 and 28). The data set contains wrong format ("Date" in row 26). The data set contains wrong data ("Duration" in row 7). The data set contains duplicates (row 11 and 12). Proses kerja ini sejatinya dapat ditemukan pada setiap perusahaan yang menggunakan data dalam jumlah besar. Pasalnya, ia diperlukan supaya data yang didapatkan perusahaan bisa diolah dan disaring dengan baik. Secara tidak langsung, ia bisa mempermudah proses data mining yang diluncurkan perusahaan. Nah, kali ini, Glints akan paparkan serba-serbi data preprocessing, dimulai dari definisi hingga tahap kerjanya untukmu. Yuk, simak penjelasan lengkapnya di bawah ini. Baca Juga: Memahami Data Wrangling, Proses Mengolah data yang Efisien dan Akurat Apa Itu Data Preprocessing?© Freepik.com Melansir laman Geeks for Geeks, data preprocessing adalah teknik yang digunakan untuk mengubah data mentah dalam format yang berguna dan efisien. Inisiatif ini diperlukan karena data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten. Kualitas data sendiri memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatkan analisis data. Preprocessing sendiri melibatkan validasi dan imputasi data. Tujuan dari validasi adalah untuk menilai tingkat kelengkapan dan akurasi data yang tersaring. Di sisi lain, tujuan imputasi adalah untuk memperbaiki kesalahan dan memasukkan nilai yang hilang, baik secara manual atau otomatis melalui program business process automation (BPA). Data preprocessing biasanya digunakan pada aplikasi rule-based dan yang berbasis database. Dalam machine learning, kegiatan ini sangat penting untuk memastikan bahwa sudah diformat dan informasi yang dikandungnya dapat ditafsirkan dan algoritma perusahaan. Tahap Kerja Data Preprocessing© Freepik.com Sejatinya, data preprocessing adalah langkah awal yang wajib diterapkan sebelum perusahaan memulai penyaringan insight. Namun, supaya bisa berjalan secara optimal, proses kerjanya dibagi menjadi 4 tahap yang berbeda. Meskipun berbeda, masing-masing tahap kerja saling berkaitan dan memiliki peran penting dalam pembentukan kualitas proses penyaringan data. Nah, supaya lebih jelas, berikut adalah keempat tahap kerja data preprocessing yang perlu kamu pelajari. 1. Data cleaningMelansir laman Techopedia, tahap kerja pertama dalam data preprocessing adalah data cleaning. Dalam tahap kerja ini, data dibersihkan melalui beberapa proses seperti mengisi nilai yang hilang, menghaluskan noisy data, dan menyelesaikan inkonsistensi yang ditemukan. Data juga bisa dibersihkan dengan dibagi menjadi segmen-segmen yang memiliki ukuran serupa lalu dihaluskan (binning). Kamu juga bisa menyesuaikannya dengan fungsi regresi linear atau berganda (regression), atau dengan mengelompokkannya ke dalam kelompok-kelompok data yang serupa (grouping). Baca Juga: 5 Aplikasi Data Mining Favorit Para Spesialis 2. Data integrationTahap kerja berikutnya dalam proses data preprocessing adalah data integration. Di sini, data dengan representasi yang berbeda disatukan dan semua konflik dalam di dalamnya diselesaikan. Tahap kerja satu ini merupakan proses lanjutan dari data cleansing dengan tujuan untuk membuat data lebih halus. 3. Data transformationData transformation adalah tahap kerja selanjutnya dalam proses data preprocessing. Pada tahap ini, data akan dinormalisasi dan digeneralisasikan. Normalisasi sendiri adalah sebuah proses di mana perusahaan memastikan bahwa tidak ada data yang berlebihan. Semua data akan disimpan dalam satu tempat dan semua dependensinya haruslah logis. Langkah ini juga diambil untuk mentransformasikan data ke dalam bentuk yang sesuai untuk proses mining. 4. Data reductionTahap kerja terakhir dalam proses kerja data preprocessing adalah data reduction. Data mining adalah sebuah teknik yang digunakan untuk menangani data dalam jumlah yang besar. Saat bekerja dengan volume data yang besar, proses analisis akan menjadi lebih sulit. Nah, untuk mempermudah proses , kamu bisa menggunakan teknik data reduction. Sebab, menurut Monkey Learn, inisiatif ini bisa meningkatkan efisiensi penyimpanan dan mengurangi representasi data dalam data warehouse. Manfaat Data Preprocessing© Freepik.com Setelah membaca definisinya, jelas bahwa data preprocessing adalah sebuah proses kerja yang sangat penting. Selain memperlancar proses data mining, langkah ini juga menawarkan beberapa manfaat lain untuk perusahaan. Seperti apa manfaat lainnya yang ditawarkan data preprocessing? Berikut adalah penjelasannya, sesuai disebutkan oleh Science Direct.
Baca Juga: Kenalan dengan Data Warehouse, Gudang Penting untuk Kemajuan Perusahaan Itulah pemaparan singkat Glints mengenai serba-serbi data preprocessing yang perlu kamu ketahui. Dikarenakan perannya penting untuk proses penyaringan insight, jangan lupa untuk kuasai inisiatif ini dengan baik, ya. Nah, selain penjelasan di atas, kamu bisa dapatkan informasi serupa dengan mengunjungi laman data analytics di Glints Blog. Di sana, tersedia banyak pembahasan seputar istilah dan tips dunia analisis data yang sudah Glints rangkum khusus untukmu. Langkah langkah cleaning data?Langkah-langkah utama pembersihan data, meliputi memodifikasi dan menghapus bidang data yang salah dan tidak lengkap, mengidentifikasi dan menghapus informasi duplikat dan data yang tidak terkait, serta mengoreksi format, nilai yang hilang, dan kesalahan ejaan.
Jelaskan 3 metode cara langkah langkah data cleaning?Cara melakukan data cleaning. Mendeteksi error. Langkah awal yang harus dilakukan adalah memantau notifikasi error atau corrupt. ... . 2. Hapus duplikat data atau data yang tidak perlu. ... . Perbaiki kesalahan struktur. ... . 4. Filter outlier yang tidak diinginkan. ... . Tangani data yang hilang. ... . 6. Validasi dan lakukan QA.. Apa itu data cleaning python?Data cleansing atau data cleaning merupakan suatu proses mendeteksi dan memperbaiki (atau menghapus) suatu record yang 'corrupt' atau tidak akurat berdasarkan sebuah record set, tabel, atau database.
Langkah pertama dalam melakukan proses cleaning data yaitu?Cara Melakukan Data Cleansing. Hapus yang perlu. Kadang kala, ada data yang kurang relevan dalam dataset. Nah, dalam proses data cleaning, informasi ini boleh saja kamu hapus. ... . 2. Edit kesalahan struktur. Meski terkesan remeh, kesalahan struktur bisa menurunkan kualitas data. ... . 3. Hapus nilai ekstrem. ... . Pikirkan data tak lengkap.. |