Cara menggunakan normalisasi di php

Data teks sangat kaya akan informasi, bahkan jika disadari informasi yang beredar melalui internet sebagian besar berupa teks. Jika diolah dengan baik dan benar, data teks dapat memiliki potensi pemanfaatan yang luar biasa

Penjelasan Tujuan Normalisasi Teks dan Contoh Cara Melakukan Normalisasi Teks

Pengolahan teks bukanlah perkara mudah, diperlukan beberapa langkah penting agar data teks yang telah diolah dapat digunakan untuk mencari informasi di dalamnya. Salah satu proses penting dalam pemrosesan teks atau biasa dikenal dengan Natural Language Processing (NLP) adalah Text Preprocessing

Text preprocessing merupakan tahap dimana data teks dinormalisasi sehingga layak untuk diproses pada tahap selanjutnya yaitu analisis. Level ini dapat disesuaikan dengan kasus yang sedang ditangani. Pada kesempatan kali ini, kita akan membahas data teks dari media sosial

Sifat media sosial sebagai jejaring sosial dimana seorang pengguna dapat dengan bebas berkomunikasi atau berpikir sesuka hatinya, membuat format data teks pada media sosial menjadi beragam. Misalnya ada yang bilang “mari makan sekarang di MaLioBoro. @yasirutomo”. Dari tweet ini kita bisa melihat beberapa kesalahan seperti 'mkan' yang seharusnya memakan 'sekaragn' yang seharusnya 'sekarang', MaLioBoro yang seharusnya 'Malioboro' saja dan tanda '. 'yang seharusnya cukup'. ’. Jika data teks ini langsung diolah untuk sebuah analisis seperti analisis sentimen, maka hasil yang didapat bisa saja salah atau tidak akurat

Untuk itu diperlukan level preprocessing dalam analisis teks, terkait dengan itu, saya membuat modul text preprocessing dengan Python beberapa waktu lalu. Data yang diolah adalah data dari media sosial Twitter. Tujuan dari modul ini adalah untuk membersihkan data teks agar layak untuk diproses lebih lanjut

Pada kesempatan kali ini, kita tidak akan membahas garis teknis kode Python untuk membuat teks preprocessing ini. Lebih dari itu, membahas normalisasi kondisi apapun yang saya lakukan sepertinya lebih menarik

Total ada 10 level normalisasi yang tersedia dalam modul ini

1. Masukkan / normalisasi baris baru

Untuk membuat teks dengan beberapa baris menjadi satu baris

2. normalisasi huruf kecil

Untuk membuat seluruh konten teks menjadi huruf kecil. misalnya 'Makan' menjadi 'makan'

3. Titik berulang

Di media sosial, sudah menjadi hal yang lumrah bahwa pengguna biasanya menulis poin berulang kali. Seperti 'ayo makan ya... ', harusnya cukup' ayo makan ya. ’

4. Normalisasi tautan atau URL

Hapus konten Tautan atau URL dalam teks. Dalam kasus yang diangkat, teks akan diproses untuk klasifikasi opini positif dan negatif. Bentuk link teks atau URL tidak akan berpengaruh dalam proses analisis, bahkan dapat mengganggu hasil akhir, sehingga link dapat dihapus

5. Normalisasi karakter berulang

Karakter yang dimaksud disini adalah simbol teks selain huruf, misalnya '. @ # $ % & ( ) – +' dan lainnya. Karakter ini jika membentuk pola emotikon bisa memiliki arti, namun pengguna media sosial terkadang juga menuliskannya dengan karakter yang berulang-ulang, misalnya 'ayo makan ya'. )))' yang seharusnya cukup 'ayo makan ya. )'

6. normalisasi Ellipsis

Elipsis adalah tanda yang dapat berarti teks masih memiliki hubungan yang lebih panjang, namun karena keterbatasan karakter yang dapat diakomodasi dalam media sosial, tanda elipsis diberikan untuk dibaca lebih lengkap, baik pada halaman yang sama maupun menunjuk. ke URL yang berbeda. Tanda elipsis '...' ini tidak diperlukan pada level analisis sehingga dapat dihilangkan. Untuk kasus data yang diproses dimana elipsis masih unicode, fungsi ini dapat diganti dengan kode

text = "".join([x for x in text if ord(x)<128])

7. Tokenisasi

Tokenisasi sebenarnya bukanlah normalisasi yang dilakukan, melainkan hanya sebagai asisten dalam proses preprocessing. Fungsi token dalam hal ini adalah memisahkan kata-kata dalam teks untuk diproses lebih lanjut seperti melakukan spelling check dan lain-lain.

8. Cek ejaan

Spelling check, seperti namanya, berfungsi untuk mengubah kata yang salah ketik menjadi kata yang tidak salah ketik. Misalnya kata 'sekaragn' yang seharusnya 'sekarang' dan 'mkan' yang seharusnya 'makan'

9. Pengulangan kata yang memiliki arti

Normalisasi ini mungkin hanya berlaku untuk pengolah kata dalam bahasa Indonesia. Fungsi dari normalisasi ini adalah membuat kata ulangan yang tidak dilengkapi tanda baca '-' menjadi satu kesatuan. Seperti kata 'malam-malam' menjadi 'malam-malam'

10. normalisasi emoticon

Ini adalah salah satu level penting dari normalisasi. Di media sosial, ekspresi emosi melalui emoticon bisa sangat berwarna. Dalam banyak kasus, emotikon dapat ditulis dengan spasi antar karakter. Suka '. – )' yang seharusnya '. -)'

Secara keseluruhan, kode untuk text preprocessing dapat dilihat di

Kode. https. //github. com/yasirutomo/text-normalization

Tingkat normalisasi lain yang mungkin diperlukan adalah stemming, yaitu mengubah suatu kata menjadi kata dasar. Misalnya "Makan" menjadi "Makan". Untuk proses ini, Anda bisa menggunakan library Sastrawi di Python

Langkah-langkah dalam melakukan normalisasi adalah?

Langkah-langkah yang dilakukan dalam melakukan normalisasi data adalah. 1) menghilangkan elemen data berulang. 2) menghapus ketergantungan parsial. 3) menghapus dependensi transitif .

Bagaimana tahapan dalam normalisasi database?

Empat tingkat normalisasi data dalam sistem database adalah 1NF,2NF,3NF, AND BCNF. 1st Normal Form (1NF) adalah tahap tabel/universal normalisasi bintang pertama dan teringan, tetapi tahap ini adalah fondasi kesuksesan normalisasi database yang baik dan benar.

Untuk apa fungsi 1NF?

1NF membutuhkan beberapa kondisi dalam database, berikut adalah fungsi dari bentuk normal pertama ini. Menghapus kolom duplikat dari tabel yang sama . Buat tabel terpisah untuk setiap grup data terkait dan identifikasi setiap baris dengan kolom unik (kunci utama).

Bagaimana cara mendefinisikan normalisasi 3NF?

Normalisasi ketiga (3 NF), suatu relasi memenuhi normal ketiga jika dan hanya jika relasi tersebut memenuhi normal kedua dan setiap atribut bukan kunci (bukan kunci) tidak memiliki ketergantungan fungsional transitif ke kunci primer .