Bagaimana Anda menggunakan kumpulan data dengan python?

Ada paket Python yang berguna yang memungkinkan memuat kumpulan data yang tersedia untuk umum hanya dengan beberapa baris kode. Dalam postingan ini, kita akan melihat 5 paket yang memberikan akses cepat ke berbagai kumpulan data. Untuk setiap paket, kita akan melihat cara memeriksa daftar kumpulan data yang tersedia dan cara memuat contoh kumpulan data ke kerangka data panda

Foto oleh Debby Hudson di Unsplash0. Penyiapan python 🔧

Saya menganggap pembaca (👀 ya, Anda. ) memiliki akses ke dan terbiasa dengan Python termasuk menginstal paket, mendefinisikan fungsi, dan tugas dasar lainnya. Jika Anda baru mengenal Python, ini adalah tempat yang bagus untuk memulai

Saya telah menggunakan dan menguji skrip di Python 3. 7. 1 di Notebook Jupyter. Mari pastikan Anda telah menginstal paket yang relevan sebelum kita menyelami

◼️ ️pydataset. paket dataset,
◼️ ️seaborn. Paket Visualisasi Data,
◼️ ️sklearn. Paket Pembelajaran Mesin,
◼️ ️statsmodel. Paket Model Statistik dan
◼️ ️nltk. Paket Alat Bahasa Alami

Untuk setiap paket, kami akan memeriksa bentuk, kepala, dan ekor dari kumpulan data contoh. Untuk menghindari pengulangan, mari kita cepat membuat sebuah fungsi

# Create a function to glimpse the data
def glimpse(df):
print(f"{df.shape[0]} rows and {df.shape[1]} columns")
display(df.head())
display(df.tail())

Baiklah, kita siap menyelam. 🐳

1. PyDataset 📚

Paket pertama yang akan kita lihat adalah PyDataset. Mudah digunakan dan memberikan akses ke lebih dari 700 kumpulan data. Paket ini terinspirasi oleh kemudahan mengakses kumpulan data di R dan bertujuan untuk menghadirkan kemudahan itu di Python. Mari kita periksa daftar kumpulan data

# Import package
from pydataset import data
# Check out datasets
data()
_

Ini mengembalikan kerangka data yang berisi dataset_id dan judul untuk semua kumpulan data yang dapat Anda telusuri. Saat ini, ada 757 dataset. Sekarang, mari kita muat dataset iris yang terkenal sebagai contoh

# Load as a dataframe
df = data('iris')
glimpse(df)

Memuat kumpulan data ke bingkai data hanya membutuhkan satu baris setelah kami mengimpor paket. Sangat sederhana, bukan?

🔗 Untuk mempelajari lebih lanjut, lihat repositori GitHub PyDataset

2. Seaborn 🌊

Seaborn adalah paket lain yang menyediakan akses mudah ke kumpulan data contoh. Untuk menemukan daftar lengkap dataset, Anda dapat menelusuri repositori GitHub atau Anda dapat memeriksanya dengan Python seperti ini

# Import seaborn
import seaborn as sns
# Check out available datasets
print(sns.get_dataset_names())

Saat ini, ada 17 dataset yang tersedia. Mari muat dataset iris sebagai contoh

# Load as a dataframe
df = sns.load_dataset('iris')
glimpse(df)
_

Ini juga hanya membutuhkan satu baris untuk memuat kumpulan data sebagai kerangka data setelah mengimpor paket

🔗 Untuk mempelajari lebih lanjut, lihat halaman dokumentasi untuk load_dataset

3. Scikit-belajar 📓

Scikit-learn tidak hanya mengagumkan untuk rekayasa fitur dan model bangunan, tetapi juga dilengkapi dengan kumpulan data mainan dan menyediakan akses mudah untuk mengunduh dan memuat kumpulan data dunia nyata. Daftar dataset mainan dan asli serta detail lainnya tersedia di sini. Anda dapat menemukan detail lebih lanjut tentang kumpulan data dengan menelusuri tautan atau merujuk ke dokumentasi individual untuk fungsi. Perlu disebutkan bahwa di antara set data, ada beberapa set data mainan dan gambar nyata seperti dan

Sekarang, mari kita lihat cara memuat dataset nyata dengan sebuah contoh

# Import package
from sklearn.datasets import fetch_california_housing
# Load data (will download the data if it's the first time loading)
housing = fetch_california_housing(as_frame=True)
# Create a dataframe
df = housing['data'].join(housing['target'])
glimpse(df)

Berikut cara memuat contoh dataset mainan, iris

# Import package
from sklearn.datasets import load_iris
# Load data
iris = load_iris(as_frame=True)
# Create a dataframe
df = iris['data'].join(iris['target'])
# Map target names (only for categorical target)
df['target'].replace(dict(enumerate(iris['target_names'])),
inplace=True)
glimpse(df)
_

💡 Jika Anda mendapatkan kesalahan terkait argumen as_frame, perbarui versi sklearn Anda ke 0. 23 atau lebih tinggi atau gunakan skrip di bawah ini

# Import packages
import pandas as pd
from sklearn.datasets import load_iris
# Load data
iris = load_iris()
# Create a dataframe
X = pd.DataFrame(iris['data'], columns=iris['feature_names'])
y = pd.DataFrame(iris['target'], columns=['target'])
df = X.join(y)
# Map target names (only for categorical target)
df['target'].replace(dict(enumerate(iris['target_names'])),
inplace=True)
glimpse(df)

🔗 Untuk informasi lebih lanjut, lihat halaman dokumentasi scikit-learn

4. Model statistik 📔

Paket lain yang dapat digunakan untuk mengakses data adalah statsmodels. Kumpulan data bawaan yang tersedia tercantum di sini di situs web mereka. Mari kita pilih 'Data Ekonomi Makro Amerika Serikat' sebagai contoh dan memuatnya

# Import package
import statsmodels.api as sm
# Load data as a dataframe
df = sm.datasets.macrodata.load_pandas()['data']
glimpse(df)
_

Seperti yang mungkin telah Anda ketahui, nama yang kami gunakan untuk mengakses 'data Ekonomi Makro Amerika Serikat' adalah data makro. Untuk menemukan nama yang setara untuk kumpulan data lain, lihat bagian akhir URL untuk dokumentasi kumpulan data tersebut. Misalnya, jika Anda mengeklik 'Data makroekonomi Amerika Serikat' di bagian Kumpulan Data yang Tersedia dan melihat bilah alamat di browser Anda, Anda akan melihat 'macrodata. html’ di akhir URL

Statsmodels juga memungkinkan memuat kumpulan data dari R dengan fungsi get_rdataset. Daftar kumpulan data yang tersedia ada di sini. Menggunakan dataset iris sebagai contoh, berikut adalah cara memuat data

# Load data as a dataframe
df = sm.datasets.get_rdataset(dataname='iris', package='datasets')['data']
glimpse(df)
_

🔗 Untuk informasi lebih lanjut, lihat halaman dokumentasi untuk kumpulan data

5. Perangkat Bahasa Alami. NLTK 📜

Paket ini sedikit berbeda dari yang lain karena hanya menyediakan akses ke kumpulan data teks. Berikut daftar dataset teks yang tersedia (Psst, harap perhatikan beberapa item dalam daftar itu adalah model). Dengan menggunakan id, kita dapat mengakses kumpulan data teks yang relevan dari NLTK. Mari kita ambil Kumpulan Data Polaritas Sentimen sebagai contoh. Idnya adalah movie_reviews. Mari kita unduh terlebih dahulu dengan skrip berikut

# Import package
from pydataset import data
# Check out datasets
data()
_0

Jika sudah diunduh, menjalankan ini akan memberi tahu bahwa Anda telah melakukannya. Setelah diunduh, kita dapat memuat data ke kerangka data seperti ini

# Import package
from pydataset import data
# Check out datasets
data()
_1

Tidak ada pendekatan satu ukuran yang cocok untuk semua saat mengonversi data teks dari NLTK ke kerangka data. Ini berarti Anda perlu mencari cara yang tepat untuk mengonversi ke kerangka data berdasarkan kasus per kasus

🔗 Untuk informasi lebih lanjut, lihat sumber daya ini untuk mengakses kumpulan teks dan sumber daya leksikal

Itu dia, 5 paket yang memungkinkan akses mudah ke kumpulan data. Sekarang Anda tahu cara memuat kumpulan data dari salah satu paket ini. Ada kemungkinan kumpulan data yang tersedia dalam paket ini dapat berubah di masa mendatang, tetapi Anda tetap tahu cara menemukan semua kumpulan data yang tersedia. 🙆

Foto oleh Cristina Gottardi di Unsplash

Apakah Anda ingin mengakses lebih banyak konten seperti ini? . Jika Anda menjadi anggota menggunakan tautan referensi saya, sebagian dari biaya keanggotaan Anda akan langsung digunakan untuk mendukung saya

Bagaimana Anda menggunakan kumpulan data dengan Python?

5 Cara Berbeda untuk Memuat Data dengan Python .
Fungsi manual
fungsi loadtxt
fungsi genfromtxt
fungsi read_csv
Acar

Bagaimana Anda menggunakan kumpulan data?

Untuk menggunakan Kumpulan Data, kita memerlukan tiga langkah. .
Mengimpor Data. Buat instance Dataset dari beberapa data
Buat Iterator. Dengan menggunakan kumpulan data yang dibuat untuk membuat instance Iterator untuk melakukan iterasi melalui kumpulan data
Mengkonsumsi Data. Dengan menggunakan iterator yang dibuat, kita bisa mendapatkan elemen dari kumpulan data untuk memberi makan model

Apa kumpulan data dalam Python?

Set digunakan untuk menyimpan banyak item dalam satu variabel . Set adalah salah satu dari 4 tipe data bawaan di Python yang digunakan untuk menyimpan kumpulan data, 3 lainnya adalah Daftar, Tuple, dan Kamus, semuanya dengan kualitas dan penggunaan yang berbeda. Himpunan adalah koleksi yang tidak terurut, tidak dapat diubah*, dan tidak terindeks.

Bagaimana cara membuat kumpulan data dengan Python?

Bagaimana Cara Membuat Kumpulan Data dengan Python? .
Untuk membuat dataset untuk masalah klasifikasi dengan python, kami menggunakan metode make_classification yang tersedia di perpustakaan belajar sci-kit. .
Metode make_classification kembali secara default, ndarrays yang sesuai dengan variabel/fitur dan target/output