Cara menggunakan import html google sheets

Saya seorang nerd spreadsheet yang tidak terlalu rahasia. Saya bahkan termasuk dalam semacam Grup Minat Spreadsheet. Jumlah orang yang bersemangat di luar sana memberi tahu saya bahwa kita semua mengandalkan spreadsheet lama yang bagus di beberapa titik dalam karier kita

Bahkan di dunia ini, Google Sheets adalah pahlawan super. Google Spreadsheets dapat secara dinamis mengumpulkan informasi untuk Anda saat Anda tidur, dan mengambil apa pun yang Anda inginkan (harga saham, analisis situs, dan lainnya) dari mana saja

Jadikan Google Spreadsheet Anda Bekerja untuk Anda

Otomatiskan Google Spreadsheet

Namun bagaimana jika Anda ingin mengambil data dari web secara luas—mungkin untuk menyalin info dari tabel di situs web? . Menyalin dan menempelkannya akan memakan waktu lama—tetapi Google Spreadsheet memiliki opsi yang lebih baik

Anda dapat mengimpor data dari halaman web mana pun menggunakan fungsi kecil bernama ImportXML , dan setelah Anda menguasainya, Anda akan merasa seperti seorang Panduan Spreadsheet bersertifikat. ImportXML menarik informasi dari bidang XML apa pun—yaitu, bidang apa pun yang diapit oleh a <tag> dan a </tag>< /a > . Jadi, Anda dapat mengambil data dari situs web mana pun dan metadata apa pun yang dihasilkan oleh situs web mana pun, di mana pun. Tentu saja, Andadapat menyalin-menempel lalu menghabiskan waktu berjam-jam untuk mengedit semuanya dengan tangan, tetapi mengapa tidak mengotomatiskan hal-hal yang membosankan?

Ayo lakukan itu

Dasar-dasar XML dan HTML

Anda harus mengetahui beberapa HTML yang sangat mendasar—atau lebih tepatnya, markup XML yang menentukan grup data pada halaman web—untuk memahami fungsi umum di sini, jadi inilah kursus kilatnya. Pada dasarnya, setiap rangkaian  <something> dan  </something> — blok penyusun inti dari halaman web kode sumber — artinya kumpulan data tertentu terkandung di dalamnya (mungkin <something>like this</something ). Halaman akan memiliki beberapa teks dalam <p> paragraf, terkadang berisi <b> teks panjang dan mungkin  <a> tautan (diikuti dengan  </a></b>.</p></body> untuk menutup semuanya ).

Fungsi ImportXML Google Sheets dapat menemukan sekumpulan data XML tertentu dan menyalin data darinya

Jadi, dalam contoh di atas, jika kita ingin mengambil semua tautan di halaman, kita akan memberi tahu fungsi ImportXML untuk mengimpor semua informasi di <tag>0 . Jika kita menginginkan seluruh teks halaman web karena kita melakukan beberapa pekerjaan penambangan teks yang lebih canggih, kita mungkin mulai dengan memasukkan semuanya <tag>1 atau semua yang di setiap contoh dari <tag>2 , lalu bersihkan data kami secara bertahap setelah itu.

Jika kita memberi tahu ImportXML untuk mengambil tautan dari contoh di atas, kita akan mendapatkan teks ” tautan. Itu mungkin tidak terlalu berguna, tapi setidaknya Anda mendapatkan idenya.

Tip. Ingin menggali lebih dalam tentang HTML dan XML? . tutorial Elemen Inspeksi kami untuk melihat bagaimana Anda dapat mengubah apa pun di halaman web mana pun dengan mengedit kodenya di browser Anda.


Cara Ekstrak Daftar Kode Pos dan Kabupaten Kota

Salah satu proyek saya saat ini melibatkan pencocokan daftar pelanggan saya dengan kode pos mereka ke daerah perkotaan di kota saya. Ini adalah proyek yang cukup kecil, karena saya hanya menggunakan beberapa lingkungan di pusat kota, tetapi cukup sulit, karena di Kanada tidak ada kumpulan data kode pos kami. Tidak, sungguh—Canada Post pernah menggugat seseorang karena menerbitkan daftar semua kode pos.

Untungnya, beberapa individu giat telah menginstalversi terbaik berikutnya di Wikipedia. tabel kode pos diikuti oleh kotamadya dan lingkungan di dalamnya.

Tabel Wikipedia adalah cara yang bagus untuk berlatih ImportXML. Mari kita coba dapatkan semua kode pos di Edmonton, Alberta. Kami akan pergi ke bagian "AB" dari sistem pos,yang dimulai dengan T. Buka halaman di jendela browser baru untuk mengikuti latihan ini.

Cara menggunakan import html google sheets

Mari kita lihat sumber halaman. Pilih salah satu kode pos, klik kanan padanya, dan pilihPeriksa untuk membuka alat browser Anda untuk melihat kode sumber laman.

Sepertinya setiap kode pos terkandung dalam sebuah tag (yang menentukan sel dalam tabel). Jadi kami akan mengimpor semua tag TD yang mengandung kata "Edmonton" di dalamnya

Untuk pelajaran pertama Anda, buat spreadsheet Google Spreadsheet kosong baru. Kami akan mengambil semua konten dari tag TD, termasuk <tag>3 dan tautannya, dengan menentukan apa yang kami inginkan menggunakan Sintaks XPath. ImportXML mengambil URL dan tag yang Anda cari sebagai argumen, jadi masukkan ini di Google Spreadsheet.

<tag>_4

akan memberimu ini

Melihat kembali ke sumber laman kita, kita melihat bahwa kode pos dicetak tebal, atau <tag>5 , dan nama kota ditautkan ke artikel Wikipedia, tentu saja, di <tag>0 . Mari kita coba ambil hanya tautan pertama di setiap sel, yaitu kota besar, dan abaikan tautan lainnya, yaitu lingkungan. Ubah menjadi dua perintah, di kolom A dan B –

<tag>_7

<tag>_8

dan Anda akan semakin mempertajam hasil Anda

Ini akan memberi Anda gambaran tentang cara kerja sintaks kueri XPath. tag dengan  <tag>9 berarti “beri saya contoh pertama <tag> di dalam </tag>1 . ” Jadi,  </tag>2 memberi Anda tautan pertama di  <tag>3 di setiap < /a> </tag>4 . Dengan cara yang sama,  </tag>5 memberi Anda teks tebal pertama di setiap  </tag>4 —atau hanya kode pos dalam kasus kami.

Hal rapi yang dapat Anda lakukan adalah membuat dua kueri dari satu fungsi. Jadi, kita bisa menggabungkan dua permintaan ini dengan. (pipa) simbol di tengah

</tag>7

Namun, Anda tidak akan mendapatkan hasil yang sama seperti sebelumnya. itu akan memasukkan semua permintaan yang cocok ke dalam satu daftar panjang, bukan dua kolom. Ada banyak kegunaan untuk ini, tetapi tidak untuk tujuan kita di sini

Juga, kita tidak menginginkan semua baris ini; . Ingatlah bahwa kami ingin mengembalikan kode pos, jadi kami ingin</tag>2bidang itu. Ingat bahwa kami ingin mengembalikan kode pos, jadi kami ingin  </tag>9 setiap </tag>4 yang memiliki “Edmonton” di  <something>1 . Masih bersamaku?

Untuk memilih hanya kode pos di kotak di mana tautan pertama adalah 'Edmonton', kami akan menggunakan kode ini

<something>2

Kami menempatkan bagian “telusuri”—teks kualifikasi yang mempersempit hasil kami—di <something>3 , tanpa mengganggu jalur yang benar-benar mengembalikan hasil. Voila.

Sekarang kita menginginkan nama lingkungan. Kami menulis fungsi importXML yang sesuai untuk masuk ke kolom berikutnya, mengambil teks yang muncul setelahsetelah kata-kata “Edmonton. ”

Solusi saya menggunakan seluruh konten  <something>4 dan menggunakan tanda kurung dan garis miring untuk memisahkan konten, mengiris “Edmonton” menjadi kolom pertama dan masing-masing beri nama lingkungan ke kolom berikutnya. Dari proses dua langkah ini kami dapat mencocokkan kode pos dan nama lingkungan.

<something>5

Dan kemudian, beberapa kolom kemudian menggunakan fungsi split dan concatenate untuk memisahkan dan mengelompokkan data yang sedang kita kerjakan

<something>6

Itu memberi kami meja akhir kami dibersihkan hanya dengan kode pos, kota, dan info lingkungan yang kami butuhkan

Jika Anda sudah menguasainya, Anda dapat meningkatkan metode ini. Pertimbangkan untuk memanggil konten saja <tag>3 setelah , ________3______8 atau hanya teks di dalam tanda kurung, atau semua yang tidak termasuk string “Edmonton”, atau semuanya setelah jeda baris  <something>9 .


Cara Menyalin Alamat Email Secara Otomatis dari Situs Web

Yang ini mudah. Bisakah Anda mengambil semua email staf Zapier dariHalaman tentang?

Melihat kode sumber akan langsung memberi tahu Anda. Alamat email setiap anggota tim Zapier ada di bidang dengan ekstensi </something>0 . Mudah. Saat Anda ingin menentukan atribut dari tag (misalnya, “href” di <a> , atau “id” atau “class” dari a< /a> </something>2 ), Anda mengucapkannya dengan.

</something>_3

Mengambil email tanpa shortcut seperti ini bisa dilakukan. Kami melakukan ini dengan mencocokkan formulir esensial mereka (username@host. akhiran , alias bob@gmail. com). Ini lebih rumit, tetapi memiliki lebih banyak potensi.

Ekspresi reguler adalah apa yang kami gunakan untuk menangkap informasi kategorikal yang cocok dengan format tertentu. Katakanlah kita ingin mengetahui semua suhu yang tercantum di situs web cuaca. Kita akan memahaminya dengan mengatakan “berikan semua angka yang ada sebelum simbol  </something>4 atau  </something>5 atau </something>6 “—ya, itu semuakarakter unicode yang berbeda .

Jika kami ingin mengambil daftar email, kami akan mengatakan "beri kami semua string yang cocok dengan formatnamapengguna@host. akhiran. ” Atau, dalam ekspresi reguler.

</something>_7

Tarik napas dalam-dalam, dan kita akan melalui langkah demi langkah ini. Anda dapat melihat simbol @, dan Anda dapat melihat bahwa ruang "nama pengguna" sebelum @ (atau </something>8 ) cukup dekat dengan "host" area setelah @ ( atau  ________4______9 ).

Dan bit "akhir" terlihat serupa, tetapi tidak persis. Itu karena karakter yang diperbolehkan dalam alamat email dan nama host, seperti yang ditentukan oleh Dewa Internet, terbatas. Anda mungkin ingat saat mendaftar alamat email dan mendapatkan pesan kesalahan saat mencoba memasukkan “~~f41ry~~” di dalamnya. Aku juga tahu rasa sakitnya. Itu karena email menggunakan karakter huruf kecil (az), huruf besar (AZ), angka (0-9), garis bawah (_), tanda hubung (-), dan titik (. )—dan, terkadang, tanda plus (+).

Ada apa dengan garis miring dan tanda plus di ekspresi itu? . ” Pembatalan dilakukan dengan menempatkan backslash (<something>like this</something0dan bukan tanda hubung fungsi ekspresi reguler” kita harus “membatalkan” mereka, yang merupakan istilah bagus untuk “mengabaikan apa yang biasanya Anda lakukan di skenario ini.” Pembatalan dilakukan dengan meletakkan garis miring terbalik (  <something>like this</something1 ) di depannya.

Tanda tambah di luar tanda kurung berarti “izinkan karakter yang cocok dengan itu, sekali atau lebih. Jadi, nama email Anda bisa terdiri dari berapa saja karakter, asalkan minimal ada satu

Kemudian kami melakukannya lagi untuk nama host. Satu atau beberapa karakter huruf kecil, huruf besar, angka, garis bawah, tanda hubung, dan titik—karena beberapa alamat email adalah “@mail. nama host. akhiran"

Bit terakhir, akhiran lebih terbatas. <something>like this</something2

Kami hanya dapat memiliki karakter sederhana, dan kami hanya dapat memiliki 2 hingga 15 karakter (untuk menyertakan semua domain trendi baru seperti <something>like this</something3 dan <something>like this</something4 dan, yang terpanjang sejauh ini,  <something>like this</something5 ). Jadi, alih-alih + berarti "panjang berapa pun", kami menetapkan panjang minimum dan maksimum dengan <something>like this</something6 . (Anda dapat mengatur sesuatu seperti "tepat lima" hanya dengan  <something>like this</something7 . )

Untuk meringkas, ketika kita hanya menginginkan satu karakter (seperti pada <something>like this</something8 ) kita cukup mengetiknya. Saat kami menginginkan karakter yang cocok dengan salah satu dari beberapa tipe karakter, kami membuang semua karakter yang dapat diterima di dalam tanda kurung siku. Saat kita ingin mengalikannya dengan beberapa angka, kita menambahkan beberapa tanda kurung kurawal yang menentukan jumlah minimal dan maksimal karakter yang cocok dengan deskripsi, atau menggunakan indikator untuk mengatakan "satu atau lebih" atau "tidak ada atau lebih". Saat kami melakukan perkalian seperti itu, kami menempatkannya di dalam tanda kurung biasa. Beberapa karakter memerlukan "pembatalan" dengan garis miring terbalik.

Di sana, Anda belajar keterampilan baru yang kuat hari ini. Semua hanya untuk mengambil email. Wow

Bahasa pemrograman yang berbeda menggunakan simbol dan sintaks yang berbeda untuk membuat sesuatu bekerja; . com — ya, seluruh situs web hanya untuk cara menemukan alamat email (jangan baca komentarnya). Dan jika Anda ingin mempelajari regex Google Sheets lebih dalam, berikut adalahdaftar fungsi Google Sheets rahasia khusus – rahasia karena Google sangat buruk dalam dokumentasi, jadi banyak pengguna telahmenulis panduan mereka sendiri melalui trial-and-error.


Cara Menggunakan Regex untuk Mengimpor Alamat Email Dari Situs Web di Google Spreadsheet

Mari ambil alamat Zapier menggunakan kekuatan regex yang baru saja kita temukan. Kami mengimpor yang sama <tag>3 s, tetapi alih-alih mencari kelas yang cocok dengan "email", kami mencari konten yang cocok dengan ekspresi reguler. Sekali lagi, mari kita lakukan dalam dua langkah. kami akan memanggil banyak informasi dari halaman Zapier di kolom pertama, lalu mengurutkannya untuk email di kolom kedua.

<p>_0

<p>_1

Dan itu memberi kita tabel ini

Dapatkah Anda menggabungkan kedua fungsi ini? . Untuk menyatukan semuanya, Anda cukup memerintahkan Regexextract untukmenjadi rumus array sekali ini saja (dan masukkan IFERROR untuk kesopanan, untuk membiarkan sel kosong di mana ada tidak ada alamat email yang dapat ditemukan).

<p>_2

Dan, dengan itu, inilah daftar alamat email bertenaga Regex lengkap kami dari halaman ZapierTentang.


Menjadi Pakar Google Spreadsheet dengan Zapier

Untuk bacaan lebih lanjut, kami telah menulis tentang web scraping lainnya di. Anda juga dapat membaca tentang fungsi sepupu ImportXML.

  • ImportHTML —fungsi yang lebih lemah yang akan mengimpor seluruh tabel atau daftar dari halaman web tertentu tanpa kontrol lebih lanjut

  • ImportRange —untuk mengimpor data dari sheet lain di spreadsheet

  • ImportData —untuk mengimpor data dari file CSV atau TSV tertaut

  • ImportFeed —yang bekerja sangat mirip dengan ImportXML, tetapi untuk mengimpor umpan RSS atau Atom, yang sangat bagus jika Anda memiliki masalah dalam mengimpor XML dari situs web tertentu (batuk Twitter ).

Bersamaan dengan itu, Anda akan mempelajari dasar-dasar spreadsheet jika perlu meninjaunya, beserta kiat tentang cara membuat aplikasi lengkap di spreadsheet, menggunakan Skrip Google Apps untuk mengotomatiskan spreadsheet, dan panduan untuk menggunakan aplikasi pendamping Google Spreadsheet, Google Formulir.

Atau, untuk cara yang lebih mudah dalam mengimpor data ke spreadsheet Google Spreadsheet, Anda dapat menggunakan alat otomatisasi aplikasiIntegrasi Zapier Google Spreadsheet untuk menambahkan data ke spreadsheet Anda secara otomatis. Itu dapat merekam Tweet ke spreadsheet, menyimpan saran kontak MailChimp Anda, atau menyimpan data dari formulir dan acara Anda ke sheet.

Cara menggunakan import html google sheets

Cara menggunakan import html google sheets

Kumpulkan respons Typeform baru sebagai baris dalam Google Spreadsheet

Google Spreadsheet + Bentuk Huruf

Gunakan Zap. ini

Cara menggunakan import html google sheets

Cara menggunakan import html google sheets

Simpan peserta Eventbrite baru ke Google Spreadsheet

Eventbrite + Google Spreadsheet

Gunakan Zap. ini

Cara menggunakan import html google sheets

Cara menggunakan import html google sheets

Simpan klien Mailchimp baru ke baris di spreadsheet Google Spreadsheet

Google Spreadsheet + Mailchimp

Gunakan Zap. ini

Cara menggunakan import html google sheets

Cara menggunakan import html google sheets

Simpan sebutan Twitter baru ke Google Spreadsheet

Google Spreadsheet + Twitter

Gunakan Zap. ini

Tidak melihat apa yang Anda cari?

Buat dari awal ataupelajari lebih lanjut

Zapier juga dapat membuat data Anda berfungsi. Katakanlah Anda menggunakan importXML untuk menarik daftar alamat email ke dalam spreadsheet. Zapier kemudian dapat menyalinnya dari spreadsheet Anda, dan mengirimi mereka pesan email atau menambahkannya ke milis Anda. Itu dapat menambahkan daftar tanggal ke Kalender Google Anda untuk cara mudah membuat daftar hari libur atau acara. Atau dapat menambahkan setiap entri baru sebagai tugas baru dalam aplikasi manajemen proyek Anda—atau lebih

Langkah-langkah memasukkan data ke Google Sheet?

Memasukkan teks atau data. Klik sel, lalu masukkan teks . Masukkan item lain. Klik Sisipkan, lalu tambahkan diagram, gambar, fungsi, catatan, dan lainnya. Catatan. Anda juga dapat menambahkan fungsi ke sel dengan mengetikkan =. Untuk melihat fungsi yang tersedia, buka daftar fungsi spreadsheet Google.

Importrange untuk apa?

IMPORTRANGE adalah fungsi data eksternal , seperti halnya IMPORTXML dan GOOGLEFINANCE. Artinya, fungsi ini membutuhkan koneksi internet agar bisa berfungsi.

Fungsi apa yang dapat digunakan di Google Sheet untuk mengambil kumpulan data dari berbagai file Google Sheet?

Jika Anda menyimpan data di Google Spreadsheet terpisah , salin rentang data dari satu spreadsheet ke spreadsheet lain menggunakan fungsi IMPORTRANGE.

Mengapa kita harus menggunakan Gsheet?

Google Spreadsheet memiliki fungsi yang sama dengan Microsoft Excel yaitu dapat digunakan untuk mengolah data, mengurutkan data, dan memanipulasi data dalam bentuk tabel . Di perusahaan, Google Sheets dapat digunakan untuk mengolah data seperti laporan penjualan, laporan keuangan, laporan piutang, dan sejenisnya.