3 keterampilan yang diremehkan yang akan menjadikanmu ilmuwan data

Melampaui kurikulum standar dan dapatkan hasil maksimal dari data Anda.

 

Visualisasi

Salah satu  tujuan utama ilmu data secara umum adalah untuk mengumpulkan wawasan yang bermakna dari data Anda dan kemudian menyajikan wawasan tersebut ke sebagian dari audiens target Anda. Ini sering dilakukan melalui alur standar pembersihan, analisis, dan pemodelan data, tetapi ada tugas terkait lain yang banyak tidak memiliki pengalaman  khusus dengan: visualisasi data.

Dalam kata-kata peneliti visualisasi informasi terkenal Marti Hearst dari University of California, Berkeley, “Ekspresi visual dapat menyampaikan informasi lebih cepat dan lebih efektif daripada teks.” Pikirkan tentang rata-rata orang yang duduk di sofa menonton berita. Apakah mereka ingin mendengar ceramah panjang tentang hasil model yang penuh dengan angka, persamaan, dan kompleksitas?

Tidak. Mereka tidak melakukannya. Orang-orang menyukai hal-hal sederhana dan hal-hal yang bersih. Beruntung bagi mereka, visualisasi memiliki  potensi untuk (semoga) menyederhanakan data menjadi ringkasan yang cukup banyak. Jika kamu bisa menguasai skill desain dan implementasi, kamu pasti akan menarik perhatian di bidang data science.

Ada  dua  bagian untuk ini: 1) memahami apa yang masuk ke dalam visualisasi yang baik, dan 2) benar-benar menerapkan visualisasi ini.

Mari kita mulai dengan bagian pertama. Untuk informasi lebih lanjut tentang topik-topik ini, lihat artikel saya “Menyaring Dasar-Dasar Visualisasi Data” Bagian 1 [2] dan Bagian 2 [3]. Berikut adalah beberapa tips tingkat tinggi untuk membantu Anda memulai.

 

  • Jangan mencoba menunjukkan semuanya: Tidak ada yang namanya visualisasi himpunan data yang lengkap dan komprehensif. Pilih satu ~ dua aspek data yang ingin Anda sorot dan rancang visualisasi berdasarkan itu.
  • Tetap sederhana: Jangan berlebihan — tugas Anda adalah menyederhanakan data, dan membuatnya lebih rumit.
  • Memilih ekspresi yang masuk akal: Jangan gunakan kumpulan warna acak diskrit untuk mewakili nilai kuantitatif berkelanjutan, seperti skor persentase pada ujian, misalnya. Pilih representasi visual yang mudah ditafsirkan oleh pemirsa.
  • Jangan berbohong tentang data: Jika Anda perlu dibujuk tentang data ini, yang terbaik adalah menjauh dari ilmu data secara umum.

Sekarang, tetapi bagaimana Anda benar-benar membuat visualisasi? Dengan asumsi Anda tidak memiliki pengalaman sama sekali, berdasarkan pengalaman saya sendiri, alur umum yang akan saya rekomendasikan di bawah ini adalah:

  1. Excel/Google Spreadsheet: Alat-alat ini memiliki sekumpulan bagan tetap yang dapat dibuat secara otomatis dengan berbagai data yang telah Anda tangkap sendiri. Ini adalah cara yang baik untuk menjelajahi visualisasi dan mempelajari dasar-dasarnya tanpa terlalu banyak kesulitan.
  2. Tableau [4]: Tableau adalah alat yang sangat berguna yang digunakan praktisi di seluruh dunia untuk memvisualisasikan data mereka. Ada kurva belajar, tetapi tidak memerlukan pengetahuan pemrograman apa pun dan memungkinkan Anda menjelajahi berbagai visualisasi yang cukup luas di lingkungan yang nyaman.
  3. Matplotlib/Seaborn: Jika kamu sudah terbiasa dengan pemrograman dengan Python, langsung saja ke langkah ini. Ini adalah pustaka Python yang sangat mudah digunakan yang memungkinkan Anda memprogram visualisasi dasar dalam kode Anda.
  4. Altair / Plotly / Vega-Lite [5, 6, 7]: Di sinilah hal-hal menjadi menarik. Jika Anda benar-benar ingin menjadi pejantan visualisasi, Anda harus membuat sendiri grafik menarik yang tidak secara langsung didasarkan pada yang sudah dibuat sebelumnya. Pustaka pemrograman deklaratif ini (dua yang pertama dengan Python, dua yang terakhir di JavaScript) menyediakan perangkat rapi yang lebih sulit untuk dimanipulasi daripada perpustakaan sederhana di atas, tetapi itu memberi Anda lebih banyak kebebasan dalam hal apa yang dapat Anda lakukan.
  5. D3 [8]: Dan akhirnya, ini membawa kita ke D3: Dokumentasi berbasis data, yang dikenal luas di dunia visualisasi sebagai standar emas untuk desain dan implementasi visualisasi data. D3 adalah pustaka JavaScript yang menyediakan  DOM (Document Object  Model)  untuk halaman Web. Manipulasi langsung memudahkan programmer untuk membuat apa yang mereka butuhkan dan dengan mudah menyebarkannya ke web. Ini adalah keterampilan yang jauh lebih sulit untuk dipelajari dalam daftar ini (dan saat ini saya sedang dalam proses mengembangkannya sendiri). Tetapi sebagai imbalannya, Anda benar-benar dapat membuat orang terpesona dengan visualisasi yang Anda rancang. Untuk buku pengantar, lihat makalah penelitian asli [9] yang ditulis oleh penemu 10 tahun yang lalu. Dia baru-baru ini memenangkan Test of Time Award di VIS, konferensi akademik terkemuka di dunia tentang visualisasi.

Jika Anda memilih untuk mempelajari keterampilan ini, jalan Anda masih panjang. Namun sebagai imbalannya, imbalan mengejar keunggulan dalam ilmu data juga akan sangat besar.

Jangan takut untuk kembali ke data Anda

Selama setahun terakhir, saya telah menghabiskan waktu untuk proyek penelitian pembelajaran mesin yang dipimpin oleh rekan kerja. Seperti banyak dari proyek-proyek ini,  sebuah model diperlukan untuk mencapai ambang kinerja tertentu untuk data pelatihan.

Tetapi cobalah sebanyak yang kita bisa, jumlah penyetelan parameter dan pencarian model SK-Learn tidak memberi kita nomor yang diperlukan. Kami dipaksa untuk menghadapi kenyataan yang membuat frustrasi bahwa data kebenaran dasar kami tidak cukup baik dan kami perlu kembali ke alun-alun.

Ini berarti bahwa tim peneliti kami harus memeriksa secara manual banyak baris data pelatihan dan mengevaluasi kembali label awal yang mereka tetapkan (secara teknis, ini disebut mengaudit data). Ini benar-benar menyakitkan karena kami menambahkan sekitar 6 bulan pekerjaan tambahan ke proyek. Namun, modelnya tidak pernah ditingkatkan dengan cara lain, jadi tidak ada pilihan.

Saya telah memilih subbidang pembelajaran mesin tertentu sebagai anekdot pribadi, tetapi ini adalah masalah yang mencakup ilmu data secara keseluruhan. Baik Anda sedang membangun model, merancang visualisasi, atau menyiapkan database, kualitas data Anda adalah penting.

Ini sepertinya pernyataan yang cukup sederhana, terutama mengingat nama “ilmu data”. Tetapi ternyata sangat mudah untuk diabaikan ketika Anda berada di tengah-tengah proyek penting yang telah Anda ikuti selama berbulan-bulan (atau bahkan bertahun-tahun) yang sedang berlangsung. Sulit untuk mengakui bahwa Anda harus memulai dari awal lagi. Hanya melakukannya adalah keterampilan, undervalued, dan berharga.

C’est la vie. Solusinya, apa pun artinya, tidak selalu terletak pada “meningkatkan model”. Terkadang Anda harus menerima bahwa tidak peduli berapa banyak modul Python mewah atau operasi statistik yang tidak konsisten yang Anda miliki, Anda tidak akan mendapatkan hasil yang Anda butuhkan, dan datanya mungkin tidak mencukupi atau tidak akurat.

Yap, itu menyebalkan. Tapi setidaknya itu benar.

 

Data dalam format yang tidak ortodoks

Salah satu  keterampilan yang paling didambakan yang dapat Anda peroleh sebagai ilmuwan data adalah keakraban dan kenyamanan bekerja dengan data dalam format yang tidak konvensional. Rata-rata siswa ilmu data akan belajar memanipulasi dan memanipulasi tabel angka, yang mungkin merupakan format data yang paling umum. Dan ini umumnya berhasil karena pekerjaan yang tak terhitung jumlahnya membutuhkan keterampilan pekerja mereka.

Namun, ada banyak format data yang jauh lebih sedikit bagi mereka yang tahu cara menggunakannya –  jika Anda menjadikan salah satunya  spesialisasi Anda, Anda mungkin menjadi komoditas panas di pasar kerja. Berikut adalah daftar contoh (sangat tidak lengkap):

  • Data teks: Sebagian besar data manusia yang menarik adalah dalam bentuk kata-kata. “Data manusia” berarti data apa pun yang dihasilkan manusia – pikirkan Twitter, Facebook, pesan teks, dll. Karena ilmu data terus bergerak maju sebagai jalan keluar utama untuk mendekati masalah modern umat manusia, akan sangat penting untuk memahami bagaimana manusia berpikir, merasakan, dan berkomunikasi (dari lensa teknis). Oleh karena itu, belajar memanipulasi data teks dapat menjadi keterampilan yang tak ternilai.
  • Data gambar: Sebagian besar orang, termasuk ilmuwan data, tidak akan tahu banyak tentang bagaimana gambar dikodekan oleh komputer di bawah hambatan abstraksi. Ada sesuatu tentang piksel dan nilai RGB, bukan? Ini adalah bentuk data yang agak sulit untuk dimanipulasi, sehingga akan lebih bermanfaat jika Anda memilih untuk mempelajarinya.
  • Data geospasial: Ini menyenangkan. Salah satu cara paling umum untuk mengkomunikasikan data dengan masyarakat umum adalah dengan menggunakan peta (jika Anda tidak percaya, pertimbangkan musim pemilihan terbaru). Namun, hanya sedikit orang yang tahu bagaimana melakukan transformasi yang mengambil data numerik dan mengubahnya menjadi peta. Anda mungkin salah satunya – untuk memulai, lihat modul  GeoPandas Python, alat hebat yang terintegrasi dengan baik dengan panda tradisional.

Sebagian besar dunia dapat dilihat sebagai data, mewujudkan jalan potensial untuk dijelajahi oleh bidang ilmu data. Oleh karena itu, sangat disayangkan untuk sering mengabaikan area studi yang berpotensi menarik untuk kenyamanan yang diberikan oleh baris dan kolom angka.

Ini adalah kasus penawaran dan permintaan yang sederhana. Tidak ada yang cukup tahu bagaimana menghadapi pasokan besar data yang tidak ortodoks –  jika Anda menjadi salah satunya, Anda akan sangat diminati.

 

Ringkasan dan Pemikiran Akhir

Seiring dengan semakin populernya ilmu data, menjadi semakin penting bagi masing-masing ilmuwan data untuk mempelajari keterampilan yang saat ini dinilai terlalu rendah. Menguasainya akan membantu Anda mendapatkan hasil maksimal dari data Anda (belum lagi resume Anda).

 

Berikut adalah lembar contekan untuk referensi di masa mendatang:

 

  1. Orang-orang menyukai hal-hal bersih yang masuk akal. Manfaatkan visualisasi dengan baik.
  2. Tidak ada yang menyukai solusi hacky. Kembali dan perbaiki data sesuai kebutuhan.
  3. Angka bukanlah segalanya. Pelajari cara menangani format data lain.

 

 

Leave a Reply

Your email address will not be published.