Pengantar Data Science : Data, Informasi, Dataset, Data Object, dan Feature

Pengantar Data Science : Data, Informasi 



Apa itu Data dan Informasi ? 
 

 


Data 

    Data secara pendek merupakan fakta yang kita ketahui tentang sesuatu. Biasanya mudah diproses oleh komputer. Contoh : nilai seorang mahasiswa. Data juga merujuk pada kumpulan fakta, statistik, atau informasi yang direpresentasikan dalam bentuk terstruktur atau tidak terstruktur. Data dapat berupa angka, teks, gambar, audio, video, atau format lain yang dapat diproses dan dianalisis oleh komputer atau manusia.

 

    Data merupakan bahan mentah yang digunakan untuk menghasilkan wawasan yang bermakna, membuat keputusan yang terinformasi, dan memperoleh pengetahuan. Data dapat berasal dari berbagai sumber, seperti pengamatan, pengukuran, survei, eksperimen, atau catatan. Di era digital, data semakin banyak dihasilkan dan disimpan dalam format digital, yang memungkinkan manipulasi, analisis, dan penyimpanan yang lebih mudah.

 

    Data dapat dikategorikan menjadi dua jenis utama: data terstruktur dan data tidak terstruktur. Data terstruktur diorganisir dan diformat sesuai dengan skema yang telah ditentukan sebelumnya, seperti tabel database dengan baris dan kolom. Sementara itu, data tidak terstruktur tidak memiliki struktur yang telah ditentukan sebelumnya dan dapat mencakup teks bebas, posting media sosial, email, konten multimedia, dan lainnya.

 

    Bidang ilmu data (data science) berfokus pada ekstraksi wawasan dan pengetahuan dari data melalui berbagai teknik, termasuk analisis data, penambangan data, pembelajaran mesin, dan kecerdasan buatan. Dengan menganalisis dan menginterpretasikan data, organisasi dan individu dapat mengungkap pola, tren, korelasi, dan informasi berharga yang dapat mengarahkan pengambilan keputusan, mengoptimalkan proses, dan meningkatkan hasil dalam berbagai bidang.


Informasi 

    Informasi adalah hasil dari pengolahan dan interpretasi data yang memberikan pemahaman, pengetahuan, atau wawasan yang bermakna. Informasi melibatkan pengorganisasian, pemilahan, dan penyajian data dengan cara yang dapat dipahami dan digunakan oleh manusia atau sistem.

 

    Data yang terisolasi tidak memiliki arti atau konteks tanpa diolah menjadi informasi. Informasi menghubungkan data dengan makna, memberikan konteks, dan mengungkapkan pola atau hubungan yang relevan. Informasi juga dapat digunakan untuk menjawab pertanyaan, memecahkan masalah, atau mendukung proses pengambilan keputusan.

 

    Perbedaan utama antara data dan informasi adalah bahwa informasi memiliki nilai dan signifikansi yang lebih tinggi. Sementara data adalah bahan mentah, informasi adalah hasil dari analisis, interpretasi, dan pemahaman data tersebut. Informasi dapat membantu manusia atau sistem untuk mengerti situasi atau fenomena yang sedang terjadi, serta mengambil tindakan yang sesuai berdasarkan pemahaman tersebut.

 

    Misalnya, jika kita memiliki data berupa suhu udara dan kelembaban dalam satu lokasi, informasi dapat diperoleh dengan menganalisis data tersebut, seperti menemukan pola musiman atau hubungan antara suhu dan kelembaban. Informasi tersebut dapat digunakan untuk memprediksi cuaca, memahami kondisi iklim, atau membuat keputusan terkait penanaman tanaman.

 

    Dalam konteks teknologi informasi, informasi sering kali direpresentasikan dalam bentuk teks, grafik, visualisasi, atau laporan yang dapat dengan mudah dipahami dan digunakan oleh pengguna.



Dataset, Data Object, dan Feature 
 

 


Dataset 
 

    Dataset merupakan kumpulan data yang terkait atau terorganisir secara sistematis. Biasanya, dataset terdiri dari sejumlah besar entitas data yang saling terkait dan dikumpulkan dari berbagai sumber atau sumber yang sama.

 

    Sebagai contoh, dalam konteks ilmu pengetahuan, dataset dapat berupa kumpulan pengamatan atau hasil eksperimen yang dikumpulkan dalam bentuk tabel, dengan setiap baris mewakili entitas individu atau sampel, dan setiap kolom mewakili atribut atau variabel yang diamati. Dataset juga dapat berisi data terstruktur atau tidak terstruktur, tergantung pada format dan jenis informasi yang dikumpulkan.

 

    Dataset digunakan dalam berbagai bidang dan tujuan, seperti penelitian ilmiah, analisis data, pembelajaran mesin, pengembangan model prediktif, pengujian algoritma, dan banyak lagi. Dataset yang baik memiliki kualitas yang tinggi, termasuk data yang lengkap, akurat, terpercaya, dan relevan dengan tujuan analisis atau penggunaannya.

 

    Dataset sering kali memerlukan preprocessing atau pembersihan data sebelum digunakan untuk analisis atau pelatihan model. Proses ini melibatkan pemfilteran, normalisasi, imputasi data yang hilang, penanganan nilai yang tidak valid, atau penghapusan data yang tidak diperlukan. Setelah dataset siap, peneliti atau praktisi dapat menerapkan teknik analisis yang sesuai atau membangun model berdasarkan data tersebut untuk menghasilkan wawasan, prediksi, atau solusi yang diinginkan.

 

Cara mudah : dibayangkan sebagai tabel-nya 

 

Data Object
 
 
 
Objek data merujuk pada instansi atau pengamatan tertentu dalam sebuah dataset. Dalam konteks dataset pelanggan, setiap baris atau rekaman yang mewakili seorang pelanggan adalah objek data.
  • Satu buah “benda”/entitas yang akan diproses 
  • Terdiri atas sekumpulan sifat yang mendeskripsikan satu benda tersebut 
  • Cara mudah : dibayangkan sebagai sebuah baris pada tabel 

Contoh Data Object : 

  • Penelitian makanan
    • 1 resep makanan dan bumbu-bumbunya 
    • 1 negara, lokasinya, serta suhu rata-ratanya 
  • Evaluasi mata kuliah
    • Hasil seorang mahasiswa di mata kuliah tertentu 
    • Catatan pelaksanaan 1 buah mata kuliah (pengajar, jadwal, ruang kelas) 

 

Feature 

    Feature, dalam konteks ilmu data dan pembelajaran mesin, merujuk pada atribut atau variabel yang digunakan untuk mewakili suatu objek atau entitas dalam dataset. Fitur adalah aspek atau karakteristik yang dapat diukur atau diamati dari objek tersebut, yang kemudian digunakan sebagai masukan dalam proses analisis atau pembuatan model.

 

    Fitur dapat berupa angka, teks, kategori, atau jenis data lainnya. Tujuan dari menggunakan fitur adalah untuk menyampaikan informasi yang relevan tentang objek dalam format yang dapat dimengerti dan diproses oleh algoritma pembelajaran mesin atau model analisis data.

 

    Contoh penggunaan fitur adalah dalam pengenalan gambar. Misalnya, jika kita ingin membangun model yang dapat mengenali apakah suatu gambar berisi kucing atau anjing, fitur-fitur yang dapat digunakan mungkin termasuk ukuran gambar, warna, kepadatan piksel, atau orientasi tepi. Setiap gambar dalam dataset akan diwakili oleh sejumlah fitur yang menggambarkan karakteristik visualnya.

 

    Pemilihan fitur yang tepat sangat penting dalam analisis data dan pembelajaran mesin. Fitur-fitur yang baik harus memiliki kemampuan untuk membedakan objek atau entitas yang berbeda atau dapat menggambarkan perbedaan yang signifikan dalam dataset. Selain itu, fitur-fitur yang baik juga sebaiknya memiliki korelasi dengan variabel target atau output yang ingin diprediksi atau dianalisis.

 

    Proses pemilihan dan ekstraksi fitur dari dataset merupakan tahap penting dalam pengolahan data dan pembuatan model yang efektif. Dengan memilih fitur yang tepat dan mewakili objek secara informatif, kita dapat meningkatkan kinerja model dan mendapatkan pemahaman yang lebih baik tentang data yang sedang dianalisis.

 

Contoh Feature 

  • Penelitian makanan
    • Feature dari resep : bumbu-bumbunya, negara asal 
    • Feature dari negara : lokasi, suhu rata-rata 
  • Evaluasi mata kuliah
    • Feature mahasiswa : NPM, kode mata kuliah, nilai kuis, nilai tugas, dll 
    • Feature mata kuliah : semester, tahun akademik, dosen pengajar 

Post a Comment

Lebih baru Lebih lama