You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Pretest Questions and Answers from DataScience Class
Q1. .... is an important stage in datascience methodology because it clearly defines the problem and the needs from a business perspective?
Data Administration
Principal Component Analysis
Data Collection
Predictive Modeling
Business Understanding
Q2. What should be a prime concern for storing data?
Data safety and privacy
Hiring the right database manager
The size of the files
Hadoop clusters
The physical location of the servers
Q3. Which of the following is not a data scientist role?
Manage a team of analysts to create a model
Use the data to tell the story about data analysis
Develop the strategy to fix the problems in the findings
Write email to response customer's problem
Use the insight to build the narrative to communicate the findings
Q4. Data visualization is not a part of data science
True
False
Q5. What is a good starting point for data mining?
Non-parametric methods
Machine Learning
Creating a relational database
Writing a data dictionary
EDA and Data Visualization
Q6. Manakah dari konsep berikut yang bukan merupakan bagian dari Python?
Pointers
Exception Handling
Dynamic Typing
Semua
Loop
Q7. Pemrograman yang paling banyak digunakan oleh Data Scientist tahun 2021 berdasarkan data yang disajikan di dalam materi yaitu ...
Pearl
Python
Java
R
Matlab
Q8. Syntax untuk memanggil library pada python adalah ...
open nama_modul
import nama_modul
include nama_modul
input nama_modul
require("nama_modul")
Q9. Kita dapat menginstall python dan library yang ada dengan gratis serta menggunakannya sesuai dengan keinginan kita merupakan salah satu keunggulan python yang bersifat ...
multi-processing
interpreter
map reduce
open-source
automate
Q10. print(2**3 + (5+6)**(1+1)) akan mengeluarkan output ...
30
Tidak ada jawaban
129
121
8
Q11. Berikut ini yang bukan merupakan ukuran yang akan muncul pada fungsi describe() di Pandas yaitu ...
Min
Median
Akurasi
Mean
Max
Q12. Distribusi normal baku memiliki ciri-ciri
mean = standar deviasi
mean = 2 x (standar deviasi)
mean = 1 dan standar deviasi 1
mean = 0 dan standar deviasi = 1
semua salah
Q13. Pada suatu tabular data, banyaknya data ditentukan oleh jumlah ...
Waktu yang dibutuhkan untuk load data
Data bertipe teks
Jawaban tidak ada dalam opsi
Kolom
Baris
Q14. Pada suatu tabular data, besarnya dimensi data ditentukan oleh jumlah ...
Waktu yang dibutuhkan untuk load data
Jawaban tidak ada dalam opsi
Kolom
Data bertipe teks
Baris
Q15. Dalam EDA, proses melakukan analisis deskriptif dengan satu variabel disebut dengan ...
Bivariate analysis
Dimensional analysis
Univariate analysis
Factor analysis
Multivariate analysis
Q16. Melakukan seleksi pada abundant class secara acak/random sehingga abundant class nilainya berkurang sampai dengan jumlahnya sama dengan rare class disebut juga dengan ...
oversampling
overfit
cross-validation
undersampling
underfit
Q17. Dalam kasus supervised learning, variabel yang bersifat dependen atau predictor disebut juga dengan ...
Features
Encoder
Label
Transformation
Hyper-parameter
Q18. Tahap menyiapkan/membersihkan data yang kotor untuk selanjutnya akan diproses menggunakan model machine learning disebut dengan ...
Data Tracking
Data Preprocessing
Data Tracking
Data Collecting
Dimensionality Reduction
Q19. Data encoding bertujuan untuk merubah data yang bertipe object atau string ke dalam bentuk ...
teks
gambar
audio
semua salah
numerik
Q20. Teknik resampling data dengan melakukan generate data pada rare class sehingga jumlah dari rare class sama dengan abundant class dikenal juga dengan teknik ...
oversampling
overfit
cross-validation
undersampling
underfit
Q21. Bahasa pemrograman python tidak menunjang untuk pembuatan visualisasi data.
True
False
Q22. Berikut yang bukan merupakan jenis grafik dari visualisasi data adalah ...
Line Chart
Pie Chart
Bar Chart
Raw Data Table
Histogram
Q23. Bar chart dan Line chart sama-sama membutuhkan sumbu x dan y sebagai skala satuan nilainya.
True
False
Q24. Berikut ini library python yang bukan ditujukan untuk visualisasi data adalah ...
Sweetviz
Matplotlib
Plotly
Seaborn
Sastrawi
Q25. Salah satu tujuan penting dari data visualisasi adalah ...
Menambah anggaran perusahaan untuk membeli tools visualisasi data berbayar (enterprise)
Tidak ada tujuannya.
Supaya dapat dipahami oleh semua kalangan yang menerima informasi tersebut
Supaya terlihat mewah saja.
Untuk mempersulit siapapun yang melihatnya.
Q26. Klasifikasi termasuk ke dalam Supervised Learning.
True
False
Q27. Label/kelas/target pada klasifikasi harus bersifat diskrit (kategorikal)
True
False
Q28. Klasifikasi dengan kasus data yang memiliki dua jenis kelas/label disebut juga dengan ...
Multi-Class Classification
Boundary Classification
Binary Classification
Multi-Label Classification
Multinomial Classification
Q29. Library python yang telah menyediakan algoritma machine learning yang siap pakai yaitu ...
Seaborn
Numpy
Matplotlib
Scipy
Scikit-learn
Q30. Berikut ini yang bukan contoh kasus klasifikasi.
Music Genre Classification
Stock Value Forecasting
Email Spam Detection
Sentiment Analysis
Hate Speech Filtering
Q31. Regresi dan Klasifikasi sama-sama termasuk Supervised Machine Learning
True
False
Q32. Pernyataan berikut yang tidak benar adalah ...
Target pada regresi bersifat numerical continuous
Tujuan dari regresi adalah prediksi nilai dependent variable dari independent variables.
Regresi termasuk Unsupervised Learning karena tidak memiliki target.
Atribut/prediktor di regresi disebut juga independent variables.
Regresi termasuk dalam Machine Learning
Q33. Perbedaan antara regresi dan klasifikasi adalah pada ...
Klasifikasi hanya untuk data text
Data test-nya
Sifat label/targetnya
Tidak ada perbedaan
Data train-nya
Q34. Clustering termasuk dalam Unsupervised Learning
True
False
Q35. K Nearest Neighbor merupakan algoritma clustering
True
False
Q36. Apa perbedaan yang paling mendasar antara Supervised Learning dan Unsupervised Learning?
Fitur pada Supervised Learning harus vategorical values sedangkan fitur pada Unsupervised Learning harus numerical values
Supervised Learning tidak cocok pada data tabular
Supervised Learing memiliki variabel target/label sedangkan Unsupervised Learning tidak.
Unsupervised Learning tidak bisa mengatasi outlier atau noise
Unsupervised Learning memerlukan data yang banyak sedangkan Supervised Learning tidak
Q37. K Means membutuhkan centroid dalam menentukan anggota klaster
True
False
Q38. Berikut ini yang bukan merupakan algoritma Clustering adalah
K Medoid
Hierarchycal Clustering
K Nearest Neighbor
K Means
DBSCAN
Q39. Berikut ini yang merupakan metrik evaluasi yang tepat untuk contoh kasus "Prediksi harga mobil" adalah
Kappa Score
Accuracy
Silhoutte Score
F1 Score
Mean Squared Error
Q40. Tujuan dari Evaluasi Model Machine Learning adalah untuk mengukur seberapa bagus performa model jika diuji ke data diluar data latih
True
False
Q41. Berikut ini pernyataan yang kurang tepat adalah
Silhouette Score bukan satu-satunya metric evaluasi untuk clustering
Recall merupakan salah satu evaluasi yang tepat untuk klasifikasi
Akurasi kurang cocok untuk klasifikasi data gambar
F1 Score dapat dipakai dalam evaluasi klasifikasi
Jangan menggunakan Kappa Score dalam mengevaluasi kasus Regresi
Q42. Dalam kasus "Spam Classification" kita dapat menggunakan metrics evaluation "Accuracy" dan "F1 Score"
True
False
Q43. Neural Network lebih cocok digunakan pada data unstructured seperti gambar daripada data yang structured seperti data tabel
True
False
Q44. Berikut pernyataan yang benar tentang Neural Network pada Machine Learning, kecuali
Neural Network merupakan jenis penyakit saraf dalam ilmu kedokteran
Neural network dapat diterapkan untuk kasus regresi
Konsep machine learning dengan perhitungan yang kompleks
Konsep machine learning yang terinspirasi dari jaringan saraf biologis
Neural network dapat diterapkan untuk kasus klasifikasi
Q45. Berikut ini aspek penting dalam training menggunakan Neural Network, kecuali
Arsitektur Neural Network yang dibuat
Nama / brand laptop yang digunakan
Kemampuan perangkat (spesifikasi resource)
Jumlah data yang akan dilatih (data train)
Jenis data
Q46. Epoch yang lebih banyak akan memakan waktu dan resource untuk proses yang lebih lama