Big Data For Beginner

Apa itu big data? Data yang besar? Seberapa besar? Apakah itu penting?

Itu kiranya sederetan kecil pertanyaan mengenai istilah yang mulai populer sejak tahun 2012. Penulis sendiri pertama kali mendengar tentang istilah “BIG DATA” saat sedang asik-asiknya menyusun skripsi di tingkat univeritas. Saat itu penulis mengikuti sebuah seminar nasional yang diselenggarakan oleh mahasiswa di Program Studi Statistika UGM dengan tema “Data Mining…..”. Saat itu pola pikir yang terbayang adalah apa itu datang mining sampai saat seminar kemudian beberapa pembiacara mulai menyinggung tentang data mining dan hubungannya dengan big data.

Selain itu, aktivis-aktivis statistika yang merupakan alumni juga banyak membahas mengenai ini karena mereka mulai menemukan istilah ini di dunia kerja yang kebanyakan berhubungan dengan dunia perbankan dan telekomunikasi saat itu, bahkan dari mereka tak segan membentuk forum-forum kecil dan mengajak kami untuk menghadiri presentasi menganai apa itu BIG DATA.

Menurut gartner

“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.”

Sejauh ini, inilah definisi BIG DATA yang paling menghampiri dari apa yang seharusnya setidaknya menurut saya. BIG DATA, data yang besar, sebesar apa sampai data itu kemudian digolongkan sebagai data yang besar? Adakah tolak ukur baku yang mengatur itu ? atau mungkin interval kelas sebagaimana statistisi biasa menggolongkan suatu tingkatan dan sebagainya. Big Data bukan hanya berbicara tentang bagaimana besar ukuran atau jumlah suatu data yang dapat di generate pada suatu proses, tetapi juga berbicara bagaimana efisiensi baik biaya, sumber daya dan tenaga dalam proses pengumpulannya, pengolahannya sampai ke sistem interpretasi hasilnya.

Google bisa dikatakan sebagai pelopor penggunaan BIG DATA, pada tahun 2006 mereka sempat memperkenalkan Google Bigtable. Bigtable merupakan sistem database berskala besar dan cepat yang digunakan Google untuk mengolah berbagai jenis data dari berbagai layanan, termasuk data dari layanan mesin pencari berbasis internet milik mereka. Setelah Google, Facebook pun menerapkan sistem database sejenis untuk menangani melonjaknya pengguna layanan mereka. Dengan teknologi Big Data, Facebook tak pernah kesulitan untuk menangani peredaran data yang melonjak drastis dalam enam tahun terakhir yang berasal dari 1 miliar pengguna jejaring sosial mereka. (tekno.liputan6)

Dari pengertian itu, setidaknya ada 3 hal yang kemudian popular dikenal sebagai 3V yang menjadi ciri dari sebuah BIG DATA.

Volume

Volume yang besar dari sebuah data tentu saja menjadi masalah, khususnya dalam hal penyimpanan atau storage dari data tersebut dan bagaimana data yang jumlah atau volumenya besar ini akan dianalisis dan menghasilkan sebuah kesimpulan untuk pengambilan keputusan. Contoh, bisa kita bayangkan berapa banyak data yang harus disimpan dan dianalisis di sebuah pusat perbelanjaan, kita tidak perlu berbicara Supermarket, cukup minimart yang banyak tersebar di sekitar kita. Jumlah outlet yang ratusan, jumlah produk yang ribuan bahkan puluhan ribu, standar ukuran diskon, jumlah pengunjung dan lainnya. Tentunya data yang besar ini kemudian tidak cukup untuk dianalisis dengan menggunakan excell biasa, mengingat besarnya jumlah data yang mungkin terkumpul pada satu hari transaksi, bagaimana kalau satu bulan? setahun? Bertahun-tahun? Bisa kita bayangkan.

Mengingat tidak semua data yang terkumpull apat digunakan untuk penarikan kesimpulan dan solusi maka sistem storage yang besar sangat diperlukan sebelum kita membuang item atau variabel data yang justru mungkin kita perlukan. Disinilah teknologi BIG DATA diperlukan.

Velocity

Kecepatan pertumbuhan data yang tinggi merupakan hal lain yang saat ini menjadi masalah. Bisa dibilang, permasalahan ini berkaitan erat dengan permasalahan volume data, karena kecepatan data dibuat umumnya berbanding lurus dengan volume data. Data tidak hanya datang dalam jumlah besar, tetapi juga dalam tempo yang lebih singkat dan bahkan ada yang real-time. (datascience)

Salah satu perusahaan telekomunikasi di Australia, misalnya, butuh untuk menganalisa kualitas koneksi internet jutaan pelanggannya secara near real-time. Setiap beberapa menit sekali, jutaan record data jaringan ditaruh ke platform big data, lalu dianalisa pada saat itu juga. Hasil analisa tersebut langsung divisualisasikan ke dashboard tim jaringan, dan tim jaringan bisa langsung bertindak apabila ada satu daerah yang mendadak mengalami penurunan kualitas koneksi internet. Lagi-lagi, tentu platform data konvensional juga bisa melakukan hal tersebut. Seperti alasan pemilihan big data untuk memecahkan masalah volume data, menyimpan dan mengolah data akan lebih ekonomis di platform big data. Beban penyimpanan dan pemrosesan data di data warehouse akan lebih berguna apabila diutilisasi untuk data-data yang berhubungan langsung dengan bisnis — data transaksi, keuangan, dan pelanggan(datascience)

Variety

Banyaknya ragam atau tipe data merupakan masalah terbesar di sini. Mengapa? Bisa anda bayangkan berapa banyak tipe dan bentuk data yang berseliweran dalam sebuah database? Belum lagi format ketika data itu di upload ke sistem data base, akan sangat beragam. Kebutuhan penyajian data yang lebih sederhana dari sekumpulan data yang kompleks inilah yang kemudian memicu lahirnya teknologi BIG DATA. Karena saat ini bukan lagi saatnya kita “memaksa” orang untuk mengupload sebuah informasi dari jenis file berbeda ke dalam format file yang kita harapkan. Contoh, ketika kita melamar pekerjaan misalnya, penyedia lamaran pasti akan meminta kita untuk mengirim file foto dengan format tertentu dan ukuran tertentu. Untuk apa? untuk memudahkan proses pengumpulan data, menghemat sistem storage dan sebagainya.

big-data-from-data-to-decision-making-to-action

Berangkat dari ketiga hal tersebut kemudian muncul pertanyaan, bagaimanakah teknik yang sederhana yang dapat membantu dalam hal pengolahan BIG DATA sehingga dapat membantu dalam pengambilan keputusan di berbagai bidang berdasarkan data riil bukan rekayasa? mari kita mulai dengan membahas yang paling populer saat ini yaitu, Hadoop

Hadoop adalah framework open source berbasis Java di bawah lisensi Apache untuk mensupport aplikasi yang jalan pada Big Data. Hadoop berjalan pada lingkungan yang menyediakan storage dan komputasi secara terdistribusi ke kluster-kluster dari komputer/node.

Kenapa Hadoop?

Mengingat sistem storage standar yang selama ini kita gunakan (untuk kompute PC, laptop atau smartphone) yang terbatas, maka tak terbayangkan bagaimana jika kapasitas data yang akan dan sedang kita gunakan sangat besar. Sederhananya ketika kita menginstall beberapa aplikasi di ponsel, sudah bisa dipastikan kinerja ponsel kita akan melambat karena semakin banyak sistem storage yang dipakai untuk menjalankan aplikasi tersebut.

Disinilah hadoop kemudian mengambil langkah untuk mengakomodir semakin besarnya inputan data yang masuk dengan mendukung pemprosesan secara terdistribusi ke kluster-kluster dari komputer yang didukung oleh dua komponen utama.

  • HDFS merupakan sistem penyimpanan/storage terdistribusi, yang melakukan proses pemecahan file besar menjadi bagian-bagian lebih kecil kemudian didistribusikan ke kluster-kluster dari komputer.
  • MapReduce merupakan algoritma/komputasi terdistribusi

Kemudian, bagaimanakah kita dapat mengaplikasikan penggunaan big data dalam keadaan riil?

Mari kita ambil contoh untuk  Analisa Perilaku Belanja Konsumen berikut ini.
Tahukah Anda, bahwa data struk belanja yang dimiliki oleh perusahaan ritel dapat digunakan untuk meneliti perilaku konsumennya?

Jadi, data dari tiap struk transaksi tentunya berisi kombinasi produk-produk yang Anda beli, jumlah dan harganya. Seluruh data transaksi tersebut kemudian dicari pola belanja untuk menjawab pertanyaan: kombinasi dua atau tiga produk apa saja yang paling sering dibeli oleh konsumen.Dari hasil informasi tersebut ada beberapa tindakan menarik yang dapat dilakukan, diantaranya: menyusun rak belanja agar dua atau tiga produk tersebut berdekatan sehingga mudah dijangkau oleh konsumen dan dapat diputuskan untuk dibeli dengan cepat. Kemudian bisa membuat paket promosi dimana kombinasi produk-produk tersebut dijual lebih murah.
Tindakan ini terbukti dapat meningkatkan penjualan secara signifikan dan mengurangi masalah inventori / stok.
Awalnya, permasalahan ini kelihatan mudah dan bisa dipecahkan dengan program spreadsheet seperti Excel. Namun, tahukah Anda jika Anda memiliki 1000 item SKU (produk) dari seluruh struk transaksi maka Anda sudah memiliki 999,000 kombinasi dua produk yang perlu dicek kembali ke data-data transaksi.
Berapa lama waktu yang Anda perlukan dengan menggunakan spreadsheet? Dua minggu? Sebulan? Namun, jika digabungkan dengan penggunaan teknologi data mining dan BIG DATA mungkin hanya memerlukan waktu beberapa detik atau mungkin paling lama 1 jam.

Sumber:

  1. Datascience.or.id
  2. noviadirsyamsuir.blogspot
  3. Apaitubigdata.com
  4. tekno.liputan6.com

Math can be fun!!

Melihat judulnya mungkin sebagian besar dari anda tidak begitu setuju, sedangkan sebagian kecil lainnya bisa saya pastikan adalah mereka yang sudah ‘fall in love” atau minimal terpaksa “fall in love with math” 😀

Kalau sebelumnya saya menuliskan kombinasi perkalian beberapa angka yang unik dan menarik, kali ini saya akan sedikit membagi pengetahuan saya yang pas-pasan tentang pemograman dengan bahasa S pada software R, yang mungkin masih jarang yang mengenalnya.

Berawal dari jeleknya nilai praktikum Komputasi Statistika karena gagal membuatkan bunga untuk asisten praktikum saat itu, kini akhirnya hal ini dapat saya lakukan dengan beberapa kombinasi.

Berikut ini beberapa hasilnya 😀

Kalau sebelumnya hanya bisa menampilkan satu bunga dalam satu output, kini saya mencoba menampilakn 4 sekaligus dengan beberapa improvisasi

Bagaimana? masih bisa bilang kita tidak bisa bersenang-senang dengan matematika??

Jika tertarik untuk membuatnya, file syntaxnya bisa minta ke saya, dan akan saya post di tab download di blog ini

SELAMAT MENIKMATI MATEMATIKA!! 😀

Instrumen di Pasar Modal Indonesia

Bentuk instrumen di pasar modal disebut efek yaitu surat berharga yang berupa :
1. Saham
Saham adalah tanda bukti memiliki perusahaan dimana pemiliknya disebut juga sebagai pemegang saham (Shareholder atau stockholder). Saham ada 2 macam yaitu saham preferen (preferred stock) dan saham biasa (common stock). Saham preferen adalah jenis saham yang memiliki hak terlebih dahulu untuk menerima laba dan memiliki hak laba kumulaif. Hak kumulatif adalah hak untuk mendapatkan laba yang tidak dibagikan pada suatu tahun yang mengalami kerugian, tetapi akan dibayar pada tahun mengalami keuntungan, sehingga saham preferen akan menerima laba dua kali. Sedangkan saham biasa adalah jenis saham yang akan menerima laba setelah laba bagian saham preferen dibayarkan. Apabila perusahaan bangkrut, maka pemegang saham biasa yang akan menderita terlebih dahulu.

2. Obligasi
Obligasi (Bond) adalah tanda bukti perusahaan memiliki utang jangka panjang kepada masyarakat yaitu diatas 3 tahun. Pihak yang membeli obligasi disebut pemegang obligasi (bondholder) dan pemegang obligasi akan menerima kupon sebagai pendapatan dari obligasi yang dibayarkan.

3. Bukti Right
Bukti right adalah hak untuk membeli saham pada harga tertentu dalam jangka waktu tertentu. Hak memebeli dimiliki oleh pemegeng saham lama. Harga tertentu berarti harganya sudah ditetapkan di muka dan biasa disebut harga pelaksanaan atau harga tebusan (strike price atau exercise price). Apabila pemegang saham lama yang menerima bukti right tidak mampu atau idak berniat menukarkan bukti right dengan saham, maka bukti right tersebut dapat dijual di bursa efek melalui broker efek. Apabila pemegang bukti right lalai menukarkannya dengan saham dan waktu penukaran sudah kadaluwarsa, maka bukti right tersebut tidak berharga lagi, atau pemegang bukti right akan menderita rugi.

4. Waran
Waran adalah hak untuk membeli saham pada harga tertentu dalam jangka waktu tertentu. Waran tidak saja dapat diberikan kepada pemegang saham lama, tetapi juga sering diberikan kepada pemegang obligasi sebagai pemanis (sweetener) pada saat perusahaan menrbitkan obligasi. Pemegang waran tidak akan menderita kerugian apapun seandainya waran itu tidak dilaksanakan. Pada saat harga pasar melebihi strike price waran, maka waran sudah saatnya untuk ditukar dengan saham. Namun pemegang saham masih dapat menunggu sampai harga saham mencapai tingkat tertinggi sepanjang waktu berlakunya belum kadaluwarsa. Apabila pemegang warantidak ingin menebusnya, maka waran itu dapat dijual di bursa efek melalui broker. Apabila waktu untuk mendapatkannya sudah kadaluwarsa dan pemegang waran lalai menebusnya, maka waran tersebut akan menjadi kertas yang tidak bernilai lagi.

5. Produk turunan atau biasa atau disebut derivative
Contoh produk derivative adalah indeks harga saham dan indeks kurs obligasi. Indeks saham dan indeks obligasi adalah angka indeks yang diperdagangkan untuk tujuan spekulasi dan lindungi nilai (hedging). Perdagangan yang dilakukan tidak memerlukan penyerahan barang secara fisik, melainkan hanya perhitungan untung rugi dari selisih antara harga beli dan harga jual. Mekanisme perdagangan produk derivative ini dilakukan

Analisis Cluster

Analisis cluster ialah suatu analisis statistik peubah ganda yang bertujuan untuk mengklasifikasikan sekelompok obyek kedalam beberapa cluster/kelompok berdasarkan ukuran kemiripan atau persamaan karakteristik umum antar obyek-obyek tersebut sehingga obyek-obyek yang berada dalam satu cluster akan mempunyai kemiripan satu dengan yang lainnya. Obyek bisa berupa produk (barang dan jasa), orang (responden, konsumen, dll), serta benda (tumbuhan, hewan, dsb).

Tujuan analisis Cluster adalah :

  1. Mengetahui ada tidaknya perbedaan yang nyata (signifikan) antar kelompok yang terbentuk, dalam hal ini cluster yang dihasilkan.
  2. Melihat profil serta kecenderungan-kecenderungan dari masing-masing cluster yang terbentuk.
  3. Melihat posisi masing-masing obyek terhadap obyek lainnya dari cluster yang terbentuk.

Cluster dikatakan baik jika mempunyai :

  • Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster)
  • Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan cluster lainnya (between cluster).

Asumsi yang harus dipenuhi pada analisis cluster :

  1. Data yang representatif, sample yang diambil benar-benar bisa mewakili populasi yang ada.
  2. Multikolinearitas, yaitu kemungkinan adanya korelasi antar objek, sebaiknya tidak ada. Jika ada, besarnya multikolinearitas tersebut tidaklah tinggi (kurang dari 0.5)

Analisis Cluster ini terdiri dari beberapa proses dasar, yaitu :

  • Mengukur kesamaan antar obyek (similarity), biasanya menggunakan metode Euclidean Distance (mengukur jarak antara dua obyek).
  • Dilakukan proses standardisasi, jika satuan data (variabel) bervariasi.
  • Membuat Cluster, ada dua metode :
  1. HIERARCHICAL METHOD, ialah metode yang memulai pengelompokannya dengan dua atau lebih obyek yang mempunyai kesamaan paling dekat, kemudian proses dilanjutkan ke obyek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam ”pohon” dimana ada hierarki (tingkatan) yang jelas antar obyek, dari yang paling mirip sampai dengan yang paling tidak mirip.
  2. NON-HIERARCHICAL METHOD, ialah metode yang dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan dan kemudian baru dilakukan proses cluster tanpa mengikuti proses hierarki. Biasa disebut metode K-Means Cluster.
  • Melakukan interpretasi terhadap cluster yang telah terbentuk.
  • Melakukan validasi dan profiling cluster.

Analisis Faktor

Analisis faktor merupakan salah satu analisis dalam teknik statistika multivariat untuk mengidentifikasi dimensi yang mendasari sekelompok variabel kemudian membangun struktur pengelompokkan baru yang lebih sederhana berdasarkan sifat dasar tersebut. Dimensi yang mendasar ini tidak dapat terobservasi kuantitasnya dan disebut sebagai faktor. Dengan kata lain, proses analisis faktor mencoba menemukan hubungan (interrelationship) antar sejumlah variabel-variabel yang saling independen satu dengan yang lain, sehingga bisa dibuat satu atau beberapa kumpulan variabel yang lebih sedikit dibandingkan dengan jumlah variabel awal tanpa kehilangan sebagian besar informasi penting yang terkandung didalamnya. Sebagai contoh, jika ada 16 variabel yang independen satu dengan yang lain, dengan analisis faktor mungkin bisa diringkas hanya menjadi 3 kumpulan variabel baru yang disebut faktor, di mana faktor tersebut tetap mencerminkan variabel-variabel aslinya.

Dalam analisis ini didefinisikan variabel awal sebagai atribut atau karakteristik objek yang digunakan dalam penelitian sebelum dilakukan pemfaktoran. Seluruh variabel tersebut mempunyai kedudukan yang sama dan dianalisis secara simultan. Analisis faktor merupakan pengelompokkan dengan mengukur korelasi sekumpulan variabel dan selanjutnya menempatkan variabel-variabel yang berkorelasi tinggi dalam satu faktor, dan variabel-variabel tersebut ditempatkan pada faktor yang lain. Hasil yang diharapkan adalah faktor-faktor yang nantinya terbentuk tidak saling berkorelasi lagi.

Pada dasarnya tujuan analisis faktor adalah :

1. Data Summarization, yakni mengidentifikasi adanya hubungan antar variabel dengan melakukan uji korelasi.

2. Data Reduction, yakni setelah melakukan korelasi, dilakukan proses membuat sebuah variabel set baru yang dinamakan faktor untuk menggantikan sejumlah variabel tertentu.

Asumsi yang harus dipenuhi pada Analisis Faktor :

Oleh karena prinsip utama Analisis Faktor adalah korelasi, maka asumsi-asumsi terkait dengan korelasi:

Ø Besar KORELASI atau korelasi antar independen variabel harus cukup kuat, di atas 0,5.

Ø Besar Korelasi Parsial, korelasi antar dua variabel dengan menganggap tetap variabel yang lain, justru harus kecil. Pada SPSS, deteksi terhadap korelasi parsial diberikan lewat pilihan ANTI-IMAGE CORRELATION.

Ø Pengujian seluruh matrik korelasi (korelasi antar variabel), yang diukur dengan besaran BARTLETT TEST OF SPHERICITY atau MEASURE SAMPLING ADEQUACY (MSA). Pengujian ini mengharuskan adanya korelasi yang signifikan di antara paling sedikit beberapa variabel.

Ø Pada beberapa kasus, asumsi NORMALITAS dari variabel-variabel atau faktor yang terjadi sebaiknya dipenuhi.

Secara garis besar, tahapan pada analisis faktor :

1. Menentukan variabel apa saja yang akan dianalisis. Jika nilai-nilai dalam masing-masing variabel sangat bervariasi dalam satuan, dalam artian ada variabel (data) dengan satuan Ratusan Ribu (misal Gaji), sampai satuan Jumlah di bawah 10 (misal Jumlah anak). Perbedaan yang sangat mencolok akan menyebabkan bias dalam Analisis Faktor sehingga data asli harus ditransformasi (standardisasi) sebelum bisa dianalisis. Proses standardisasi data bisa dilakukan dengan mentransformasi data ke bentuk z-Score. SPSS : Analyze > Descriptives Statistics > Descriptives… Lalu masukkan semua variabel ke kotak VARIABLE(S), kemudian aktifkan Save Standardized values as variables > OK. Variable yang akan dianalisis kemudian adalah variable yang berawalan huruf z.

2. Menguji variabel tersebut agar menjadi variabel yang layak dimasukkan dalam analisis faktor.

3. Setelah sejumlah variabel terpilih, maka dilakukan proses factoring, atau ‘ekstraksi’ variabel tersebut hingga menjadi satu atau beberapa faktor. Beberapa metode pencarian faktor yang populer adalah Principal Componen dan Maximum Likelihood.

4. Faktor yang terbentuk, pada banyak kasus, kurang menggambarkan perbedaan diantara faktor – faktor yang ada. Untuk itu, jika isi faktor masih diragukan, dapat dilakukan Factor Rotation untuk memperjelas apakah faktor yang terbentuk sudah secara signifikan berbeda dengan faktor lain. Beberapa metode Rotasi :

Ø Orthogonal Rotation, yakni memutar sumbu 90o. Perotasian secara ortogonal dilakukan dengan tetap mempertahankan keortogonalan faktor – faktor yang berimplikasi pada ada tidaknya perbedaan antara pattern dengan bobot terstruktur. Hasil perotasian ini tidak akan menyebabkan perubahan proporsi keragaman peubah yang dijelaskan oleh m faktor bersama (Sharma, 1996). Beberapa rotasi yang termasuk rotasi ortogonal adalah rotasi Varimax, Quartimax, Equamax dan Parsimax.

Ø Oblique Rotation, yakni memutar sumbu ke kanan, namun tidak harus 90o. Pada rotasi non-ortogonal (oblique) diasumsikan bahwa faktor – faktor yang dihasilkan saling berkorelasi. Beberapa rotasi yang termasuk oblique adalah rotasi Promax, Procustes, dan Harris-Kaiser.

5. Interpretasi faktor yang telah terbentuk, khususnya memberi nama atas faktor yang terbentu, yang dianggap bisa mewakili variabel-variabel anggota faktor tersebut.

6. Validasi faktor dimaksudkan untuk mengetahui apakah hasil analisis factor tersebut bisa digeneralisasikan ke populasi. Seperti jika pada kasus faktor – faktor yang mempengaruhi motivasi kerja karyawan, dari 100 sampel yang ada kemudian didapat 2 faktor. Uji validasi akan menentukan apakah jika demikian, faktor – faktor yang mempengaruhi motivasi kerja karyawan dari semua orang (tentu jauh lebih besar dari 100 sampel) tersebut juga bisa direduksi menjadi dua faktor seperti pada sampel. Validasi bisa dilakukan dengan berbagai cara, seperti:

Ø Membagi sampel awal menjadi dua bagian, kemudian membandingkan hasil faktor sampel satu dengan sampel dua. Jika hasil tidak banyak perbedaan, bisa dikatakan faktor yang terbentuk telah valid

Ø Dengan melakukan metode Confirmatory Factor Analysis (CFA) dengan cara Structural Equation Modelling. Proses ini bisa dibantu dengan software khusus seperti LISREL.

Dari dua cara di atas yang paling praktis digunakan adalah dengan menguji kestabilan factor yang telah terbentuk. Untuk mengetahui kestabilan tersebut, sampel yang ada akan dipecah (split) menjadi dua bagian, dan kemudian setiap bagian akan diuji dengan analisis faktor. Kemudian masing – masing hasil diperbandingkan, dengan ketentuan, jika sebuah factor stabil, maka hasil – hasil yang ada relatif tidak jauh berbeda, baik jumlah factor atau angka – angkanya.

7. Pembuatan factor scores yang akan berguna jika akan dilakukan analisis lanjutan, seperti analisis regresi, analisis diskriminan atau lainnya.

Jumlah sampel (sample size) yang ideal untuk proses Analisis Faktor

Secara umum, jumlah sampel yang dianjurkan adalah antara 50 sampai 100 sampel. Atau bisa dengan patokan rasio 10:1, dalam arti untuk 1 variabel seharusnya ada 10 sampel, sehingga jika ada 10 variabel, minimal seharusnya ada 100 sampel.

Pemodelan Analisis Faktor

Secara matematis, analisis faktor menyerupai regresi ganda, dimana setiap variabel direpresentasikan sebagai kombinasi linier dari faktor-faktor yang diperoleh dari hasil pengolahan data. Masing-masing faktor dapat diekspresikan dengan persamaan sebagai berikut :

F1 = Wi1X1 + Wi2X2 + ….. +WikXk

Dimana,

F1 adalah faktor

Wi adalah bobot variabel terhadap faktor

X adalah variabel

k adalah jumlah variabel

Metode untuk menentukan jumlah faktor

  • Penentuan di awal (apriori determination)

Jumlah faktor yang akan diambil telah ditentukan sendiri oleh peneliti.

  • Penentuan berdasarkan nilai Eigen (determination based on Eigen value)

Nilai Eigen menunjukkan jumlah variasi yang berhubungan pada suatu faktor. Setiap variabel memeiliki nilai Eigen ≥ 1 sehingga faktor yang nilai Eigennya<1 tidak dipakai.

  • Penentuan berdasarkan scree plot (determination based on scree plot)

Scree plot adalah grafik yang menunjukkan relasi antara faktor dengan nilai Eigennya. Bentuk scree plot digunakan untuk menentukan jumlah faktor yang diambil. Pada umumnya batas jumlah faktor yang diambil ditandai dengan slope yang sangat tajam antara faktor yang satu dengan faktor berikutnya.

  • penentuan berdasarkan persentase variance (determination based on % variance).

Jumlah faktor yang diambil ditentukan berdasarkan jumlah kumulatif variasi yang telah dicapai. Jumlah kumulatif variasi ini subyektif terhadap masalah yang sedang diteliti.


Calendar

April 2024
S S R K J S M
1234567
891011121314
15161718192021
22232425262728
2930