Pentingnya peningkatan kualitas data pada sumbernya


Inggris dapat menyalahkan data imigrasi yang buruk di Hongaria, salah satu dari delapan negara yang bergabung dengan Uni Eropa pada tahun 2004. Tidak seperti kebanyakan negara UE yang ada, pemerintah Inggris mengizinkan warganya untuk pindah dan bekerja tanpa batasan, mengharapkan 5.000 hingga 13.000 orang tiba setiap tahun. Tapi ini adalah perkiraan yang terlalu rendah, menyebabkan tuduhan bahwa imigrasi di luar kendali dan bisa dibilang berkontribusi pada keluarnya Inggris dari UE.

Berdasarkan hasil dari Sensus Penduduk 2021, negara yang paling banyak mengirimkan orang ke Inggris adalah Polandia, disusul Rumania. Tapi Hungaria adalah rumah bagi maskapai murah Wizz Air, yang sebagai bagian dari menekan biaya cenderung menggunakan bandara yang lebih kecil seperti Luton, Birmingham dan Sheffield Doncaster.

Juga untuk menekan biaya, Survei Penumpang Internasional dijalankan oleh Kantor Statistik Nasional (ONS) pada saat itu berfokus pada Heathrow, Gatwick dan Manchester. Akibatnya, tidak terlihat peningkatan jumlah orang Eropa timur yang menggunakan penerbangan hemat yang dijalankan oleh Wizz Air dan lainnya.

Georgina Sturge, seorang ahli statistik untuk layanan penelitian Perpustakaan House of Commons, menyoroti episode tersebut dalam buku barunya, Data buruk, sebagai contoh bagaimana pengumpulan data bisa serba salah. Survei penumpang telah dilakukan pada tahun 1960-an, ketika jauh lebih sedikit orang yang bepergian ke luar negeri, lebih banyak yang meninggalkan Inggris secara permanen daripada yang datang, dan kebanyakan orang memerlukan visa.

“Orang tidak cenderung melakukan perjalanan berbondong-bondong dari Poznań ke Doncaster di masa lalu,” kata Sturge. “Sayangnya bagi ahli statistik, yang bahkan tidak menempatkan siapa pun di sana untuk melakukan survei pada saat itu, itulah yang mulai dilakukan orang.”

Sturge mengatakan Inggris sangat baik data resmi di beberapa daerah, termasuk kesehatan, statistik kecelakaan lalu lintas dan sebagian besar keluaran ONS. Badan Regulasi Statistik menyimpan daftar statistik nasional yang disetujui yang dia gambarkan sebagai standar emas.

“Tetapi pada akhirnya, jika kami mengajukan pertanyaan atau kami perlu membuat beberapa materi pengarahan tentang sesuatu dan ada data di luar sana yang tampaknya dapat diandalkan dari jarak jauh, pada akhirnya kami akan menggunakannya,” katanya tentang pekerjaannya untuk anggota parlemen dan staf mereka. “Dari sudut pandang kami, ini tentang menjelaskan peringatan.” Ini berarti memikirkan dari mana data berasal, bagaimana dikumpulkan dan untuk tujuan apa, mempertimbangkan proses manusia yang terlibat daripada hanya masalah teknis untuk mendapatkannya.

Krisis replikasi

Anggota parlemen tidak sendirian dalam haus akan data, dan tidak terlalu pilih-pilih tentang apa yang mereka konsumsi. Beberapa tahun terakhir telah terlihat beberapa bidang ilmiah terancam oleh krisis replikasi, di mana hasil penelitian yang diterbitkan dalam jurnal peer-review tidak dapat direproduksi oleh orang lain yang mengulangi pekerjaan tersebut, dalam beberapa kasus karena datanya salah atau dipalsukan.

Peneliti yang mengandalkan data penelitian semacam itu mungkin mendapati pekerjaan mereka dirusak, tetapi risikonya dapat dikurangi dengan menggunakan layanan yang melakukan pemeriksaan keandalan di atas kertas. Wartawan kesehatan dan akademisi Ivan Oransky ikut mendirikan Jam Retraksi, database karya ilmiah yang telah ditarik. Datanya digunakan oleh penerbit dan perusahaan untuk memeriksa referensi melalui perangkat lunak manajemen bibliografi termasuk EndNote, Papers dan Zotero, serta layanan perpustakaan digital Third Iron. “Kami akan senang bekerja dengan lebih banyak lagi, dan memiliki basis data kami yang terintegrasi ke dalam sistem manajemen manuskrip yang digunakan penerbit,” katanya.

Namun, tambahnya, masalah yang lebih besar terletak pada ketidakakuratan kertas dan data yang belum ditarik kembali, sehingga layak untuk digunakan. layanan ulasan pasca-publikasi seperti PubPeer, di mana dia adalah direktur sukarela. Secara lebih umum, dia menambahkan bahwa para peneliti sangat disarankan untuk mengikuti pepatah Rusia, “percaya, tapi verifikasi”, yang diadopsi oleh mantan presiden AS Ronald Reagan dalam pembicaraan perlucutan senjata nuklir dengan Uni Soviet.

Peneliti harus bertujuan untuk mendapatkan dan menganalisis data asli sebelum mengandalkannya untuk proyek atau penelitian lebih lanjut. “Itu mungkin terlihat tidak efisien, tetapi ini jauh lebih baik daripada ketahuan saat proyek berjalan jauh,” kata Oransky.

Pendekatan lainnya adalah memperbaiki klasifikasi data ilmiah, khususnya yang berbentuk teks. Neal Dunkinson, wakil presiden solusi dan layanan profesional untuk perusahaan analitik semantik SciBite, mengatakan kata “landak” dalam makalah genetika mungkin merujuk pada gen landak sonik yang membantu mengontrol bagaimana tubuh berkembang dari embrio, dinamai sesuai karakter video game, atau mungkin mengacu pada mamalia kecil berduri pada umumnya.

SciBite yang berbasis di Cambridge, yang dibeli oleh penerbit ilmiah Belanda Elsevier pada tahun 2020, telah mengembangkan layanan untuk mengotomatiskan penandaan 40.000 gen ke identitas standar, membuat pencarian kertas, slide, dan buku catatan laboratorium elektronik menjadi lebih tepat. Untuk melakukannya, ia telah membuat daftar akronim, nama dan ejaan alternatif, dan kesalahan eja yang umum. Selain menerapkannya pada materi yang ada, ia menawarkan opsi waktu nyata yang mendorong peneliti untuk menambahkan tag melalui daftar drop-down atau yang setara dengan pemeriksa ejaan.

Dunkinson mengatakan bahwa data berkualitas baik dalam ilmu kehidupan harus “adil” – dapat ditemukan, diakses, dapat dioperasikan, dan dapat digunakan kembali. “Saat ini kami tidak mengkritik kualitas informasi yang dituliskan – ini tentang keterulangan dalam proses eksperimen – tetapi seberapa berguna informasi tersebut, apakah diberi tag dengan benar, apakah disimpan dengan benar, apakah orang tahu di mana itu, apakah itu dalam format yang tepat, ”katanya.

Rantai ketergantungan dalam audit keuangan

Audit keuangan, seperti kebanyakan penelitian ilmiah, bergantung pada data orang lain. Organisasi bertanggung jawab atas akun mereka, tetapi auditor harus mengekstrak data sehingga mereka dapat memeriksa keakuratan dan integritasnya. Perusahaan teknologi audit yang berbasis di London, Engine B, telah bekerja sama dengan Institute of Chartered Accountants di Inggris dan Wales serta firma audit untuk membangun model data umum yang dapat mengekstrak materi dari paket paket perencanaan sumber daya perusahaan umum.

Kepala audit dan etika perusahaan, Franki Hackett, mengatakan bahwa sistem menggunakan pengetahuan tentang perangkat lunak dan praktik umum untuk menyajikan apa yang menurutnya akan mengubah file dengan benar sehingga dapat dimuat ke dalam model umum ini, tetapi tetap bijaksana untuk menyertakan pemeriksaan manusia. “Anda dapat mengeluarkan manusia dari loop, tetapi ketika Anda melakukannya, Anda cukup sering melihat kesalahan dalam ketepatan, atau kesalahan penerjemahan data atau transformasi dan pemuatan yang tidak tepat,” katanya. “Menjaga keseimbangan yang baik antara mesin dan manusia adalah bagian penting dari tahap kualitas data tersebut.”

Jika telah memproses versi sebelumnya, sistem Engine B menandai setiap perubahan dalam struktur data, seperti kolom baru. Hackett mengatakan organisasi cenderung lemah dalam meninjau proses data setelah disiapkan, yang berarti bahwa perubahan seperti itu akan terlewatkan. “Mentalitas ‘jika tidak rusak, jangan perbaiki’ dapat melewatkan kehancuran yang merayap itu,” katanya.

Auditor yang bekerja untuk memutuskan apakah mereka dapat memverifikasi keakuratan dan kelengkapan catatan keuangan organisasi sering membandingkan dua kumpulan data yang mencatat hal yang sama, seperti buku besar umum dengan perincian semua transaksi dan neraca saldo yang meringkas debit dan kredit. Ini harus cocok, tetapi umum untuk menemukan perbedaan seperti tanggal transaksi yang berbeda, yang dapat menunjukkan kontrol yang buruk. Hackett mengatakan dia telah melihat profesional keuangan senior menempelkan nama pengguna dan kata sandi mereka di monitor mereka untuk digunakan orang lain, mempertaruhkan penipuan langsung tetapi juga membuat kesalahan lebih mungkin terjadi – dan tanggal yang berbeda dalam dua kumpulan data dapat menunjukkan upaya untuk memperbaiki kesalahan tersebut.

Dengan cara yang sama, melalui penelitian akademik tentang transparansi pajak, Hackett telah menemukan bahwa data tingkat negara yang diminta oleh arahan Eropa dari beberapa perusahaan besar untuk dipublikasikan seringkali tidak sesuai dengan angka global. Parameter dari data nasional yang diperlukan didefinisikan dengan buruk, katanya: “Mereka dapat menghasilkan sesuatu yang pada dasarnya tidak dapat digunakan, omong kosong yang sering menjadi latihan hubungan masyarakat.” Ini menunjukkan kebutuhan untuk mengetahui dengan tepat pertanyaan apa yang coba dijawab oleh pengumpulan data.

Waseem Ali, kepala eksekutif bisnis pelatihan konsultan yang berfokus pada keragaman Rockborne, sebelumnya bekerja sebagai kepala petugas data untuk pasar asuransi Lloyds of London dan kepala analitik untuk penyedia layanan kesehatan Virgin Care. Bagi perusahaan asuransi, data yang buruk dapat berarti harga premi yang salah, tetapi dalam perawatan kesehatan, ini dapat berarti gagal memberikan saran yang berpotensi menyelamatkan jiwa.

“Kemungkinan besar saya akan menderita penyakit jantung, berdasarkan riwayat keluarga dan etnis saya,” kata Ali. “Memiliki kualitas data yang tepat tentang saya memungkinkan penyedia layanan kesehatan untuk melakukan intervensi lebih cepat, sehingga mereka dapat memastikan bahwa seseorang seperti Waseem pergi ke gym secara teratur dan makan dengan benar.” Selain untuk kepentingan pasien, pekerjaan prediksi berbasis data dapat memangkas biaya sistem perawatan kesehatan dengan mengurangi jumlah intervensi besar nantinya.

Ali mengatakan organisasi dapat berupaya meningkatkan kualitas data dengan memahami perjalanan end-to-end dan berfokus pada materi yang paling penting bagi bisnis. Perbaikan dapat dilakukan melalui perubahan sederhana seperti standarisasi bagaimana tim menghitung margin keuntungan dan pengalaman pelanggan sehingga dapat dibandingkan dengan baik. “Saya pernah berada di organisasi di mana statistik yang sama dilaporkan dengan angka yang berbeda karena cara interpretasinya,” katanya.

Anthony Scriffignano, kepala ilmuwan data Dun & Bradstreet, sebuah perusahaan yang berbasis di Florida yang telah menerbitkan data tentang bisnis selama dua abad, melihat empat jenis kualitas data: akurasi, kelengkapan, ketepatan waktu, dan kebenaran. Kelengkapan dan ketepatan waktu relatif mudah untuk diperiksa, meskipun kolom kosong dapat berarti data tidak ada dan bukannya terlewatkan – seperti karena bisnis tidak memiliki nomor telepon – dan data yang dikumpulkan hari ini mungkin telah dibuat atau diperbarui beberapa waktu sebelumnya.

Memeriksa akurasi lebih sulit. Dalam beberapa kasus, Dun & Bradstreet dapat menggunakan dokumen resmi, tetapi jika tidak ada sumber resmi, “itu menjadi sedikit seni”, kata Scriffignano. Ini dapat mempertimbangkan keandalan organisasi yang menyediakan informasi dan apakah data numerik berada dalam kisaran yang mungkin, meskipun yang terakhir harus demikian. Mungkin terdengar tidak mungkin bahwa penyedia pemindahan dan penyimpanan berusia lebih dari lima abad, tetapi seperti yang tertulis di truknya, Shore Porters Society di Aberdeen didirikan pada tahun 1498. Kuncinya adalah memiliki proses pemeriksaan yang ketat. “Anda tidak bisa hanya mengayunkannya,” katanya.

Yang paling sulit dari keempatnya adalah kejujuran. Scriffignano menunjukkan bahwa “kebenaran, seluruh kebenaran dan tidak lain hanyalah kebenaran” dapat menjadi tiga hal yang berbeda, dengan yang pertama dihancurkan dengan berbohong, yang kedua dihancurkan dengan kelalaian dan yang ketiga hanya dipenuhi dengan sepenuhnya jujur.

Ada cara untuk memeriksa bahwa satu set data memenuhi ketiganya, seperti analisis statistik distribusinya. Jika grafik dari kumpulan data biasanya terlihat seperti kurva lonceng dengan titik tinggi di tengah dan sisi yang meruncing, tetapi hanya menyertakan bagian tengah yang tinggi, ini menunjukkan bahwa beberapa data dikecualikan – kebenaran tetapi tidak seluruh kebenaran . Dun & Bradstreet melihat data tentang kebangkrutan yang dibelokkan selama pandemi Covid-19, karena yang lebih kecil terlewatkan atau tidak dilaporkan.

Terlepas dari semua cara data dapat diuji, Scriffignano mengatakan masalah terbesar disebabkan oleh organisasi yang secara tidak sengaja menelan data yang memiliki masalah yang tidak diketahui. “Sebagai konsumen data, bergantung pada apa yang Anda lakukan dengannya, Anda mungkin harus memikirkan dari mana Anda mendapatkannya dan bagaimana Anda tahu bahwa Anda memercayainya,” katanya.

Leave a Reply

Your email address will not be published. Required fields are marked *

Solverwp- WordPress Theme and Plugin