Latar Belakang Pengenalan Objek Visual
Manusia memiliki kemampuan perseptual yang begitu hebat. Kita bisa mengenali rangkaian huruf yang tercetak dalam laporan ini, mengenali beragam suara orang lain serta suara-suara continuum seperti alunan musik, mengenali wajah seseorang sebagai orang yang kita kenal, dan lain-lain. Selama ini kita mungkin tidak memikirkan kemahadahsyatan kemampuan itu, tetapi setelah membaca laporan ini, Anda akan menemukan betapa rumit dan kompleksnya proses persepsi yang tanpa sadar dengan mudah kita melakukannya.
Persepsi mengombinasikan dua hal, yaitu stimulus yang dari dunia luar dan pengetahuan yang manusia miliki mengenali stimulus tersebut. Dengan kata lain, manusia menggunakan pengetahuan yang ia miliki untuk menginterpretasi stimu-lus yang diterima oleh panca indera, misalnya ketika Anda melihat kata Indonesi-, meskipun Anda belum melihat ada huruf a, tetapi pengetahuan yang Anda miliki membuat Anda mempersepsi bahwa akan ada huruf a setelah Indonesi-.
Selain contoh persepsi di atas, dalam laporan ini juga akan dijelaskan secara singkat mengenai proses pengenalan objek visual, pemrosesan top-down, persepsi wajah, serta persepsi bicara.
A. Background on Visual Object Recognition
Ketika manusia mempersepsi objek, sensory processes mentransformasi dan mengatur informasi mentah yang diterima oleh reseptor sensori, yang kemudian stimulus tersebut dibandingkan dengan informasi yang tersedia dalam memori. Berikut adalah penjelasan bagaimana proses persepsi visual dan teori-teori penge-nalan objek.
The Visual System
Ada dua istilah yang lazim digunakan dalam stimulus perseptual, yaitu stimulus distal dan stumulus proximal. Stimulus distal adalah objek sebenarnya yang ada di dunia luar, sedangkan stimulus proximal adalah informasi yang masuk melalui resptor sensori. Untuk lebih mudah memahami kedua istilah tersebut, bayangkan ketika Anda melihat sepatu, sepatu itu sendiri merupakan stimulus distal. Ketika cahaya yang dipantulkan sepatu mencapai dan menstimulasi retina Anda, itulah stimulus proximal. Contoh lain adalah dering telepon. Dering telepon itu sendiri merupakan stimulus proximal, menjadi stimulus proximal ketika dering telepon tersebut menstimulasi reseptor auditori seseorang.
Stimulus eksternal dari lingkungan masuk pertama kali ke dalam sensory memory. Sensory memory adalah sistem penyimpanan berkapasitas besar yang merekam informasi dari panca indera dengan keakurata yang masuk akal. Ada dua jenis sensory memory yaitu iconic memory atau visual sensory memorydan echoic memory atau auditory sensory memory. Seperti namanya, iconic memory memungkinkan gambaran dari stimulus visual bertahan kurang dari setengah detik setelah stimulus tersebut menghilang. Begitu halnya echoic memory yang memungkinkan informasi dari stimulus auditori bertahan sekitar empat detik setelah stimulus tersebut menghilang.
Informasi visual yang masuk ke dalam retina harus melalui visual pathway, yaitu neuron-neuron yang berada di antara retina dan primary visual cortex.
Primary visual cortexterletak di lobus oksipital otak yang berfokus pada pemrosesan dasar stimulus visual. Sebagaimana namanya, primary visual cortex hanya sebagai pemberhentian pertama stimulus visual di dalam korteks. Para peneliti telah mengidentifikasi adanya tiga puluh area tambahan yang berperan dalam persepsi visual (Frishman, 2001; Kosslyn, 1999). Area-area tambahan tersebut aktif ketika proses pengenalan objek yang komplek.
Organization in Visual Perception
Pengenalan objek merupakan suatu kemampuan luar biasa yang dimiliki manusia. Salah satu pendekatan yang dikenal sebagai Gestalt psychology menyatakan bahwa manusia cenderung untuk mengorganisasikan apa yang mereka lihat sebagai pola daripada susunan yang acak. Ketika dua area berbagi dalam batasan yang sama ada yang menjadi figur dan ground. Figur memiliki bentuk dan batasan yang jelas, sedangkan ground merupakan area dibelakang figur. Selain itu, figur juga terlihat lebih dekat dibandingkan ground.
Kemampuan luar biasa persepsi manusia dibuktikan dengan tetap mampunya kita dalam mempersepsi meskipun hubungan antara figur dan ground ambigu. Contohnya adalah pada gambar dibawah ini :
Figur dan ground pada gambar di atas silih berganti dari waktu ke waktu, misalnya pertama kali kita mempersepsi gambar itu dengan vas sebagai figur dan wajah sebagai ground, tetapi kemudian kita melihat vas sebagai grounddan wajah sebagai figur.
Selain, hubungan figur-ground yang ambigu, manusia juga masih tetap dapat mempersepsi meskipun tidak ada batasan yang jelas, seperti gambar di bawah ini:
Manusia lebih mempersepsi gambar di atas sebagai segitiga putih yang menutupi segitiga terbalik dan tiga lingkaran kecil. Hal inilah yang disebut illusory contours. Faktor-faktor yang membantu kita dalam ilusi ini yaitu ada beberapa sel dalam sistem visual yang merespon terhadap contours, serta sistem visual kita berusaha untuk make sense susunan yang tidak beraturan tersebut.
Theories of Visual Object Recognition
Template-matching theory. Para peneliti mengajukan tiga teori yang berkalitan dengan pengenalan objek yang dilakukan oleh sistem visual. Teori-teori tersebut yaitu template matching, feature analysis, dan recognition by component. Template matching merupakan teori yang kurang memadai, namun ia adalah teori pertama yang berusaha menjelaskan pengenalan objek. Template matching digunakan untuk mengenali pola 2-dimensi seperti huruf dan angka.
Ketika melihat huruf R, Anda dapat langsung mengenalinya. Berdasarkan teori template matching, proses pengenalan tersebut terjadi dengan membandingkan stimulus fisik R dengan template atau pola yang sudah terlebih dahulu tersimpan dalam otak. Cara kerja teori template matching memiliki kesamaan dengan permainan jigsaw di komputer. Untuk dapat menyelesaikan permainan tersebut, Anda harus memasangkan kartu yang memiliki gambar sama. Jika terdapat kartu dengan gambar hati berwarna merah, maka Anda harus memasangkannya dengan kartu yang sama – yakni kartu dengan gambar hati berwarna merah. Sama halnya dengan sistem visual, Anda tidak dapat mengenali huruf Q jika Anda memasangkannya dengan template huruf O; karena huruf Q memiliki garis lebih yang membuatnya tidak cocok dengan template O.
Proses pengenalan template matching bekerja sangat baik pada komputer pengenal data, seperti mesin ATM. Ketika kartu ATM dimasukkan, mesin akan segera membandingkan angka-angka pada kartu dengan memori yang tersimpan di server untuk mengenali pemilik dari kartu ATM tersebut. Satu kartu ATM pasti memiliki angka yang berbeda dengan kartu ATM lainnya. Proses pengenalan ini tentunya sangat mudah dilakukan oleh komputer. Hal itu disebabkan karena bentuk angka yang berbeda (secara konstan) satu sama lain. Berbeda dengan tulisan tangan manusia yang terkadang angka 4 memiliki bentuk penulisan yang hampir sama dengan angka 9.
Dengan menggunakan contoh pada komputer pengenal data, dapat disimpulkan bahwa teori template matching tidak fleksibel pada visual manusia karena pengenalan huruf tidak akan terjadi apabila huruf yang tersedia memiliki sedikit perbedaan dengan template yang ada di otak.
Lantas bagaimana pengenalan huruf bisa terjadi pada manusia yang setiap harinya dapat membedakan huruf dengan cepat? Apabila Anda melihat tulisan di atas, Anda tetap bisa membedakan huruf T dengan berbagai versi (bentuk). Bahkan apabila dimodifikasi, teori template matching masih dianggap kurang cocok untuk mengenali huruf dari perspektif yang berbeda. Ketika huruf T diputar 180°, Anda masih dapat mengenalinya walaupun gambar yang sampai ke retina berubah drastis (garis horizontal yang ada di atas berpindah ke bawah). Jika menggunakan teori template matching, manusia pasti akan memerlukan banyak template berbeda untuk huruf T, dengan perspektif yang berbeda-beda pula. Hal tersebut menjadi tugas berat untuk membandingkan satu huruf dengan jutaan template yang ada di memori – tentunya bertentangan dengan kenyataan bahwa setiap harinya manusia dapat mengenali huruf dalam waktu yang relatif cepat.
Dari beberapa pembahasan di atas, teori template matching hanya bekerja pada huruf terisolasi, angka dan benda sederhana saja. Ketika melihat ke sekitar, Anda pasti melihat ujung buku, tutup pulpen, seberkas cahaya, dan lain-lain, walaupun benda-benda tersebut hanya sebagian saja yang tergambar pada retina, tetapi masih dapat dikenali. Apabila sistem visual menggunakan template, maka akan tersedia pula template untuk benda yang sebagian tersebut. Teori template matching tidak cocok dengan visual manusia yang bekerja terlalu kompleks.
Feature analysis. Teori ini menyebutkan bahwa stimulus visual merupakan komponen dan karakteristik sama dengan ciri khas. Otak manusia menyimpan ciri khas untuk setiap huruf. Huruf R memiliki ciri khas yaitu garis lengkung di atas, garis vertikal, dan garis diagonal. Ketika muncul huruf baru, otak akan segera menyimpan ada atau tidaknya ciri khas. Kemudian untuk mengenalinya, huruf yang tergambar akan dibandingkan dengan ciri khas yang ada. Dengan feature analysis ini, pengenalan huruf yang ada pada tulisan tidak akan bermasalah dengan bentuknya yang berbeda-beda karena di seluruh dunia huruf R akan selalu memiliki tiga ciri khas.
Ciri khas huruf akan selalu konstan dalam kondisi ditulis tangan, print out, dan lain-lain. Eleanor Gibson telah menyusun tabel mengenai ciri khas tersebut. Gambat di samping merupakan tampilan dari tabelnya.
Teori feature analysis memiliki kekonsistenan dengan ilmu psikologi dan neurosains. Berdasarkan penelitian psikologi, manusia lebih lama mengenali dua huruf yang memiliki feature hampir sama seperti P (memiliki feature garis vertikal dan lengkungan di atas) dan R (memiliki feature garis vertical, lengkungan di atas, dan garis diagonal) daripada mengenali huruf G dan M (memiliki feature yang berbeda satu sama lain).
Feature analysis juga selaras dengan bukti yang didapatkan neurosains. Hubel dan Wiesel melakukan percobaan dimana perekaman sel tunggal dilakukan dengan memasukkan kawat kecil ke dalam korteks visual hewan yang dibius. Kemudian mereka memperlihatkan stimulus sederhana seperti cahaya bar vertikal sehingga muncul neuron tertentu yang menanggapinya. Neuron atau yang disebut dengan detektor ciri tersebut bereaksi kuat ketika diberi stimulus pada orientasi tertentu. Detektor ciri ada tiga macam yaitu, sel sederhana yang merespon stimulus lurus dan pada posisi tertentu, sel kompleks yang merespon stimulus dan tidak pada posisi yang tertentu, serta sel hiperkompleks yang merespon pada stimulus pada orientasi dan panjang tertentu. Detektor ciri tersebut berfungsi untuk membantu pengenalan objek.
Tidak berbeda dengan template matching, teori feature analysis juga memiliki kekurangan berupa kurangnya pertimbangan pada hubungan fisik dari ciri khas huruf-huruf. Contohnya adalah pada huruf T (terdapat garis horizontal di atas garis vertikal) dan huruf L (terdapat garis horizontal berbaring di bawah garis vertikal). Kedua huruf tersebut memiliki feature yang sama. Sehingga apabila terdapat huruf T dan L, seharusnya muncul kesulitan untuk mengenali keduanya. Tetapi, hal tersebut nampaknya lain dari kenyataan sehingga perlu memerhatikan kembali hubungan fisik dari ciri khasnya.
Teori feature analysis memang sangat cocok untuk mengenali huruf. Lalu bagaimana dengan benda yang lebih kompleks bentuknya? Tentunya benda yang kompleks memiliki garis yang lebih banyak sehingga akan muncul kesulitan apabila menggunakan teori feature analysis. Untuk itu, teori baru muncul untuk menjelaskan proses pengenalan objek yang lebih kompleks.
The recognition-by-components theory. Teori ini berpendapat bahwa objek-objek yang dalam memori kita merupakan sebuah penyusunan dari bentuk tiga dimensi sederhana yang disebut geon. Geon-geon ini seperi halnya huruf alfabet yang dapat dikombinasikan menjadi sebuah kata, juga dapat dikombinasikan menjadi sebuah objek yang bermakna. Seperti yang terlihat dari gambar disamping, geon 1, 3, 5 berkombinasi menjadi sebuah telepon. Geon-geon lain pun dapat dikombinasikan menjadi lampu senter, cangkir, koper, ember, lampu meja dan lainnya. Pada umumnya, orang-orang sudah dapat mengenali sebuah objek hanya dengan pengombinasian tiga geon saja, meskipun sebagian objek sudah dapat dikenali hanya dengan pengkombinasian dua geon. Teori ini juga menyatakan bahwa ketika kita mengenali sebuah objek, ada dua hal penting yang perlu diperhatikan, yakni :
· Tepi – yang memungkinkan kita untuk mempertahankan persepsi yang sama dari objek tanpa melihat orientasinya.
· Concavities – wilayah di mana dua sisi bertemu. Memungkinkan kita untuk mengamati pemisahan antara dua atau lebih geon.
Manusia biasanya kurang cepat mengenali sebuah objek jika objek tersebut dilihat dari sudut pandang yang tidak biasanya. Oleh karena itu, dalam teori ini diperlukan sebuah modifikasi. Bentuk modifikasinya yaitu pendekatan viewer-centered, yaitu menyimpan beberapa gambaran berbagai sudut pandang dari sebuah objek, jadi tidak hanya gambaran dari satu sudut pandang saja. Selain itu, ketika gambaran suatu objek tidak memiliki kecocokan dengan gambaran-gambaran yang telah tersimpan, secara mental kita memutar stimulus yang diterima hingga menemukan gambaran yang cocok dengan yang tersimpan.
Teori ini dikenal sebagai teori dari Irving Biederman. Teori ini didasari oleh teori feature-analysis. Kelemahan teori ini yaitu dalam mengenali objek yang kompleks seperti buah apel dan pir yang memiliki geons sama dan memiliki gambaran yang sama dari setiap sudut pandangnya.
Selain menggunakan tiga teori di atas, pengenalan objek bisa dijelaskan melalui beberapa teori 3-D di bawah ini, yaitu:
1. Structural-Description Models
Mirip dengan teori recognition-by-component, teori ini menyatakan bahwa seluruh objek merupakan kombinasi dari bentuk-bentuk dasar 3-D.
2. Image-Based Models
Teori ini menyatakan bahwa semua objek memiliki gambaran 3-D-nya tersendiri yang lebih sederhana dari gambar aslinya. Walaupun dikritik sebagai teori yang samar, tetapi ia dapat digunakan dalam seluruh aspek objek – seperti warna, tekstur, dan lain-lain.
Sangat membantu saya
BalasHapus