Görsel Sistemin Modelleri Olarak Derin Konvolüsyonel Sinir Ağları: Soru-Cevap

Daha büyük bir soru olan “Derin öğrenme beyni anlamamıza yardımcı olacak mı?” sorusundan ziyade görsel sistemin modeli olarak CNN’lere odaklanmayı seçtim. Çünkü karşılaştırmanın en mantıklı, gelişmiş ve verimli olduğu (ve üzerinde çalıştığım) alanın burası olduğuna inanıyorum. Ancak bu genel prosedürün (biyoloji tarafından bilgilendirilmiş bir mimariyi belirleme ve ilgili veriler üzerinde eğitim verme), diğer beyin alanlarını ve işlevlerini anlamaya ve kopyalamaya yardımcı olmak için kullanılamaması için hiçbir neden yoktur. Ve tabii ki olmuştur. Bu daha büyük soruna odaklanma burada bulunabilir.

(Bunun makine öğreniminden veya sinirbilimden gelen insanlar için okunabilir olduğunu umuyorum, ancak tanımları olmadan daha fazla sinirbilim terimi atıyorum.)

1. CNN Nedir?

Konvolüsyonel sinir ağları, yapay sinir ağlarının bir sınıfıdır. Bu nedenle, ağırlıklı bir girdi toplamını alan ve bir aktivite seviyesi üreten nöronlar denen birimlerden oluşurlar. Aktivite seviyesi her zaman girişin doğrusal olmayan bir fonksiyonudur, çoğu zaman aktivitenin tüm pozitif girişler için girdiye eşit olduğu ve tüm pozitif olmayan girişler için 0 olduğu rektifikasyonlu bir doğrusal birimdir (“ReLu”).

CNN’ler hakkında özel olan şey, nöronlar arasındaki bağlantıların yapılandırılmasıdır. İleriye dönük bir sinir ağında, birimler tabakalar halinde düzenlenir ve belirli bir katmandaki birimler, yalnızca aşağıdaki katmanda bulunan birimlerden girdi alırlar (yani aynı katmandaki diğer birimlerden gelen girdiler, daha sonraki katmanlar veya çoğu durumda mevcut katmandan bir öncekinden daha fazla katmanlar). CNN’ler ileriye dönük ağlardır. Bununla birlikte, standart Vanilya besleme ağlarından farklı olarak, bir CNN’deki birimlerin mekansal bir düzenlemesi vardır. Her katmanda, birimler, özellik haritaları adı verilen 2-D gridler halinde düzenlenir. Bu özellik haritalarının her biri, aşağıdaki katman üzerinde gerçekleştirilen bir konvolüsyonun(dolayısıyla adın) sonucudur. Bu, aynı katmandaki filtrenin (ağırlık seti) aşağıdaki katmanda her yere uygulandığı anlamına gelir. Bu nedenle, 2-D grid üzerindeki belirli bir konumdaki bir ünite, sadece aşağıdaki katmanda benzer bir yerdeki ünitelerden girdi alabilir. Ayrıca, girdilere eklenen ağırlıklar, bir özellik haritasındaki her bir birim için aynıdır (ve özellik haritalarından farklı olarak).

Evrişimden (ve doğrusal olmayan) sonra, genellikle birkaç başka hesaplama daha yapılır. Bir olası hesaplama (modern yüksek performanslı CNN’lerde artık popüler olmasa da) çapraz özellik normalleştirmesidir. Burada, bir özellik haritasındaki belirli bir mekansal konumdaki bir birimin aktivitesi, diğer özellik haritalarında aynı konumdaki birimlerin faaliyetine bölünür. Daha yaygın bir işlem havuzudur. Burada, her bir 2-D özellikli harita ızgarasının küçük bir mekansal alanında maksimum aktivite, o alanı temsil etmek için kullanılır. Bu özellik haritalarının boyutunu küçültür. Bu operasyon dizisi (konvolüsyon + nonlin [- normalizasyon] -> pooling) topluca “katman” olarak adlandırılır. Bir ağın mimarisi, katmanların sayısı ve bunlarla ilişkili çeşitli parametreler ile ilgili seçimlerle tanımlanır (örn. konvolüsyon filtrelerin büyüklüğü vb.)

Modern CNN’lerin çoğu, bu katmanların birkaçını (en az 5’i) içerir. Bunların sonuncusu tamamen bağlı bir tabakaya beslenir. Tam bağlı katmanlar, mekansal bir düzen veya kısıtlı bağlantıya sahip olmadıkları için standart ileri besleme ağları gibidir. Çoğunlukla 2-3 tamamen bağlı katman bir sırada kullanılır ve ağın son katmanı bir sınıflandırma yapar. Eğer ağ 10 yollu bir nesne sınıflandırması yapıyorsa, örneğin, son katın 10 birimi olacak ve her bir kategoriyle ilişkili bir olasılık yaratmak için aktivite seviyelerine bir softmax işlemi uygulanacaktır.

Bu ağlar büyük ölçüde denetimli öğrenme ve geri yayılım ile eğitilmiştir. Burada, görüntü çiftleri ve ilişkili kategori etiketi ağa verilir. Görüntü piksel değerleri ağın ilk katmanına beslenir ve ağın son katmanı tahmini bir kategori oluşturur. Bu tahmin edilen etiket, sağlananla eşleşmezse, sınıflandırmayı düzeltmek için ağırlıkların (yani, konvolüsyon filtrelerindeki değerlerin) nasıl değişmesi gerektiğini belirleyen gradyanlar hesaplanır. Birçok kez (bu ağların çoğu, 1000 nesne kategorisinden 1 milyondan fazla görüntü içeren ImageNet veritabanında eğitilmiştir) çoğu zaman, dışarıda tutulan test görüntülerinde çok yüksek doğruluk düzeylerine sahip modeller üretmektedir. CNN’lerin varyantları artık insan seviyesinde performanstan daha iyi %4.94 hata oranlarına (veya daha düşük) ulaşmaktadır. Akıllı öğrenme oranı seçimi ve ağırlık düzenlenmesi gibi (çoğunlukla her eğitim aşamasında ağırlıkların rastgele bir yarısının kesildiği, genellikle Droput yoluyla) işe yaraması için birçok eğitim “hilesi” gereklidir.

Tarihsel olarak, denetlenmemiş öğrenme, daha sonra denetimli öğrenme ile rafine edilmiş olan ağırlıkları başlatmak için kullanıldı. Ancak, bu artık iyi bir performans için gerekli değildir.

CNN’lere derinlemesine bir nörobilimci dostu giriş için, kontrol edin: Deep Neural Networks: A New Framework for Modeling Biological Vision and Brain Information Processing (2015)

2. Görsel Sistemden ilham alan CNN’ler mi?

Evet. İlk olarak, yapay sinir ağları, 20. yüzyılın ortalarında gelişmekte olan nöronların gelişmekte olan biyolojisi tarafından (adından da anlaşılacağı gibi) ilham almıştır. Yapay nöronlar, nöronların bilgiyi nasıl aldıkları ve dönüştürdüklerinin temel özelliklerini taklit edecek şekilde tasarlandı.

İkincisi, konvolüsyon ağları tarafından yapılan ana özellikler ve hesaplamalar doğrudan görsel sistemle ilgili bazı erken bulgulardan ilham almıştır. 1962’de Hubel ve Wiesel, birincil görsel korteksteki nöronların görsel ortamdaki (özellikle yönlendirilmiş kenarlarda) belirli, basit özelliklere yanıt verdiğini keşfetti. Dahası, iki farklı hücre türünü fark ettiler: basit hücreler, en çok tercih ettikleri oryantasyona sadece çok özel bir mekânsal lokasyonda ve karmaşık hücrelerde karşılık verdiler ve bu da yanıtlarında daha fazla mekansal değişmezliğe sahipti. Kompleks hücrelerin, her biri farklı bir tercih edilen lokasyona sahip olan çoklu basit hücrelerden girdiler üzerinde biriktirerek bu değişmezliği sağladıkları sonucuna varmışlardır. Bu iki özellik (belirli özelliklere göre seçicilik ve ileriye dönük bağlantılar yoluyla mekânsal değişmezliğin artması) CNN’ler gibi yapay görsel sistemler için temel oluşturdu.

Bu keşif, Neokognitron olarak bilinen bir model aracılığıyla doğrudan CNN’lerin gelişimi ile izlenebilir. Kunihiko Fukushima tarafından 1980 yılında geliştirilen bu model, işlevsel bir yapay görsel sistem oluşturma girişiminde biyolojik görsel hakkında güncel bilgileri sentezlemiştir. Neocognitron “S-hücreleri” ve “C-hücreleri” nden oluşur ve denetimsiz öğrenme yoluyla basit görüntüleri tanımayı öğrenir. Başlangıçta CNN’leri geliştiren YZ araştırmacısı Yann LeCun, köklerinin neokognitronda olduğunu açıkça belirtiyor.

3. Ne zaman popüler oldular?

Bilgisayarlı görü tarihi boyunca, çoğu görselin ne olacağıyla ilgili inançlara dayanarak, bir görüntüde tespit edilen özellikleri el-tasarlamaya odaklanan çok çalışmadır. Bu el işi özelliklerine göre filtrelendikten sonra, öğrenme sadece özellikleri son aşamada yapılır, özellikleri nesne sınıfına eşler. CNN’ler denetimli öğrenme yoluyla uçtan uca eğitim aldı; böylece, özellikleri otomatik olarak oluşturmak için bir görev teklif etti, bu da görev için en uygun şekildedir.

Bunun ilk büyük örneği 1989’da geldi. LeCun ve ark. backprop kullanarak elle yazılmış sayısal tanıma yapmak için küçük bir CNN eğitimi aldı. Daha fazla ilerleme ve CNN yeteneklerinin kanıtı, 1999 yılında MNIST veri kümesinin tanıtımıyla geldi. Bu başarıya rağmen, bu yöntemler eğitimin zor olduğu ve nöral olmayan ağ yaklaşımlarının (destek vektör makineleri gibi) öfke haline geldiği için araştırma topluluğundan feragat etti.

Bir sonraki büyük etkinlik 2012’de, denetimli yöntemlerle tam olarak eğitilen derin bir CNN’nin yıllık ImageNet yarışmasını kazanmasıyla geldi. Şu anda 1000 yollu nesne sınıflandırması için iyi bir hata oranı ~% 25 idi, ancak AlexNet% 16 hataya ulaştı, büyük bir gelişme. Bu mücadelenin önceki galipleri, sığ ağlar ve SVM’ler gibi eski tekniklere dayanıyordu. CNN’lerle yapılan ilerlemeye, ReLu’nun (sigmoid veya hiperbolik teğet olmayan lineer olmayanlar yerine) kullanımı, ağın 2 GPU üzerinde bölüştürülmesi ve ayrıştırma düzenlenmesi gibi bazı yeni tekniklerin kullanılmasıyla yardım edildi. Ancak bu, hiçbir şeyden çıkmadı. Nöral ağlarda yeniden canlanma olarak 2006 gibi erken bir tarihte görülebilir. Ancak bu ağların çoğu denetlenmemiş ön eğitimi kullandı. Bu 2012 ilerlemesi, modern derin öğrenme patlaması için kesinlikle çok büyük bir andı.

Kaynaklar: Görüntü Sınıflandırması için Derin Dönüşümlü Sinir Ağları: Kapsamlı Bir Gözden Geçirme (2017)

4. CNN’ler ve Görsel Sistem arasındaki mevcut bağlantı ne zaman yapıldı?

Nörobilimde CNN’ler hakkında hullabaloo’nun çoğu, ~ 2014 yılında yayınlanan birkaç çalışmadan kaynaklanıyor. Bu çalışmalar, farklı sistemlerin aynı görüntüleri gösterdiği zaman, insanlar ve makaklardan kaydedilen sinirsel aktiviteyi CNN’lerde yapay aktiviteyle açık bir şekilde karşılaştırmıştır.

Birincisi Yamins ve diğ. (2014). Bu çalışma, maymun BT hücrelerinin yanıtlarını tahmin etmede iyi bir yeteneğe neden olan şeyi belirlemek için birçok farklı CNN mimarisini araştırdı. Belirli bir ağ için, verilerin bir alt kümesi, yapay ağdaki aktiviteyi bireysel IT hücresi etkinliğine eşleştiren doğrusal regresyon modellerini eğitmek için kullanıldı. Beklenmeyen veriler üzerindeki tahmini güç, modelleri değerlendirmek için kullanıldı. İkinci bir yöntem, temsilsel benzerlik analizi de kullanılmıştır. Bu yöntem, nöral aktivitenin doğrudan tahminini içermez, bunun yerine iki sistemin de bilgiyi aynı şekilde temsil edip etmediğini sorar. Bu, her sistem için bir matris oluşturularak yapılır; burada değerler, cevabın iki farklı girdi için ne kadar benzer olduğunu gösterir. Bu matrisler farklı sistemler için aynı gözüküyorsa, benzer şekilde bilgiyi temsil ediyorlar.


Farklı sistemler için Temsili Farklılık Matrisleri

Her iki ölçümle de, nesne tanıma için optimize edilmiş CNN’ler diğer modellerden daha iyi performans göstermiştir. Ayrıca, ağın 3. katmanı, V4 hücre aktivitesini daha iyi tahmin ederken, 4. (ve son) katman IT’yi daha iyi tahmin etmiştir. Model katmanları ve beyin bölgeleri arasındaki ilişkiyi gösterir.

Başka bir bulgu da, nesne tanıma konusunda daha iyi performans gösteren ağların, BT verilerinin doğrudan optimize edilmesi gerekmeden BT etkinliğini yakalamada daha iyi performans göstermeleriydi. Bu eğilim büyük ölçüde, daha büyük ve daha iyi ağlar için, bazı sınırlara kadar, gerçekte tutulmuştur (bkz. S11).


CNN’nin sonraki katmanları insan IT’sine daha benzer bir temsil

Bir başka makalede, Khaligh-Razavi ve Kriegeskorte (2014), insan ve maymun IT’ye 37 farklı modeli karşılaştırmak için temsili benzerlik analizini kullanmaktadır. Ayrıca, modellerin nesne tanımada daha iyi BT temsilleri ile daha iyi eşleştiklerini buldular. Dahası, denetlenen öğrenme (“AlexNet”) ile eğitilen derin CNN, en iyi performans gösteren ve en iyi eşleşmedir.

5. Nörobilimciler daha önce CNN’ler gibi bir şey kullandı mı?

Evet! Q2’de bahsedilen neocognitron modeli, Hubel ve Wiesel’in bulgularından esinlenerek modern CNN’lere ilham vermeye devam etti, fakat aynı zamanda en görsel olarak Tomaso Poggio, Thomas Serre, Maximilian Riesenhuber laboratuarlarında tanınan bir görsel nörobilim dalında bir araştırma dalı üretti. ve diğerleri arasında Jim DiCarlo. Görsel sistemin çeşitli özelliklerini açıklamak için kıvrım yığınlarına ve maksimum havuza dayalı modeller kullanılmıştır. Bu modeller, mevcut CNN’lerden farklı lineer olmayan sistemler kullanmaya ve özelliklerin denetlenmemiş eğitimlerine (aynı zamanda makine öğreniminde popüler olduğu gibi) eğilimliydi ve modern CNN’lerin ölçeğine ulaşamadılar.

Görsel nörobilimcilerin ve bilgisayar vizyonu araştırmacılarının aldıkları yol, birbirinden ayrı ama ilgili hedefler izledikçe çeşitli biçimlerde birleşti ve ayrıldı. Fakat toplamda, CNN’ler görsel nörobilimcilerin belirlediği modelleme yörüngesinin bir devamı olarak görülebilir. Derin öğrenme alanından gelen katkılar, bu modellerin nihayet işlevsel hale gelmesine izin veren hesaplama gücü ve eğitim yöntemleri (ve verileri) ile ilgilidir.

6. Beyin gibi çalıştıklarına dair elimizde hangi kanıtlar var?

Konvolüsyonel sinir ağları, biyolojik görme modelleri olarak kullanımlarını destekleyen üç ana özelliğe sahiptir: (1) insani seviyelerde görsel görevleri gerçekleştirebilirler, (2) bunu görsel sistem hakkında bilinen temel özellikleri kopyalayan bir mimariyle yaparlar, ve (3) görsel sistemdeki farklı alanların aktivitelerine doğrudan tatbik edilebilecek aktiviteler üretirler.

Başlangıç olarak, doğaları ve mimarileri ile görsel hiyerarşinin iki önemli bileşenine sahipler. İlk olarak, V1’den IT’ye geçtikçe yaptığımız gibi ağ katmanlarında ilerledikçe bireysel alanların alıcı alan boyutları büyür. İkinci olarak, nöronlar, V1’deki basit çizgilerden IT’deki nesne parçalarına geçerken katmanlar arasında ilerlerken gittikçe artan karmaşık görüntü özelliklerine yanıt verir. Özellik karmaşıklığındaki bu artış, CNN’lerde bulunan görselleştirme teknikleriyle doğrudan görülebilir.

Görsel hiyerarşinin özellikleri

Daha derinlemesine bakıldığında (3), orijinal 2014 çalışmasından (4. Çeyrek) sonra gelen birçok çalışma, CNN’lerde aktivite ile görsel sistemler arasındaki ilişkiyi daha da sağlamıştır. Bunların hepsi aynı genel bulguyu göstermektedir: Yapay ağların aktivitesi, her ikisi de aynı görüntüler gösterildiğinde görsel sistemin aktivitesi ile ilişkili olabilir. Ayrıca, ağdaki daha sonraki katmanlar ventral görsel akıştaki daha sonraki alanlara karşılık gelir (veya MEG gibi yöntemler kullanıldığında yanıttaki daha sonraki zaman noktaları).

Aşağıdaki hususlarda (diğerleri arasında) görüldüğü gibi, bu noktaları ortaya koymak için birçok farklı yöntem ve veri seti kullanılmıştır: Seibert ve ark. (2016) Cadena ve diğ. (2017), Cichy ve ark. (2016), Wen ve diğ. (2018), Eickenberg ve diğ. (2017), Güçlü ve van Gerven (2015) ve Seeliger ve ark. (2017).

Ağın hangi özelliklerin farklı katmanlarda öğrendiğini görselleştirme

Bu çalışmaların odağı genellikle çeşitli nesne kategorilerinin kısa bir şekilde sunulan doğal görüntülerine verilen ilk nöral tepkidir. Bu yüzden, bu CNN’ler, “temel nesne tanıma” veya “belirli bir görsel nesneyi, kimliğini koruyan dönüşümler (konum, boyut, bakış açısı ve görseller karşısında bile) diğer tüm nesnelerden hızlı bir şekilde ayırt edebilme kabiliyetini yakalar. bağlam). ”Genel olarak, standart feedforward CNN’leri, görsel yanıtın ilk bileşenlerini en iyi şekilde yakalar ve bu, ilk feedforward bilgi taramasını retinadan daha yüksek kortikal alanlara kopyaladıklarını gösterir.

Görsel sistemin yarattığı sinirsel gösterimlerin art arda CNN’ler tarafından kopyalanabilmesi, aynı “dolaşma” sürecini gerçekleştirdiklerini göstermektedir. Diğer bir deyişle, her iki sistem de görüntü / retinal seviyede ayrılmaz olan farklı nesne kategorilerinin gösterimlerini alır ve doğrusal ayrılmaya izin veren gösterimler oluşturur.

Faaliyetleri karşılaştırmaya ek olarak, aynı zamanda (1) ‘e, yani ağın performansını da derinlere götürebiliriz. Bu ağların davranışlarının insanlara ve hayvanlara ayrıntılı olarak karşılaştırılması, model olarak kullanımlarının doğrulanmasına ve ilerlemenin hala gerekli olduğu alanları tespit etmesine yardımcı olabilir. Bu tür çalışmalardan elde edilen bulgular, bu ağların, insan sınıflandırma davranışı modellerini çoklu alanlardaki önceki modellerden daha iyi yakalayabildiğini (ve hatta onu tahmin edip manipüle edebildiğini), ancak performansın gürültüden nasıl düştüğü gibi belirli özelliklerde yetersiz kaldığını göstermiştir. veya görüntülerdeki değişimler küçük olduğunda.

Bu tür davranışsal etkiler incelenmiştir: Rajalingham ve ark. (2018), Kheradpishesh ve ark. (2015), Elsayed ve ark. (2018), Jozwik ve diğ. (2017), Kubilius ve ark. (2016), Dodge ve Karam (2017), Berardino ve ark. (2017) ve Geirhos ve ark. (2017).

Bütün bunların, beynin iyi bir modelinin özelliklerini karşılayıp karşılamadığı, muhtemelen en iyi görüş alan kişilerin görsel sistem modelinden istediklerini söylediklerine bakılarak ele alınmalıdır:

“Beynin nesne tanıma çözümünü anlamadaki ilerleme, nihayetinde kendi biyolojik yeteneklerimizi taklit etmeyi amaçlayan yapay tanıma sistemlerinin inşasını gerektiriyor (genellikle [2]. 6]). Bu tür hesaplamalı yaklaşımlar kritik öneme sahiptir, çünkü deneysel olarak test edilebilir hipotezler sağlayabilirler ve çalışan bir tanıma sisteminin somutlaştırılması, nesne tanımanın anlaşılmasında özellikle etkili bir başarı ölçütü olduğu için ”(Pinto vd., 2007).

Bu açıdan bakıldığında, CNN’lerin vizyon biliminde hedefin bir hareketini temsil etmediği, ancak daha fazlasına ulaştığı açıktır.

Farklı CNN katmanlarındaki temsiller ve beyin bölgeleri arasındaki korelasyon (Cichy ve ark.)

7. Başka herhangi bir model görsel alanların aktivitesini daha iyi tahmin edebilir mi?

Genellikle hayır. Birçok çalışma, CNN’lerin ve önceki görsel sistem modellerinin (HMAX gibi) sinirsel etkinliği yakalama yeteneklerini doğrudan karşılaştırmıştır. CNN’ler en üstte çıkıyor. Bu tür çalışmalar şunları içerir: Yamins ve ark. (2014), Cichy ve diğ. (2017) ve Cadieu ve ark. (2014).

8. CNN’ler görsel sistemin mekanik mi yoksa betimleyici modelleri mi?

Bir mekanistik modelin makul bir tanımı, modelin iç parçalarının ilgilenilen sistemin iç parçalarına eşlenebileceği bir tanımdır. Betimsel modeller ise genel girdi-çıktı ilişkilerinde eşleşir. Dolayısıyla, görsel sistemin açıklayıcı bir modeli, bir görüntüyü alan ve insan etiketleriyle aynı hizaya giren bir nesneyi etiketleyen, fakat bunu beyiyle bariz bir ilişkisi olmayan bir şekilde çıkaran model olabilir. Bununla birlikte, yukarıda tarif edildiği gibi, bir CNN’nin katmanları beynin bölgeleri ile eşleştirilebilir. Bu nedenle, CNN’ler, nesne tanıma yaptığı gibi ventral sistem tarafından gerçekleştirilen temsili dönüşümün mekanik modelleridir.

Bir CNN’nin bir bütün olarak mekanik bir model olması, tüm alt bileşenlerin mekanik olduğunu kabul etmemizi gerektirmez. Analoji olarak beynin geleneksel devre modellerinde hıza dayalı nöronların kullanımı olarak alın. Hız temelli sinir modelleri, sadece giriş gücünü çıkış ateşleme oranına eşleyen bir fonksiyondur. Bu nedenle, bunlar tanımlayıcı nöron modelleridir: Ateşleme hızına neden olan sinirsel süreçlerle ilgili içsel bileşenler yoktur (Hodgkin-Huxley nöronları gibi detaylı biyo-fiziksel modeller mekanik olacaktır). Yine de, mekanik devrelerin modellerini inşa etmek için hıza dayalı nöronları kullanabiliriz (örneğin, düşkün olduğum bir örnek). Tüm mekanik modeller, temel birimler olarak tanımlayıcı modellere dayanır (aksi halde hepimiz bir model oluşturmak için kuantum mekaniğine inmemiz gerekir).

Öyleyse, bir CNN’nin bileşenleri (yani, katlanmalar – katlanmalar, doğrusal olmayanlar, muhtemelen normalleşme ve poolingden(havuzlamadan) oluşuyor), beyin alanlarının mekanik mi yoksa betimleyici modelleri mi? Bu soruyu cevaplamak daha zor. Bu tabakalar, gerçek nöronlarla makul olarak eşlenebilecek yapay nöronlardan oluşurken, birçok hesaplamanın uygulamaları biyolojik değildir. Örneğin, normalleştirme (onu kullanan ağlarda), yüksek parametreleştirilmiş bölücü bir denklem ile uygulanır. Bu hesaplamaların gerçekçi sinir mekanizmalarıyla uygulanabileceğine inanıyoruz (yukarıda belirtilen örnek ağa bakınız), ancak bu modellerde şu anda kullanılanlar değildir (ben ve diğerleri üzerinde çalışıyor olsalar… bkz. S12).

9. Bir CNN’nin farklı kısımlarını beyne göre nasıl yorumlamalıyız?

Hücresel seviyedeki şeylerle uğraşmakta kullanılan sinirbilimciler için, CNN’ler gibi modeller, yararlılık noktasının ötesinde soyutlanmış hissedebilir (bir süredir soyut çok alanlı modelleme ile çalışan bilişsel bilim adamları, onları daha tanıdık bulabilir).

Beyin bölgeleri ve processingin(CNN işlemi) ilişkisi

Ancak, kesin biyolojik detaylar olmadan bile, CNN bileşenlerini görsel sistemin bileşenleriyle eşleyebiliriz. İlk olarak, bir CNN’ye girişler genellikle retina ve lateral geniküler çekirdeğin yaptığı hesaplamalara karşılık gelen, bir şekilde normalleştirilmiş veya beyazlatılmış 3-D (RGB) piksel değerleridir. Kıvrımlar, görsel alanlarda bulunan retinotopi gibi mekansal bir yerleşime sahip özellik haritaları oluşturur; bu, her bir yapay nöronun mekansal olarak kısıtlanmış bir alıcı alana sahip olduğu anlamına gelir. Her özellik haritasına bağlı evrişimli filtre, bu özellik haritasındaki nöronların özellik ayarını belirler. Bireysel yapay nöronların doğrudan bireysel gerçek nöronlarla eşleştirilmesi amaçlanmamıştır; bireysel birimleri kortikal sütunlar olarak düşünmek daha makul olabilir.

CNN’nin hangi katmanları hangi beyin alanlarına karşılık gelir? Sadece az sayıda katman içeren modelleri kullanan ilk çalışma, bir katman için bir beyin alanı haritalamasına destek sağlamıştır. Örneğin, Yamins ve diğ. (2014), son evrim katmanı en iyi BT aktivitesini ve ikinciden en son en iyi V4 tahminini öngörmektedir. Bununla birlikte, tam ilişki kullanılan modele bağlı olacaktır (daha derin modeller ile beyin alanı başına daha fazla katmana izin verilir).

Bir evrişimsel ağın sonunda tamamen birbirine bağlı katmanlar daha karmaşık bir yorumlamaya sahiptir. Sınıflandırıcının verdiği nihai kararla yakın ilişkileri ve artık retinotopi yapmamaları onları prefrontal korteks benzeri yapar. Ancak BT faaliyetlerini tahmin ederken de iyi performans gösterebilirler.

10. Görsel sistemde, CNN’lerin sahip olmadığı ne var?

Birçok şey. Sivri uçlar, sakasitler, ayrı uyarıcı ve inhibe edici hücreler, dinamikler, geri bildirim bağlantıları, katmanları atlayan feedforward bağlantıları, salınımlar, dendritler, [*** soluma ****] kortikal katmanlar, nöromodülatörler, fovea, yanal bağlantılar, farklı hücre tipleri, dürbün adaptasyon, gürültü ve muhtemelen beynin en sevdiğiniz detayı her neyse.

Elbette bunlar, bugün model olarak kullanılan en standart CNN’lerin varsayılan olarak sahip olmadığı özelliklerdir. Ancak birçoğu daha yeni CNN modellerinde çalışıldı, örneğin: bağlantılar, geri bildirim bağlantıları, saklamalar, sivri uçlar, yanal bağlantılar ve bir fovea.

Bu yüzden açıkça CNN’ler, primat vizyonunun doğrudan kopyaları değildir. Bu gerçeğin diskalifiye edici olmadığı da açık olmalıdır. Hiçbir model, ilgilenilen sistemin tam bir kopyası olmayacak (veya olmayacak). Amaç, vizyon hakkında bilmek istediklerimizi açıklamak için gerekli özellikleri yakalamaktır. Farklı araştırmacılar görsel sistem hakkında farklı şeyler bilmek isteyeceklerdir ve bu nedenle belirli bir özelliğin olmayışı bir kişiye diğerinden daha çok veya daha az önemli olacaktır. Örneğin, ilk ~ 100ms görüntü sunumu üzerinden elde edilen BT nöronlarının yanıtını tahmin etmek için hangi özellikler gereklidir? Bu ampirik bir sorudur. Herhangi bir biyolojik özelliğin gerekli olduğu veya modelin sahip olmadığı için kötü bir özellik olduğu konusunda bir şey söyleyemeyiz.

Spiking, E-I tipleri ve diğer uygulama özellikleri gibi detayları olmayan bir modelin sahip olduklarından daha soyut olduğunu söyleyebiliriz. Fakat soyutlamanın yanlış bir tarafı yok. Bu sadece problemleri bir hiyerarşiye ayırmaya ve üzerinde bağımsız olarak çalışmaya istekli olduğumuz anlamına gelir. Bir gün, farklı açıklama düzeylerini bir araya getirebilmeli ve beyni büyük ve ince ölçekte çoğaltan bir modele sahip olmalıyız. Ancak, bu arayış içinde iyinin düşmanı mükemmeli yapmamayı hatırlamalıyız.

11. Görsel sistemin yapamadığı, CNN’lerin yaptığı şeyler nelerdir?

Bu benim için daha önemli bir soru. Zor problemlerin üstesinden gelmek için bir tür biyolojik olmayan sihir kullanan modeller, belirli biyolojik özelliklere sahip olmayanlardan daha problemlidir.

İlk konu: evrişimli ağırlıklar olumlu ve olumsuzdur. Bu, ileri beslemeli bağlantıların uyarıcı ve inhibe edici olduğu (beyin bölgeleri arasındaki beyin bağlantılarında büyük ölçüde uyarıcı olduğu) ve bireysel yapay nöronların uyarıcı ve inhibe edici etkileri olabileceği anlamına gelir. Ağırlıkların, gerçekte inhibitör hücrelere ileriye doğru uyarıcı bağlantılar yoluyla gerçekleştirilebilecek net etkileri gösterdiğini düşünürsek, bu çok problemli değildir.

Sonraki: ağırlıklar paylaşılıyor. Bu, bir özellik haritasındaki bir konumdaki bir nöronun, girdilerindeki aynı ağırlıkları aynı özellik haritasındaki farklı bir nöron olarak kullandığı anlamına gelir. Oryantasyon ayarı gibi bir şeyin V1’deki retinotopik harita üzerinde temsil edilmesine rağmen, görsel alanın bir alanındaki dikey çizgileri tercih eden bir nöronun dikey olarak * tam aynı * giriş ağırlığına sahip olduğuna inanmıyoruz. nöronu başka bir yerde tercih etmek. Tüm ağırlıkların koordine edilmesini ve paylaşılmasını sağlayan “uzaktan ürkütücü eylem” yoktur. Bu nedenle, bu ağların eğitilmesine yardımcı olmak için mevcut ağırlık paylaşımının kullanımı, mekansal olarak değişmeyen ayarlama oluşturmanın daha biyolojik olarak makul bir yolu ile değiştirilebilmelidir.

Üçüncüsü: Max. Pooling’in nesi var? Max. Pooling operasyonu, sinirbilim açısından, bir nöronun ateşleme hızına, en yüksek ateşleme girdisine eşittir. Nöronlar birçok nörondan kaynaklandığından, bunu doğrudan yapabilen bir nöron geliştirmek zordur. Ancak Pooling işlemi, karmaşık hücrelerin keşfedilmesinden esinlenmiştir ve başlangıçta, nöronlar tarafından önemsiz bir şekilde elde edilebilecek olan ortalama bir işlem olarak başlamıştır. Bununla birlikte, Max-pooling’in nesne tanıma performansı ve biyolojik verilere uyumu açısından daha başarılı olduğu bulunmuştur ve şu anda yaygın olarak kullanılmaktadır.

CNN’lerin makine öğrenmesi araştırmacıları tarafından daha da geliştirilmesi, onları görsel sistemden daha uzakta tutmaktadır (ML insanlarının hedefi tek başına performans olduğu için). Şimdi en iyi performans gösteren CNN’lerin bazıları biyolojik açıdan garip görünen birçok özelliğe sahip. Ayrıca, bu yeni modellerin (~ 50 katmanlar) aşırı derinlikleri, etkinliklerini görsel sistem için daha az cazip hale getirmiştir.

Elbette, bu ağların nasıl eğitildiği (geri yayılım yoluyla) konusu da var. Bu, üçüncü çeyrekte ele alınacaktır.

12. Daha çok beyin gibi olmaları sağlanabilir mi?

Hesaplamalı bir sinirbilimcimin temel nedenlerinden biri (deneysel düzeneklerin kısıtlamaları olmadan) istediğimizi yapabileceğimizdir. Yani evet! Standart CNN’lerin biyolojiden ilham alan özelliklere sahip olmasını sağlayabiliriz. Şimdiye dek ne yapıldığını görelim:

Yukarıda S10’da bahsedildiği gibi, CNN’lerin farklı varyantlarına, onları ventral akıma daha benzer kılan birçok mimari eleman eklenmiştir. Ayrıca, öğrenme prosedürünün uygunluğunun arttırılması için çalışmalar yapılmıştır (bakınız S13).

Bu çabalara ek olarak, biyolojik ayrıntıların çoğaltılması için bazı daha spesifik çalışmalar şunları içerir:

Spoerer ve diğ. (2017), biyolojiden ilham alarak, yanal ve geri besleme bağlantılarının eklenmesinin modelleri tıkalı ve gürültülü cisimleri tanımada nasıl daha iyi hale getirdiğini göstermektedir.

Biyolojik ilham veren bağlantılar ekleme(Spoerer ve ark.).

Kendi çalışmamın bir kısmı (Cosyne 2017’de ve derginin sunulması için hazırlanırken), stabilize edilmiş bir üst ağın (normalizasyonu uygulayan biyolojik olarak gerçekçi bir devre modeli) bir CNN mimarisine yerleştirilmesidir. Bu, E ve I hücre tipleri, dinamikleri ve CNN’lere tekrarı getirir.

Costa ve diğ. (2017), biyolojik olarak esinlenmiş bileşenleri kullanarak uzun kısa süreli hafıza ağları kurdu. Yapay sinir ağlarına nüks eklenirken LSTM’ler sıklıkla kullanılır, bu nedenle fonksiyonlarının biyolojik olarak nasıl uygulanabileceğini belirlemek çok faydalıdır.

13. CNN’lerin ağırlıklarını öğrenmek için geri yayılım kullanmaları önemli mi?

Geriye yayılma, sınıflandırıcının yaptığı hatayı azaltmak için ağda herhangi bir yerin ağırlığının nasıl değişmesi gerektiğini hesaplamayı içerir. Bu, birinci katmandaki bir sinapsın, üst katmandaki tümüyle neyin yanlış gittiği hakkında bazı bilgilere sahip olacağı anlamına gelir. Bununla birlikte, gerçek nöronlar, ağırlıktaki değişimin, esasen sinaptik nöronun öncesi ve sonrası olmayan etkileriyle belirlendiği, yerel öğrenme kurallarına (örneğin Hebbian plastisitesi gibi) dayanmaktadır. Bu nedenle, backprop biyolojik olarak gerçekçi görünmüyor.

Bunun, tamamen eğitilmiş CNN hakkındaki görüşümüzü görsel sistemin bir modeli olarak etkilemesine gerek yok. Hesaplamalı modellerde yer alan parametreler, beynin nasıl öğrendiğiyle (örneğin, işlevsel bağlantı elde etmek için Bayesian çıkarımı) herhangi bir benzerlik taşıması amaçlanmayan teknikleri kullanarak sıklıkla uygundur. Ancak bu, ortaya çıkan devre modelini yorumlanamaz hale getirmiyor. Aşırı bir bakış açısına göre, geri yayılmayı diğerine benzer bir parametre-takma aracı olarak görebiliriz. Gerçekten de, Yamins ve ark. (2014) farklı bir parametre uydurma tekniği kullanmıştır (backprop değil).

Ancak bu görüşü almak, modelin bazı yönlerinin yorumlama için uygun olmadığı anlamına gelir. Örneğin, öğrenme eğrisinin (yani, model öğrenirken hatanın nasıl değiştiğini) insanların veya hayvanların öğrenirken yaptıkları hatalarla ilgili olmasını beklemeyiz.

Guerguiev’in ayrılmış dendrit ile yerel hata hesaplamaları.

Backprop’un şu anki uygulaması biyolojik olarak mantıklı olmasa da, beynin gerçekte yaptığı bir şeyin soyut bir versiyonu olarak yorumlanabilir. Yerel hesaplamalar ve gerçekçi hücre tipleri ile uygulanarak biyolojik olarak kolay anlaşılır hale getirmek için çeşitli çabalar devam etmektedir (örneğin, bu ve bu). Bu, daha iyi biyolojik yorumlama için öğrenme sürecini açar. Biyolojik olarak daha makul öğrenme prosedürlerinin kullanılmasının, verilerle daha iyi eşleşen nöral aktiviteye yol açıp açmadığı henüz cevaplanmamış bir ampirik sorudur.

Öte yandan, denetimsiz öğrenme, etiketler hakkında açık bir geri bildirim gerektirmediği için beyin için muhtemel bir mekanizma gibi görünmekte, ancak gösterimleri geliştirmek için çevrenin doğal istatistiklerini kullanmaktadır. Şimdiye kadar, denetimsiz öğrenme, denetimli öğrenmenin ulaştığı yüksek nesne kategorizasyon performansını elde edememiştir. Ancak denetimsiz öğrenmedeki ilerlemeler ve biyolojik olarak mantıklı hale getirme yöntemleri sonuçta görsel sistemin daha iyi modellerine yol açabilir.

14. CNN’leri kullanan Görsel Sistem hakkında nasıl bilgi edinebiliriz?

CNN’lerden izolasyon halinde hiçbir şey öğrenilemez. Tüm içgörü ve gelişmelerin, deneysel verilerle etkileşime girerek doğrulanması ve ilerletilmesi gerekecektir. Bununla birlikte, CNN’lerin görsel sistem anlayışımıza katkıda bulunmalarının üç yolu vardır.

İlki, sezgilerimizi doğrulamak. Feynman’ın deyimiyle “neyi inşa edemediğimizi anlamıyoruz”. Görsel sistem hakkında toplanan tüm veriler ve teoriler için, nörobilimadamları neden işlevsel bir görsel sistem yapamadılar? Bu çok önemli bir şeyleri özlediğimizi gösterdiği için endişe verici olmalı. Artık görsel sistem hakkındaki sezgilerimizin büyük oranda haklı olduğunu söyleyebiliriz, sadece hesaplama gücünü ve eğitim verilerini kaçırdık.

İkincisi, ideal bir deneysel test alanı sağlamaktır. Bu, mekanistik modellerin bilimdeki ortak kullanımıdır. İlgilendiklerimizin makul bir faktörü olarak bir model oluşturmak için mevcut verileri kullanıyoruz. Daha sonra, işleyişinde gerçekte neyin önemli olduğunu görmek için parçalarını dürttük, üretti, lezyon ve parçalarını bıraktık. Bu, gelecekteki deneyler için hipotez oluşturma ve / veya modeli oluşturmak için kullanılmamış olan önceki verileri açıklamanın bir yolu olarak işlev görür.

Üçüncü yol matematiksel analizden geçer. Her zaman olduğu gibi hesaplama modellemede olduğu gibi, görsel sistemin somut matematiksel terimlere nasıl çalıştığıyla ilgili inançlarımızı koymak, onları yeni araştırma türlerine açar. Bir model üzerinde analiz yapmak genellikle daha da basitleştirmeyi gerektirse de, yine de bir modelin davranışının genel eğilimleri ve sınırları hakkında yardımcı bilgiler sunabilir. Bu özel durumda, burada ekstra ateş gücü vardır, çünkü bazı ML araştırmacıları da bu modelleri matematiksel olarak disseke etmekle ilgilenmektedir. Böylece onların görüşleri, doğru koşullarda bizim olabilir (örneğin).

15. CNN’leri Görsel Sistemin bir modeli olarak kullanmaktan ne öğrendik?

İlk önce, işleyen bir görsel sistem kurabileceklerini göstererek sezgilerimizi doğruladık. Ayrıca, bu yaklaşım görsel sistemin (Marr’ın teriminde) hesaplamalı ve algoritmik seviyelerini tanımlamamıza yardımcı oldu. Nesne tanıma konusunda eğitim alarak çok fazla sinirsel ve davranışsal veri yakalama yeteneği, ventral akımın temel bir hesaplama rolü olduğunu düşündürmektedir. Ve bir dizi evri ve havuz, bunu yapmak için gereken algoritmanın bir parçası.

Bu ağların başarısı da görsel sinirbilimde çalışma birimlerini düşündüğümüzde bir kaymaya izin verdiğine inanıyorum. Görsel nörobilimin çoğunda (ve tüm sinirbilim…), bireysel hücreleri ve ayar tercihlerini merkezleyen bir yaklaşım hakim olmuştur. Sinir verilerini katı bir nöron birebir yazışma olmadan yakalayan soyut modeller, popülasyon kodlamasına odaklanmıştır. Bireysel ayarlama işlevlerini anlamaya çalışmanın bir gün aynı sonuçları vermesi olasıdır, ancak popülasyon düzeyindeki yaklaşım daha verimli görünmektedir.

Ayrıca, görsel sistemi sadece bu şekilde – izole bir alandan ziyade bütün bir sistem olarak görmek, bu alanları nasıl anlamayı beklememiz gerektiği konusunda bir fikir verir. Örneğin, söz konusu alandaki hücrelerin cevap vermesine neden olan kelimeleri ya da basit matematiği açıklamaya çalışarak V4’ün çalışılmasına çok fazla çalışma yapılmıştır. V4, nesne tanıma yolunda bir orta yol olarak görülüyorsa, kendi başına düzgün bir şekilde tanımlanması daha az muhtemel görünüyor. Bu derlemeden: “Bir birimin örneğin bir göz veya yüz detektörü olarak sözlü bir işlevsel yorumu sezgisel olarak anlaşılmasına ve önemli bir şeyi yakalamasına yardımcı olabilir. Bununla birlikte, bu tür sözlü yorumlar kategorikliğin ve yerelleşmenin derecesini aşabilir ve bu temsillerin istatistiksel ve dağınık niteliğinin altını çizebilir. ”Aslında, eğitimli ağların analizi, bireysel birimlerin güçlü, yorumlanabilir ayarlarının iyi performansla ilişkilendirilmediğini göstermiştir. Bu konudaki tarihsel odak yanlış yönlendirildi.

Farklı mimarileri araştırmaktan daha somut bir ilerleme geliyor. Nöral ve davranışsal cevabın hangi elemanlarını yakalamak için hangi detayların gerekli olduğunu görerek yapı ve fonksiyon arasında doğrudan bir bağlantı kurabiliriz. Bu çalışmada, ağa eklenen yan bağlantılar dorsal akıntının cevabının zaman akışını ventral akıntınınkinden daha fazla açıklamaya yardımcı olmak için daha fazlasını yaptı. Diğer çalışmalar, ventral akış dinamiklerini yakalamak için geri besleme bağlantılarının önemli olacağını göstermiştir. Ayrıca, nöral cevabın belirli bileşenlerinin rastgele ağırlıklara sahip bir modelde yakalanabileceği, bunun da yalnızca hiyerarşik mimarinin bunları açıklayabileceğini öne sürdüğü gösterilmiştir. Doğal ve geçerli resim kategorileri konusunda eğitim gerektiren diğer bileşenler ise.

Ayrıca, bazı iyi performans gösteren CNN’lerin (bkz. S11) sinirsel aktiviteyi doğru bir şekilde tahmin edemediğini gözlemlemek önemlidir, çünkü vizyon yapan tüm modellerin beynin iyi modelleri olmayacağını gösterir. Bu, gördüğümüz mimarilerin sinirsel aktiviteyi iyi öngördüğüne (beyin alanları ve katmanlar arasında bir yazışma ile) inanıyor, çünkü beynin yaptığı dönüşümler hakkında bir şeyler yakaladıkları için.

CNN’ler, gerçekçi sinirsel tepkiler üretmenin “görüntüyle karşılaştırılabilir” bir yolunu sunduğundan, burada ve burada salınımları bağlamsallaştırmak için yapıldığı gibi, daha az anlaşılmış sinyalleri görsel işlemeye bağlamak için de faydalıdır.

CNN’leri görsel sistemin bir modeli olarak kullanarak, kendi çalışmam, özellik benzerliği kazanım modelinin (dikkatin sinirsel etkilerini tanımlayan) dikkatin faydalı performans etkilerini açıklayabildiğini göstermeye odaklandı.

Son olarak, bazı çalışmalar CNN’ler tarafından yakalanmayan sinirsel veya davranışsal unsurları belgelemiştir (bakınız S6). Bunlar, daha fazla deneysel ve bilgisayarlı araştırmaya ihtiyaç duyan alanları belirlemeye yardımcı olur.

Ve daha fazla örnek var(CNN’leri beyne benzeten tam bir makale koleksiyonu için bu listeye Martin Hebart’tan bakın). Sonuçta, bunun büyük bir kısmının yalnızca 2014’ten bu yana ciddi olarak sürdüğü göz önüne alındığında, kötü bir miktar olmadığını söyleyebilirim.

Kaynak: https://gracewlindsay.com/2018/05/17/deep-convolutional-neural-networks-as-models-of-the-visual-system-qa/

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s

%d blogcu bunu beğendi: