Sesten Sinyale: AI Yolculuğum Northwestern'in Müzik ve Ses Laboratuvarında Başlıyor

2024-10-122 dk okuma

Northwestern University Campus

Yapay zekaya olan hayranlığım geleneksel bir bilgisayar bilimi dersinde başlamadı. Sesi olan canlı bir sınıfta başladı. Northwestern Üniversitesi'nde COMP_SCI 352: Machine Perception of Music & Audio dersine kaydoldum, hem müziği hem de hesaplamayı nasıl algıladığımı değiştiren bir ders.

Bu derste, bir bilgisayarın müziği nasıl duyabileceğini ve anlayabileceğini araştırdık. Ham ses, MIDI ve partisyon dosyalarından müzikal yapıyı çıkarmanın yollarını inceledik — kaynak ayrımı, algısal eşlemeler ve makinelerin sesi nicelendirmesini sağlayan algoritmalar hakkında öğrendik. Ders bizi belirgin müzikal özellikleri tespit eden araçlar oluşturmaya, işitsel algı ve veri arasındaki bağlantı hakkında eleştirel düşünmeye ve müzik bilgi erişiminde en son araştırmalarla etkileşime girmeye zorladı.

352'yi almadan önce programlamada deneyimim vardı, ama bu yeni bir sınırdı: sadece veri işlemek değil, sanat işlemek. Ödevler üzerinde çalışırken, kendimi örtüşen enstrümanları çözmeye çalışan sinir ağlarını hata ayıklarken veya ritmik desenleri ifade edici temsillere eşlerken buldum. Bir makineye "dinlemeyi" öğretebileceğimiz fikri heyecan vericiydi.

Ama ders sadece algoritmalar ve sinyal işleme teorisi değildi. Hedefleri, insanların sesi nasıl algıladığını anlamayı ve sonra bunu hesaplamalı modellerde paralelleştirmeyi içeriyordu. Sadece inşa etmeye değil, düşünmeye de zorlandık: Bir makine için bir şarkıda neyin önemli olduğunu fark etmek ne anlama gelir? Ve insan sezgisi ile ölçülebilir yapı arasındaki boşluğu nasıl kapatırız?

Bu derin müzikal-teknik entegrasyon, AI'nın görüş veya dile sınırlı olmak zorunda olmadığına dair inancımı pekiştirdi — ses, yaratıcılık, duyguda yaşayabilir. Bu noktadan itibaren, üretken modellerin bestecileri nasıl yardımcı olabileceğini, stil transferinin modaliteleri nasıl geçebileceğini ve hibrit sistemlerin insan spontanlığını makine tutarlılığıyla nasıl birleştirebileceğini keşfetmeye başladım.

AI çalışmamda ilerlerken, bu dersleri ileriye taşıdım. 352'de öğrendiğim çerçeve — yapı çıkarma, desen eşleme, reaktif geri bildirim sistemleri tasarlama — müziğin ötesinde uygulanabilir hale geldi: doğal dil görevlerinde, üretken sanatta, gerçek zamanlı etkileşim sistemlerinde.

AI tutkumun kökenini hayal ettiğimde, kulaklıklarla, ses masalarıyla, osilatörlerle ve kodla dolu o Northwestern laboratuvar alanını görüyorum. İşte AI'yı ilk kez gerçekten bir işbirlikçi olarak gördüm, sadece bir araç değil. Ve hala beni motive eden şey bu: sadece hesaplamayan, dinleyen, yanıt veren ve birlikte yaratan sistemler inşa etmek.