Yapay zeka uzmanı DeepSeek’in hızla yükselme nedenini açıkladı
Çin menşeli yapay zeka destekli chatbot DeepSeek, ABD’de piyasaya sürülmesinin ardından Apple’ın uygulama mağazasında en çok indirilen ücretsiz uygulama haline gelirken; ABD’de teknoloji sektöründeki büyük oyuncuların hisselerinde önemli düşüşlere neden oldu.
DeepSeek’in yükselişinin altındaki dinamikleri anlatan yapay zeka uzmanı Giray Hakan, son zamanlara kadar piyasada en çok kullanılan büyük dil modellerinin (LLM) büyük şirketlerden çıkma modeller olduğuna dikkat çekti.
OpenAI’ın GPT-4, GPT-4o modelleri, Google’ın Gemini modeli, Meta’nın Llama 3 modeli, Anthropic’in Claude modelleri bu büyük şirketlerin modelleri arasında yer alıyor. Hakan’a göre, Çin’den gelen yapay zeka atılımının hızlı yükselişi teknoloji dünyasını şaşırttı.
“TAMAMEN AÇIK KAYNAK OLARAK PİYASAYA SUNDU”
DeepSeek’in hızlı yükselişinin asıl nedenin düşük maliyetinin yanı sıra açık kaynaklı bir yapay zeka modeli olmasına bağlayan Hakan, şunları söyledi:
Biz ise bugüne kadar tam olarak nasıl eğitildiklerini, hangi veri setlerini kullandıklarını bilmediğimiz OpenAI’ın yapay zeka modellerinin çok pahalıya mal olduklarını bildiğimizden bu tekelin uzun bir süre daha özel şirketlerde kalacağını düşünüyorduk. Çünkü Anthropic şirketinin kurucusu birkaç ay önce katıldığı bir programda, büyük bir dil modelinin 100 milyon ile 1 milyar dolar arasında bir maliyetle üretildiğini söyledi. Örneğin OpenAI’ın kurucusu Sam Altman da daha önce GPT-4 modelinin aylar süren eğitiminin yaklaşık 100 milyon dolar tuttuğunu açıkladı. Bu ücret çalışanlarının maaşları, aldıkları GPU’ların ücretlerini içermiyor bile. Benzer bir ücret Meta’nın yarı-açık kaynak olarak paylaştığı Llama 3.1 modeli için de geçerli. Yaklaşık 3 ay boyunca 16 binden fazla Nvidia H100’ü üzerinden eğitilen modelin maliyeti 100 milyon dolardan fazla.
MALİYETİ BU KADAR DÜŞÜRMEYİ NASIL BAŞARDI?
Öncelikle DeepSeek ekibi matematik ve optimizasyon konusunda çok iyi, uzun zamandır ‘quant trading’ çalışıyorlar. Yani matematiksel modeller ve algoritmalar kullanarak otomatik hisse senedi/döviz alım-satım işlemleri yapan sistemler geliştiriyorlar. Dolayısıyla bu geçmiş bilgi birikimlerini birkaç yenilikçi yaklaşım (Sparse Mixture-of-Experts (MoE) mimarisi, Quantization, Chain-of-Thought (CoT) vb) ile birleştirip dil modellerinin çok daha verimli ve başarılı şekilde eğitilebileceklerini gösterdiler.”
“YAKLAŞIK 30 KAT DAHA UCUZA YAPIYOR”
Hakan, DeepSeek’in bilgi işlerken tükettiği enerjinin diğer modellere göre daha az olduğuna dikkat çekerek şöyle devam etti:
“DeepSeek ekibi sadece modelin eğitilmesi sürecini çok iyi optimize etmedi, aynı zamanda ‘inference’ dediğimiz yani modelin çalışırken tükettiği enerjiyi de azalttı. Örneğin şu an aynı miktarda bilgi işleme işini OpenAI’ın GPT-4o’suna göre yaklaşık 30 kat daha ucuza yapıyor.
Yani şu an halihazırda OpenAI veya diğer modelleri kullanan bir yapay zeka sisteminiz varsa, maliyetlerini yaklaşık 20-30 kata kadar azaltabilirsiniz demektir. İşte tüm bunlar ortaya çıkınca insanların tüm dikkati bu modele, ekibe ve yenilikçi yaklaşımlarına yöneldi.”
“ENERJİ ALTYAPISI KURUYOR”
Hakan, “Üretken yapay zeka modeli geliştirmenin maliyeti DeepSeek için telaffuz edilen 6 milyon dolar civarında ise ABD’deki teknoloji devi şirketlerin neden yapay zeka altyapısı kurmak için yüz milyarlarca dolar bütçe ayırma planları açıkladı” sorusuna şu yanıtı verdi:
“Aslında DeepSeek’in açıkladığı yaklaşık 6 milyon dolarlık rakam, tüm yapay zeka altyapısının maliyeti değil. Sadece bu modelin yaklaşık 2 ay süren eğitimi için harcanan gider. Yani bu 6 milyon doların içinde teknoloji altyapılarını güçlendirme, enerji altyapısı, veri merkezlerinin kurulum maliyetleri, modellerin eğitildikleri Nvidia çiplerinin ücretleri, muhasebe ve benzeri kalemler yok.
O yüzden Meta, OpenAI ve Google gibi Amerikan şirketleri çok daha kapsamlı yatırımlar yapıyor. Bu şirketler DeepSeek’in kısıtlı H800 çiplerinin aksine Nvidia’nın gelişmiş H100 çiplerini kullanıyor. Küresel kullanıcı talebini karşılayacak veri merkezleri inşa ediyor ve ChatGPT gibi enerji tüketimi yüksek modelleri destekleyecek enerji altyapısı kuruyor.
“HESAPLAMA YÜKÜNÜ AZALTIYOR”
DeepSeek ekibi ayrıca, teknolojik açıdan daha verimli bir strateji izliyor. ‘Mixture-of-expert’ (MoE) mimarisi sayesinde her görev için sadece ilgili alt modelleri çalıştırarak hesaplama yükünü azaltıyor. Ayrıca, görevin karmaşıklığına göre kaynak kullanımını ayarlayabiliyor ve büyük modellerden küçük modellere bilgi aktarımı yaparak eğitim maliyetlerini düşürüyor. Amerikan şirketleri ise GPT-4o gibi daha geniş kapasiteli modeller geliştirmeye odaklanıyor ve bunu yaparken de daha fazla kaynak kullanıyor.’”
Hakan ayrıca DeepSeek’in çalışma modelinin diğer chatbotlardan farklı olduğunu da şu sözlerle anlattı:
“DeepSeek’in yükselişi, insan mantığına benzer şekilde görevleri adımlara bölen, daha az hesaplama gücü gerektiren ama daha fazla algoritmik inovasyon isteyen ‘akıl yürütme odaklı yapay zeka’ dönemine denk geliyor. Bu, geleneksel ‘büyük olan daha iyidir’ paradigmasını sarsıyor.”
“ŞİFRELEME VE ERİŞİM KONTROLLERİ ÖNE ÇIKIYOR”
DeepSeek’in veri güvenliği ve siber saldırıları karşı önlemleri konusunda Hakan, “ChatGPT ne kadar güvenli ise DeekSeek de o kadar güvenli’’ olduğunu belirterek şunları söyledi:
Buna ek olarak DeepSeek, Çin’deki sunucularında saklanan kullanıcı verilerini korumak için çeşitli yöntemler kullandığını açıkladı. Bu önlemler arasında şifreleme ve erişim kontrolleri öne çıkıyor. Platform, gerçek zamanlı olarak güvenlik açıklarını izlemek için yine yapay zeka tabanlı sistemler kullanıyor. Modelleri, milyonlarca uç noktayı tarayarak istismar edilebilir zayıflıkları tespit edebiliyor ve bu da tehditleri tespit etme ve yanıt verme süresini önemli ölçüde azaltıyor.
Yakın zamanda yaşanan bir siber saldırın ardından DeepSeek, kullanıcılarına oltalama girişimleri ve kimlik avı dolandırıcılıklarına karşı dikkatli olmaları konusunda uyarıda bulundu mesela. Ama verileriniz sizde kalmadığı sürece güvenliklerinden emin olmak çok zor.”
“ŞEFFAFLIK VE YENİLİKÇİLİK KÜLTÜRÜNÜ DESTEKLİYORLAR”
DeepSeek’in diğer yapay zeka toplulukları ile etkileşimi ve açık kaynak kullanmasının neden önemli olduğu sorusu üzerine Hakan, şöyle konuştu:
“DeepSeek, modellerini açık kaynak olarak topluluğa sunmasıyla yapay zeka topluluklarıyla iş birliği yapmaya büyük bir önem verdiğini gösteriyor. DeepSeek-V3 ve DeepSeek-R1 gibi tüm modellerini MIT Lisansı altında açık kaynak olarak yayınlaması, dünya çapındaki araştırmacıların ve geliştiricilerin bu modellere erişmesine, değiştirmesine ve üzerine inşa etmesine olanak tanıyor, böylece şeffaflık ve yenilikçilik kültürünü destekliyorlar. Modellerini açık kaynak yaparak DeepSeek, topluluk odaklı geliştirmeyi ve incelemeyi teşvik ediyor.”
“PROBLEMLERİNİN ÇÖZÜMÜNDE DEVRİM YARATABİLİR”
Yapay zekanın geleceğine ilişkin öngörülerde bulunmanın zor olduğunu söyleyen Hakan, şunları kaydetti:
“Üretken yapay zekanın bir sonraki aşaması sohbet robotlarının basit metin üretiminin çok ötesine geçecek gibi görünüyor. En önemli gelişme alanlarından biri, sistemlerin doğal dil anlama ve bağlamsal kavrama yeteneklerinde beklenen ilerlemeler olacak. Bu sistemler, insan dilinin sadece kelimelerini değil, tonlamasını, ima edilen anlamlarını ve kültürel bağlamını da daha iyi anlayabilecek seviyeye gelecek.
Mantık yürütme yetenekleri de önemli bir sıçrama noktası olarak karşımıza çıkıyor. Gelecek nesil yapay zeka sistemleri, karmaşık problemleri parçalara ayırıp analiz edebilecek, farklı kaynaklardan gelen bilgileri sentezleyebilecek ve tutarlı, mantıklı sonuçlar üretebilecek. Bu özellikle bilimsel araştırma, tıbbi teşhis ve karmaşık mühendislik problemlerinin çözümünde devrim yaratabilir.
Bu gelişmelerin günlük hayatımıza etkileri muhtemelen çok derin olacak. İş dünyasında, rutin görevlerin otomasyonu hızlanacak. Örneğin, sağlık sektöründe, hastalıkların erken teşhisi ve tedavi planlaması çok daha isabetli hale gelecek. Yapay zeka sistemleri, büyük miktarda tıbbi veriyi analiz ederek, doktorlara daha doğru teşhis ve tedavi önerileri sunabilecek.”