
DeepSeek-V3.2-Kadaluarsa telah tiba sebagai iterasi eksperimental yang berfokus pada efisiensi dalam skala besar dan konteks panjang, dengan anggukan yang jelas kepada komunitas: sumber terbuka, kernel yang diterbitkan, dan API yang lebih murah.
Di luar kebisingan, kuncinya adalah model ini, berdasarkan V3.1-Terminus, meluncurkan mekanisme sparse attention berbutir halus yang disebut DeepSeek Sparse Attention (DSA) yang mempercepat pelatihan dan inferensi sambil tetap menjaga kualitas. Perusahaan ini telah meluncurkannya di Aplikasi, Web, dan API, dan telah memotong harga penggunaan lebih dari 50%, sebuah langkah agresif yang, sejujurnya, menekan persaingan.
Fitur baru utama DeepSeek-V3.2-Exp
Inovasi bintangnya adalah DSA, yang memungkinkan perhatian yang selektif pada bagian-bagian konteks yang relevan tanpa menelusuri keseluruhan urutan secara menyeluruh. Menurut perusahaan itu sendiri, dampaknya terhadap kualitas sangat rendah, sementara peningkatan efisiensi dalam konteks panjang, hal itu nyata.
Dalam ketersediaan, model ini beroperasi di aplikasi, web dan API sejak hari pertama, disertai dengan penurunan harga yang signifikan (50%+) untuk memudahkan pengujian dan adopsi. Bagi mereka yang ingin membandingkan, DeepSeek mempertahankan titik akhir sementara dari V3.1-Terminus hingga 15 Oktober 2025 pukul 15:59 UTC.
Performa dan tolok ukur DeepSeek-V3.2-Exp: paritas dengan V3.1-Terminus
DeepSeek telah mencari keseimbangan dengan V3.1-Terminus pada berbagai macam tes, untuk mengisolasi secara tepat efek dari gangguan perhatian. Dalam praktiknya, hal ini menghasilkan metrik yang sebanding dalam penalaran, coding dan penggunaan alat jenis agen.
Berbagai sumber memberikan angka yang membantu menetapkan ekspektasi: V3.2-Exp digambarkan sebagai model dengan 685 miliar parameter dan kinerja yang serupa atau dengan sedikit variasi tergantung pada domainnya. Dalam penalaran tanpa alat, angka seperti 85.0 dikutip MMLU-Pro dan 89.3 di TUJUAN 2025; dalam skenario agen, 40.1 muncul di TelusuriComp dan 67.8 di SWE TerverifikasiIni adalah hasil yang sesuai dengan narasi resmi memvalidasi efisiensi daripada mengejar lompatan besar dalam akurasi.
Bahkan ada perbandingan yang bagus: dalam tugas pengkodean, peningkatan 2121 dalam Codeforces dibandingkan dengan 2046, sementara dalam pengujian yang lebih humanis, sedikit penurunan diamati (misalnya, 19.8 dibandingkan dengan 21.7 dalam Ujian Terakhir Kemanusiaan). Secara keseluruhan, tabel tersebut menunjukkan menyeimbangkan: perbaikan spesifik dan konsesi kecil, dengan kecepatan sebagai fokus utama.
DSA: Perhatian yang tersebar dan berbutir halus, diceritakan dengan jelas
Perawatan klasik menjadi mahal dengan konteks yang luas; DSA Meminimalkan pekerjaan yang kontribusinya kecil. Dengan menerapkan kelangkaan dengan kontrol yang sangat teliti, model ini memusatkan komputasi di tempat yang benar-benar menemukan sinyal, sehingga meningkatkan latensi dan mengurangi konsumsi, tanpa mengganggu hasil produksi.
Pada tingkat pengalaman nyata, hal ini terlihat pada tugas-tugas yang memerlukan banyak konteks: ringkasan dokumen yang panjang, analisis log, agen yang berdialog panjang, atau alur kerja yang menggabungkan pengambilan dan pembuatan. Di sana, Efisiensi Itu bukan kemewahan: itu perbedaan antara sesuatu yang dapat digunakan dalam skala besar atau tidak.
Ketersediaan, harga, dan perbandingan DeepSeek-V3.2-Exp
DeepSeek telah mengumumkan bahwa V3.2-Exp sekarang tersedia di Aplikasi, Web, dan APISelain itu, harga API juga telah dipotong lebih dari 50% dengan segera, sebuah keputusan yang bertujuan untuk memperluas adopsi dan mendorong tes perbandingan.
Bagi mereka yang ingin membandingkan dengan model sebelumnya, V3.1-Terminus dipertahankan dalam titik akhir sementara sampai 15/10/2025 pukul 15:59 (UTC). Perusahaan juga mengundang kiriman umpan balik melalui formulir publik, memperkuat dinamika perbaikan berkelanjutan dengan komunitas.
Status sumber terbuka: bobot, laporan teknis, dan kernel
DeepSeek menerbitkan model di Hugging Face, bersama dengan laporan teknikal yang mendokumentasikan perubahan dan hasil. Ada komitmen yang jelas terhadap transparansi dan untuk mempromosikan penelitian terapan jangka panjang dengan biaya lebih rendah.
Pada tingkat kernel, ada dua cara: TileLang untuk membaca dan membuat prototipe lebih mudah diakses, dan CUDA untuk kinerja maksimal. Kernel indeks Logit (termasuk varian halaman) ada di DeepGEMM, sementara yang mendapat perhatian yang tersebar diterbitkan di Bahasa Indonesia: FlashMLAPemisahan ini memudahkan masyarakat yang berorientasi pada penelitian dan produksi untuk menemukan kecocokannya.
Eksekusi lokal DeepSeek-V3.2-Exp dan demo inferensi
DeepSeek menawarkan repositori kesimpulan dengan demo terbaru untuk memulai dengan cepat dan memeriksa arsitekturnya. Langkah pertama adalah mengonversi bobot Hugging Face ke format yang diharapkan oleh demo, menentukan jumlah pakar dan paralelisme model.
Contoh perintah untuk konversi dan pembuatan interaktif (atur EXPERTS=256 dan MP ke jumlah GPU): bisa digunakan apa adanya dalam lingkungan yang telah dipersiapkan.
cd inferensi ekspor AHLI=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --simpan-path ${SAVE_PATH} --n-ahli ${AHLI} --model-paralel ${MP} ekspor KONFIG=config_671B_v3.2.json torchrun --nproc-per-simpul ${MP} generate.py --ckpt-path ${SAVE_PATH} --konfigurasi ${KONFIG} --interaktif
Bagi yang lebih suka SGLang, terdapat gambar yang telah disiapkan dan perintah boot. Dukungan mencakup GPU NVIDIA (H200), AMD (MI350), dan NPU tertentu, dengan tag tertentu.
# H200 docker tarik lmsysorg/sglang:dsv32 # MI350 docker tarik lmsysorg/sglang:dsv32-rocm # NPU docker tarik lmsysorg/sglang:dsv32-a2 docker tarik lmsysorg/sglang:dsv32-a3 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64
Jika Anda suka vLLM, mendapat dukungan sejak hari pertama. Disarankan untuk meninjau resep resmi untuk parameter terkini dan pengoptimalan oleh perangkat keras.
API: Titik Akhir, Kompatibilitas, dan Kedaluwarsa
API dari Pencarian Mendalam mengikuti konvensi standar dan kompatibel dengan SDK populer. Secara default, menggunakan URL dasar https://api.deepseek.com Anda menargetkan V3.2-Exp, yang menyederhanakan integrasi awal dan akses ke tarif berkurang.
Untuk pembandingan, ada titik akhir sementara untuk V3.1-Terminus: https://api.deepseek.com/v3.1_terminus_expires_on_20251015. Ingat tanggal dan waktu kedaluwarsa (15 Oktober 2025, 15:59 UTC) untuk merencanakan Benchmark.
Selain itu, ada kompatibilitas dengan ekosistem AntropikAnda dapat menggunakan alasnya https://api.deepseek.com/anthropic untuk interaksi gaya Claude, atau varian yang terkait dengan titik akhir sementara jika Anda perlu membandingkan dengan model sebelumnya.
Otentikasi dan manajemen kunci
Permintaan diautentikasi oleh Pembawa di header Otorisasi. Buat kunci Anda dari dasbor DeepSeek dan simpan dengan aman, misalnya, di variabel lingkungan atau pengelola berkas. rahasia sebagai AWS Secrets Manager.
Panel menunjukkan penggunaan dan penagihan untuk mengontrol konsumsi token. Meskipun harga telah turun, disarankan untuk menerapkan pembatasan tarif dan rotasi kunci berkala pada komputer, selain mencabut izin apa pun kunci yang dikompromikan Tanpa penundaan.
Penyelesaian obrolan, templat, dan permintaan dasar
Titik akhir pusat adalah /obrolan/penyelesaian, yang memproses dialog multi-putaran dan mempertahankan konteks antar panggilan, skenario ideal untuk kekuatan konteks panjang V3.2-Exp. Ada dua mode model yang umum: obrolan pencarian mendalam y penalaran mendalam.
Badan permintaan sederhana mungkin terlihat seperti ini, menggunakan JSON yang lolos (direpresentasikan di sini sebagai " untuk kejelasan): termasuk prompt sistem dan prompt pengguna.
{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "Anda adalah pakar teknis." }, { "role": "user", "content": "Jelaskan perhatian yang jarang." } ], "stream": false }
Ketika Anda ingin jawaban secara real-time, aktifkan aliran=benarHeader harus menyertakan Tipe-Konten: application/json dan token Otorisasi: Bearer ${DEEPSEEK_API_KEY}. Jika Anda menggunakan penalaran eksplisit, Anda dapat mengontrol perilakunya dengan tanda penalaran.diaktifkan.
Struktur respons dan streaming SSE
Respons non-streaming mencakup bidang-bidang seperti id, objek, dibuat, model, pilihan, dan penggunaan. Dalam pilihan, Anda akan menemukan konten yang dihasilkan (peran: "asisten"), dan dalam penggunaan, detail token_prompt, complete_tokens dan total_tokens.
Dalam mode streaming, API mengirimkan Acara yang Dikirim ServerSetiap fragmen tiba sebagai peristiwa data dengan delta yang harus Anda kumpulkan. Ini adalah pilihan ideal untuk interface interaktif atau terminal dengan keluaran tambahan.
Pemanggilan fungsi dan keluaran dalam JSON yang ketat
Anda dapat menentukan alat Jadi, model tersebut memutuskan kapan harus memanggil suatu fungsi, misalnya, untuk mengambil data atau menjalankan tindakan. Hal ini sangat sesuai dengan alur dan integrasi agen. backend.
Jika Anda membutuhkan keluaran terstruktur, paksa mode JSON menggunakan response_format. Ini berguna untuk ekstraksi data atau validasi otomatis dalam jaringan pipa.
Contoh Python dengan SDK bergaya OpenAI
Dengan Python, kurva input sangat halus. Atur api_base seperti DeepSeek, tentukan kunci dan luncurkan permintaan; Anda dapat beralih antara mode standar dan streaming tergantung pada kasus penggunaan Anda.
Bahasa Indonesia: impor openai openai.api_base = "https://api.deepseek.com" openai.api_key = "kunci_api_Anda_di_sini" respons = openai.ChatCompletion.create( model="deepseek-chat", pesan=[ {"peran": "sistem", "konten": "Anda adalah asisten pengkodean."}, {"peran": "pengguna", "konten": "Tulis fungsi Python untuk menghitung angka Fibonacci."} ], aliran=Salah ) cetak(respons.pilihan[0].pesan.konten) # Aliran streaming = openai.ChatCompletion.create(model="deepseek-chat", pesan=[...], aliran=Benar) untuk potongan dalam aliran: jika potongan.pilihan[0].delta.konten bukan None: cetak(potongan.pilihan[0].delta.konten, akhir="") # Pemanggilan fungsi (definisi alat) alat = [ { "jenis": "fungsi", "fungsi": { "nama": "dapatkan_cuaca", "description": "Dapatkan cuaca terkini", "parameter": { "type": "object", "properties": { "location": {"type": "string"} }, "required": [ "location" ] } } } ]
Untuk keluaran JSON yang ketat, atur format_respons {"type": "json_object"}. Dan jika Anda akan melakukan dialog yang panjang, ingatlah untuk pergi mempersempit konteks untuk menjaga Anda dalam batasan dan memaksimalkan efisiensi.
Integrasi dengan Apidog
Apidog mempercepat pembuatan prototipe Panggilan balik: Impor spesifikasi, simpan variabel lingkungan (seperti kunci), buat POST, dan uji secara langsung. Simulator responsnya memudahkan pengujian kasus ekstrem tanpa biaya tambahan. token.
Ini juga menghasilkan potongan kode dalam berbagai idiom dan menawarkan tampilan linimasa untuk men-debug autentikasi atau parameter. Karena V3.2-Exp menangani konteks yang luas, Apidog adalah cara yang bagus untuk bereksperimen dengan perintah panjang dan melihat kinerjanya.
Praktik baik untuk mendapatkan hasil maksimal
Tentukan perintah sistem jelas dan ringkas yang membatasi perilaku. Untuk masalah yang kompleks, mode penalaran dapat membantu, menggabungkannya dengan teknik penataan pikiran yang sesuai dengan kasus Anda.
Kelola kontekso dengan kepala: Meskipun V3.2-Exp menoleransi konteks panjang (kasus hingga 128K dikutip), riwayat yang berlebihan dapat menghambat efisiensi. Ini menerapkan pemotongan cerdas, tersembunyi untuk kueri yang sering dan berkelompok bila masuk akal.
Dalam keamanan, ia membersihkan input untuk mencegah injeksi cepat dan mencatat interaksi untuk AuditSesuaikan suhu dan top_p sesuai tujuan Anda: nilai rendah untuk determinisme, nilai tinggi untuk kreativitas.
Lakukan pengujian A/B antara obrolan pencarian mendalam y penalaran mendalam untuk memilih mode optimal. Dan ingat batas kecepatan untuk menghindari kejutan di penagihan.
Perbandingan dengan V3.1-Terminus
Pengenalan DSA membawa perbaikan dalam latensi yang, dalam beberapa skenario, mendekati kecepatan 3x tanpa mengorbankan paritas kualitas secara keseluruhan. Ini adalah evolusi yang berfokus pada hubungan daya/efisiensi lebih dari sekadar catatan akurasi.
Peningkatan kecil dalam pengkodean dan sedikit penurunan dalam domain humaniora mencerminkan penyempurnaan model yang, berdasarkan desainnya, eksperimentalTitik akhir temporal V3.1 memungkinkan perbandingan langsung yang menunjukkan perolehan DSA dalam jangka panjang.
Penerapan lokal tingkat lanjut
Untuk penerapan yang sensitif terhadap privasi atau offline, unduh peso dari Hugging Face dan menggunakan skrip konversi resmi adalah cara yang tepat. Atur jumlah pakar (misalnya 256) dan sesuaikan paralelisme model dengan kebutuhan Anda. GPU.
Demo inferensi memungkinkan pengujian dalam mode interaktif, dan kernel di UbinLang atau CUDA akan membantu Anda menekan kinerja sesuai prioritas: kecepatan pembuatan prototipe atau throughput maksimum dalam produksi.
Kernel terbuka dan kinerja
TileLang memprioritaskan keterbacaan dan desain untuk riset, sehingga Anda dapat dengan cepat mengulangi ide-ide baru. Sempurna jika Anda sedang mengeksplorasi varian perawatan. tersebar atau pengoptimalan memori.
Untuk menekan setiap milidetik, kernel CUDA ikut berperan: indeks logit (dengan versi halaman) ada di DeepGEMM, sementara mereka yang perhatiannya terpencar hidup di Bahasa Indonesia: FlashMLASegmentasi ini memungkinkan setiap tim untuk memilih tumpukan optimal tanpa mengulang pekerjaan.
Lisensi DeepSeek-V3.2-Exp, Janji Temu dan Kontak
Repositori dan peso Model ini diterbitkan di bawah lisensi MIT. Hal ini membuka pintu bagi penggunaan komersial dengan fleksibilitas tinggi, mendorong adopsi dan inovasi dalam ekosistem.
Untuk merujuk V3.2-Exp dalam pekerjaan, DeepSeek menyediakan entri janji temu bertipe @misc dengan judul «DeepSeek-V3.2-Exp: Meningkatkan Efisiensi Konteks Panjang dengan DeepSeek Sparse Attention» dan kepengarangan «DeepSeek-AI» (tahun 2025). Untuk pertanyaan atau insiden, hubungi email kontak layanan@deepseek.com.
Sumber daya resmi dan tautan bermanfaat tentang DeepSeek-V3.2-Exp
Jika Anda ingin mengunduh modelnya, Anda memilikinya di Wajah MemelukWhitepaper ada di GitHub, beserta detail implementasi dan evaluasi.
Untuk tes perbandingan antara V3.2-Exp dan V3.1-Terminus, lihat Panduan resmiDan jika Anda ingin mengirim saran, Anda memiliki saluran umpan balik publik di https://feedback.deepseek.com/dsa.
Dengan V3.2-Exp, DeepSeek mengutamakan ide sederhana: efisiensi tanpa mengorbankan kualitasDSA membuka jalan bagi model yang mendukung konteks besar-besaran dengan biaya yang wajar, API yang efisien menghadirkan kemampuan ini ke lebih banyak tim, dan keterbukaan tumpukan (bobot, kernel, dan dokumentasi) memudahkan komunitas untuk meneliti, membandingkan, dan membangun produk nyata tanpa hambatan.