GPT-5.2: Ini adalah model baru yang akan digunakan OpenAI untuk merebut kembali posisi yang telah hilang.

  • Peluncuran GPT-5.2 yang dipercepat menyusul kemajuan Gemini 3 dari Google dan deklarasi "kode merah" internal dari OpenAI.
  • Tiga varian utama (Instan, Berpikir, dan Pro) yang ditujukan untuk berbagai tingkat kecepatan, penalaran, dan akurasi profesional.
  • Peningkatan yang signifikan dalam penalaran, pengkodean, penanganan konteks panjang, penglihatan, dan penggunaan alat, dengan hasil yang unggul dalam berbagai tolok ukur.
  • Penyebaran bertahap untuk pengguna berbayar dan melalui API, dengan harga lebih tinggi daripada GPT-5.1 tetapi ditujukan untuk penggunaan bisnis yang intensif.

GPT-5.2

Perlombaan untuk memimpin kecerdasan buatan generatif Ketegangan semakin meningkat dalam beberapa minggu terakhir. Setelah Peluncuran Gemini 3 OpenAI milik Google telah memutuskan untuk bergerak cepat dan unggul di depan. kedatangan GPT-5.2, versi terbaru dari model andalannya, bertujuan untuk memperkuat kinerja ChatGPT dalam tugas-tugas kompleks, meningkatkan stabilitas, dan mengurangi kesalahan dalam penggunaan sehari-hari.

Peluncuran ini bukan dimaksudkan sebagai lompatan radikal, melainkan sebagai pembaruan signifikan dalam seri 5. Namun, kombinasi dari percepatan implementasi, perubahan pada peta jalan internal dan fokus yang lebih agresif pada penalaran dan produktivitas tempat kerja menempatkan GPT-5.2 di jantung strategi OpenAI untuk menghindari kehilangan posisi dibandingkan Google, Anthropic, dan Pencarian Mendalam v3.2, aktor-aktor lain yang telah menempatkan diri mereka di puncak peringkat teknis.

Kode merah di OpenAI dan rilis awal: GPT-5.2

Keputusan untuk mempercepat peluncuran GPT-5.2 didasarkan pada konteks tekanan kompetitif maksimumPenerimaan positif terhadap Gemini 3—terutama dalam tes penalaran dan pengkodean tingkat lanjut—mendorong OpenAI untuk mengaktifkan "kode merah" secara internal. Sam Altman, CEO perusahaan, mengirimkan memo yang meminta agar sumber daya difokuskan pada peningkatan ChatGPT dan inisiatif sekunder, seperti eksperimen monetisasi tertentu dan fitur-fitur yang kurang prioritas di platform, ditunda.

Menurut berbagai bocoran, pembaruan tersebut awalnya dijadwalkan pada akhir Desember, tetapi manajemen dilaporkan memutuskan mempercepat peluncurannya beberapa minggu untuk menutup kesenjangan kinerja dan persepsi publik yang diciptakan oleh model terbaru Google. Meskipun tanggal pastinya selalu bergantung pada kemungkinan penyesuaian teknis di menit-menit terakhir, sumber-sumber sepakat bahwa jadwal internal telah dipersingkat sehingga GPT-5.2 dapat menjangkau pengguna berbayar dan pengembang sesegera mungkin.

Perkembangan ini mengingatkan kita, meskipun dalam skala yang berbeda, pada kejadian tahun 2022, ketika peluncuran ChatGPT memaksa Google untuk mempercepat peta jalan produknya sendiri. Kini peran telah berbalik, dan OpenAI-lah yang mencoba untuk... menegaskan kembali posisinya sebagai tolok ukur di pasar di mana peringkat kinerja dan alat perbandingan model berubah hampir setiap hari.

GPT-5.2, sebuah evolusi dalam seri 5 yang berfokus pada pekerjaan berbasis pengetahuan.

GPT-5.2 dipresentasikan sebagai kelanjutan langsung dari GPT-5.1, bukan generasi yang sepenuhnya baru. Meskipun demikian, perusahaan bersikeras bahwa pembaruan ini merupakan kemajuan signifikan bagi apa yang disebut pekerjaan pengetahuan: pemrograman, analisis dokumen, pemodelan keuangan, penelitian ilmiah, atau penyusunan laporan kompleks.

OpenAI mengklaim bahwa model tersebut mengelola konteks panjangHal ini mengurangi kesalahan penalaran dan meningkatkan kemampuan untuk mengoordinasikan rangkaian tindakan dan alat eksternal. Kombinasi ini sangat penting untuk tugas-tugas yang melampaui sekadar menjawab pertanyaan sederhana, seperti proyek multi-tahap, tinjauan dokumen yang ekstensif, atau otomatisasi sebagian alur kerja bisnis.

Dalam praktiknya, GPT-5.2 menjanjikan kemajuan dalam pembuatan spreadsheet terperinci, presentasi terstruktur, diagram operasional, dan dokumentasi teknis.dengan tujuan untuk memungkinkan perusahaan mendelegasikan lebih banyak pekerjaan "praktis" kepada model tanpa membuang banyak waktu untuk mengoreksi dan menulis ulang.

Tiga varian: Instan, Berpikir, dan Profesional

Keluarga GPT-5.2 yang baru diorganisasikan menjadi tiga lapisan penggunaan yang berbedadengan tujuan menyesuaikan model tersebut dengan kebutuhan dan tingkat biaya yang berbeda:

  • GPT-5.2 InstanVersi ini memprioritaskan kecepatan dan dirancang untuk kueri sehari-hari, penulisan umum, penerjemahan, pengambilan informasi, dan tugas-tugas di mana waktu respons lebih penting daripada penalaran mendalam. Varian ini juga memiliki keunggulan berupa penjelasan yang lebih stabil dan lebih sedikit kesalahan dibandingkan versi sebelumnya.
  • Berpikir GPT-5.2: adalah versi yang ditujukan untuk penalaran bertahap dan penanganan dokumen yang ekstensifPerusahaan ini mengkhususkan diri dalam pemrograman kompleks, analisis data, tugas matematika tingkat lanjut, pemodelan keuangan, peninjauan kontrak, dan perencanaan proyek jangka panjang. Di sinilah OpenAI memfokuskan sebagian besar peningkatannya dalam hal konsistensi dan penggunaan alat-alat terintegrasi.
  • GPT-5.2 ProProduk ini diposisikan di kelas atas untuk penggunaan yang sangat menuntut, dengan fokus pada presisi setinggi mungkin dalam batasan teknologi saat ini. Ini adalah model yang ditujukan bagi mereka yang memprioritaskan kualitas penalaran daripada latensi dan bersedia menerima biaya komputasi yang lebih tinggiseperti tim penelitian dan pengembangan, kantor khusus, atau proyek ilmiah yang kompleks.

Segmentasi ini bertujuan lebih dari sekadar menawarkan "model yang lebih ampuh": segmentasi ini berupaya menyesuaikan katalog dengan profil pengguna yang berbeda, mulai dari pengguna yang menginginkan jawaban cepat di ChatGPT hingga perusahaan-perusahaan Eropa yang menerapkan agen internal pada data mereka sendiri melalui API.

Performa dalam benchmark GPT-5.2: penalaran, kode, dan sains.

OpenAI menyertai peluncuran ini dengan serangkaian data yang menempatkan GPT-5.2 berada di atas GPT-5.1 di hampir setiap kategori yang dipilihnya untuk dipublikasikan. Dalam penilaian seperti GDPval, yang membandingkan hasil model dengan para profesional manusia di 44 pekerjaan, GPT-5.2 meraih kemenangan atau hasil imbang di sekitar 70,9% kasus, dengan peningkatan signifikan dalam tugas-tugas yang melibatkan pembuatan presentasi, dokumen operasional, dan materi keuangan.

Tes khusus seperti GPQA Diamond—yang berfokus pada pertanyaan tingkat pascasarjana di bidang fisika, kimia, dan biologi—, GPT-5.2 Pro mencapai akurasi hampir 93%.Hal ini diikuti dengan varian Thinking, yang sedikit di bawah tetapi juga berada di sekitar ambang batas tersebut. Dalam matematika tingkat lanjut, skor model di FrontierMath (Tier 1-3) naik menjadi sedikit di atas 40%, angka yang masih jauh dari sempurna tetapi menunjukkan kemajuan yang stabil dalam kemampuan untuk mengikuti rantai logika yang panjang dan terstruktur.

Bagian pengkodean juga mengalami lompatan. Dalam SWE-Bench Pro, yang mengevaluasi penyelesaian insiden nyata di repositori perangkat lunak Dengan mengurangi risiko model telah melihat data sebelumnya, GPT-5.2 Thinking meningkatkan performanya beberapa poin dibandingkan pendahulunya, mencapai tingkat penyelesaian masalah sekitar 55,6%. Untuk tugas yang terverifikasi, angka ini meningkat hingga hampir 80%, yang dalam praktiknya berarti lebih sedikit intervensi manual untuk meninjau patch, melakukan refactoring, dan seluruh komponen.

Dengan melakukan evaluasi yang lebih teknis, seperti ARC-AGI (penalaran abstrak dan penemuan pola) atau serangkaian data sains dan pemrograman spesifik, model ini berada di atas GPT-5.1 dan, menurut grafik yang diterbitkan oleh OpenAI, di atas Gemini 3. Grok 4 Cepat dan Claude Opus 4.5 dalam beberapa tes penalaran yang kompleks. Jenis metrik ini, meskipun selalu dapat diperdebatkan dalam hal representativitasnya, merupakan salah satu argumen utama yang digunakan perusahaan untuk mencoba meningkatkan reputasinya. Meyakinkan investor dan klien utama bahwa kepemimpinan teknis para pesaing mereka, setidaknya, patut dipertanyakan.

Dampak pada tugas-tugas dunia nyata: keuangan, analisis dokumen, dan agen.

Di luar angka-angka tersebut, OpenAI menegaskan bahwa peningkatan tersebut terlihat jelas dalam hal: tugas harianDalam simulasi internal yang meniru tugas analis keuangan—seperti membangun model tiga negara bagian atau operasi pembelian dengan leverage—GPT-5.2 Thinking akan meningkat dari skor rata-rata mendekati 59% menjadi di atas 68%, mengurangi kesalahan perhitungan dan kebutuhan akan koreksi selanjutnya.

Perusahaan-perusahaan seperti Notion, Box, Shopify, Harvey, dan Triple Whale, yang sudah menggunakan model-model sebelumnya dari perusahaan tersebut, dilaporkan telah melihat kemajuan dalam hal ini. stabilitas agen berbasis alatHal ini menghasilkan koordinasi yang lebih baik antara beberapa panggilan API, langkah-langkah perantara yang lebih konsisten, dan lebih sedikit hambatan dalam alur yang panjang. Dalam beberapa kasus, menurut testimoni ini, dimungkinkan untuk mengganti arsitektur multi-agen yang rapuh dengan agen tunggal yang didukung oleh GPT-5.2, dengan lebih dari dua puluh alat yang terhubung dan kebutuhan pemantauan konstan yang lebih sedikit.

Bagi tim produk, dukungan, dan pengembangan di dalam organisasi-organisasi Eropa, jenis perubahan ini berarti kemungkinan untuk membangun asisten internal yang Mereka memproses kontrak yang panjang, laporan peraturan, atau dokumentasi teknis. tanpa kehilangan fokus setelah ratusan halaman atau banyak file terkait, sesuatu yang sangat relevan di sektor yang diatur seperti keuangan, perawatan kesehatan, atau energi.

Tampilan, antarmuka grafis, dan pemahaman dokumen panjang di GPT-5.2

Komponen multimodal juga mengalami kemajuan. Dalam penilaian seperti CharXiv Reasoning—yang berfokus pada angka-angka ilmiah—GPT-5.2 mengurangi separuh kesalahan interpretasi dibandingkan dengan GPT-5.1. Dalam ScreenSpot-Pro, sebuah tes yang mengukur kemampuan untuk memahami antarmuka grafis yang kompleksModel ini meningkatkan akurasinya hingga mendekati 86%, yang sangat berguna untuk membaca panel kontrol, dasbor, atau diagram perangkat lunak.

Terkait memori konteks, GPT-5.2 mendekati kinerja sempurna pada varian MRCRv2 di ratusan ribu token. Secara praktis, ini berarti ia dapat menangani sejumlah besar teks —mengkonsultasikan laporan, berkas, audit teknis, atau dokumentasi akademis— menjaga referensi internal dan konsistensi antar bagian, sesuatu yang oleh banyak organisasi Eropa dianggap sebagai syarat penting untuk mempercayakan proses sensitif kepada model AI.

Kombinasi antara peningkatan penglihatan dan kapasitas kontekstual yang lebih besar ini membuka pintu bagi penggunaan yang lebih ambisius, seperti: peninjauan bersama terhadap presentasi, spreadsheet, dan dokumen PDF. dalam alur yang sama, atau pemeriksaan antarmuka web dan alat internal untuk memfasilitasi dukungan teknis dan analisis kegunaan.

Kesalahan lebih sedikit, tetapi tetap membutuhkan pengawasan manusia.

Salah satu janji yang paling sering diulang oleh perusahaan adalah: pengurangan kesalahan dalam tanggapanOpenAI menyatakan bahwa GPT-5.2 Thinking menghasilkan sekitar 30% lebih sedikit respons yang salah dibandingkan GPT-5.1, dan secara keseluruhan tingkat respons dengan beberapa ketidakakuratan turun dari sekitar 8,8% menjadi sekitar 6,2%.

Meskipun demikian, perusahaan menekankan bahwa model tersebut tetap bersifat probabilistik dan bahwa satu pernyataan yang salah dapat memerlukan peninjauan manual terhadap seluruh output, terutama dalam konteks yang sensitif atau diatur. Itulah mengapa perusahaan bersikeras bahwa GPT-5.2 harus dipandang sebagai sebuah alat pendukung penalaranbukan sebagai pengganti penilaian manusia, terutama di bidang-bidang seperti kesehatan, keuangan, hukum, atau penelitian akademis.

Di area sensitif—misalnya, percakapan tentang kesehatan mental atau tekanan emosional—perusahaan tersebut mengklaim telah menyempurnakan kontrol untuk meminimalkan respons yang tidak tepatNamun, ia mengakui bahwa masih ada ruang untuk perbaikan. Pertimbangan ini sangat relevan di Eropa, di mana kerangka peraturan AI yang baru menambahkan kewajiban lebih lanjut terkait transparansi, keamanan, dan manajemen risiko.

Kontribusi pada karya ilmiah dan matematika

OpenAI juga menghadirkan GPT-5.2 sebagai alat yang dirancang untuk untuk mendorong pengembangan ilmiahPerusahaan menyatakan bahwa Seri 5 sudah memiliki aplikasi di bidang matematika, fisika, biologi, ilmu komputer, astronomi, dan ilmu material, dan dengan versi baru ini, kasus-kasus tersebut menjadi lebih konsisten.

Dalam GPQA Diamond, salah satu rangkaian tolok ukur untuk menilai pemahaman ilmiah tingkat lanjut, GPT-5.2 Pro dan Thinking memiliki akurasi melebihi 92%.Hasil ini ditafsirkan oleh perusahaan sebagai indikasi bahwa model tersebut dapat membantu para peneliti mengeksplorasi ide, meninjau literatur, atau membuat kerangka bukti. Dalam satu kasus yang terdokumentasi, GPT-5.2 Pro dilaporkan berkontribusi dalam mengatasi masalah terbuka dalam teori pembelajaran statistik, meskipun hal ini selalu tunduk pada verifikasi manusia selanjutnya.

Namun, OpenAI sendiri mengklarifikasi bahwa sistem-sistem ini harus dipahami sebagai asisten untuk fase eksplorasi dari pekerjaan ilmiah: berguna untuk menghasilkan dugaan, merumuskan kembali hipotesis atau menyarankan langkah-langkah perantara, tetapi tanpa menggantikan peran sentral para ahli dalam hal memvalidasi hasil, menafsirkan bukti, dan mengonteksualisasikan kesimpulan.

Penerapan di ChatGPT dan akses melalui API

GPT-5.2 mulai diterapkan secara bertahap di ChatGPT untuk pengguna berbayarIni termasuk paket Plus, Pro, Go, Business, dan Enterprise. Tidak semua pelanggan akan melihat model baru ini secara bersamaan, karena OpenAI lebih memilih untuk mengaktifkan akses secara bertahap untuk menghindari masalah kapasitas, yang mungkin akan terlihat di Eropa sebagai peluncuran bertahap selama beberapa hari.

Selama tiga bulan ke depan, GPT-5.1 akan tetap tersedia sebagai model lama di dalam ChatGPT sebelum akhirnya dihentikan, sehingga organisasi yang mengandalkan alur kerja yang sudah mapan dapat merencanakan transisi tanpa gangguan mendadak. Koeksistensi sementara ini memfasilitasi pengujian GPT-5.2 secara paralel dan penyesuaian perintah, kontrol internal, dan proses validasi.

Dalam API, nomenklatur mempertahankan korespondensi yang biasa: varian Instan muncul sebagai gpt-5.2-chat-terbaruVersi berpikir diidentifikasi sebagai gpt-5.2 dan Pro sebagai gpt-5.2-proPengembang dapat memodulasi tingkat penalaran dalam opsi Pro, dengan tingkat xhigh baru yang dirancang untuk proyek-proyek di mana kualitas rantai logika lebih penting daripada latensi atau biaya.

Harga, efisiensi GPT-5.2, dan fokus pada pelanggan perusahaan.

Secara ekonomi, GPT-5.2 hadir dengan biaya lebih tinggi per juta token GPT-5.1 dari OpenAI menetapkan harga dasar sekitar $1,75 per juta token input dan $14 per juta token output, dengan diskon 90% untuk input yang di-cache. Varian Proさらに meningkatkan biaya, dengan angka yang naik hingga beberapa ratus dolar per juta token output dalam konfigurasi penalaran yang paling menuntut.

Perusahaan tersebut berpendapat bahwa efisiensi model yang lebih tinggi memungkinkan pengurangan biaya efektif per tugas, terutama dalam skenario di mana GPT-5.2 membutuhkan waktu lebih singkat untuk sampai pada jawaban yang valid, memerlukan lebih sedikit percobaan ulang, dan membuat lebih sedikit kesalahan. lebih sedikit kesalahan yang memerlukan pengerjaan ulangMeskipun demikian, struktur harga tersebut jelas dirancang untuk penggunaan perusahaan dan pengembangan intensif, bukan untuk eksperimen sekali pakai.

Di ChatGPT, langganan Plus dan yang lebih tinggi mempertahankan tarif regulernya, mengalihkan sebagian besar biaya tambahan ke penggunaan API. Bagi banyak perusahaan Eropa yang sudah mengintegrasikan ChatGPT ke dalam intranet, alat produktivitas, atau asisten internal, ini bisa berarti... mengkalibrasi ulang anggaran dan memutuskan proses mana yang layak untuk dimigrasikan ke GPT-5.2 dan mana yang dapat terus berfungsi dengan model sebelumnya yang lebih ekonomis.

Infrastruktur, keamanan, dan tekanan regulasi

Penerapan GPT-5.2, seperti pada generasi sebelumnya, bergantung pada infrastruktur dari... Microsoft Azure dan GPU NVIDIA (termasuk keluarga H100, H200, dan GB200-NVL72). OpenAI telah berkomitmen melakukan investasi jutaan dolar dalam daya komputasi untuk mendukung model-model mutakhir ini, sebuah pertaruhan yang mengandung risiko finansial dan mengharuskan perusahaan untuk terus mencari aliran pendapatan baru. Mereka juga sedang menjajaki model pembobotan terbuka seperti... GPT OSS.

Secara paralel, perusahaan tersebut memperkenalkan langkah-langkah tambahan terkait hal ini. keselamatan dan perlindungan anak di bawah umurSalah satu langkah yang paling mencolok adalah penerapan sistem yang mampu memperkirakan usia pengguna, dengan tujuan menyesuaikan respons ChatGPT untuk mereka yang berusia di bawah 18 tahun dan membuka jalan bagi "mode dewasa" di masa depan dengan kontrol yang lebih baik. Mekanisme semacam ini selaras dengan persyaratan peraturan yang semakin banyak diterapkan baik di Uni Eropa maupun di Amerika Serikat.

OpenAI mengakui bahwa sistemnya terkadang terlalu negatif, artinya sistem tersebut menolak permintaan yang belum tentu melanggar kebijakan, dan menyatakan bahwa mereka sedang berupaya untuk memperbaikinya. keseimbangan yang lebih baik antara keamanan dan kegunaanPerusahaan juga menegaskan bahwa setiap perubahan relevan terhadap ketersediaan versi sebelumnya—seperti GPT-5.1, GPT-5, atau GPT-4.1 dalam API—akan diumumkan jauh-jauh hari sebelumnya, sebagai tanda keberlanjutan bagi pelanggan yang masih mengandalkan model-model tersebut.

GPT-5.2 disajikan sebagai pembaruan siklus yang berupaya menggabungkan peningkatan penalaran, kecepatan, dan stabilitas dengan strategi yang lebih berfokus pada penggunaan profesional dan perusahaan. Jika peningkatan dalam pengkodean, ilmu pengetahuan, analisis dokumen, dan penanganan konteks yang luas dikonsolidasikan dalam praktik sehari-hari, model ini dapat menjadi alat yang relevan bagi organisasi-organisasi Eropa yang mencari mengotomatiskan sebagian dari proses mereka tanpa mengabaikan kontrol manusia yang ketat.Masih perlu dilihat sejauh mana janji-janji ini akan diterjemahkan menjadi perubahan nyata dalam produktivitas dan dalam cara kita bekerja dengan kecerdasan buatan dalam beberapa bulan mendatang.

Pencarian Dalam-V3.2
Artikel terkait:
DeepSeek-V3.2: model Tiongkok yang ingin bersaing dengan GPT-5 dan Gemini-3 Pro