Η DeepSeek στοχεύει λανσάρισμα του V4 στα μέσα Ιουλίου με νέες τιμές API

Ερευνητές από το Πανεπιστήμιο Πεκίνου και τη DeepSeek κυκλοφόρησαν στις 27 Ιουνίου το DSpark, ένα ανοιχτού κώδικα πλαίσιο speculative decoding που επιταχύνει το inference μεγάλων γλωσσικών μοντέλων κατά 60 έως 85 τοις εκατό ανά χρήστη σε συστήματα παραγωγής, σηματοδοτώντας την πρώτη σημαντική τεχνική κυκλοφορία του κινεζικού εργαστηρίου τεχνητής νοημοσύνης από τον γύρο χρηματοδότησης των 7 δισεκατομμυρίων δολαρίων.

Published 28 Ιουνίου 2026Last Modified 29 Ιουνίου 20263 min readΤεχνητή Νοημοσύνη

Πώς Λειτουργεί το DSpark

Η κερδοσκοπική αποκωδικοποίηση (speculative decoding) χωρίζει τη δημιουργία κειμένου σε δύο ρόλους: ένα μικρό, γρήγορο μοντέλο πρόχειρων προτάσεων προτείνει μια δέσμη tokens, και το πλήρες μοντέλο-στόχος επαληθεύει τη δέσμη αυτή σε ένα μοναδικό forward pass, διατηρώντας όλα τα tokens με τα οποία συμφωνεί. Το DSpark βελτιώνει τις προηγούμενες προσεγγίσεις με δύο προσθήκες. Πρώτον, αντί να εκπαιδεύει ένα ξεχωριστό μοντέλο πρόχειρων προτάσεων από μηδενική βάση, ενσωματώνει μια ελαφριά κερδοσκοπική κεφαλή (speculative head) απευθείας στο υπάρχον checkpoint του μοντέλου — πράγμα που σημαίνει ότι η ποιότητα εξόδου του βασικού μοντέλου παραμένει αναλλοίωτη. Δεύτερον, ένα σύστημα βαθμολόγησης εμπιστοσύνης αποδίδει σε κάθε token πρόχειρης πρότασης μια πιθανότητα να επιβιώσει από την επαλήθευση, ενώ ένας χρονοδρομολογητής (scheduler) με επίγνωση του υλικού προσαρμόζει τον αριθμό των tokens που ελέγχονται ανάλογα με τον τρέχοντα φόρτο της GPU. Όταν η κίνηση είναι χαμηλή, το σύστημα επαληθεύει μεγαλύτερες ακολουθίες εικασιών· όταν η κίνηση είναι έντονη, απορρίπτει τα tokens χαμηλής εμπιστοσύνης πριν αυτά καταναλώσουν υπολογιστικούς πόρους.

Απόδοση και Συμβατότητα

Στο διαδικτυακό περιβάλλον παραγωγής της DeepSeek, που εξυπηρετεί πραγματική κίνηση χρηστών, το DSpark επέτυχε ταχύτερη δημιουργία κειμένου για έναν χρήστη κατά 60 έως 85 τοις εκατό στο V4-Flash και κατά 57 έως 78 τοις εκατό στο V4-Pro σε σύγκριση με τη βάση MTP-1 που χρησιμοποιούσε προηγουμένως η DeepSeek. Υπό ορισμένες συνθήκες καθυστέρησης, τα κέρδη σε απόδοση έφτασαν έως και 661 τοις εκατό στο Flash και 406 τοις εκατό στο Pro. Τα offline benchmarks έδειξαν αύξηση του μήκους αποδεκτών token κατά 26 έως 31 τοις εκατό σε σχέση με το Eagle3 και κατά 16 έως 18 τοις εκατό σε σχέση με το DFlash.

Το πλαίσιο είναι αγνωστικιστικό ως προς το μοντέλο. Η DeepSeek απέδειξε συμβατότητα με τα checkpoints Qwen3 της και Gemma της της Google. Παράλληλα με το DSpark, η ομάδα δημοσίευσε ως ανοιχτό κώδικα το DeepSpec, μια ολοκληρωμένη βάση κώδικα για την εκπαίδευση και αξιολόγηση drafters αποκωδικοποίησης με εικασία, όλα υπό άδεια MIT στο GitHub.

Ευρύτερο Πλαίσιο

Η κυκλοφορία έρχεται καθώς η DeepSeek ετοιμάζεται να λανσάρει επίσημα το μοντέλο V4 στα μέσα Ιουλίου, με νέο μηχανισμό τιμολόγησης API για ώρες αιχμής και εκτός αιχμής. Το DSpark είναι ήδη πλήρως αναπτυγμένο σε όλες τις διαδικτυακές υπηρεσίες της DeepSeek, μειώνοντας την σπατάλη υπολογιστικής ισχύος GPU από μη έγκυρες επαληθεύσεις, διατηρώντας παράλληλα την ποιότητα εξόδου ταυτόσημη με αυτή του βασικού μοντέλου. Ο ιδρυτής της DeepSeek, Liang Wenfeng, συν-συγγραφέας της συνοδευτικής επιστημονικής εργασίας, με τίτλο «DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation.»

Deepseek