Table des matières
Table des matières
Qu'est-ce que PHI-4-MINI?
Aperçu de l'architecture
Caractéristiques clés
Qu'est-ce que O1-Mini?
Comparaison du modèle: PHI-4-MINI VS O1-MINI
Évaluation de la performance du raisonnement
PHI-4-MINI et O1-MINI VS MODÈLES plus grands
Comparaisons de référence
PHI-4-MINI VS O1-MINI: Capacités de raisonnement et de codage
Tâche 1: Analyser les relations de l'ordre de construction
Entrée à O1-MinI
Réponse de O1-MinI
Entrée à Phi 4-Mini
Réponse par Phi 4-Mini
Analyse comparative
Tâche 2: raisonnement logique en mathématiques
Tâche 3: Trouver la plus longue sous-chaîne
Analyse comparative globale
Conclusion
Questions fréquemment posées
Maison Périphériques technologiques IA PHI-4-MINI VS O1-MINI: Quel est le meilleur SLM?

PHI-4-MINI VS O1-MINI: Quel est le meilleur SLM?

Mar 21, 2025 am 10:06 AM

L'évolution des modèles d'IA a atteint de nouveaux sommets, en particulier dans les modèles de petits langues (SLM), où l'efficacité et les performances sont essentielles. Parmi les derniers prétendants, PHI-4-Mini et O1-Mini se distinguent comme des modèles avancés et efficaces. Dans cet article, nous ferons une comparaison PHI-4 Mini vs O1-MINI pour consulter leur expérience utilisateur, leur vitesse et leurs performances sur les applications STEM et leurs tâches de codage. Nous évaluerons leurs forces en programmation, en débogage et en efficacité globale pour voir quel modèle fonctionne le mieux. À la fin, vous aurez une perspective claire sur le modèle s'aligne sur vos besoins.

Table des matières

  • Qu'est-ce que PHI-4-MINI?
  • Qu'est-ce que O1-Mini?
  • Comparaison du modèle: PHI-4-MINI VS O1-MINI
  • Évaluation de la performance du raisonnement
    • PHI-4-MINI et O1-MINI VS MODÈLES plus grands
  • PHI-4-MINI VS O1-MINI: Capacités de raisonnement et de codage
    • Tâche 1: Analyser les relations de l'ordre de construction
    • Tâche 2: raisonnement logique en mathématiques
    • Tâche 3: Trouver la plus longue sous-chaîne
    • Analyse comparative globale
  • Conclusion
  • Questions fréquemment posées

Qu'est-ce que PHI-4-MINI?

PHI-4-MINI est un SLM de pointe conçu pour les tâches de raisonnement et de codage haute performance. Il établit un équilibre entre l'efficacité et la précision, ce qui en fait un concurrent solide dans les applications axées sur l'IA. Le modèle est conçu pour la génération de texte à haute précision et les tâches de raisonnement complexes tout en étant efficaces sur le calcul, ce qui le rend bien adapté aux environnements informatiques Edge

Aperçu de l'architecture

PHI-4-MINI est un modèle de transformateur dense et décodeur avec 3,8 milliards de paramètres et une fenêtre de contexte de jeton 128K. Il prend en charge une taille de vocabulaire de 200 064 jetons et intègre l'attention groupée des requêtes (GQA) pour optimiser l'efficacité des ressources tout en conservant des performances élevées.

L'attention des requêtes groupées (GQA) est un mécanisme d'attention efficace qui équilibre la vitesse de l'attention multi-relery (MQA) avec la qualité de l'attention multi-tête (MHA) en regroupant les têtes de requête et en partageant des têtes de clés / valeur, en améliorant la vitesse d'inférence pour les modèles de langage

Caractéristiques clés

  • Entrée de sortie d'entrée partagée: réduit les frais généraux de mémoire en réutilisant les incorporations pour l'entrée et la sortie.
  • Données de formation: formées sur 5 billions de jetons, y compris le matériel éducatif de haute qualité, des exemples de codage et des données synthétiques adaptées au raisonnement.
  • Performance: excelle dans le raisonnement, les mathématiques, le codage et le suivi des instructions, avec la possibilité d'intégrer des API externes via l'appel de fonction.

Lire aussi: Face-off PHI-4 VS GPT-4O-MINI

Qu'est-ce que O1-Mini?

O1-Mini est un SLM léger et rentable visant à équilibrer l'abordabilité et les performances. Il priorise le traitement efficace tout en maintenant un niveau de précision raisonnable pour les applications d'IA générales.

Aperçu de l'architecture

O1-MINI suit une architecture de transformateur standard, avec moins de paramètres que PHI-4-MINI (taille exacte non divulguée). Il prend également en charge une fenêtre de contexte de jeton de 128K, mais se concentre sur un traitement rentable plutôt que sur des optimisations architecturales comme GQA.

Lire également: O1-Preview d'Openai vs O1-MinI: un pas en avant vers AGI

Comparaison du modèle: PHI-4-MINI VS O1-MINI

PHI-4-Mini est un modèle puissant conçu pour des tâches comme le raisonnement, les mathématiques et le codage, tandis que O1-Mini suit une conception plus simple axée sur le codage rentable. Le tableau ci-dessous met en évidence leurs principales différences:

Fonctionnalité PHI-4-MINI O1-MINI
Type d'architecture Transformateur dense et décodeur uniquement Transformateur standard (détails limité)
Paramètres 3,8 milliards Non spécifié (généralement plus petit)
Fenêtre de contexte Jetons 128K Jetons 128K
Mécanisme d'attention Attention à la requête groupée (GQA) Pas explicitement détaillé
Intégres partagés Oui Non spécifié
Volume de données de formation 5 billions de jetons Non spécifié
Focus de la performance Haute précision dans le raisonnement, les mathématiques, le codage Cost-efficace pour les tâches de codage
Déploiement de l'adéquation Environnements informatiques de bord Utilisation générale mais moins robuste

PHI-4-Mini se démarque avec des fonctionnalités avancées comme GQA et des intégres partagés, ce qui le rend supérieur dans le raisonnement, le codage et l'intégration d'API. En revanche, O1-MinI est une alternative plus légère et rentable optimisée pour le codage, bien qu'il n'ait pas les raffinements architecturaux observés dans PHI-4-MINI. Le choix entre les deux dépend du fait que la priorité est une grande précision et une puissance de raisonnement ou un abordabilité et une efficacité dans des tâches spécifiques.

Évaluation de la performance du raisonnement

Cette section examine comment les modèles PHI-4-MINI et O3-MINI fonctionnent dans le raisonnement par rapport à leurs modèles plus grands. Il se concentre sur la façon dont ils résolvent des problèmes complexes et tirent des conclusions logiques, mettant en évidence les différences de précision, d'efficacité et de clarté entre les modèles plus petits et plus grands.

PHI-4-MINI et O1-MINI VS MODÈLES plus grands

Les capacités de raisonnement du PHI-4-MINI et O1-MINI améliorées du raisonnement ont été évaluées sur plusieurs repères, notamment AIME 2024, MATH-500 et GPQA Diamond. Ces repères évaluent le raisonnement mathématique avancé et les compétences générales de résolution de problèmes, fournissant une base pour la comparaison avec plusieurs modèles plus grands de Deepseek, sur mesure et OpenThinker.

Modèle Aime Math-500 Diamant GPQA
O1-MINI * 63.6 90.0 60.0
Deepseek-R1-Distill-Qwen-7b 53.3 91.4 49.5
Deepseek-R1-Distill-Lama-8b 43.3 86.9 47.3
Sur mesure-stratos-7b * 20.0 82.0 37.8
OpenThinker-7b * 31.3 83.0 42.4
LLAMA-3-2-3B-INSTRUCT 6.7 44.4 25.3
PHI-4-MINI 10.0 71.8 36.9
PHI-4-MINI (raisonnement formé) (3,8b) 50.0 90.4 49.0
Source: étreinte

Malgré seulement 3,8 milliards de paramètres, le PHI-4-MinI formé de raisonnement montre des performances solides, dépassant les plus grands modèles tels que:

  • Deepseek-R1-Distill-Llama-8b (8B Paramètres)
  • Sur mesure-stratos-7b (paramètres 7b)
  • OpenThinker-7b (paramètres 7b)

De plus, il réalise des performances comparables à Deepseek-R1-Distill-QWEN-7B, un modèle 7B significativement plus grand, mettant davantage en soulignant son efficacité. Cependant, O1-MinI, malgré sa taille de paramètres non divulgués, mène à travers plusieurs repères, ce qui en fait un concurrent solide dans les tâches de raisonnement de l'IA.

Comparaisons de référence

Les performances des deux modèles, comme le montre l'image fournie, met en évidence leur compétitivité contre les modèles plus grands:

  • Benchmark AIME:
    • O1-MINI score 63,6, le plus élevé parmi tous les modèles.
    • PHI-4-MINI (Raisonnement formé) marque 50,0, une amélioration quintuple par rapport à sa version de base (10,0).
  • Benchmark MATH-500:
    • PHI-4-MINI (90,4) surpasse légèrement O1-MinI (90,0), ce qui le rend très efficace pour des tâches de raisonnement mathématique complexes.
  • GPQA Diamond:
    • O1-Mini mène avec 60,0, présentant des capacités de résolution de problèmes supérieures supérieures.
    • PHI-4-Mini (49,0) surpasse plusieurs modèles 7b et 8b, prouvant son efficacité dans les tâches de raisonnement.

Ces résultats indiquent que O1-MINI domine dans la résolution et le raisonnement de problèmes généraux, tandis que PHI-4-MINI (formé au raisonnement) excelle dans les références mathématiques malgré sa taille plus petite (paramètres de 3,8b). Les deux modèles présentent une efficacité exceptionnelle, difficile et même surperformant des modèles beaucoup plus importants à travers des références clés de l'IA.

PHI-4-MINI VS O1-MINI: Capacités de raisonnement et de codage

Nous allons maintenant comparer les capacités de raisonnement et de programmation de PHI-4-MINI et O1-MINI. Pour cela, nous allons donner la même invite aux deux modèles et évaluer leurs réponses et nous utiliserons l'API pour charger le modèle. Voici les tâches que nous essayerons dans cette comparaison:

  1. Analyser les relations de l'ordre de construction
  2. Raisonnement logique en mathématiques
  3. Trouver la sous-chaîne la plus longue

Tâche 1: Analyser les relations de l'ordre de construction

Cette tâche nécessite le modèle pour déduire les positions relatives des bâtiments en fonction des contraintes données et identifier le bâtiment intermédiaire.

Invite: «Il y a cinq bâtiments appelés V, W, X, Y et Z dans une rangée (pas nécessairement dans cet ordre). V est à l'ouest de W. Z est à l'est de X et à l'ouest de V, W est à l'ouest de Y. qui est le bâtiment au milieu?
Options:
A) V
B) W
C) x
D) y ”

Entrée à O1-MinI

 à partir d'Openai Import Openai
heure d'importation
importer tiktoken
à partir de l'affichage d'importation Ipython.Display, Markdown
avec open ("path_to_api_key") en tant que fichier:
   api_key = file.read (). strip ()


tâche1_start_time = time.time ()
client = openai (api_key = api_key)
messages = [
   {
       "rôle": "utilisateur",
       "contenu": """
   Il y a cinq bâtiments appelés V, W, X, Y et Z dans une rangée (pas nécessairement dans cet ordre).
   V est à l'ouest de W. Z est à l'est de X et à l'ouest de V, W est à l'ouest de Y.
   Quel est le bâtiment au milieu?
   Options:
   A) V
   B) W
   C) x
   D) y
"" "
   }
]]
complétion = client.chat.completions.create (
   Model = "O1-MINI-2024-09-12",
   messages = messages
)
tâche1_end_time = time.time ()
# Résultats d'impression
imprimer (complétion.choices [0] .Message)
print ("---------------- = temps total pris pour la tâche 1: -----------------", tâche1_end_time - tâche1_start_time)
# Résultat d'affichage
à partir d'Ipython.Display Import Markdown
Affichage (Markdown (complétion.choices [0] .Message.Content))
Copier après la connexion

Réponse de O1-MinI

PHI-4-MINI VS O1-MINI: Quel est le meilleur SLM?

Entrée à Phi 4-Mini

 à partir du pipeline d'importation Transformers
heure d'importation
à partir de l'affichage d'importation Ipython.Display, Markdown


à partir de Transformers Import AutomodelforcUsallm, BitsandBytesConfig
quantisation_config = bitsandBytesConfig (load_in_8bit = true)


# Modèle de chargement directement
De Transformers Import Autotokenzizer, AutomodelforCausallm
tokenizer = autotokenizer.from_pretraind ("Microsoft / PHI-4-MinI-Instruct", Trust_Remote_Code = TRUE)
modèle = automodelforcusallm.from_pretrainen ("Microsoft / PHI-4-MINI-INSTRUCT", Trust_Remote_Code = True, Quantization_Config = Quantization_Config) 


tâche1_start_time = time.time ()
messages = [
   {"rôle": "système", "contenu": "Vous êtes un expert dans la résolution des questions de raisonnement numérique et générale."},
   {"Rôle": "utilisateur", "Contenu": "" "Il y a cinq bâtiments appelés V, W, X, Y et Z dans la ligne (pas nécessairement dans cet ordre).
   V est à l'ouest de W. Z est à l'est de X et à l'ouest de V, W est à l'ouest de Y.Quelle est le bâtiment au milieu? Options:
A) V
B) W
C) x
D) y "" "},
]]


tuyau = pipeline (
   "Génération de texte",
   modèle = modèle,
   tokenizer = tokenizer,
)
génération_args = {
   "max_new_tokens": 1024,
   "return_full_text": false,
   "température": 0,0,
   "do_sample": false,
}
Output = tuyau (messages, ** génération_args) #,
tâche1_end_time = time.time ()
print ("---------------- = temps total pris pour la tâche 1: -----------------", tâche1_end_time - tâche1_start_time)
affichage (Markdown ((sortie [0] ['généré_text'])))
Pipe = pipeline ("Text-Generation", Model = "Microsoft / PHI-4-MINI-INSTRUCT", Trust_Remote_code = TRUE)
tuyau (messages)
Copier après la connexion

Réponse par Phi 4-Mini

PHI-4-MINI VS O1-MINI: Quel est le meilleur SLM?

Analyse comparative

O1-MinI est meilleur que PHI-4-MINI en vitesse et en précision pour cette tâche. O1-MinI détermine rapidement la bonne réponse («V») avec quelques étapes, tandis que Phi-4-Mini prend beaucoup plus de temps car il passe par chaque détail. Même avec tout cet effort, Phi-4-Mini obtient toujours la mauvaise réponse («Z»), qui n'est même pas l'un des choix. Cela montre que Phi-4-Mini lutte avec des problèmes logiques simples, tandis que O1-Mini les gère rapidement et correctement. La pensée détaillée de Phi-4-Mini pourrait être utile pour des problèmes plus difficiles, mais dans ce cas, cela n'a fait que des retards et des erreurs.

Tâche 2: raisonnement logique en mathématiques

Cette tâche nécessite le modèle pour reconnaître le modèle dans une séquence de nombres donnée et identifier le nombre manquant.

Invite: «Sélectionnez le numéro parmi les options données qui peuvent remplacer le point d'interrogation (?) Dans la série suivante: 16, 33, 100, 401 ,?
Options: a) 1235
B) 804
C) 1588
D) 2006 ″

Entrée à O1-MinI

 tâche2_start_time = time.time ()

client = openai (api_key = api_key)

messages = [
   {
       "rôle": "utilisateur",
       "Contenu": "" "Sélectionnez le numéro parmi les options donné qui peuvent remplacer le point d'interrogation (?) Dans la série suivante.16, 33, 100, 401 ,?
       A) 1235
       B) 804
       C) 1588
       D) 2006 "" "
   }
]]


# Utilisez un codage compatible (CL100K_BASE est la meilleure option pour les nouveaux modèles OpenAI)
Encoding = tikToken.get_encoding ("CL100K_BASE")


# Calculer les comptages de jetons
input_tokens = sum (len (coding.encode (msg ["contenu"])) pour msg dans les messages)
complétion = client.chat.completions.create (
   Model = "O1-MINI-2024-09-12",
   messages = messages
)
output_tokens = len (coding.encode (complétion.choices [0] .Message.Content))


tâche2_end_time = time.time ()
# Résultats d'impression
imprimer (complétion.choices [0] .Message)
print ("---------------- = temps total pris pour la tâche 2: -----------------", tâche2_end_time - tâche2_start_time)
# Résultat d'affichage
à partir d'Ipython.Display Import Markdown
Affichage (Markdown (complétion.choices [0] .Message.Content))
Copier après la connexion

Réponse de O1-MinI

PHI-4-MINI VS O1-MINI: Quel est le meilleur SLM?

Entrée à Phi 4-Mini

 tâche2_start_time = time.time ()
messages = [
   {"rôle": "système", "contenu": "Vous êtes un expert dans la résolution des questions de raisonnement numérique et générale."},
   {"rôle": "utilisateur", "contenu": "" "Sélectionnez le numéro parmi les options données
   qui peut remplacer le point d'interrogation (?) Dans la série suivante.16, 33, 100, 401 ,?
A) 1235
B) 804
C) 1588
D) 2006 "" "},
]]
tuyau = pipeline (
   "Génération de texte",
   modèle = modèle,
   tokenizer = tokenizer,
)
génération_args = {
   "max_new_tokens": 1024,
   "return_full_text": false,
   "température": 0,0,
   "do_sample": false,
}
Output = tuyau (messages, ** génération_args) #,
tâche2_end_time = time.time ()
print ("---------------- = temps total pris pour la tâche 2: -----------------", tâche2_end_time - tâche2_start_time)
affichage (Markdown ((sortie [0] ['généré_text'])))
Copier après la connexion

Réponse par Phi 4-Mini

PHI-4-MINI VS O1-MINI: Quel est le meilleur SLM?

Analyse comparative

O1-MINI a mieux fonctionné que PHI-4-MINI en vitesse et en précision pour cette tâche de modèle de nombre. O1-MINI a rapidement reconnu le modèle et a correctement choisi 2006 en seulement 10,77 secondes. D'un autre côté, Phi-4-Mini a pris beaucoup plus de temps (50,25 secondes) et a toujours obtenu la mauvaise réponse (120). Pendant ce temps, O1-Mini a suivi une approche claire et directe, résolvant correctement et efficacement le problème. Cela montre que O1-MinI est meilleur pour repérer rapidement les modèles de nombres, tandis que Phi-4-Mini a tendance à sur-masquez des problèmes simples, entraînant des erreurs et des retards.

Tâche 3: Trouver la plus longue sous-chaîne

Ce problème vous demande de trouver la longueur de la sous-chaîne la plus longue dans une chaîne donnée qui ne contient aucun caractères répétitifs. Par exemple, dans la chaîne «ABCABCBB», la sous-chaîne la plus longue sans répéter les caractères serait «ABC», et sa longueur est de 3.

Invite: «Compte tenu d'une chaîne S, trouvez la longueur de la sous-chaîne la plus longue sans répéter les caractères.
Écrivez une fonction de fonction de la pression destiné (S: STR) -> int qui renvoie la longueur de la sous-chaîne la plus longue sans répéter les caractères. "

Entrée à O1-MinI

 tâche3_start_time = time.time ()
client = openai (api_key = api_key)
messages = [
   {
       "rôle": "utilisateur",
       "contenu": """
Étant donné une chaîne S, trouvez la longueur de la sous-chaîne la plus longue sans répéter les caractères.


Écrivez une fonction de fonctiontoflongestSubstring (S: Str) -> int qui renvoie la longueur de la sous-chaîne la plus longue sans répéter les caractères.
"" "
   }
]]
# Utilisez un codage compatible (CL100K_BASE est la meilleure option pour les nouveaux modèles OpenAI)
Encoding = tikToken.get_encoding ("CL100K_BASE")
# Calculer les comptages de jetons
input_tokens = sum (len (coding.encode (msg ["contenu"])) pour msg dans les messages)
complétion = client.chat.completions.create (
   Model = "O1-MINI-2024-09-12",
   messages = messages
)
output_tokens = len (coding.encode (complétion.choices [0] .Message.Content))
tâche3_end_time = time.time ()
# Résultats d'impression
imprimer (complétion.choices [0] .Message)
print ("---------------- = temps total pris pour la tâche 3: -----------------", tâche3_end_time - tâche3_start_time)
# Résultat d'affichage
à partir d'Ipython.Display Import Markdown
Affichage (Markdown (complétion.choices [0] .Message.Content))
Copier après la connexion

Réponse de O1-MinI

 Def LengthofLongestSubstring (S: Str) -> Int:
   "" "
   Renvoie la longueur de la sous-chaîne la plus longue sans répéter les caractères dans la chaîne s.


   Paramètres:
   S (Str): la chaîne d'entrée.


   Renvoie:
   INT: La longueur de la sous-chaîne la plus longue sans répéter les caractères.
   "" "
   # Dictionnaire pour stocker les dernières positions de chaque personnage.
   char_map = {}
   # Initialisez le pointeur gauche de la fenêtre.
   gauche = 0
   # Initialisez la longueur maximale.
   max_length = 0


   # Itérer sur la chaîne avec le bon pointeur.
   Pour le droit, Char en énumération (s):
       # Si le personnage est trouvé dans char_map et que sa dernière position est> = pointeur gauche,
       # Déplacez le pointeur gauche vers une position à droite de sa dernière occurrence pour éviter les doublons.
       Si char dans char_map et char_map [char]> = gauche:
           Left = char_map [char] 1


       # Mettre à jour / insérer le dernier index du personnage.
       char_map [char] = droit


       # Calculez la longueur de la fenêtre actuelle et mettez à jour max_length si nécessaire.
       current_window_length = droite - gauche 1
       si current_window_length> max_length:
           max_length = current_window_length


       # Débogage des déclarations pour tracer l'état interne (peut être supprimé en production)
       # print (f "Caractère actuel: {char}, à gauche: {gauche}, à droite: {droite}, fenêtre actuelle: '{s [gauche: droite 1]}', longueur max: {max_length}")


   return max_length


# Exemple d'utilisation:
Si __name__ == "__main__":
   test_strings = [
       "abcabcbb",
       "bbbbb",
       "Pwwkew",
       "",
       "un",
       "DVDF"
   ]]
   pour S dans Test_Strings:
       print (f "Sous-chaîne la plus longue sans répéter les caractères dans '{s}' est de longueur {longueurofLongestSubstring (s)}.")
Copier après la connexion

Sortir

PHI-4-MINI VS O1-MINI: Quel est le meilleur SLM?

Entrée à Phi 4-Mini

 à partir du pipeline d'importation Transformers
messages = [
   {"rôle": "utilisateur",
    "Contenu": "" "Compte tenu d'une chaîne, trouvez la longueur de la sous-chaîne la plus longue sans répéter les caractères.
Écrivez une fonction de fonctionnalfongestSubstring (s: str) -> int qui renvoie la longueur de la sous-chaîne la plus longue sans répéter les caractères. "" "},
]]
Pipe = pipeline ("Text-Generation", Model = "Microsoft / PHI-4-MINI-INSTRUCT", Trust_Remote_code = TRUE)
tuyau (messages)
Copier après la connexion

Réponse par Phi 4-Mini

 Def LengthofLongestSubstring (S: Str) -> Int:
   char_index_map = {}
   gauche = 0
   max_length = 0
   pour le droit dans la gamme (len (s)):
       Si S [à droite] dans char_index_map et char_index_map [s [droite]]> = gauche:
           gauche = char_index_map [s [droite]] 1
       char_index_map [s [à droite]] = à droite
       max_length = max (max_length, droite - gauche 1)


   return max_length
Print ("Sous-chaîne la plus longue sans répéter les caractères dans 'ABCABCBB' est de longueur", Longueur OflongestSubstring ("ABCABCBB"))
Print ("Sous-chaîne la plus longue sans répéter les caractères dans 'BBBBB' est de longueur", Longueur OflongestSubstring ("BBBBB"))
Copier après la connexion

Sortir

PHI-4-MINI VS O1-MINI: Quel est le meilleur SLM?

Analyse comparative

O1-MINI et PHI-4-MINI ont correctement utilisé la méthode de la fenêtre coulissante, mais le code d'O1-Mini était plus organisé et plus facile à comprendre. Il comprenait des explications claires, des commentaires, des cas de test et des noms de variables faciles à lire. La solution de PHI-4-Mini était plus courte mais manquait d'explications et de structure, ce qui rend plus difficile de suivre des projets plus importants. O1-MinI était également plus rapide et a produit une solution plus propre et plus lisible, tandis que Phi-4-Mini s'est concentré davantage sur le maintien du code Brief.

Analyse comparative globale

Voici l'analyse comparative globale pour les 3 tâches:

Aspect Tâche 1 (commande de construction) Tâche 2 (complétion des séries numériques) Tâche 3 (la plus longue sous-chaîne non répétée)
Précision O1-Mini avait raison, tandis que Phi-4-Mini a donné une réponse incorrecte («Z», qui n'était pas une option). O1-MINI a correctement identifié 2006, tandis que PHI-4-Mini a obtenu la mauvaise réponse (120). Les deux ont mis en œuvre l'approche de fenêtre coulissante correcte.
Vitesse de réponse O1-MINI était nettement plus rapide. O1-Mini a été beaucoup plus rapide (10,77 s contre 50,25s). O1-Mini a répondu un peu plus rapidement.
Approche O1-Mini a utilisé une déduction logique rapide, tandis que Phi-4-Mini a pris des mesures inutiles et a toujours fait une erreur. O1-MINI a suivi une méthode de reconnaissance de modèle structurée et efficace, tandis que PHI-4-MINI a compliqué le processus et a obtenu le mauvais résultat. O1-Mini a fourni une solution structurée et bien documentée, tandis que Phi-4-Mini a utilisé une approche concise mais moins lisible.
Pratiques de codage Non applicable. Non applicable. O1-MINI comprenait des docstrings, des commentaires et des cas de test, ce qui facilite la compréhension et le maintien. PHI-4-Mini s'est concentré sur la concision mais manquait de documentation.
Meilleur cas d'utilisation O1-MINI est plus fiable pour les tâches de raisonnement logiques, tandis que l'approche étape par étape de PHI-4-MINI peut mieux fonctionner pour des problèmes complexes. O1-MINI excelle dans la reconnaissance du modèle de nombre avec la vitesse et la précision, tandis que la suranalyse de PHI-4-MINI peut entraîner des erreurs. O1-MINI est préférable pour le code structuré et maintenable, tandis que PHI-4-MINI est meilleur pour les implémentations courtes et concises.

Conclusion

Dans l'ensemble, O1-Mini a excellé dans le raisonnement structuré, la précision et le codage des meilleures pratiques, ce qui le rend plus adapté à la résolution de problèmes complexe et à un code maintenable. Alors que Phi-4-Mini était plus rapide, son approche exploratoire a parfois conduit à des inefficacités ou à des conclusions incorrectes, en particulier dans les tâches de raisonnement. En codage, O1-Mini a fourni des solutions bien documentées et lisibles, tandis que PHI-4-MINI a priorisé la concision au prix de la clarté. Si la vitesse est la principale préoccupation, PHI-4-MINI est un choix solide, mais pour la précision, la clarté et la résolution structurée de problèmes, O1-Mini se distingue comme la meilleure option.

Questions fréquemment posées

Q1. Quel modèle est le plus précis dans l'ensemble?

A. O1-MINI a démontré une meilleure précision dans les tâches de raisonnement logique, tandis que Phi-4-Mini a parfois adopté une approche exploratoire qui a conduit à des erreurs.

Q2. Quel modèle est plus rapide en temps de réponse?

A. PHI-4-MINI fournit généralement des réponses plus rapides, mais il faut parfois des étapes supplémentaires avant d'atteindre la bonne solution.

Q3. Quel modèle est le meilleur pour la résolution de problèmes structurés?

A. O1-Mini suit une approche plus structurée et logique, ce qui le rend plus adapté aux tâches nécessitant un raisonnement clair et des solutions systématiques.

Q4. Quel modèle est le meilleur pour les tâches numériques et de reconnaissance de motifs?

A. Les deux modèles ont correctement identifié le nombre manquant dans la série, mais PHI-4-MINI était plus rapide, tandis que O1-Mini était plus méthodique dans son approche.

Q5. Quel modèle suit de meilleures pratiques de codage?

A. O1-MINI fournit un code bien structuré, documenté et lisible, tandis que PHI-4-MINI se concentre sur la concision mais manque d'explications détaillées et de cas de test.

Q6. Quand dois-je utiliser O1-Mini sur PHI-4-MINI?

A. Utiliser O1-MINI lorsque le raisonnement structuré, la précision et la clarté de codage sont essentiels, comme dans la résolution de problèmes complexes et le développement de logiciels.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Musée de deux points: Guide de localisation de Bungle Wasteland
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Article chaud

Musée de deux points: Guide de localisation de Bungle Wasteland
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Qu'est-ce que le protocole de contexte modèle (MCP)? Qu'est-ce que le protocole de contexte modèle (MCP)? Mar 03, 2025 pm 07:09 PM

Qu'est-ce que le protocole de contexte modèle (MCP)?

Éditeur de code AI de Windsurf AI: fonctionnalités, configuration et cas d'utilisation Éditeur de code AI de Windsurf AI: fonctionnalités, configuration et cas d'utilisation Feb 28, 2025 pm 04:31 PM

Éditeur de code AI de Windsurf AI: fonctionnalités, configuration et cas d'utilisation

Asfafasfasfasfasf Asfafasfasfasfasf Feb 28, 2025 pm 02:37 PM

Asfafasfasfasfasf

fourchettes fourchettes Feb 28, 2025 pm 02:39 PM

fourchettes

Construire un agent de vision local utilisant omniparser v2 et omnitool Construire un agent de vision local utilisant omniparser v2 et omnitool Mar 03, 2025 pm 07:08 PM

Construire un agent de vision local utilisant omniparser v2 et omnitool

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago Feb 28, 2025 am 10:37 AM

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Replit Agent: un guide avec des exemples pratiques Replit Agent: un guide avec des exemples pratiques Mar 04, 2025 am 10:52 AM

Replit Agent: un guide avec des exemples pratiques

Imagen 3: un guide avec des exemples dans l'API Gemini Imagen 3: un guide avec des exemples dans l'API Gemini Feb 28, 2025 pm 04:26 PM

Imagen 3: un guide avec des exemples dans l'API Gemini

See all articles