Mon leader Musk : déteste les réunions, ne veut pas de cadres intermédiaires non techniques et prône les licenciements-IA-php.cn

Musc est déjà célèbre pour être un « chef du diable ».

Maintenant, son ancien subordonné Karpathy (Andrej Karpathy) l'a encore "martelé" (doge) dans la dernière interview :

J'ai dû le supplier de me permettre de recruter des gens.

Il(Musk) par défaut, il licencie toujours des employés.

Mon leader Musk : déteste les réunions, ne veut pas de cadres intermédiaires non techniques et prône les licenciements

En plus d'aimer licencier, lors de cet événement AI Ascent organisé par Sequoia, Kapasi a également révélé plus de détails sur la société de gestion de Musk :

déteste les réunions, refuse de s'allonger et préfère suivre VP préfère parler du travail directement avec les ingénieurs...

De plus, il a également parlé de nombreux sujets importants sur les modèles qui intéressent tout le monde, notamment :

LLM OS
L'échelle est-elle importante ?
Comment les jeunes startups peuvent-elles rivaliser avec OpenAI ?

Pour plus de détails, voici la version texte à partager~

(Claude 3 a également contribué)

Le grand modèle de langage est le CPU de la nouvelle ère

Q : André, merci beaucoup pour rejoignez-nous aujourd'hui. Les bureaux d'origine d'OpenAI se trouvaient en face de nos bureaux de San Francisco, et beaucoup d'entre vous étaient entassés.

En plus de travailler à l'étage dans une chocolaterie et de vivre le rêve de Willy Wonka, quels sont vos moments inoubliables en travaillant ici ?

Kapasi : Oui, les bureaux d'origine d'OpenAI étaient là, si l'on ne compte pas l'appartement de Greg.

Nous y sommes restés environ deux ans. Il y a une chocolaterie en bas et l'odeur a toujours été délicieuse. À cette époque, l’équipe comptait environ 10 à 20 personnes.

Nous y avons passé un moment vraiment amusant. Lao Huang a mentionné lors de la conférence GTC qu'il avait envoyé le premier supercalculateur DGX à OpenAI, ce qui s'est produit là-bas.

Mon leader Musk : déteste les réunions, ne veut pas de cadres intermédiaires non techniques et prône les licenciements

Q : En fait, Andre n'a pas besoin d'être présenté, mais je tiens quand même à mentionner son parcours. Il a étudié auprès de Geoffrey Hinton et Li Feifei et est devenu célèbre pour ses cours d'apprentissage profond à l'Université de Stanford.

En 2015, il a co-fondé OpenAI. En 2017, il a été débauché par Musk.

Vous ne vous souvenez peut-être pas de grand-chose de la situation à cette époque : Tesla a connu 6 dirigeants Autopilot, dont chacun n'a travaillé que 6 mois. Je me souviens que lorsqu'André a pris ce poste, je lui ai souhaité bonne chance.

Il ne lui a pas fallu longtemps pour revenir à OpenAI. Mais désormais, il jouit d’une totale liberté et peut faire ce qu’il veut. Nous sommes donc impatients d’entendre les idées qu’il partage aujourd’hui.

Ce que j'admire le plus chez André, c'est qu'il est un penseur futuriste fascinant, un optimiste convaincu et en même temps un constructeur très pragmatique. Aujourd’hui, il partagera avec nous quelques idées sur ces aspects.

Tout d’abord, il y a encore 7 ans, l’AGI semblait être un objectif presque impossible à atteindre de notre vivant. Et maintenant, cela semble être en vue. Que voyez-vous dans les 10 prochaines années ?

Kapasi : Vous avez raison. Il y a quelques années, le cheminement de l’AGI était encore très flou et en était encore à un stade de discussion très académique. Mais c’est désormais clair et tout le monde travaille dur pour combler le vide.

Les travaux d'optimisation battent leur plein. En gros, tout le monde essaie de construire un « Système d'exploitation grand modèle (LLM OS) ».

J'aime le comparer à un système d'exploitation. Vous devez préparer divers périphériques et les connecter à un nouveau processeur. Ces périphériques incluent diverses modalités telles que du texte, des images, de l'audio, etc. Le CPU est le modèle de langage lui-même. Il se connecte également à toute l'infrastructure Software 1.0 que nous avons construite.

Je pense que tout le monde essaie de construire quelque chose comme ça, puis de le personnaliser en un produit qui fonctionne dans tous les secteurs de l'économie.

En général, l'orientation du développement est que nous pouvons ajuster ces agents relativement indépendants, leur attribuer des tâches de haut niveau et les laisser se spécialiser dans diverses tâches. Ce sera très intéressant et passionnant. Et il n’y aura pas qu’un seul agent, il y aura plusieurs agents. Imaginez à quoi cela ressemblerait ?

Mon leader Musk : déteste les réunions, ne veut pas de cadres intermédiaires non techniques et prône les licenciements

Q : Si l'avenir est vraiment ce que vous avez dit, comment devrions-nous ajuster notre mode de vie maintenant ?

Kapasi : Je ne sais pas. Je pense que nous devons travailler dur pour le construire, pour l'influencer, pour nous assurer qu'il est positif. Bref, essayez de rendre les résultats aussi bons que possible.

Q : Puisque vous êtes un homme libre maintenant, je veux soulever un problème évident, à savoir qu'OpenAI domine l'ensemble de l'écosystème.

La plupart des personnes ici aujourd’hui sont des entrepreneurs qui tentent de se tailler une niche et prient pour qu’OpenAI ne les fasse pas faillite du jour au lendemain.

Pensez-vous qu'il y a encore une chance ? Dans quels domaines OpenAI continuera-t-il à dominer ?

Kapasi : Mon impression générale est qu'OpenAI travaille dur pour créer un système d'exploitation LLM. Comme nous l’avons entendu plus tôt dans la journée, OpenAI tente de développer une plateforme. Sur cette base, vous pouvez créer différentes entreprises dans différents secteurs verticaux.

L'analogie avec le système d'exploitation est en fait très intéressante, car les systèmes d'exploitation comme Windows sont également livrés avec certaines applications par défaut, telles que les navigateurs.

Je pense donc qu'OpenAI ou d'autres sociétés peuvent également lancer des applications par défaut, mais cela ne signifie pas que vous ne pouvez pas exécuter différents navigateurs dessus, vous pouvez exécuter différents agents par-dessus.

Il y aura quelques applications par défaut, mais il y aura probablement aussi un écosystème dynamique avec une variété d'applications optimisées pour des scénarios spécifiques.

J'aime beaucoup l'analogie avec les premières applications iPhone. Ces applications commencent toutes comme une blague et prennent du temps à se développer. Je pense que nous vivons la même chose en ce moment. Les gens essaient de comprendre à quoi sert cette chose ? En quoi n'es-tu pas doué ? Comment puis-je l'utiliser ? Comment programmer ? Comment déboguer ? Comment lui faire accomplir des tâches réelles ? Quel type de supervision est requis ? Car il est assez autonome, mais pas totalement autonome. Alors, à quoi devrait ressembler la supervision ? À quoi devrait ressembler l’évaluation ? Il y a beaucoup de choses à réfléchir et à comprendre. Je pense qu'il faudra un certain temps pour comprendre comment travailler avec cette nouvelle infrastructure. Je pense donc que nous verrons cela dans les prochaines années.

Q : La concurrence pour les grands modèles de langage bat désormais son plein, avec OpenAI, Anthropic, Mistral, Llama, Gemini, et tout l'écosystème de modèles open source, ainsi qu'un grand nombre de petits modèles. Comment envisagez-vous le développement futur de l’écosystème ?

Kapasi : Oui, encore une fois, l'analogie avec le système d'exploitation est intéressante. Nous disposons de systèmes fermés tels que Windows et macOS, ainsi que de Linux open source. Je pense que le grand modèle pourrait avoir le même motif.

Nous devons également être prudents lorsque nous appelons ces modèles. Beaucoup des modèles que vous avez répertoriés, comme Llama, Mistral, etc., je ne pense pas qu'ils soient vraiment open source. C'est comme jeter un binaire de système d'exploitation que vous pouvez utiliser, mais qui n'est pas entièrement utile. Il existe en effet certains modèles de langage que je considère comme totalement open source, et ils libèrent entièrement toute l'infrastructure nécessaire à la compilation du "système d'exploitation", de la collecte de données à la formation des modèles. C'est certainement mieux que de simplement obtenir les poids du modèle, car vous pouvez affiner le modèle.

Mais je pense qu'il y a un problème subtil, c'est que vous ne pouvez pas affiner complètement le modèle, car plus vous l'ajustez, moins il sera performant sur toutes les autres tâches.

Donc, si vous souhaitez ajouter une certaine capacité sans affecter les autres capacités, vous devrez peut-être mélanger la distribution précédente de l'ensemble de données et la nouvelle distribution de l'ensemble de données pour l'entraînement. Si vous ne disposez que des poids du modèle, vous ne pouvez pas réellement le faire. Vous avez besoin de boucles de formation, d'ensembles de données, etc. Vous êtes donc vraiment limité dans ce que vous pouvez faire avec ces modèles.

Ils sont certainement utiles, mais nous avons probablement besoin de meilleurs termes pour les décrire. Modèle de pondération ouvert, modèle open source et modèle propriétaire, l'écosystème peut ressembler à ceci. Et il est probable qu’il soit très similaire à l’écosystème que nous avons aujourd’hui.

Mon leader Musk : déteste les réunions, ne veut pas de cadres intermédiaires non techniques et prône les licenciements

L'échelle est le principal facteur déterminant

Q : Une autre question que je veux poser est celle de l'échelle. En termes simples, la taille semble être le facteur le plus important. Échelle des données et échelle de la puissance de calcul. Les grands laboratoires de recherche, les grands géants de la technologie ont donc aujourd’hui un énorme avantage. Que penses-tu de cela? La taille est-elle tout ? Sinon, qu’est-ce qui compte d’autre ?

Kapasi : Je pense que l'échelle est définitivement la priorité numéro un.

Certains détails doivent vraiment être pris en compte. Je pense que la préparation de l'ensemble de données est également très importante, car elle rend les données très bonnes et très propres, ce qui peut rendre le calcul plus efficace.

Mais je pense que l'échelle sera le principal facteur décisif, le premier ingrédient principal, et bien sûr, vous devez bien faire beaucoup d'autres choses.

Si vous n’avez pas d’échelle, vous ne pouvez fondamentalement pas entraîner ces grands modèles. Si vous faites simplement des choses comme un réglage fin, vous n’avez probablement pas besoin de cette échelle, mais nous n’avons pas encore vraiment vu cela pleinement réalisé.

Q : Pouvez-vous nous expliquer quels autres facteurs vous semblent importants en plus de l'échelle, peut-être avec une priorité moindre ?

Kapasi : Tout d'abord, vous ne pouvez pas simplement former ces modèles. Si l’on se contente de fournir du financement et de l’échelle, il reste très difficile de former réellement ces modèles.

Cela s'explique en partie par le fait que l'infrastructure est trop récente, encore en développement et pas encore terminée. Mais former un modèle à cette échelle est extrêmement difficile et constitue un problème d’optimisation distribuée très complexe. Les talents dans ce domaine sont actuellement assez rares. C'est fondamentalement une chose folle où le modèle est exécuté sur des milliers de GPU, tombant en panne de manière aléatoire à différents moments. Suivre ce processus et le faire fonctionner est en réalité un défi extrêmement difficile.

Jusqu'à récemment, les GPU n'étaient pas aussi capables que prévu de gérer 10 000 charges de travail GPU. Je pense donc que de nombreuses infrastructures craquent sous cette pression et nous devons y remédier.

Maintenant, si vous donnez juste une grosse somme d'argent à quelqu'un ou un tas de GPU, je ne suis pas sûr qu'il puisse produire directement de grands modèles, c'est pourquoi ce n'est pas seulement une question d'échelle. En fait, vous avez besoin de beaucoup d’expertise, notamment en matière d’infrastructure, d’algorithmes et de données, et vous devez être très prudent.

Q : L'écosystème se développe très rapidement et certains des défis que nous pensions exister il y a un an sont de plus en plus relevés. Illusions, fenêtres contextuelles, capacités multimodales, inférence de plus en plus rapide et moins chère. Quels autres défis de recherche sur les modèles linguistiques vous empêchent de dormir la nuit en ce moment ? Selon vous, quels problèmes sont suffisamment urgents mais également résolubles ?

Kapasi : Je pense qu'en termes d'algorithmes, l'une des choses auxquelles je pense beaucoup est la nette différence entre les modèles de diffusion et les modèles autorégressifs. Ce sont toutes des manières de représenter des distributions de probabilité. Il s’avère que différentes modalités se prêtent clairement à l’une ou à l’autre. Je pense qu'il pourrait être possible de les unifier ou de les relier d'une manière ou d'une autre.

Une autre chose que je tiens à souligner est l'efficacité inhérente de l'infrastructure qui gère les grands modèles. Mon cerveau consomme environ 20 watts. Huang vient de parler du supercalculateur à grande échelle qu'ils souhaitent construire chez GTC, et les chiffres sont tous de l'ordre du mégawatt. Alors peut-être que vous n’avez pas besoin de beaucoup d’énergie pour faire fonctionner un cerveau. Je ne sais pas exactement combien cela prendra, mais je pense qu'il est prudent de dire que nous pouvons devenir 1 000 à 1 000 000 fois plus efficaces dans l'exécution de ces modèles.

Je pense qu'une partie de la raison est que les ordinateurs actuels ne sont tout simplement pas adaptés à cette charge de travail. Les GPU de Nvidia constituent un bon pas dans cette direction, car ils nécessitent un parallélisme extrêmement élevé. Nous ne nous soucions pas vraiment des calculs séquentiels qui s'appuient d'une manière ou d'une autre sur les données. Nous devons simplement exécuter le même algorithme sur de nombreux éléments différents du tableau. Je pense donc que la première consiste à adapter l'architecture informatique pour s'adapter aux nouveaux flux de données, et la deuxième à promouvoir certaines des choses que nous constatons actuellement des améliorations.

Le premier est probablement la précision. Nous avons vu la précision passer du double de 64 bits d'origine à maintenant 4, 5, 6 bits, voire 1,5 à 8 bits selon le papier que vous lisez. Je pense donc que la précision est un levier important pour contrôler ce problème.

Le deuxième est bien sûr la parcimonie. En fait, de nombreux paramètres dans les grands modèles sont nuls ou proches de zéro. Ce serait donc formidable si vous pouviez exploiter cela d'une manière ou d'une autre, par exemple en rendant la multiplication matricielle clairsemée plus efficace. Il existe des recherches prometteuses dans ce domaine.

Il existe également des idées intéressantes comme la décomposition en valeurs singulières (SVD) pour voir si vous pouvez la décomposer en matrices plus petites puis la réassembler. Par exemple, seule la propagation vers l'avant est calculée sans propagation vers l'arrière, et un modèle plus petit est entraîné pour prédire la sortie d'un modèle plus grand.

Donc je pense, fondamentalement, qu'il y a deux problèmes à résoudre :

Le premier est de construire du matériel plus adapté. Une autre solution consiste à trouver de meilleurs algorithmes qui augmentent l’efficacité tout en maintenant les performances.

Je pense qu'il y a encore beaucoup de place à l'exploration dans les deux aspects. Du point de vue de l’efficacité énergétique, si nous pouvions combler l’écart avec le cerveau, cela représenterait une énorme amélioration. Cela pourrait signifier que chacun d’entre nous peut s’offrir un modèle ou exécuter un modèle sur ses appareils sans avoir besoin d’être connecté au cloud.

Musk « dirige la plus grande startup du monde »

Mon leader Musk : déteste les réunions, ne veut pas de cadres intermédiaires non techniques et prône les licenciements

Q : D'accord, changeons de sujet. Vous avez travaillé aux côtés de nombreux grands de cette époque, Sam, Greg et d'autres membres de l'équipe d'OpenAI, ainsi que Musk.

Combien d’entre vous ici ont entendu la blague sur l’équipe américaine d’aviron et l’équipe japonaise d’aviron ? C'est une histoire intéressante. Musk a partagé cette blague, et je pense qu'elle reflète en grande partie sa philosophie sur la construction d'une culture et d'équipes. Il y a deux équipes dans l'histoire, l'équipe japonaise a 4 rameurs et 1 barreur, et l'équipe américaine a 4 barreurs et 1 barreur. Quelqu’un peut-il deviner ce que fera l’équipe américaine en cas de défaite ? Parlez. Exactement, ils vont virer ce rameur.

Lorsque Musk a partagé cet exemple, je pense qu'il expliquait son point de vue sur le recrutement des bons talents et la constitution de la bonne équipe. Qu’avez-vous appris en travaillant en étroite collaboration avec ces incroyables leaders ?

Kappasi : Je dirais que la façon dont Musk gère son entreprise est tout à fait unique. J’ai l’impression que les gens ne réalisent pas vraiment à quel point c’est spécial. Même si vous écoutez les autres en parler, il vous est difficile de bien le comprendre. J'ai du mal à décrire avec des mots. Je ne sais même pas par où commencer. Mais c'est une façon vraiment unique et différente de le faire.

Selon mes mots, Il dirige la plus grande startup au monde. J’ai l’impression qu’il m’est difficile de le décrire clairement pour le moment, et cela peut prendre plus de temps pour réfléchir et résumer.

Mais avant tout, il aime former une entreprise par une petite équipe avec une forte force et un haut contenu technique.

Dans d'autres entreprises, la taille de l'équipe augmente souvent au cours du processus de développement. Musk, en revanche, s’est toujours opposé à une expansion excessive de son équipe. J'ai dû travailler dur pour recruter des employés. J'ai dû le supplier de me permettre de recruter des gens.

De plus, il est souvent difficile pour les grandes entreprises de se débarrasser des employés sous-performants. Musk, en revanche, est plus disposé à prendre l’initiative de licencier des employés.

En fait, j'ai dû me battre pour garder certains employés car il les licenciait toujours par défaut.

Le premier point est donc de maintenir une petite équipe dotée d’une forte force et d’excellentes compétences. Absolument aucun cadre intermédiaire non technique. C'est le point le plus important.

Le deuxième point est la façon dont il crée une atmosphère de travail et le sentiment qu'il donne lorsqu'il entre dans le bureau.

Il souhaite que l'environnement de travail soit dynamique. Les gens bougent, réfléchissent à des choses, se concentrent sur des choses passionnantes. Soit ils écrivent et dessinent sur le tableau blanc, soit ils tapent du code devant l’ordinateur. Il n'aime pas les mares d'eau stagnante et il n'aime pas le manque de vie au bureau.

Il n’aime pas non plus les longues réunions et encourage toujours les gens à partir de manière décisive lorsque la réunion est inutile. Vous pouviez vraiment voir que si vous n’aviez rien à apporter ni à gagner de la réunion, vous pouviez simplement vous retirer, et il était tout à fait favorable à cela. Je pense que c'est difficile à voir dans d'autres entreprises.

Je pense donc que créer une atmosphère de travail positive est le deuxième concept important qu'il a inculqué. Cela inclut peut-être aussi la tendance des entreprises à surprotéger leurs employés à mesure qu’elles grandissent. Ce ne sera pas le cas dans son entreprise. La culture de l'entreprise est qu'il faut montrer 100 % de ses capacités professionnelles, et le rythme et l'intensité du travail sont très élevés.

Je pense que la dernière chose qui est probablement la plus unique, intéressante et inhabituelle est que il est tellement connecté à l'équipe.

Habituellement, le PDG d'une entreprise est une personne inaccessible qui gère 5 niveaux de subordonnés et ne communique qu'avec le vice-président. Le vice-président communique avec ses superviseurs subordonnés, et les superviseurs communiquent avec les managers. Vous ne pouvez communiquer qu'avec votre direct. patron. Mais Musk dirige l’entreprise d’une manière totalement différente. Il venait au bureau et parlait directement aux ingénieurs.

Lorsque nous avons des réunions, il y a souvent 50 personnes dans la salle de conférence face à face avec Musk, et il parle directement aux ingénieurs. Il ne voulait pas seulement parler aux vice-présidents et aux dirigeants.

Habituellement, un PDG passe 99 % de son temps à communiquer avec le vice-président, et il peut passer 50 % de son temps à communiquer avec les ingénieurs. Ainsi, si l’équipe est petite et efficace, les ingénieurs et le code sont les sources d’informations les plus fiables. Ils ont une connaissance directe de la vérité. Musk souhaite communiquer directement avec les ingénieurs pour comprendre la situation réelle et discuter des moyens de l'améliorer.

Je dirais donc que c’est assez unique qu’il soit connecté à l’équipe et qu’il ne soit pas hors de portée.

De plus, la façon dont il exerce le pouvoir au sein de l'entreprise est inhabituelle. Par exemple, s'il parle à des ingénieurs et prend connaissance de certains problèmes qui entravent l'avancement du projet. Par exemple, si un ingénieur dit : « Je n'ai pas assez de GPU pour exécuter le programme », il le prendra à cœur. S'il entend une plainte similaire deux fois, il dira : « D'accord, voici un problème. Alors, quel est le calendrier maintenant ? Quand sera-t-il résolu ?

S'il n'obtient pas de réponse satisfaisante, il dira : « Je vais parler à la personne en charge du cluster GPU », et quelqu'un appellera cette personne, et il dira littéralement : « Doublez la capacité du cluster maintenant. Donnez-moi des rapports d'avancement quotidiens à partir de demain. sera doublé. »

L’autre partie peut s’y soustraire en disant qu’elle doit encore passer par le processus de passation des marchés, qui prendra 6 mois. À ce moment-là, Musk froncera les sourcils et dira : « D'accord, je veux parler à Huang Renxun. Ensuite, il supprimera directement les obstacles au projet.

Je pense donc que les gens ne réalisent pas vraiment à quel point il est profondément impliqué dans diverses tâches, surmontant les obstacles et exerçant son influence.

Honnêtement, si vous quittez un tel environnement et allez dans une entreprise ordinaire, ces lieux uniques vous manqueront vraiment.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!