


Die Anzahl der Fragen, die AGI und KI -Superintelligenz für den Nachweis der Intelligenz beantworten müssen
Dies ist mehr als nur ein akademisches philosophisches Problem. Irgendwann sollten wir bereit sein, uns zuzustimmen, ob das Aufkommen von ASI und ASI erreicht wurde. Die wahrscheinliche Möglichkeit, dies zu tun, bedeutet, Fragen der KI zu stellen und dann den intellektuellen Scharfsinn zu messen, der durch die Antworten auf A-generierte Antworten zum Ausdruck gebracht wird.
Wie viele Fragen müssen wir also stellen?
Reden wir darüber.
Diese Analyse eines innovativen KI -Durchbruchs ist Teil meiner laufenden Forbes -Säulenberichterstattung über die neueste in der KI, einschließlich der Identifizierung und Erklärung verschiedener wirksamer KI -Komplexitäten (siehe Link hier).
Auf dem Weg zu Agi und ASI
Erstens sind einige Grundlagen erforderlich, um die Bühne für diese gewichtige Diskussion zu schaffen.
Es gibt viel Forschung, um die KI weiter voranzutreiben. Das allgemeine Ziel ist es, entweder künstliche allgemeine Intelligenz (AGI) oder sogar die ausgestreckte Möglichkeit, künstliche Superintelligence (ASI) zu erreichen, zu erreichen.
AGI ist AI, das mit dem menschlichen Intellekt gleichbedeutend ist und anscheinend unserer Intelligenz entsprechen kann. ASI ist KI, der über den menschlichen Intellekt hinausgegangen ist und auf viele, wenn nicht auf alle machbaren Arten überlegen wäre. Die Idee ist, dass ASI in der Lage sein würde, Kreise um den Menschen zu führen, indem sie uns auf Schritt und Tritt überlegen. Weitere Informationen zur Art der konventionellen KI gegen AGI und ASI finden Sie in meiner Analyse hier.
Wir haben Agi noch nicht erreicht.
Tatsächlich ist es nicht bekannt, ob wir AGI erreichen werden oder dass AGI in Jahrzehnten oder vielleicht Jahrhunderten von nun an erreichbar ist. Die AGI -Erwerbsdaten, die herumschweben, sind wild unterschiedlich und durch glaubwürdige Beweise oder Eisenklad -Logik unbegründet. ASI ist noch mehr blass, wenn es darum geht, wo wir uns derzeit mit herkömmlicher KI befinden.
Über Testen für Pinnacle AI
Ein Teil der Schwierigkeit der Menschheit ist, dass wir keinen todsicheren Test haben, um festzustellen, ob wir AGI und ASI erreicht haben.
Einige Leute proklamieren ziemlich hoch, dass wir es nur wissen werden, wenn wir es sehen. Mit anderen Worten, es ist einer dieser Fuzzy -Aspekte und entspricht einer systematischen Bewertung. Ein allgemeines Gefühl oder ein intuitiver Sinn für unsere Seite wird uns dazu veranlassen, zu entscheiden, dass die Pinnacle AI erreicht wurde.
Periode, Ende der Geschichte.
Aber das kann nicht das Ende der Geschichte sein, da wir eine achtsamere Möglichkeit haben sollten, zu bestimmen, ob Pinnacle Ai erreicht wurde. Wenn das einzige Mittel aus einer Gestalt-ähnlichen emotionalen Reaktion besteht, wird es eine Menge Verwirrung geben, die entstehen wird. Sie werden viele Leute dazu bringen, dass die Pinnacle AI existiert, während viele andere Menschen darauf bestehen, dass die Erklärung völlig verfrüht ist. Immense Meinungsverschiedenheiten werden im Gange sein.
Sehen Sie meine Analyse von Menschen, die bereits fälschlicherweise glauben, dass sie Zeuge von Pinnacle AI wie AGI und ASI gesehen haben, wie sie hier unter dem Link diskutiert haben.
Eine Form einer echten Bewertung oder Prüfung, die die Angelegenheit formalisiert, ist dringend erforderlich.
Ich habe einen bekannten Ai-Insider-Test, der als Turing-Test bekannt ist, ausführlich diskutiert und analysiert. Siehe den Link hier. Der Turing -Test ist nach dem berühmten Mathematiker und frühen Informatiker Alan Turing benannt. Kurz gesagt, die Idee besteht darin, Fragen der KI zu stellen, und wenn Sie die Antworten nicht von denen dessen, was ein Mensch sagen würde, nicht unterscheiden können, könnten Sie erklären, dass die KI Intelligenz auf dem gleichzeitigen Menschen aufweist.
Turing -Test fälschlicherweise bösartig
Seien Sie vorsichtig, wenn Sie einen KI -Techniker fragen, was sie von dem Turing -Test halten. Sie werden ein ziemlicher Ohr. Es wird nicht angenehm sein.
Einige glauben, dass der Turing -Test Zeitverschwendung ist. Sie werden argumentieren, dass es nicht angemessen funktioniert und veraltet ist. Wir sind angeblich weit hinter dem Nutzen vorbeigegangen. Sie sehen, es war ein Test, der 1949 von Alan Turing entwickelt wurde. Das ist vor über 75 Jahren. Nichts von diesem vor langer Zeit kann in unserer modernen Ära der KI anscheinend anwendbar sein.
Andere werden Ihnen hochmütig sagen, dass der Turing -Test bereits erfolgreich bestanden wurde. Mit anderen Worten, der Turing -Test wurde angeblich von der bestehenden KI bestanden. Viele Banner -Schlagzeilen sagen es. Daher ist der Turing -Test nicht viel Nutzen, da wir wissen, dass wir noch keine Pinnacle AI haben, aber der Turing -Test scheint zu sagen, dass wir es tun.
Ich habe wiederholt versucht, den Datensatz in dieser Angelegenheit gerade aufzustellen. Die wahre Geschichte ist, dass der Turing -Test nicht ordnungsgemäß angewendet wurde. Diejenigen, die behaupten, der Turing -Test wurde bestanden, spielen schnell und locker mit der berühmten Testmethode.
Schau der Turing -Test zur Schau stellen
Ein Teil der Lücke im Turing -Test besteht darin, dass die Anzahl der Fragen und die Art von Fragen nicht spezifisch sind. Es liegt an der Person oder dem Team, die sich in den Turing -Test lehnen, um diese entscheidenden Facetten zu entscheiden. Dies führt zu unglücklichen Problemen und problematischen Ergebnissen.
Nehmen wir an, ich entscheide mich, einen Turing -Test auf ChatGPT, dem immens beliebten generativen KI und dem Großsprachmodell (LLM) durchzuführen, das 400 Millionen wöchentlich verwenden. Ich werde versuchen, Fragen zu stellen, die ich Chatgpt stellen kann. Ich werde auch die gleichen Fragen meines engsten Freundes stellen, um zu sehen, welche Antworten sie geben.
Wenn ich die Antworten von meinem menschlichen Freund gegenüber ChatGPT nicht unterscheiden kann, werde ich kurz und laut erklären, dass Chatgpt den Turing -Test bestanden hat. Die Idee ist, dass die generative KI den menschlichen Intellekt erfolgreich in dem Maße nachgeahmt hat, in dem die von Menschen bereitgestellten Antworten und die AI-bereitgestellten Antworten im Wesentlichen gleich waren.
Nach fünfzig Fragen, einige, die einfach waren und einige, die hart waren, machte ich meine Verwaltung des Turing -Tests. Chatgpt beantwortete jede Frage, und mein Freund auch. Die Antworten der KI und die Antworten meines Freundes waren ziemlich nicht voneinander zu unterscheiden.
Voila, ich kann der Welt sagen, dass Chatgpt den Turing -Test bestanden hat. Ich habe nur ungefähr eine Stunde gebraucht, um das herauszufinden. Ich habe die Hälfte der Zeit damit verbracht, die Fragen zu stellen, und die Hälfte der Zeit erhielt die jeweiligen Antworten.
Easy-Peasy.
Die Anzahl der Fragen
Hier ist ein Gedanke, an dem Sie nachdenken können.
Glauben Sie, dass das Stellen von fünfzig Fragen ausreicht, um festzustellen, ob intellektueller Scharfsinn existiert?
Das scheint irgendwie nicht ausreichend zu sein. Dies ist insbesondere dann der Fall, wenn wir Agi als eine Form der KI definieren, die intellektuell mit dem gesamten Bereich und der Tiefe des menschlichen Intellekts entspricht. Es stellte sich heraus, dass die Fragen, die ich für meinen Lauf des Turing -Tests gestanden habe, nichts über Chemie, Biologie und viele andere Disziplinen oder Domänen enthielt.
Warum habe ich diese Bereiche nicht aufgenommen?
Nun, ich hatte mich entschieden, nur fünfzig Fragen zu verfassen.
Sie können in lediglich fünfzig Fragen keinen Anschein von Tiefe und Breite in allen menschlichen Wissen stellen. Sicher, Sie könnten betrügen und eine Frage stellen, die die Person oder die KI anspricht, alles zu rasseln, was sie kennen. In diesem Fall würde die „Antwort“ vermutlich irgendwann Chemie, Biologie usw. umfassen. Dies ist kein praktikabler Ansatz, wie ich hier unter dem Link diskutiere. Legen wir also die Fragen der breiten Striche beiseite und zielen eher auf bestimmte Fragen als auf Smarmy Catch-All-Fragen.
Wie viele Fragen ist genug
Ich vertraue darauf, dass Sie bereit sind zuzugeben, dass die Anzahl der Fragen wichtig ist, wenn Sie einen Test durchführen, der versucht, geistige Fähigkeiten zu ermitteln. Versuchen wir, eine Zahl zu finden, die Sinn macht.
Wir können mit der Nummer Null beginnen. Einige glauben, dass wir nicht einmal eine Frage stellen müssen. Die KI hat die Verantwortung, uns davon zu überzeugen, dass sie Agi oder ASI erreicht hat. Daher können wir uns nur zurücklehnen und sehen, was die KI zu uns sagt. Wir sind entweder letztendlich von dem reibungslosen Reden überzeugt, oder wir sind es nicht.
Ein großes Problem mit dem Zero -Ansatz ist, dass die KI endlos drängeln könnte und einfach eine Müllkippe von allem machen könnte, was sie strukturiert hat. Das Schöne daran, Fragen zu stellen, ist, dass Sie die Möglichkeit haben, herumzuspringen und möglicherweise leere Stellen zu finden. Wenn die KI nur das ausspricht, was sie zu sagen hat, könnte die Wolle leicht über Ihre Augen gezogen werden.
Ich schlage vor, wir erklären uns einig, eine Anzahl ungleich Null zu verwenden. Wir sollten mindestens eine Frage stellen. Die Schwierigkeit, auf eine Frage gezwungen zu werden, ist, dass wir zurück zum Rätsel sind, entweder das Boot zu verpassen und nur einen bestimmten Nugget zu treffen, oder wir werden auf übermäßig breite Weise nach dem gesamten Spülbecken fragen. Keine davon ist befriedigend.
Okay, wir müssen mindestens zwei oder mehr Fragen stellen. Ich wage zu sagen, dass zwei nicht hoch genug wirken. Scheinen zehn wie genügend Fragen? Wahrscheinlich nicht. Was ist mit hundert Fragen? Es scheint immer noch nicht ausreichend. Tausend Fragen? Zehntausend Fragen? Einhunderttausend Fragen?
Es ist schwer zu beurteilen, wo die richtige Nummer sein könnte. Vielleicht können wir zu diesem Thema nudeln und einen Baseball -Schätzung herausfinden, der vernünftiger Sinn macht.
Lass uns das machen.
Neuere Tests der Top -KI
Sie wissen vielleicht, dass jedes Mal, wenn einer der Top -KI -Hersteller eine neue Version ihrer generativen KI herausbringt, eine Reihe verschiedener KI -Bewertungstests durchführen, um zu versuchen, zu zeigen, wie viel besser ihre KI ist als andere konkurrierende LLMs.
Zum Beispiel wurde GROK 4 von Elon Musks XAI kürzlich veröffentlicht, und Xai und andere verwendeten viele der spezialisierten Tests, die relativ beliebt geworden sind, um zu sehen, wie gut GROK 4 vergleicht. Die Tests umfassten die letzte Prüfung oder HLE der Humanity der Humanity, (b) ARC-AGI-2, (c) GPQA, (d) Usamo 2025, (e) Aime 2025, (f) LiveCodebench, (g) SWE-Bench und andere solche Tests.
Einige dieser Tests haben damit zu tun, dass die KI in der Lage ist, Programmcode (z. B. LivecodeBench, Swe-Bench) zu generieren. Bei einigen Tests geht es darum, mathematische Probleme zu lösen (z. B. USA, Aime). Der GPQA-Test ist wissenschaftlich orientiert.
Wissen Sie, wie viele Fragen im GPQA -Testsatz enthalten sind?
Es gibt insgesamt 546 Fragen, die aus 448 Fragen im Hauptsatz und weiteren 198 Fragen im härteren Diamant -Set bestehen.
Wenn Sie an der Art der Fragen in GPQA interessiert sind, besuchen Sie die GPQA Github -Site. Außerdem finden Sie möglicherweise das erste Papier mit dem Titel „GPQA: A Google-Proof-Q & A-Benchmark“ mit Graduiertenebene “. Chemie.
Bitte beachten Sie, dass Sie wahrscheinlich einige Augenbrauenerhebungsansprüche hören, dass eine generative KI aufgrund bestimmter Bewertungen des GPQA-Tests besser als Doktoranden auf Doktoranden in allen Bereichen ist. Es ist eine atemberaubende Aussage und zeigt irreführend die tatsächlichen Tests, die normalerweise stattfinden.
Kurz gesagt, eine solche Proklamation sollte mit einem hummen Salzkorn angenommen werden.
Die Fragen zählen
Nehmen wir an, wir machen unseren eigenen praktischen Dandy-Test mit Fragen der PhD-Ebene. Der Test wird insgesamt 600 Fragen haben. Wir werden 600 Fragen zu 6 Domänen stellen, gleichmäßig, und wir werden mit den sechs Domänen der (1) Physik, (2) Chemie, (3) Biologie, (4) Geologie, (5) Astronomie und (6) Ozeanographie gehen. Das heißt, wir werden in jeder Disziplin 100 Fragen haben. Zum Beispiel werden 100 Fragen zur Physik gestellt.
Fühlen Sie sich wohl, indem Sie einen Menschen mit 100 Fragen zur Physik stellen, die wir in der Lage sein werden, die gesamte Reichweite und Tiefe ihres vollen Wissens und ihrer intellektuellen Fähigkeiten in der Physik zu ermitteln?
Ich bezweifle es. Sie werden sicherlich in der Lage sein, einen Anschein ihres Physikverständnisses zu messen. Die Wahrscheinlichkeit besteht darin, dass Sie mit nur 100 Fragen nur ihr Wissen probieren. Ist das eine ausreichend ausreichend ausreichend Abtastung oder sollten wir noch mehr Fragen stellen?
Eine weitere Überlegung ist, dass wir nur Fragen zu 6 Domänen stellen. Was ist mit all den anderen Domänen? Wir haben keine Fragen zu Meteorologie, Anthropologie, Wirtschaft, Politikwissenschaft, Archäologie, Geschichte, Recht, Linguistik usw. aufgenommen.
Wenn wir eine KI wie die erhoffte AGI bewerten möchten, müssen wir vermutlich jede mögliche Domäne abdecken. Wir müssen auch eine ausreichend hohe Anzahl von Fragen pro Domäne haben, damit wir uns wohl fühlen, dass unsere Probenahme tief und breit verläuft.
Einen Strohmann zählen
Gehen Sie mit mir auf eine Reise, um einen Strohmann zu finden. Unser Ziel wird eine Schätzung der Größenordnung und nicht eine genaue Zahl an sich sein. Wir möchten einen Ballpark haben, damit wir wissen, was der Baseballstadion ist.
Wir werden das Abenteuer beginnen, indem wir feststellen, dass die US -Kongressbibliothek über eine umfangreiche Reihe von Fachüberschriften verfügt, die allgemein als LCSH bezeichnet (Library of Congress -Fachüberschriften). Das LCSH wurde 1897 gestartet und seitdem aktualisiert und gepflegt. Das LCSH wird im Allgemeinen als am häufigsten verwendeten Subjektvokabular der Welt angesehen.
Abgesehen davon bevorzugen einige Leute das LCSH und andere nicht. Es gibt hitzige Debatten darüber, ob bestimmte Betreffüberschriften gerechtfertigt sind. Es gibt heftige Debatten über den Wortlaut einiger der Betreffüberschriften. Weiter und auf den Diskurs geht. Ich werde hier nicht in diesen Sumpf waten.
Die Anzahl der LCSHs im April 2025 betrug 388.594 Rekorde. Ich werde diese Zahl auf 400.000 runden, um dieser Baseballstadion zu haben. Wir können uns darüber streiten, zusammen mit dem Streiten, ob all diese Betreffüberschriften unverwechselbar und verwendbar sind, aber ich nehme diese Route vorerst nicht.
Angenommen, wir haben eine Frage für jede der LCSH -Betreffüberschriften gestellt, so dass wir eine Frage dazu stellen werden. Wir hätten dann 400.000 Fragen, die gestellt werden können.
Eine Frage pro Reich scheint nicht ausreichend zu sein.
Betrachten Sie diese Möglichkeiten:
- (a) 400k Fragen: 1 Frage x 400k LCSH
- (b) 4m Fragen: 10 Fragen x 400k LCSH
- (c) 40 m Fragen: 100 Fragen x 400K LCSH
- (d) 400 m Fragen: 1.000 Fragen x 400.000 LCSH
- (e) 4B Fragen: 10.000 Fragen x 400.000 LCSH
- (f) 40b Fragen: 100.000 Fragen x 400.000 LCSH
- (g) 400B Fragen: 1m Fragen x 400k LCSH
- Usw.
Wenn wir die Auswahl von 10.000 Fragen pro LCSHS auswählen, müssen wir 4 Milliarden Fragen stellen. Das sind viele Fragen. Aber vielleicht reicht nur 10.000 Fragen für jeden Bereich aus. Wir könnten mit 100.000 Fragen steigen, was dann die Gesamtsumme auf 40 Milliarden Fragen bringt.
AGI über Fragen messen
Ist es, einem potenziellen AGI eine Milliarde oder viele Milliarden Fragen, dh 4b bis 40b, in allen „bekannten“ Domänen gleichermaßen unterschiedlich zu sein, eine ausreichende Reichweite und eine ausreichende Tiefe des Tests zu sein?
Einige Kritiker werden sagen, dass es Hogwash ist. Sie müssen nicht so viele Fragen stellen. Es ist ein großer Überkleid. Sie können eine viel kleinere Zahl verwenden. Wenn ja, wie lautet diese Zahl? Und was ist die Rechtfertigung für diese vorgeschlagene Zählung? Wäre die Zahl in der Größenordnung von vielen Tausenden oder Millionen, wenn nicht in den Milliarden? Und versuchen Sie nicht, die Angelegenheit zu ducken, indem Sie sagen, dass die Anzahl irgendwie amorph oder insgesamt unbestimmt ist.
Im Strohmann -Fall von Milliarden werden Skeptiker sagen, dass Sie unmöglich eine Milliarde oder mehr Fragen stellen können. Es ist logistisch nicht realisierbar. Selbst wenn Sie könnten, könnten Sie niemals die Antworten auf diese Fragen bewerten. Es würde ewig dauern, diese Milliarden von Antworten zu durchlaufen. Und Sie benötigen Experten in allen Bereichen des menschlichen Wissens, um zu beurteilen, ob die Antworten richtig oder falsch waren.
Ein Gegenargument ist, dass wir möglicherweise KI, eine andere KI als das getestete AGI, verwenden könnten, um das Bestreben zu unterstützen. Auch das hat Upsides und Nachteile. Ich werde diese Überlegung in einem kommenden Beitrag behandeln. Aufpassen.
Es gibt sicherlich viele Probleme, die berücksichtigt und behandelt werden müssen. Die außergewöhnlich schwerwiegende Angelegenheit ist es wert, diese Facetten anzusprechen. Denken Sie daran, wir konzentrieren uns darauf, wie wir wissen werden, dass wir Agi erreicht haben. Das ist eine monumentale Frage. Wir sollten bereit sein, genügend Fragen zu stellen, die wir gemeinsam und vernünftigerweise zu dem Schluss kommen können, dass AGI erreicht wurde.
Wie Albert Einstein treffend ausdrückte: „Lernen Sie von gestern, leben Sie für heute, hoffe auf morgen. Das Wichtigste ist nicht, die Befragung aufzuhören.“
Das obige ist der detaillierte Inhalt vonDie Anzahl der Fragen, die AGI und KI -Superintelligenz für den Nachweis der Intelligenz beantworten müssen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Vor neun Jahren stand Elon Musk vor Reportern und erklärte, dass Tesla einen gewagten Sprung in die Zukunft machte-jedes neue Elektrofahrzeug mit der vollständigen Hardware ausgestattete

Warum ist Verwirrung so entschlossen, einen Webbrowser zu erwerben? Die Antwort könnte in einer grundlegenden Veränderung am Horizont liegen: Der Aufstieg des Agenten -AI -Internets - und die Browser könnten im Mittelpunkt sein.

Verständnis der EU Nature Credits Framework Die Initiative der Natur Credits der Europäischen Union führt ein System quantifizierbarer Biodiversitätseinheiten ein, um Einzelpersonen und Gruppen aktiv zu erkennen und zu belohnen, die aktiv wiederhergestellt und bewahrt werden

Diese Woche habe ich mit Karin Ophir Zimet, dem Chief People Officer von Torq, und Tess Posner, CEO von AI4all, über ihre gemeinsamen Anstrengungen und die transformativen Ziele gesprochen. Zimet teilte mit, dass Torq diese Initiative als Teil einer tieferen Verantwortung betrachtet

Alles in allem ist die Ego-Boosting-Linie, die „Sie perfekt sind, genauso wie Sie sind“ zu einem vernünftigen Mantra geworden, das zeitgenössische KI darauf vorbereitet ist, jedem Benutzer, der übertriebene Plattitüden hören möchte, aufflüssig zu sprudeln. Reden wir darüber. Diese Analyse von a

Sie sind auch von zentraler Bedeutung für die Zukunft der pharmazeutischen Tests - und könnten eines Tages Labortiere überflüssig machen. Seit 1937 war Tierversuche eine gesetzliche Anforderung, die durch einen tödlichen Vorfall mit einem kontaminierten Antibiotika ausgelöst wurde, das über 100 Tage verursacht wurde

Da sich das Gespräch um AI -Agenten weiter zwischen Unternehmen und Einzelpersonen entwickelt, sticht ein zentrales Thema auf: Nicht alle AI -Agenten sind gleich geschaffen. Es gibt ein breites Spektrum-von grundlegenden, regelgetriebenen Systemen bis zu einem hoch fortgeschrittenen, adaptiven Modell

Jetzt nimmt sie eine dauerhafte Beurlaubung aus, die von der Angst festgegangen ist, dass die Ankunft der „künstlichen allgemeinen Intelligenz“ - eine theoretische Form von KI, die in der Lage ist, die menschliche Leistung über unzählige Domänen hinweg zu übereinstimmen oder zu übertreffen - zum Zusammenbruch von CI führen kann
