Google's Automated Image Captioning & der Schlüssel zur künstlichen "Vision"

Es ist kein Geheimnis, dass Google in den letzten Jahren verstärkt in der Forschung aktiv wurde, zumal es sich bereits im Jahr 2015 deutlich neu organisiert hat. Am 22. September 2016 gab es die Open-Source-Veröffentlichung einer Software bekannt, die Objekte und Objekte erkennen kann Einstellung eines Bildes, um automatisch eine Beschriftung zu erzeugen, die es beschreibt. Natürlich hat es nicht das gleiche Maß an Kreativität wie die Menschen beim Erstellen der Prosa innerhalb der Bildunterschriften, aber der Bild-Encoder, der sonst als Inception V3 bekannt ist, sollte aus Gründen Aufmerksamkeit erregen, die über den oberflächlichen "Blick auf die Untertitel hinausgehen kann "Motiv" machen. Software wie diese kann tatsächlich ein Sprungbrett für etwas Größeres auf dem Weg zu fortgeschrittener künstlicher Intelligenz sein.

Augen sehen, aber Intelligenz "nimmt" wahr

Künstliche Sicht ist seit mehr als einem Jahrhundert bei uns. Alles mit einer Kamera kann sehen. Es ist eine sehr einfache Sache. Aber selbst ein Blinder kann das Verständnis der Kamera für das, was er sieht, übertreffen. Bis vor Kurzem konnten Computer die in Bildern gefundenen Objekte nicht ohne genaue Parameter benennen. Um wirklich zu sagen, dass ein vom Menschen geschaffenes Objekt "Vision" hat, würde es bedeuten, dass es zumindest eine konkrete Fähigkeit hat, zu spezifizieren, was es betrachtet, anstatt es einfach anzusehen, ohne irgendeinen Kontext zu erfassen. Auf diese Weise könnte das Gerät, wie wir es tun, potenziell auf seine Umgebung reagieren. Wahrnehmung ist eine absolute Notwendigkeit. Ohne sie ist jeder Sinn, den wir haben, nutzlos.

Wahrnehmung durch automatische Bildunterschrift

Obwohl wir im Allgemeinen glauben, dass jedes Bild mehr als tausend Worte sagt, teilt Inception V3 diese Meinung nicht notwendigerweise. Die Software für automatische Bildunterschriften hat nur wenig zu sagen, was sie sieht, aber sie hat zumindest ein grundlegendes konkretes Verständnis dessen, was in dem Rahmen enthalten ist, der ihr präsentiert wird.

Mit dieser rudimentären Information haben wir einen Schritt in Richtung der Fähigkeit von Software gemacht, visuelle Reize zu verstehen. Würde man einem Roboter diese Art von Kraft geben, würde er auf solche Reize reagieren und seine Intelligenz nur unter das Niveau der grundlegendsten Wassertiere bringen. Das hört sich vielleicht nicht nach viel an, aber wenn man sich einmal anschaut, wie sich Roboter gerade verhalten (wenn man sie außerhalb ihrer sehr restriktiven Parameter testet), wird man feststellen, dass dies im Vergleich zur amöbenartigen Vorgehensweise ein Quantensprung wäre Sie können ihre eigene Umgebung wahrnehmen.

Was das für KI bedeutet (und warum es weit von perfekt ist)

Die Tatsache, dass wir jetzt eine Software haben, die (mit einer Genauigkeit von 93 Prozent) Bilder beschriften kann, bedeutet, dass wir das Hindernis, dass Computer ihre Umgebung verstehen, etwas überwunden haben. Das bedeutet natürlich nicht, dass wir in dieser Abteilung schon fast fertig sind. Es ist auch erwähnenswert, dass die Inception V3 von Menschen im Laufe der Zeit trainiert wurde und die Informationen, die sie "erlernt" hat, um andere Bilder zu entschlüsseln. Um ein wahres Verständnis der Umwelt zu erlangen, muss man eine abstraktere Wahrnehmungsebene erreichen können. Ist die Person im Bild wütend? Kämpfen zwei Leute? Was weint die Frau auf der Bank?

Die obigen Fragen stellen die Art von Dingen dar, die wir uns stellen, wenn wir anderen Menschen begegnen. Es ist die Art von abstrakter Untersuchung, die es erfordert, dass wir mehr Informationen extrapolieren als das, was ein Bildunterschriften-Doohickey tun kann. Vergessen wir nicht, dass das Sahnehäubchen eine emotionale (oder "irrationale") Reaktion auf das ist, was wir sehen. Deshalb betrachten wir Blumen als schön, Kanalisation als ekelhaft und Pommes als lecker. Wir fragen uns immer noch, ob wir jemals auf einer Maschinenebene erreichen werden, ohne sie tatsächlich zu programmieren. Die Wahrheit ist, dass diese Art von "menschlichem" Phänomen ohne restriktive Programmierung wahrscheinlich unmöglich ist. Natürlich heißt das nicht, dass wir nicht aufhören werden, es zu versuchen. Wir sind schließlich menschlich .

Glauben Sie, dass unsere Roboter-Oberherren jemals die Kompliziertheit eines Rosenblatts unter einem Mikroskop zu schätzen lernen werden? Erzähle uns in einem Kommentar!