احتمالا همهی ما تا به حال برای یک بار هم که شده از مزایای هوش مصنوعی گوگل در زمینهی تشخیص تصویر بهرهمند شدهایم. گوگل فوتوز (Google Photos) از یک نسخهی بسیار سادهی الگوریتم برای شناسایی تصاویری که دارای گربه، سگ، غذا یا همچنین افراد خاص هستند، استفاده میکند. با این حال، غول جستجوی دنیا همواره روی ظرفیتهای قابلیت تشخیص عکس پیشرفتهتر نیز کار کرده است و آنها به تازگی روند پیشرفت خود را برای توسعهدهندگان منتشر کردهاند.
پایگاه تحقیقات گوگل گزارش داده که سیستم عنوانبندی (کپشنگذاری) تصویر بر پایهی هوش مصنوعی که به گروه Google Brain تعلق دارد موفق به کسب درصد دقتی به اندازهی ۹۳.۹ درصد شده است. آنها در سال ۲۰۱۴ برای ارایهی نتایج نهایی در سازوکار خود از مدل طبقهبندی تصویری با نام (Inception V1) استفاده کرده بودند که در آن هنگام دقت به دست آمده دارای درصدی به میزان ۸۹.۶ درصد بود. شاید این دو مقدار در نگاه نخست خیلی فاصلهی زیادی نداشته باشند و بهبود گستردهای برای گوگل به شمار نرود، اما واقعیت این است که وقتی ما دربارهی تقلید زبان فعالیت طبیعی انسان همانند عنوانبندی یک عکس صحبت میکنیم، این تفاوتها کاملا معنیدار و قابل توجه تلقی میشوند.
تصویری که در بالا مشاهده میکنید، بهبود به دست آمده از سال ۲۰۱۴ تا به امروز را نشان میدهد. باید توجه داشت که سیستم نه تنها در زمینهی شناسایی اشیا بسیار بهتر شده است، بلکه علاوه بر آن در زمینهی توضیح و تشریح آنها با استفاده از رنگها و فعالیتهای مشخص هم بسیار بهبود یافته است.
قسمت قابل توجهی که مدل Inception V3 استفاده شده در سال جاری را بسیار کارامد میکند این است که مدل کنونی نه تنها توانایی شناسایی اشیای منفرد را در یک تصویر دارد، علاوه بر آن مدل یاد شده میتواند میان آنها رابطهی متقابل نیز برقرار کند. مهندس نرمافزار گروه Google Brain، کریس شالو (Chris Shallue) در این باره توضیح میدهد:
برای مثال، یک مدل طبقهبندی تصویر به شما خواهد گفت که یک سگ، چمن و یک فریزبی در تصویر هستند، اما تشرح طبیعی تصویر میتواند به شما رنگ چمن و چگونگی ارتباط سگ و فریزبی در تصویر را نیز ارایه کند.
این نتایج با به کار گرفتن انسانها برای عنوانبندی صدها هزار عکس و سپس اعمال این دادهها به TensorFlow به دست آمدند. اگرچه الگوریتم به کار رفته در این سیستم، برای عنوانگذاری تصاویر از عنوانها و توضیحات ارایه شده توسط انسانها استفاده میکند، اما این حالت زمانی رخ میدهد که شباهتها از یک حد مورد نظر بیشتر بوده باشند. در صورتی که مورد جدیدی در تصویر موجود باشد، آنگاه سیستم میتواند توضیحهایی را برای پدیدهی مورد نظر ایجاد کند.
گوگل، مدل اخیر TensorFlow را به این امید برای توسعهدهندگان ارایه داده است که آنها سیستمهایی که خودشان تا کنون توسعه دادهاند را دریافت کرده و به همراه مدل ارایه شده از سوی گوگل راهاندازی کنند. اگر شما هم میخواهید از این فناوری برای هدف مورد نظر خودتان استفاده کنید، میتوانید به صفحهی اصلی مدل یاد شده در مراجعه کنید.v