关闭
极密曝光! GCP架构实战! - AI学习应用

提起大众对于Google的印象,不外乎是最先进的研发能量与创新精神,可以说是各种开源新技术的先驱,从K8S,再到TensorFlow的开源,几乎都有Google的踪影。尤其又以AI (Artificial Intellience)技术所为人称道,现在市场上所使用的Google产品,大部分也是透过GCP的AI技术来搭建的。可是GCP提供的AI技术与产品究竟有那些呢?

本文将会先探索AI究竟是怎样的技术,并且讨论关于GCP AI服务的类别以及差异之处,最后是GCP的「Vision API」实作。
 

AI是什么?

AI(Artificial Intelligence),人工智慧。被发展为一项透过机器自主学习,使电脑能够模拟人类的思维过程,或者展现特定行为,比如说:判别问题、提供预测、语音与图片辨识、翻译等。我们现在常见的聊天机器人、Google翻译、图片自动侦测、以及疫情之下最夯的人脸辨识,都是AI的应用;而最为人所知的则是Google AlphaGo 打败世界棋王的案例。
那么AI真的可以像电影演的那样?成为有感情的机器「人」吗?

美国哲学家John Searle将AI分为「强AI (Strong AI)」与「弱AI (Weak AI)」。前者具备自我意识、情感等人类的特质;而后者则是展现出人类某种特有的行为能力,例如辨识图片、辨识语音等等。而目前所有发展的AI都是所谓的弱AI,真正具备心智的强AI,大家可以参考电影「脱稿玩家 (Free Guy)」中对人类产生情感的盖伊。

AI学习的过程?

AI人工智能的核心基础是「机器学习」,也就是常听到的Machine Learning(ML)。而机器学习,就是让机器学会判断特征(Feature)的一个过程 (Training),在这个过程需要透过算法产生的训练模型(Training Model)来进行学习,同时又分成两种学习方式:监督式学习(Supervised Learning)、非监督式学习(Unsupervised Learning)。
若我们今天要让机器学会判断狗和猫的图片,以监督式学习的角度而言,我们必须先透过人为筛选出猫和狗的图片,并且各自加上标签(Label),并加以训练;而非监督式学习,则是将大量数据汇入,并且让机器自己判读跟学习不同图片的差异。甚至有时候我们希望AI能够帮我们判别猫狗,结果AI在非监督式学习的过程中,还自己学会判别毛色,这就是所谓的非监督式学习。

 
AI的三大范畴

AI的三大范畴可以参考下图,AI人工智能包含了Machine Learning机器学习,而机器学习又包含了深度学习。
AI是透过程序代码来运作软件,来让这个软件能够感知、辨识等的类人类行为。而支撑着AI的是ML机器学习,主要包含了算法、数据等。
最后则是深度学习(Deep Learning),算是机器学习的其中一个分支,通过仿真大脑神经网络,建立不同分层,可分为输入层、隐藏层、输出层,也称为神经网络。而在隐藏层的部分会比起传统机器学习的模型还需要更多的数据;并且深度学习会将这些大数据的特征自行提取、分类,最后取得最靠近正确答案的解答。例如前述提到的AlphaGo,即为基于Deep Learning所建构的人工智能,通过大量棋谱的输入、自我训练,最终击败世界棋王。

极密曝光!GCP架构实战!- AI学习应用

 
GCP AI 服务 
  1. Vertax AI:

属于整合式的AI平台,这项产品适合接触过AI,且能够理解AI技术所带来效益的人使用。在这个产品中,用户可以快速建构自己的训练模型,就算不具备撰写算法的技术资源,也能够轻松搭建自己的AI Training Model。需要注意的是,Vertax AI的前身是GCP的AI Platform,目前仍支持AI Platform的接口,但大部分功能皆已整合进Vertax AI,可以直接使用Vertax AI进行相关作业即可!

适合对象:数据科学家、想使用AI的工程师、数据分析师

 
  1. Natural Language API:

Natural Language为自然语言分析的AI应用,可以撷取非结构化、半结构化的文字数据来进行探索,并取得深入的文字分析结果。可以分析出情绪、文法结构、单字组合等等。适合需要进行大量文字探勘的工作。

适合对象:进行大量文献探勘者、医疗照护者(心理治疗相关应用)、数据科学家

 
  1. Speech-to-Text API:

Speech-to-Text是大家相当熟悉的一款服务,主要是做语音转文字的AI辨识。例如Google Map中,透过语音转文字的服务,让司机只需要念出地址,而不用手动Key入文字。或者是现在短影音创作的市场兴起,透过语音转文字的方式快速产生字幕,堪称是创作者的福音!

适合对象:开发导航、语音相关服务产业

 
  1. Translation API:

Translation顾名思义就是透过AI来进行文字翻译,不晓得各位有没有注意到,在2006年Google翻译刚推出的时候,那时候的翻译并没有那么正确,也不容易读懂翻译后的文字。但是到了现在,由于大量数据的累积,Google翻译有越来越精准的趋势。而Google也将其大量训练后的模型发布为Translation API,提供使用者能够快速进行AI翻译的任务。

适合对象:语言翻译应用、跨国平台开发、结合Speech-to-Text的语音等等。

 
  1. Video Intelligence:

随着影音产业的兴起如Youtube、Netflix、TikTok等,专门分析影片的AI技术也发展成熟,Video Intelligence,就是一个可以用来辨析影片内容的AI服务,同时撷取不同片段、镜头,透过建立不同的标签,来提升观影者的使用体验。

适合对象:影音产业、影音资料分析者。

 
  1. Vision API:

Vision API即是本次要操作的AI工具,主要功能是针对图片进行辨识,包含手写文字、侦测图片中的对象与脸孔。最常见的应用就是人脸辨识系统、手写表格的内容侦测,在现在发展Fintech的金融业中是相当热门的一种AI应用。

适合对象:金融科技业、人脸辨识、制造业(判别产品良率)等等。
 

Vision API实作篇

本次实作目标:输入猫、狗图片,并添加Tag后训练,并测试模型是否能准确判断其余猫狗的图片。
数据集:Kaggle Cats & Dogs Dataset(https://www.microsoft.com/en-us/download/details.aspx?id=54765)

 
  1.  从主页点选VisionAPI进入页面,在这之前跟着步骤启用Vision API即可

极密曝光!GCP架构实战!- AI学习应用







 
  1.  选择新增数据集

极密曝光!GCP架构实战!- AI学习应用

 
  1.  根据自己的需求选择模型目标

极密曝光!GCP架构实战!- AI学习应用

 
  1.   选择从计算机上传图片,并将本次实作准备的猫狗图片zip文件上传

极密曝光!GCP架构实战!- AI学习应用

 
  1. 等待数据集汇入完成

极密曝光!GCP架构实战!- AI学习应用

 
  1.   数据汇入完成后,添加标签,也可点选卷标统计数据查看

极密曝光!GCP架构实战!- AI学习应用

 
  1.  选择训练,并查看自己的图片是否足够,一个标签最少需要10张。确定没问题后选择开始训练。本次仅示范实作,因此最终供机器学习的图片张数为猫猫狗狗各24张

极密曝光!GCP架构实战!- AI学习应用

 
  1.  选择训练模型要应用在云端上还是边缘机器上

极密曝光!GCP架构实战!- AI学习应用

 
  1.  选择节点时数运算,如果设定越高,训练效率越高。但同时价格也会越高。确认没问题,即可选择开始训练

极密曝光!GCP架构实战!- AI学习应用

 
  1. 训练完成后,点选评估查看训练情况

极密曝光!GCP架构实战!- AI学习应用

 
  1.  由于之前没有点选部署模型,因此选择测试及使用,然后部署模型

极密曝光!GCP架构实战!- AI学习应用

 
  1. 部署位置决定了可以同时支持多少个运算请求,如果是需要大量供终端用户进行图片识别,可以将部署位置调高

极密曝光!GCP架构实战!- AI学习应用

 
  1. 部署完成后,可以直接使用,点选UPLOAD IMAGES

极密曝光!GCP架构实战!- AI学习应用

 
  1. 放入丑丑猫猫照,没问题,0.99的机率是猫猫

极密曝光!GCP架构实战!- AI学习应用

 
  1.  放入萌萌狗狗照,是猫猫的机率降至0.69,若训练图片数再更多一些,预测会更准确

极密曝光!GCP架构实战!- AI学习应用
 

  1. 最后如果有需要,可以透过REST API、Python Code来部署模型!

 极密曝光!GCP架构实战!- AI学习应用

一般的软件工程师,即使不会撰写算法,也能透过GCP的AI服务快速部署一个AI模型,同时在预测上也经过优化与调整,不必负担开发AI算法的时间与金钱成本。
 



撰写人
极密曝光!GCP架构实战!- AI学习应用

解决方案架构师
吴佑德 Ted Wu