最近参加了百度云智学院的AI学习课程,下面是课程链接:
课程内容通俗易懂,下面是我在学习的过程中整理的笔记
这章讲的都是基础概念,课程里用了很多例子来讲解,下面一起来看一下吧!
从前有一个小男孩很爱吃苹果,妈妈为了让他认识苹果,拿来了大苹果、小苹果和一个青苹果,接着妈妈说,不论大小、颜色如何变化,这就是苹果。在人类和动物感知中,这通常被称为概念学习;在人工智能领域,这个过程被称为监督学习
几年后,小男孩不仅认识了苹果,还认识了西红柿,他还有一个非常喜欢的红色小皮球,他觉得这三样东西有非常相似的地方,妈妈告诉他,这种相似之处是"红色"。在人类行为中,我们将这个过程称为归纳推理;在人工智能世界,我们叫他无监督学习
升入初中后,作为一名优秀的学生,每一次考试结束,他都会认真观察批改好的试卷,将其中做错的题目单独找出,并重新解答,直到找出正确答案,人类用思考和修正错误的方法,提升自己对知识的掌握和认知,在人工智能领域,我们将这个过程称为增强学习
进入社会后,他成为了一名工程师,他的朋友们有的成为了老师,有的成为了作家,还有人成为了医生,每个人都有着自己擅长的领域,发挥着自己的作用,算法也是如此,不同的算法只有擅长之处,与进入社会后仍在不断提升自己的人类一样,算法也在不断提升效果,不断迭代
要让机器学习,首先要有数据,像这样要判断草莓甜不甜,就要收集一些关于草莓的数据,比如,个头较小、色泽鲜艳、质地柔软的草莓是甜的;个头较大,色泽较浅,质地较硬的草莓是酸的。在机器学习中,大小、色泽和质地被称为特征;较小、鲜艳、较软对应的是属性值;酸和甜则被称为标签,机器学习就是要找到特征与标签之间的关系,从而判断草莓是不是甜的。
通过数据学得模型的过程就是我们常说的学习,也被称为训练。不过在学习过程中,有时太过认真地认识已有的草莓,会造成无法判断其他草莓甜不甜的状况,这种情况被称为过拟合,往往我们希望模型能够很好地认识新的草莓,这种能力被称为泛化,一般来说,训练样本越多,模型的泛化能力就越好,就越能判断新的草莓是不是甜的。
为了防止出现过拟合的情况出现,人们往往会将收集到的数据划分为三种类型:
人工智能入门选什么书比较好?
答:周志华教授的《机器学习》(又名西瓜书);李航教授的《统计学习方法》;计算机视觉方面则推荐Richard Szeliski 教授的《Computer Vision: Algorithms and Applications》
计算机视觉与计算机图形学之间有什么区别和联系?
答:计算机视觉输入的是图像或视频,输出的是对画面内容的理解、也就是对现实世界的理解;而计算机图形学输入的是对虑拟场景的描述,输出的是图像。随着两者的进步,无论是算法还是解决问题的思路上都有互相借鉴,不过基础的分界仍未改变
人脸识别是怎么实现的?
答:与人类通过鼻子、嘴巴等显著特征来分辨人脸不同,机器先要对图片中的人脸进行定位和预处理,然后学习人脸的轮廓、纹理等各种细节,并输出一连串的特征值。在乘车人核实等需要证明自己是自己的1:1识别场景中,只要这串特征值与你的标准特征值很相近,就能判定"你是你";在写字楼门禁、嫌犯追踪等1:N场景中,就要将特征值与既有数据库中的所有人脸特征值相比对,如果找到相似的特征值就能知道这张脸属于谁,如果没有找到任何相似的特征值,就证明这个人不属于该写字楼。
如果是戴眼镜、化浓妆或者是整容,机器还能认出我吗?
答:关于眼镜,已经有不少关于眼镜摘除的研究,比如生成没有眼镜的人脸再做识别;浓妆和整容只要不过于更改面部的明显特征,还是会有不错的识别效果,但如果是削骨之类的大动作,恐怕很难被正常识别;还有双胞胎问题,有些在人眼中非常相似的双胞胎在细节上却有很多不同,或是脸部有痣等标识性特征,机器就能迅速将两人区分开,不过对于过于相似的双胞胎,机器暂时没有特别好的解决方法,如果加入声膜或是虹膜,也许会有更好的效果
iPhone X是如何识别人脸的?
答:与一般的面部识别不同,iPhone X采用的是结构光方法,即通过向人脸投射关,再读取物体表面的光信息来确定人脸的形状。除了手机标配的距离传感器、话筒、前置摄像头,在iPhone X的上方依序排列着红外镜头泛光照明灯、泛光感应元件和点阵投影器。点阵投影器可以向人脸投射由3万多个肉眼不可见的光点组成的点阵,因为脸部凹凸不平,点阵的形状会发生变化,通过红外镜头读取点阵图案,再与前置摄像头拍摄到的人脸通过算法相结合,就能获得带有深度信息的人脸,即真实的面部三维模型。与一般的方法相比,结构光天然可以抵抗纸张、视频等平面攻击手段,即使光线条件不好,发射光、接收光这种主动方法也不会影响iPhone X的识别效率
什么是OCR?想要识别图像中的文字,总共分几步?
答:OCR的中文名称叫光学字符识别,是指将带有文字的图像进行分析处理,获取其中的文字信息。
识别图像中的文字,首先是要找到图片中文字的位置,校正文字的方向,再对图像进行二值化处理,切割并识别他们,对于得到的文字,有时还要进行语义纠错,才能输出最后的结果。
人工智能怎么去雾霾?
答:光穿过雾霾会发生散射,只有一部分能量能到达镜头,因此拍出的照片会呈现出雾蒙蒙的效果,想要去掉图像中的雾霾,就要精确估计雾霾的透射率,再对图像进行修复,暗通道先验是图像去雾的经典方法
暗通道先验基于这样的假设,在没有雾的图像中一定有某个通道的某个局部韭常暗,暗到数值接近于0,这部分可能是阴影、纯色,也可能是黑色的东西,有了雾霾、本来应该很暗的部分就会变得灰白,通过这部分数值计算出雾霾的透射率,找到有雾图像和无雾图像之间的对应关系,就能去掉图片中的雾霾
与计算机视觉类似,自然语言处理是指让计算机理解或者假装理解人类的语言,并完成一系列与文本相关的任务
符号主义和联结主义分别是什么?
答:符号主义即模仿数理科学的发展方式,将知识系统地整理成公理体系,认为人工智能来源于数理逻辑;
联结主义的基础是神经网络,神经网络间的连接机制与学习算法,认为人工智能来自干对人脑机制的模拟
机器翻译的五大翻译方法:
人工智能如何写诗?
答:翻译本质是在寻找源语言与目标语言之间的对应关系,古诗的上下句之间同样存在类似的对应关系,只要有古诗的第一句,就能基于它生成第二句,再依据第二句生成第三节,依次下去就能得到一首看上去还不错的古诗
如何判断一段文字的情感倾向?
答:情感分析的目的就是对文本的感情色彩进行处理和归纳。
最基础的方法就是基于情感词典,情感词典中包含停顿词、正面评价词、负面评价词、程度词、否定词等,将句子拆分成最小的词语,并将它们对照词典计算情感分,就能输出情感倾向性。虽然准确率很高,但构建一份全面、准确的情感词典并不容易。
更高效的机器学习方法,通过输入大量带有标注的评价数据,机器就能自动获取这些评价的特征,为新的评价输出情感倾向
与计算机视觉、自然语言处理任务相比,语音任务离我们的生活最近,为你指路的语音导航、能陪你聊天的语音音箱以及语音输入法都离不开语音任务的支持
导航中的语音真的是一条条录出来的吗?
答:在语音合成之前,需要先录制一些语音作为语音库,为了尽可能的覆盖语言中的元音、辅音、音调,录制的内容通常需要一定的设计。
合成语音的第一步是预测文本的读音,除了将文本转换音素序列,为了让生成的声音更加自然,我们还要分析文本的节奏、重音,处理文本中的数字、缩写等等
接下来是合成声音,一种方法是从语音库中逐一寻找与目标一致的音素,并将他们拼接起来;另一种方法则是将第一步预测的音素转换成每时每刻的语音参数,加上从语音库中学习到的特征再生成语音
听歌识曲背后的秘密
答:想通过片段寻找对应的音乐,总共分两步:
第一步,提取片段的特征。过去人们曾尝试将音高的变化作为检索基础,但是效果并不理想,后来人们选择将音乐转换为频谱图,每隔几十毫秒提取一次标志点的特征,并将这种特征称为"指纹"
第二步,匹配。只要找到同样"指纹"串片段,就能确定目标,不过资料库中的乐曲成千上万,该如何比对?
答案是音乐建立一个「搜索引擎」 ,歌曲是「网页」,指纹是「关键词」,在含有关键词的歌曲中找到最相似的那首就完成了听歌识曲的过程。
鸡尾酒会问题
答:「鸡尾酒会问题」诞生于1953年,是语音识别领域的经典问题,指的是人们在鸡尾酒会中交谈,语音信号会重叠在一起,机器需要将它们分离成独立的信号,目前有两种解决方法:
基于单通道系统,即依靠语音的频谱解决问题。
比如将想听到的声音的时频元标注为1,其他时频元标注为0,让机器学习去输出1的部分。
基于多通道系统,即在鸡尾酒会的不同位置布置多个麦克风,利用空间属性对声音进行分离。
远场识别时,怎么提高准确率?
答:对着手机进话识别效果很好,可是距离远一点,再离远一点呢?距离一旦拉远,收音效果就会变得不理想,如果是在封闭的环境中还会形成混响,周围有噪音或是设备自己正在播放音乐,还要解决噪音问题
通常我们会使用麦克风阵列解决远场识别问题,麦克风阵列由两个以上的麦克风组成,直线、环形或是球状,布置方法各不相同,通过彼此之间的距离差所造成的接收到的声波差异,可以了解声源的位置定向增强,从而提升收音效果,同时抑制其他方向的声音,来解决房间混响和噪声问题
人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样
图灵测试:即一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答,如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么,就可以认为这个计算机具有同人相当的智力,即这台计算机是能思维的。
区分分类、检测与回归: