爱趣书网

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
京夜欲缠欢

京夜欲缠欢

应筠跟叶嘉淮在一起的那两年,不少人在私底下议论,她究竟想踩着叶嘉淮这登云梯爬到什么高度。不成想,在她毕业之际,那抹倩影却就此在北城销声匿迹。没人将她的退场当回事,只当是叶先生厌了。直到一场酒宴上,有人嗤然地提及应筠的名字。一声脆响,碎裂的杯盏中映射出叶嘉淮晦暗的眼眸。无人知晓,提出“就此别过”的人。是应筠。—分开时......

拯救人妻

拯救人妻

初夏的一天傍晚,在江城河西区一座装饰低调的别墅内的草坪上聚集着许多俊男靓女,不时有侍者穿行其中,送上口味绝佳的香槟,而别墅外则停着一溜豪华跑车,彰显着这座别墅主人的尊贵身份。而在草坪尽头的小花园中,一个二十七八岁左右的男子正靠在一架秋千旁静静抽烟,不时抬头看着远处喧闹的人群,脸上露出落寞的表情。这男子叫宋自成,这座别墅的主人,而今天正是他28岁的生日,别墅内的男男女女正是为他的生日聚会而来,但宋自成却似乎兴致不高,被几个狐朋狗友灌了几杯之后,便索性躲到这里抽烟,享受着只属于自己的惬意时光。...

清河仙族

清河仙族

一名出身修仙家族的小修士,无意中得到了一张来历不名的残图后,开始这机缘与危险并行的修仙界中,一步步走出了一条属于他自己的仙途。若干年后,族长,宋家有人筑基了.........慌什么,此人灵根普通,他能筑基成功,也不过是运气好些罢了。再若干年后,掌门,宋家有人结丹了..........嗯!宋家那小子虽然有些机缘,但修炼天赋一般,结丹不过侥幸而已,何须如此大惊小怪。又若干年后,老祖,宋家那小子突破..........什么那小子,没大没小的,今后要称呼宋老祖...........本书是比较传统的慢节奏的家族凡人流,无系统面板。...

走眼

走眼

《走眼》作者:卿淅,已完结。高岭之花VS当红偶像,双向暗恋HE当红男子组合MAP成员叶筝,出道即巅峰,靠一身黑料以及极其尴尬的卖腐行为常年驻守各…...

绝世散仙游都市

绝世散仙游都市

龙潜于凡,玉藏于石。十年前,云赫不慎跌落尘渊,穿越至神秘的修炼界,历经万载磨砺,重返人间,已然是世间无敌的存在。他那传奇的都市历程就此展开。主角行事果决,对家人满腔热血,对爱人深情似海,对敌人心寒如铁。不矫情,不拖沓,谈笑间风云变色,挥手间乾坤倒转。......

魂毒

魂毒

魂毒情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的科幻小说小说,魂毒-灵魂有点毒-小说旗免费提供魂毒最新清爽干净的文字章节在线阅读和TXT下载。...