Python爬虫与搜索
陈星
[学科核心素养]
在新课标的背景下,让学生了解python爬虫的概念与作用,在此过程中培养学生的信息意识。通过探究学习的方式,设计python爬虫程序,爬取网页数据的完整流程,培养学生的计算思维。设计利用爬虫爬取的数据生成词云图,培养学生的数字化学习与创新。体会python爬虫爬取数据的意义,培养学生的信息责任意识。
[课程标准要求]
在python环境下,借助python爬虫的第三方库,实现在网页中爬取有价值的数据。
[学业要求]
1.了解爬虫的概念、用途,能够恰当的运动到学习和生活中。
2.能够客观认识到爬虫爬取数据的意义。
[学情分析]
学生在高一进行过简单的python语言,但是学生对爬虫的概念、用途、爬取数据的意义还不是很清晰。
[教学目标]
1.了解python爬虫的基本概念。
2.利用python爬虫的基本框架程序,爬取豆瓣电影网《我和我的祖国》电影短评第一页的短评数据。
3.认识到爬虫在实际生活的意义。
[教学重难点]
重点:了解python爬虫的概念、作用。
难点:利用python爬虫的基本框架程序,实现爬取豆瓣电影网《我和我的祖国》电影短评第一页的短评数据。
[教学策略分析]
探究学习、自主学习
[教学环境]
极域电子教室、python3.6环境、IDLE编程环境
[教学过程]
教学环节 |
教师活动 |
学生活动 |
设计意图 |
创设情境 |
1.教师给学生展示《我和我的祖国》电影图片以及与这部电影相关的词云图。 2.提问学生能从词云图中获取哪些信息。 |
学生观察与思考并回答获取到的信息。 |
初步了解爬虫及作用 |
概念讲解 |
讲解爬虫(spider)的概念。爬虫是在互联网中自动爬取数据的程序。 |
学生了解爬虫的概念。 |
了解爬虫的基本概念 |
实践探究 |
1.打开谷歌浏览器查看电影短评网页的html代码。 |
学生了解网页数据存放的位置 |
|
环节一:利用获取《我和我的祖国》电影短评第一页整个网页的html代码。 |
|||
1.导入requests库 2.填写要爬取的电影短评第一页的url 3.打印输出短评数据 |
学生根据程序框架结构,完成获取html程序。 |
认识爬虫爬取信息的第一步:获取html。 |
|
环节二:解析html代码,并定位获取。 |
|||
1.从lxml中导入etree,etree.HTML()解析html。 2.定位获取数据。 3.循环分行打印电影短评数据。 |
学生根据程序框架结构,完成解析html程序。 |
认识爬虫爬取信息的第二步:解析html。 |
|
环节三:将解析的数据存入short_comments.csv文件中 |
|||
保存电影短评数据。 |
学生运行spider_save.py保存数据至csv文件中。 |
认识爬虫爬取信息的第三步:保存数据。 |
|
总结爬虫爬取数据的三个流程 |
理解爬虫爬取网页数据的过程 |
认识强化爬虫爬取数据的过程 |
|
拓展任务 |
1.将short_comments.csv拷贝到wordcloud文件夹中。 2.运行生成词云图效果。 |
学生完成词云图效果 |
培养和提升学生的计算思维和数学化创新。 |
反思 |
1.只爬取了第一页的短评数据,数据量少,词云的数据分析不够准确。 2.爬取的数据中会存在许多无关的数据。 |
学生思考此爬虫可以改进的地方。 |
培养学生发现问题的意识。 |
课堂小结 |
1.教师总结本节课学习到的内容。 2.体验百度识图功能,认识爬虫在实际生活中的应用。 |
学生体验百度识图功能 思考和体会爬虫的意义 |
提升学生的信息社会责任感。 |
[教学反思]
在信息新课程标准以及和人工智能、大数据的时代背景下,不管是对教师还是学生都提出了新的要求,这节课的内容也是在这样的背景下产生的。
首先,传统获取数据的方式已经不足以满足时代的要求,在大数据背景下,催生的python爬虫程序正是解决数据获取的问题。
本节课比较好的是在引入部分,通过《我和我的祖国》这部电影去引入可以激发学生的认同感,并且是在国庆刚过的时期,这样的话题是比较合适的。但是这节课在正式实施的时候,出现了没有正常完成所讲授内容的问题。我反思总结有以下原因:
1.python爬虫是新知识,而且是课程中学生比较能掌握的编程知识,不管是在教和学的过程中,都存在一定的难度,学生如果单纯的只是学习代码,意义不大。所以在后面公开课的教学设计中,就避开了这样的问题,直接给学生代码,只要求学生修改其中关键的参数即可。这里主要是要培养学生的计算思维能力、让学生了解网络数据获取的过程,而不是单纯地编写代码。
2.教学内容设计太多,教学的重难点没有再细化,本节课的重点应该是数据的获取与表达,所以让学生了解其中的过程即可。反之则会给人感觉像是在进行讲座培训。
[后期改进]
在今天的公开课的设计中,我和另一位老师重新设计了整个教学框架,还是以此话题引入,从爬取一页的数据到N页的数据,接着让学生去呈现自己导演的电影的分析,学生达成度都很好。最后拓展学习中,展示了南京二手房的相关数据分析,目的让学生了解我们解决生活的中很多问题都可以用到爬虫,另一方面也提升学生在网络安全意识和社会责任意识。