flight delay predict with weather data
数据库初始化文件在dataset-and-model
的branch中,design文件夹下的all.sql,
注意!!,因为在答辩时天气预测时的爬虫网站出错,所以临时换用了其他的方法,需要在arriveweather
这个表里加上departureweather
的year, month, day, normal_prob, mild_prob, moderate_prob, serious_prob
的相同属性,并删除date
属性
其次还需要INSERTairline
和airport
这两个表的数据,分别在delay-master
branch的modelTrain/predict/dict_id.csv
和dataset-and-model
branch的dataset/airport.csv
最后别忘了在API/algorithm.py
和API/loginAndRegister.py
开始重新配置你的(云)数据库
因为答辩的时候,爬取的天气网站临时维护,所以被迫将气象预测换成直接读取往年同一天的消息,现在已经能重新使用,如果需要加入天气预测则可以再algorithm.py(如果我没记错的话)重新恢复下天气预测功能
基于往年航班和天气信息的对航班延迟信息的预测系统
数据清洗项目
-
首先根据原航班信息数据对应天气信息网站手动做出机场-城市编码参考字典,其中只选择了部分机场
-
对应填充机场的经纬度
-
首先进行第一次清洗:删除出发、到达机场不在给出的参考机场字典中的项
-
进行第二次清洗:删除同一时间航线(即为出发地点和到达地点都一样的航班)重复的项
-
其中对最原始的数据集的处理还有:
通过原始的时间戳计算计划出发、达到与实际出发、达到的时间
通过不同机场之间的经纬度计算出各个机场之间的距离并整合填充至各个航班相应的信息栏中
- 通过构建的机场-城市参考字典进行天气信息的爬取、填充
首先构建不同城市的各个的以天为单位的天气信息文件.CSV
进行相应的网络爬虫读取数据并写道城市天气文件中
通过城市->定位所要访问的文件;预计出发日期->定位到具体要填充的项
- 之后保存写入,得到初始清洗好的数据集了
Thanks goes to these wonderful people (emoji key):
#Project Dependence npm install echarts@4.9 npm install --save-dev less-loader less
Routhleck Ekalesor 🔣 💻 |
是小柴同学吖 💻 🐛 🚇 |
Shichao 📖 🤔 📆 |
chenzefeng33 🎨 📦 |
hanjiang1073 🎨 📦 |
1avish 💻 |
This project follows the all-contributors specification. Contributions of any kind welcome!