当前位置:首页 > 技术 > 正文内容

Java航班实时数据爬取优化实践

访客 技术 2026年6月15日 1
本文将展示如何优化航班数据爬取代码,提升代码结构和可维护性。
首先定义航班数据实体类:
import org.apache.commons.lang.StringUtils;
import net.minidev.json.JSONObject;

public class FlightData {
    private String airlineName;
    private String flightNumber;
    private String scheduledDeparture;
    private String actualDeparture;
    private String departureLocation;
    private String flightStatus;
    private String scheduledArrival;
    private String actualArrival;
    private String destination;
    private String punctualityRate;
    private String flightInfo;
    private String additionalInfo;

    public JSONObject getDataJson() {
        JSONObject data = new JSONObject();
        data.put("起飞时间", actualDeparture);
        data.put("计划起飞", StringUtils.isEmpty(scheduledDeparture) ? "" : scheduledDeparture.replace("计划起飞", ""));
        data.put("当前状态", flightStatus);
        data.put("到达时间", actualArrival);
        data.put("计划到达", StringUtils.isEmpty(scheduledArrival) ? "" : scheduledArrival.replace("计划到达", ""));
        data.put("出发地", departureLocation);
        data.put("目的地", destination);
        data.put("航空公司", airlineName);
        data.put("航班号", flightNumber);
        data.put("准点率", punctualityRate);
        return data;
    }

    // 省略getter和setter方法
}
然后实现航班数据查询工具类:
import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashMap;
import java.util.Map;
import java.util.Timer;
import java.util.TimerTask;

import org.apache.commons.lang.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class FlightDataProvider {
    public static Map cacheMap = new HashMap<>();
    public static Timer cacheTimer;

    static {
        startCacheCleanup();
    }

    private static synchronized Timer getTimer() {
        if (cacheTimer == null) {
            return cacheTimer = new Timer();
        }
        return cacheTimer;
    }

    private static void startCacheCleanup() {
        TimerTask task = new TimerTask() {
            @Override
            public void run() {
                cacheMap.clear();
            }
        };
        Timer timer = getTimer();
        timer.schedule(task, 0, 600000); // 每10分钟执行一次
    }

    public static Document fetchDocument(String url) throws Exception {
        try {
            return Jsoup.connect(url).get();
        } catch (IOException e) {
            throw new RuntimeException("无法获取网页内容");
        }
    }

    public static JSONObject getFlightData(String flightNumber) throws Exception {
        if (StringUtils.isEmpty(flightNumber)) {
            throw new RuntimeException("请输入有效的航班号");
        }

        if (cacheMap.containsKey(flightNumber)) {
            return cacheMap.get(flightNumber).getDataJson();
        }

        String currentDate = new SimpleDateFormat("yyyyMMdd").format(new Date());
        Document doc = fetchDocument("http://flights.ctrip.com/actualtime/fno--" + flightNumber.trim() + "-" + currentDate + ".html");
        
        // 解析航班信息
        FlightData data = new FlightData();
        parseFlightInfo(doc, data);
        
        cacheMap.put(flightNumber, data);
        return data.getDataJson();
    }

    private static void parseFlightInfo(Document doc, FlightData data) {
        // 解析起飞时间
        Elements departureElements = doc.select("[class=time]");
        data.setActualDeparture(getTextOrNull(departureElements));

        // 解析计划起飞时间
        Elements scheduleDeparture = doc.select("[class=gray]");
        data.setScheduledDeparture(getTextOrNull(scheduleDeparture));

        // 解析航班状态
        Elements status = doc.select("[class=gray]");
        data.setFlightStatus(getTextOrNull(status));
        
        // 解析到达时间
        Elements arrivalTime = doc.select("[class=time]");
        data.setActualArrival(getTextOrNull(arrivalTime));
        
        // 解析计划到达时间
        Elements scheduleArrival = doc.select("[class=gray]");
        data.setScheduledArrival(getTextOrNull(scheduleArrival));

        // 解析其他信息
        Elements routeInfo = doc.select("p");
        data.setDepartureLocation(getTextOrNull(routeInfo));
        data.setDestination(getTextOrNull(routeInfo));
        data.setFlightInfo(getTextOrNull(routeInfo));
        data.setAdditionalInfo(getTextOrNull(routeInfo));
        data.setAirlineName(getTextOrNull(doc.select("[class=ml5]")));
        data.setFlightNumber(getTextOrNull(doc.select("strong")));
        data.setPunctualityRate(getTextOrNull(doc.select("[class=f14 gray ml10]")));
    }

    private static String getTextOrNull(Elements elements) {
        if (elements != null && elements.size() > 0) {
            return elements.get(0).text();
        }
        return "";
    }
}

相关文章

Linux crontab 详解

1) crontab 是什么cron 是 Linux 的定时任务守护进程;crontab 是用来编辑/查看“按时间周期执行命令”的表(cron table)。常见两类:用户 crontab:每个用户一份(crontab -e 编辑)系统级 crontab / cron.d:可指定执行用户(/etc/crontab、/etc/cron.d/*)2) crontab 时间...

富文本里可以允许的 HTML 属性

一、所有标签默认允许的安全属性(极少)class        (可选)id           (通常建议禁用)title️ 注意:id 容易被滥用做锚点注入,很多系统直接禁用class 允许的话最好只允许固定前缀(如 editor-*)二、a 标签允许属性<a href="" t...

Mac 安装 Node.js 指南

方法一:通过官网安装包(最简单,适合初学者)如果你只是想快速安装并开始使用,这是最直接的方法。访问 Node.js 官网。页面会显示两个版本:LTS (Recommended For Most Users):长期支持版,最稳定。建议选这个。Current:最新特性版,包含最新功能但可能不够稳定。下载 .pkg 安装包并运行。按照安装向导点击“下一步”即可完成。方法二:使用 Homebrew 安装(...

Dom\HTML_NO_DEFAULT_NS 的副作用:自动加闭合标签

在使用Dom\HTMLDocument时,Dom\HTML_NO_DEFAULT_NS 将禁止在解析过程中设置元素的命名空间, 此设置是为了与DOMDocument向后兼容而存在的。当使用它时,已知的一个副作用就是:自动加闭合标签例如 </img> 为什么会这样?当你使用:Dom\HTML_NO_DEFAULT_NS文档会变成 无命名空间模式,此时内部更接近 XML...

Laravel 事件和监听器创建

在 Laravel 中,使用 Artisan 命令创建 Events(事件) 和 Listeners(监听器) 是非常高效的。你可以通过以下几种方式来实现:1. 手动创建单个 Event如果你只想创建一个事件类,可以使用 make:event 命令:Bashphp artisan make:event UserRegistered执行后,文件将生成在 app/Even...

自定义域名解析神器 dnsmasq

什么是 dnsmasq?dnsmasq 是一个轻量级、功能强大的网络服务工具,专为小型和中等规模网络设计。它是一个综合的网络基础设施解决方案[1]。dnsmasq 能做什么?功能说明应用场景DNS 转发与缓存将 DNS 查询转发到上游服务器(ISP、Google DNS 等),并在本地缓存结果加快 DNS 查询速度,减少外部 DNS 流量本地 DNS解析本地网络设备的主机名,无需编辑&n...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。