Java模糊字符串與名稱匹配

更新時(shí)間：2022-12-15 11:48:10 來源：動(dòng)力節(jié)點(diǎn) 瀏覽2677次

用 Java 編寫的獨(dú)立 CSV 數(shù)據(jù)加載過程，它必須使用一些模糊字符串匹配。使用名字和姓氏進(jìn)行匹配，并在運(yùn)行開始時(shí)緩存所有可能性。找到匹配項(xiàng)后，需要那個(gè)人在運(yùn)行期間在多個(gè)地方對象。使用番石榴Objects.hashCode()從名字和姓氏中創(chuàng)建了一個(gè)散列。

緩存機(jī)制如下所示：

Map<Integer,PersonDO> personCache = Maps.newHashMap();
for(PersonDO p: dao.getPeople()) {
    personCache.put(Objects.hashCode(p.getFirstName(),p.getLastName()), p);
}

大多數(shù)時(shí)候，在 firstname+lastname 上都能找到匹配項(xiàng)，但當(dāng)它沒有匹配到時(shí)，就回過頭來使用 ApacheStringUtils.getLevenshteinDistance()來嘗試匹配它。匹配邏輯流程是這樣的：

    person = personCache.get(Objects.hashCode(firstNameFromCSV,lastNameFromCSV));
    if(person == null) {//fallback to fuzzy matching
        person = findClosetMatch(firstNameFromCSV+lastNameFromCSV);
    }

這是findClosetMatch()方法：

private PersonDO findClosetMatch(String name) {
    int min = 15;//initial value
    int testVal=0;
    PersonDO matchedPerson = null;
    for(PersonDO person: personCache.values()) {
        testVal = StringUtils.getLevenshteinDistance(name,person.getFirstName()+person.getLastName());
        if( testVal < min ) {
            min = testVal;
            matchedPerson = person;
        }
    }
    if(matchedPerson == null) {
        throw new Exception("Unable to find person: " + name) 
    }
    return matchedPerson;
}

這適用于簡單的拼寫錯(cuò)誤、錯(cuò)別字和縮短的名稱(即 Mike->Michael)，但是當(dāng)完全丟失緩存中的一個(gè)傳入名稱時(shí)，最終會(huì)返回誤報(bào)匹配。為了防止這種情況發(fā)生，將最小值設(shè)置findClosetMatch()為 15(即不超過 15 個(gè)字符);它大部分時(shí)間都有效。

Java字符串

上一篇Java零基礎(chǔ)入門視頻，2023升級(jí)版下一篇用Java swing實(shí)現(xiàn)計(jì)算器

相關(guān)閱讀

大战熟女丰满人妻av-荡女精品导航-岛国aaaa级午夜福利片-岛国av动作片在线观看-岛国av无码免费无禁网站-岛国大片激情做爰视频

Java模糊字符串與名稱匹配

JVM

多線程下載器項(xiàng)目實(shí)戰(zhàn)

Java日志框架全集（選學(xué)）

高并發(fā)解決方案（選學(xué)）

零基礎(chǔ)能學(xué)Java嗎？

零基礎(chǔ)能學(xué)Java嗎？

零基礎(chǔ)能學(xué)Java嗎？

關(guān)于我們

課程中心

在線課程

資料廣場

全國免費(fèi)電話