在共享的Web主机上优化基于接近度的商店位置搜索?


11

我有一个项目,需要为客户建立商店定位器。

我使用的是自定义帖子类型“ restaurant-location”,并且我已经编写了代码以使用Google Geocoding API对postmeta中存储的地址进行地理编码此处是使用JSON对美国白宫进行地理编码的链接,并且我将纬度和经度自定义字段。

我已经编写了一个get_posts_by_geo_distance()函数,该函数使用我在此幻灯片中的幻灯片中找到的公式,按地理上最接近的顺序返回帖子列表。您可能会这样调用我的函数(我从固定的“源”纬度/经度开始):

include "wp-load.php";

$source_lat = 30.3935337;
$source_long = -86.4957833;

$results = get_posts_by_geo_distance(
    'restaurant-location',
    'geo_latitude',
    'geo_longitude',
    $source_lat,
    $source_long);

echo '<ul>';
foreach($results as $post) {
    $edit_url = get_edit_url($post->ID);
    echo "<li>{$post->distance}: <a href=\"{$edit_url}\" target=\"_blank\">{$post->location}</a></li>";
}
echo '</ul>';
return;

这是函数get_posts_by_geo_distance()本身:

function get_posts_by_geo_distance($post_type,$lat_key,$lng_key,$source_lat,$source_lng) {
    global $wpdb;
    $sql =<<<SQL
SELECT
    rl.ID,
    rl.post_title AS location,
    ROUND(3956*2*ASIN(SQRT(POWER(SIN(({$source_lat}-abs(lat.lat))*pi()/180/2),2)+
    COS({$source_lat}*pi()/180)*COS(abs(lat.lat)*pi()/180)*
    POWER(SIN(({$source_lng}-lng.lng)*pi()/180/2),2))),3) AS distance
FROM
    wp_posts rl
    INNER JOIN (SELECT post_id,CAST(meta_value AS DECIMAL(11,7)) AS lat FROM wp_postmeta lat WHERE lat.meta_key='{$lat_key}') lat ON lat.post_id = rl.ID
    INNER JOIN (SELECT post_id,CAST(meta_value AS DECIMAL(11,7)) AS lng FROM wp_postmeta lng WHERE lng.meta_key='{$lng_key}') lng ON lng.post_id = rl.ID
WHERE
    rl.post_type='{$post_type}' AND rl.post_name<>'auto-draft'
ORDER BY
    distance
SQL;
    $sql = $wpdb->prepare($sql,$source_lat,$source_lat,$source_lng);
    return $wpdb->get_results($sql);
}

我担心的是,SQL几乎没有得到优化。MySQL无法按任何可用的索引排序,因为源地理位置是可变的,并且没有要缓存的一组有限的源地理位置。目前,我对如何优化它感到困惑。

考虑到我已经做过的问题是:您将如何优化此用例?

如果有更好的解决方案让我放弃它,我保留所做的一切并不重要。我愿意考虑几乎所有解决方案,除了需要安装Sphinx服务器之类的解决方案或需要自定义MySQL配置的任何解决方案。基本上,该解决方案需要能够在任何普通的普通WordPress安装上工作。(这就是说,如果有人想为可能会更高级的人和后代列出其他解决方案,那就太好了。)

找到资源

仅供参考,我对此进行了一些研究,所以您不想再进行研究,或者不希望您发布任何这些链接作为答案,我将继续进行介绍。

关于狮身人面像搜索

Answers:


6

您需要什么精度?如果这是一个州/国家/地区范围内的广泛搜索,则您可以进行lat-lon压缩查找,并预先计算餐馆的zip区域与zip区域之间的距离。如果您需要精确的距离,那将不是一个好的选择。

您应该查看Geohash解决方案,在Wikipedia文章中有一个指向PHP库的链接,用于编码长于geohash的解码器。

在这里,您可以找到一篇不错的文章,解释为什么以及如何在Google App Engine中使用它(Python代码但易于理解。)由于需要在GAE中使用geohash,因此您可以找到一些很好的python库和示例。

如此博客文章所解释的那样,使用geohhes的优点是可以在该字段的MySQL表上创建索引。


感谢您对GeoHash的建议!我肯定会检查出来,但是一个小时后就要去WordCamp Savannah,所以现在不能。这是前往城镇的游客的餐馆定位器,因此0.1英里可能是最低的精度。理想情况下,这会更好。我将编辑您的链接!
MikeSchinkel 2010年

如果要在Google地图中显示结果,则可以使用其api进行排序code.google.com/apis/maps/documentation/mapsdata/…

由于这是最有趣的答案,即使我没有时间进行研究和尝试,我也将接受它。
MikeSchinkel 2010年

9

这对您来说可能为时已晚,但是无论如何我都要做出答复,与我对这个相关问题的回答类似,因此以后的访问者可以参考这两个问题。

我不会在后元数据表,这些数据存储,或至少不只是在那里。你想有一张桌子post_idlatlon列,所以你可以把一个指标lat, lon上和查询。保持最新与发布保存和更新挂钩并不难。

查询数据库时,您在起点周围定义了一个边界框,因此您可以lat, lon对框的南北边界和东西边界之间的所有对进行有效查询。

得到减少的结果后,您可以进行更高级的(圆形或实际行驶方向)距离计算,以过滤出边界框角中的位置,从而使这些位置超出您的期望。

在这里,您可以找到一个在管理区域中可用的简单代码示例。您需要自己创建额外的数据库表。该代码按从最有趣到最不有趣的顺序排列。

<?php
/*
Plugin Name: Monkeyman geo test
Plugin URI: http://www.monkeyman.be
Description: Geolocation test
Version: 1.0
Author: Jan Fabry
*/

class Monkeyman_Geo
{
    public function __construct()
    {
        add_action('init', array(&$this, 'registerPostType'));
        add_action('save_post', array(&$this, 'saveLatLon'), 10, 2);

        add_action('admin_menu', array(&$this, 'addAdminPages'));
    }

    /**
     * On post save, save the metadata in our special table
     * (post_id INT, lat DECIMAL(10,5), lon DECIMAL (10,5))
     * Index on lat, lon
     */
    public function saveLatLon($post_id, $post)
    {
        if ($post->post_type != 'monkeyman_geo') {
            return;
        }
        $lat = floatval(get_post_meta($post_id, 'lat', true));
        $lon = floatval(get_post_meta($post_id, 'lon', true));

        global $wpdb;
        $result = $wpdb->replace(
            $wpdb->prefix . 'monkeyman_geo',
            array(
                'post_id' => $post_id,
                'lat' => $lat,
                'lon' => $lon,
            ),
            array('%s', '%F', '%F')
        );
    }

    public function addAdminPages()
    {
        add_management_page( 'Quick location generator', 'Quick generator', 'edit_posts', __FILE__  . 'generator', array($this, 'doGeneratorPage'));
        add_management_page( 'Location test', 'Location test', 'edit_posts', __FILE__ . 'test', array($this, 'doTestPage'));

    }

    /**
     * Simple test page with a location and a distance
     */
    public function doTestPage()
    {
        if (!array_key_exists('search', $_REQUEST)) {
            $default_lat = ini_get('date.default_latitude');
            $default_lon = ini_get('date.default_longitude');

            echo <<<EOF
<form action="" method="post">
    <p>Center latitude: <input size="10" name="center_lat" value="{$default_lat}"/>
        <br/>Center longitude: <input size="10" name="center_lon" value="{$default_lon}"/>
        <br/>Max distance (km): <input size="5" name="max_distance" value="100"/></p>
    <p><input type="submit" name="search" value="Search!"/></p>
</form>
EOF;
            return;
        }
        $center_lon = floatval($_REQUEST['center_lon']);
        $center_lat = floatval($_REQUEST['center_lat']);
        $max_distance = floatval($_REQUEST['max_distance']);

        var_dump(self::getPostsUntilDistanceKm($center_lon, $center_lat, $max_distance));
    }

    /**
     * Get all posts that are closer than the given distance to the given location
     */
    public static function getPostsUntilDistanceKm($center_lon, $center_lat, $max_distance)
    {
        list($north_lat, $east_lon, $south_lat, $west_lon) = self::getBoundingBox($center_lat, $center_lon, $max_distance);

        $geo_posts = self::getPostsInBoundingBox($north_lat, $east_lon, $south_lat, $west_lon);

        $close_posts = array();
        foreach ($geo_posts as $geo_post) {
            $post_lat = floatval($geo_post->lat);
            $post_lon = floatval($geo_post->lon);
            $post_distance = self::calculateDistanceKm($center_lat, $center_lon, $post_lat, $post_lon);
            if ($post_distance < $max_distance) {
                $close_posts[$geo_post->post_id] = $post_distance;
            }
        }
        return $close_posts;
    }

    /**
     * Select all posts ids in a given bounding box
     */
    public static function getPostsInBoundingBox($north_lat, $east_lon, $south_lat, $west_lon)
    {
        global $wpdb;
        $sql = $wpdb->prepare('SELECT post_id, lat, lon FROM ' . $wpdb->prefix . 'monkeyman_geo WHERE lat < %F AND lat > %F AND lon < %F AND lon > %F', array($north_lat, $south_lat, $west_lon, $east_lon));
        return $wpdb->get_results($sql, OBJECT_K);
    }

    /* Geographical calculations: distance and bounding box */

    /**
     * Calculate the distance between two coordinates
     * http://stackoverflow.com/questions/365826/calculate-distance-between-2-gps-coordinates/1416950#1416950
     */
    public static function calculateDistanceKm($a_lat, $a_lon, $b_lat, $b_lon)
    {
        $d_lon = deg2rad($b_lon - $a_lon);
        $d_lat = deg2rad($b_lat - $a_lat);
        $a = pow(sin($d_lat/2.0), 2) + cos(deg2rad($a_lat)) * cos(deg2rad($b_lat)) * pow(sin($d_lon/2.0), 2);
        $c = 2 * atan2(sqrt($a), sqrt(1-$a));
        $d = 6367 * $c;

        return $d;
    }

    /**
     * Create a box around a given point that extends a certain distance in each direction
     * http://www.colorado.edu/geography/gcraft/warmup/aquifer/html/distance.html
     *
     * @todo: Mind the gap at 180 degrees!
     */
    public static function getBoundingBox($center_lat, $center_lon, $distance_km)
    {
        $one_lat_deg_in_km = 111.321543; // Fixed
        $one_lon_deg_in_km = cos(deg2rad($center_lat)) * 111.321543; // Depends on latitude

        $north_lat = $center_lat + ($distance_km / $one_lat_deg_in_km);
        $south_lat = $center_lat - ($distance_km / $one_lat_deg_in_km);

        $east_lon = $center_lon - ($distance_km / $one_lon_deg_in_km);
        $west_lon = $center_lon + ($distance_km / $one_lon_deg_in_km);

        return array($north_lat, $east_lon, $south_lat, $west_lon);
    }

    /* Below this it's not interesting anymore */

    /**
     * Generate some test data
     */
    public function doGeneratorPage()
    {
        if (!array_key_exists('generate', $_REQUEST)) {
            $default_lat = ini_get('date.default_latitude');
            $default_lon = ini_get('date.default_longitude');

            echo <<<EOF
<form action="" method="post">
    <p>Number of posts: <input size="5" name="post_count" value="10"/></p>
    <p>Center latitude: <input size="10" name="center_lat" value="{$default_lat}"/>
        <br/>Center longitude: <input size="10" name="center_lon" value="{$default_lon}"/>
        <br/>Max distance (km): <input size="5" name="max_distance" value="100"/></p>
    <p><input type="submit" name="generate" value="Generate!"/></p>
</form>
EOF;
            return;
        }
        $post_count = intval($_REQUEST['post_count']);
        $center_lon = floatval($_REQUEST['center_lon']);
        $center_lat = floatval($_REQUEST['center_lat']);
        $max_distance = floatval($_REQUEST['max_distance']);

        list($north_lat, $east_lon, $south_lat, $west_lon) = self::getBoundingBox($center_lat, $center_lon, $max_distance);


        add_action('save_post', array(&$this, 'setPostLatLon'), 5);
        $precision = 100000;
        for ($p = 0; $p < $post_count; $p++) {
            self::$currentRandomLat = mt_rand($south_lat * $precision, $north_lat * $precision) / $precision;
            self::$currentRandomLon = mt_rand($west_lon * $precision, $east_lon * $precision) / $precision;

            $location = sprintf('(%F, %F)', self::$currentRandomLat, self::$currentRandomLon);

            $post_data = array(
                'post_status' => 'publish',
                'post_type' => 'monkeyman_geo',
                'post_content' => 'Point at ' . $location,
                'post_title' => 'Point at ' . $location,
            );

            var_dump(wp_insert_post($post_data));
        }
    }

    public static $currentRandomLat = null;
    public static $currentRandomLon = null;

    /**
     * Because I didn't know how to save meta data with wp_insert_post,
     * I do it here
     */
    public function setPostLatLon($post_id)
    {
        add_post_meta($post_id, 'lat', self::$currentRandomLat);
        add_post_meta($post_id, 'lon', self::$currentRandomLon);
    }

    /**
     * Register a simple post type for us
     */
    public function registerPostType()
    {
        register_post_type(
            'monkeyman_geo',
            array(
                'label' => 'Geo Location',
                'labels' => array(
                    'name' => 'Geo Locations',
                    'singular_name' => 'Geo Location',
                    'add_new' => 'Add new',
                    'add_new_item' => 'Add new location',
                    'edit_item' => 'Edit location',
                    'new_item' => 'New location',
                    'view_item' => 'View location',
                    'search_items' => 'Search locations',
                    'not_found' => 'No locations found',
                    'not_found_in_trash' => 'No locations found in trash',
                    'parent_item_colon' => null,
                ),
                'description' => 'Geographical locations',
                'public' => true,
                'exclude_from_search' => false,
                'publicly_queryable' => true,
                'show_ui' => true,
                'menu_position' => null,
                'menu_icon' => null,
                'capability_type' => 'post',
                'capabilities' => array(),
                'hierarchical' => false,
                'supports' => array(
                    'title',
                    'editor',
                    'custom-fields',
                ),
                'register_meta_box_cb' => null,
                'taxonomies' => array(),
                'permalink_epmask' => EP_PERMALINK,
                'rewrite' => array(
                    'slug' => 'locations',
                ),
                'query_var' => true,
                'can_export' => true,
                'show_in_nav_menus' => true,
            )
        );
    }
}

$monkeyman_Geo_instance = new Monkeyman_Geo();

@Jan:谢谢您的回答。您认为您可以提供一些实际的代码来显示已实现的代码吗?
MikeSchinkel 2010年

@Mike:这是一个有趣的挑战,但是下面的一些代码应该可以工作。
Jan Fabry

@Jan Fabry:太好了 !当我跳回到那个项目时,我会检查一下。
MikeSchinkel 2010年

1

我在这方面迟到了,但是回头看一下,这get_post_meta确实是这里的问题,而不是您正在使用的SQL查询。

最近,我不得不在运行的网站上进行类似的地理查找,而不是使用元表存储lat和lon(这最多需要两个联接来查找,如果您使用的是get_post_meta,则需要另外两个数据库每个位置的查询),我创建了一个具有空间索引几何POINT数据类型的新表。

我的查询看起来很像您的查询,MySQL承担了很多繁重的工作(我省去了三角函数并将所有内容简化为二维空间,因为它足够接近我的目的):

function nearby_property_listings( $number = 5 ) {
    global $client_location, $wpdb;

    //sanitize public inputs
    $lat = (float)$client_location['lat'];  
    $lon = (float)$client_location['lon']; 

    $sql = $wpdb->prepare( "SELECT *, ROUND( SQRT( ( ( ( Y(geolocation) - $lat) * 
                                                       ( Y(geolocation) - $lat) ) *
                                                         69.1 * 69.1) +
                                                  ( ( X(geolocation) - $lon ) * 
                                                       ( X(geolocation) - $lon ) * 
                                                         53 * 53 ) ) ) as distance
                            FROM {$wpdb->properties}
                            ORDER BY distance LIMIT %d", $number );

    return $wpdb->get_results( $sql );
}

其中$ client_location是公共地理IP查找服务返回的值(我使用的是geoio.com,但有许多类似的属性。)

它看起来似乎很笨拙,但是在测试过程中,它在0.4秒内始终返回了80,000行表中最近的5个位置。

在MySQL推出所建议的DISTANCE函数之前,这似乎是我发现实现位置查找的最佳方法。

编辑:为此特定表添加表结构。它是一组属性列表,因此它可能与其他用例相同或不同。

CREATE TABLE IF NOT EXISTS `rh_properties` (
  `listingId` int(10) unsigned NOT NULL,
  `listingType` varchar(60) collate utf8_unicode_ci NOT NULL,
  `propertyType` varchar(60) collate utf8_unicode_ci NOT NULL,
  `status` varchar(20) collate utf8_unicode_ci NOT NULL,
  `street` varchar(64) collate utf8_unicode_ci NOT NULL,
  `city` varchar(24) collate utf8_unicode_ci NOT NULL,
  `state` varchar(5) collate utf8_unicode_ci NOT NULL,
  `zip` decimal(5,0) unsigned zerofill NOT NULL,
  `geolocation` point NOT NULL,
  `county` varchar(64) collate utf8_unicode_ci NOT NULL,
  `bedrooms` decimal(3,2) unsigned NOT NULL,
  `bathrooms` decimal(3,2) unsigned NOT NULL,
  `price` mediumint(8) unsigned NOT NULL,
  `image_url` varchar(255) collate utf8_unicode_ci NOT NULL,
  `description` mediumtext collate utf8_unicode_ci NOT NULL,
  `link` varchar(255) collate utf8_unicode_ci NOT NULL,
  PRIMARY KEY  (`listingId`),
  KEY `geolocation` (`geolocation`(25))
)

geolocation列是与此处目的唯一相关的事物;它由x(lon),y(lat)坐标组成,在将新值导入数据库时​​,我只是从地址中查找。


感谢您的跟进。我确实试图避免添加表,但最终也添加了表,尽管试图使其比特定用例更通用。此外,我不使用POINT数据类型,因为我想坚持使用更广为人知的标准数据类型。MySQL的geo扩展需要大量学习才能适应。就是说,您可以使用所用表的DDL更新您的答案吗?我认为这对以后阅读此书的其他人很有启发。
MikeSchinkel 2011年

0

只需预先计算所有实体之间的距离即可。我会自行将其存储到数据库表中,并具有索引值的功能。


这几乎是无数记录……
MikeSchinkel 2010年

无限 我在这里只看到n ^ 2,那不是无限的。尤其是随着越来越多的条目,应该越来越考虑预计算。
hakre

实际上是无限的。给出纬度/经度的精度为小数点后7位,得出6.41977E + 17记录。是的,我们没有那么多,但比合理的东西还要多。
MikeSchinkel 2010年

无限是一个定义明确的术语,向其添加形容词不会有太大变化。但是我知道您的意思,您认为这太过计算了。如果您没有随着时间流利地添加大量新位置,则可以通过在后台运行与您的应用程序分开的作业来逐步进行此预计算。精度不会更改计算数量。位置数量确实如此。但是也许我误解了您的部分评论。例如,64个位置将得出4 096(对于n *(n-1)则为4 032)计算,并因此进行记录。
hakre 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.