联系官方销售客服

1835022288

028-61286886

求助 版主:官方研发技术组
采集文章,图片下载入库,同样的代码以前可以,现在不行了
类型:迅睿CMS 更新时间:2021-04-28 13:14:42

采集文章,图片下载入库,同样的代码以前可以,现在不行了。
要采集的网址是 www.b.com, 这个b.com 中的新闻内容的中的图片 的网址是  http://6061627.s21i.faiusr.com/4/A.png  这样 格式的。

采集到本地后,内容的图片还是上面的这个地址,  无法图片下载入库本地。谁给看就看啥问题

采集代码中 下载图片如下:



回帖
  • 云水
    #1楼    云水
    2021-04-28 10:42:48
    Chrome 0
    <?php$this->_module_init('news'); // news 是模块目录if ($_GET['action'] == 'category') { // 显示栏目 foreach ($this->module['category'] as $t) { if ($t['child'] == 0 && $t['tid'] == 1) { echo '<h1>'.$t['name'].'<=>'.$t['id'].'</h1>'.PHP_EOL; } }} else { // 入库数据 $data = $_REQUEST; // 发布者id 1 $data['uid'] = 1; // 发布者账号 admin $data['author'] = 'admin'; // 主表字段 $fields[1] = $this->get_cache('table-'.SITE_ID, $this->content_model->dbprefix(SITE_ID.'_'.MOD_DIR)); $cache = $this->get_cache('table-'.SITE_ID, $this->content_model->dbprefix(SITE_ID.'_'.MOD_DIR.'_category_data')); $cache && $fields[1] = array_merge($fields[1], $cache); // 附表字段 $fields[0] = $this->get_cache('table-'.SITE_ID, $this->content_model->dbprefix(SITE_ID.'_'.MOD_DIR.'_data_0')); $cache = $this->get_cache('table-'.SITE_ID, $this->content_model->dbprefix(SITE_ID.'_'.MOD_DIR.'_category_data_0')); $cache && $fields[0] = array_merge($fields[0], $cache); // 去重复 $fields[0] = array_unique($fields[0]); $fields[1] = array_unique($fields[1]); $save = []; // 主表附表归类 foreach ($fields as $ismain => $field) { foreach ($field as $name) { isset($data[$name]) && $save[$ismain][$name] = $data[$name]; } } if (!$data['catid']) { exit('栏目为空'); } $save[1]['uid'] = $save[0]['uid'] = $data['uid']; $save[1]['catid'] = $save[0]['catid'] = $data['catid']; $value = $save[0]['content']; if (preg_match_all("/(src)=([\"|']?)([^ \"'>]+\.(gif|jpg|jpeg|png))\\2/i", $value, $imgs)) { foreach ($imgs[3] as $img) { if (strpos($img, '/api/ueditor/') !== false || strpos($img, '/api/umeditor/') !== false) { continue; } // 下载图片 if (strpos($img, 'http') === 0) { // 正常下载 // 判断域名白名单 $arr = parse_url($img); $domain = $arr['host']; if ($domain) { $sites = WRITEPATH.'config/domain_site.php'; if (isset($sites[$domain])) { // 过滤站点域名 } elseif (strpos(SYS_UPLOAD_URL, $domain) !== false) { // 过滤附件白名单 } else { $zj = 0; $remote = \Phpcmf\Service::C()->get_cache('attachment'); if ($remote) { foreach ($remote as $t) { if (strpos($t['url'], $domain) !== false) { $zj = 1; break; } } } if ($zj == 0) { // 可以下载文件 // 同步模式 // 下载远程文件 $rt = \Phpcmf\Service::L('upload')->down_file([ 'url' => $img, 'attachment' => \Phpcmf\Service::M('Attachment')->get_attach_info(intval($field['content']['setting']['option']['attachment'])), ]); if ($rt['code']) { $att = \Phpcmf\Service::M('Attachment')->save_data($rt['data'], 'ueditor_down_img'); if ($att['code']) { // 归档成功 $value = str_replace($img, $rt['data']['url'], $value); $img = $att['code']; } } } } } } // 缩略图 if ($img && !$save[1]['thumb']) { $save[1]['thumb'] = $img; } } } if ($imgs && !$save[1]['thumb']) { $save[1]['thumb'] = $imgs[3][0]; } $save[0]['content'] = $value; $save[1]['url'] = ''; $save[1]['status'] = 9; //9表示正常发布,1表示审核里面 $save[1]['hits'] = $data['hits']; $save[1]['displayorder'] = 0; $save[1]['link_id'] = 0; $save[1]['inputtime'] = $save[1]['updatetime'] = strtotime($data['inputtime']); // 更新时间 $save[1]['inputip'] = '127.0.0.1'; // 验证标题重复 if ($this->content_model->table(SITE_ID.'_'.MOD_DIR)->where('title', $save[1]['title'])->counts()) { echo '重复';exit; } $rt = $this->content_model->save_content(0, $save); if ($rt['code']) { exit('成功'); } else { exit('失败'); }}exit;
  • 官方技术总监-陈总
    #2楼    官方技术总监-陈总
    2021-04-28 10:43:55
    Chrome 0
    以我的经验,我建议你这样做在采集软件里面把图片直接下载,然后在采集软件里面替换图片路径,火车头最新版就支持这个替换功能,这样效率才最高
    满意答案
  • 云水
    #3楼    云水
    2021-04-28 10:44:35
    Chrome 0
    官方技术总监-陈总
    好的,,马上测试一下,多谢
  • 9龙城
    #4楼    9龙城
    2021-04-28 10:46:27
    Chrome 0
    我觉得陈总的方法可取,在火车头里面采集下载好,毕竟在php里面下载效率并不高的建议找小波工作室,他比较擅长采集入库 😛 😛
  • 云水
    #5楼    云水
    2021-04-28 13:14:42
    Chrome 0
    @官方技术总监-陈总:已经完美的解决了