将本站设为首页
收藏月球官网,记住:www.yueqiumao.net
账号:
密码:

月球小说:看啥都有、更新最快

月球小说:www.yueqiumao.net

如果你觉得好,恳请收藏

您当前的位置:月球小说 -> 我真的有一座法师塔 -> 第314章 Y搜出海(6143)

第314章 Y搜出海(6143)

温馨提示:如果本章属于内容错误等情况,请点击下面的按钮发送报告,我们会在一分钟内纠正,谢谢

较有利。

“Y搜所用的搜索技术和传统搜索技术完全不同,传统的搜索技术是下载链接后对链接赋权索引建立数据库。”

“而Y搜,是通过大模型分析学习目前互联网上十七亿个网页的数据连接,针对于哪些链接的质量可能更高进行概率性的判定,依据这种概率,给出搜索结果。”

“因此,Y搜并不需要特别多的服务器来存储这些网页具体数据,只是这些链接的索引都被大模型‘学习’了而已。我们只需要储存链接就可以了。”(注1)

“当用户进行搜索的时候,大模型会自动依据用户的意图或自己的判断,给出其认为符合用户需求的链接。”

“至于说爬取频率的问题,其实这并没有这么难,根据internetlivestats实时数据,互联网目前有13亿网页,其中百分之五十都是空链接或失效链接。”

“去掉这些,只有六亿多,六亿的链接中,又有接近四个亿网页是‘非活跃网站’。”

“橘子的算法是依据‘数据标记’进行判断,已经爬取的‘数据标记’并未改变的情况下并不会重复爬取,在‘数据标记’被改变后,橘子大模型才会主动爬取更新的网页,确保自身的数据处于最新,同时再新建一个‘数据标记’。”

“这种技术的好处在于,我们不需要像千寻和古狗一样,建立那么多那么大的数据中心。”

“一个占地两万平米的单层数据中心,应该就足够满足全大周用户的搜索需求,投入可能只相当于古狗的百分之一不到,目前Y搜使用的是阿狸云。”

“当然,如果还要开发其他业务的话,比如目前的千寻和古狗的网盘、百科、文库、地图、邮件等功能,还是需要很大的数据中心来做支撑。”

“另外这个技术还有一个好处就是非常便于审核和过滤,在审核过滤规则确定的情况下,Y搜可以更为精准的过滤需要审核的信息,避免误伤。”

“AI时代,未被污染的数据太重要了,但现在大周互联网上的周文数据污染情况过于严重,训练大模型的效果很差。”

“这其中相当一部分是由于审核误伤所导致的,造成周文数据可训练度差,因此在Y搜的算法之下,可以精准识别需要过滤的搜索结果,降低97.98%的数据误伤。”

“这一条虽然短时间内看不出来什么,但时间长了,对整个大周的互联网数据资源都有相当大的好处。”

“带宽和千寻目前的带宽需求


  本章未完,请点击下一页继续阅读!

看了《我真的有一座法师塔》的书友还喜欢看

一剑斩破九重天
作者:流浪的蛤蟆
简介: 鲸饮未吞海,剑气已横秋。英雄老犹壮,月下小剑仙。这是一本

...
更新时间:2025-02-05 15:37:21
最新章节:新书《剑啸灵霄》已发布
这个诡异三国游戏太凶残了
作者:月下藏锋
简介: 杭羽降临到一个天穹崩裂、外神窥伺、邪诡暗黑风格的三国世界。这里到处都是扭曲疯狂的恐怖...
更新时间:2025-02-05 14:49:00
最新章节:第六百四十四章 晋升至高支柱!开放无限位面!(大结局)
胎穿后她让战神化作绕指柔
作者:妘婳蹁跹
简介: 叶霜是文武兼修的非常保镖,意外胎穿古代闺名为叶霜柔。前世顺风顺水、幸福知足,今世却聚...
更新时间:2025-02-05 13:59:10
最新章节:第一卷 第399章 跪求师尊帮忙
末日求生:我有万界直播打赏系统
作者:李心语
简介: 绿星资源逐渐枯竭,在人类即将毁灭之即,末日生存游戏降临。游戏降临半个月,林语在游戏里...
更新时间:2025-01-03 00:38:00
最新章节:第119章挑选副本2(大结局)
神算小村医
作者:活在路上
简介: 【神算定乾坤,医术震天下】\n神医会算卦,就问你怕不怕?实习医生林飞惨遭恶人陷害家破...
更新时间:2025-02-05 15:09:59
最新章节:第3420章 需要先压制住血脉之力
转生神树,我打造阴兵家族
作者:木风峰
简介: 【群像+系统+家族文+无女主+主角不是人!】\n族长,不好了,族人受伤了!
...
更新时间:2025-02-05 15:09:54
最新章节:第839章 一元重水